Image Captioning
kohya-ss 産 corkborg 産 どちらかというと スクリプトの違いよりモデルの違い の方が影響が強いと思いますが、両方使えたので残しておきましょう! モデルの切り替え方もメモっとこう
zako-lab929.hatenablog.com kohya-ss 産 WD14Tagger を使用してみましたが、 先日の調査によると、他にもコマンドラインから使用できるようにしてくれている方がいました。 先日の調査 zako-lab929.hatenablog.com 本日は corkborg/wd14-tagger-standalone …
上記の記事では、昨日、一昨日と WD14Tagger を試しています。 本日は、以前試した DeepDanbooru と比較してみます。 また、DeepDanbooru の出力は以下の記事で試しています。 昨日の段階では全然気づきませんでしたが、横に並べてみると WD14Tagger の情報…
zako-lab929.hatenablog.com 昨日の記事にて kohya-ss 産の WD14Tagger を Google Colab で使用しました。 本日はいつものように画像と出力タグを一覧化します。 今までにない特徴としては出力結果に「zundamon」が含まれていることですかね
zako-lab929.hatenablog.com こちらの記事で調べてた内容です。 結局 kohya-ss/sd-scripts 産の WD14Tagger を使うことができました
kohya-ss/sd-scripts の 自動キャプショニング の項目を調べていて、 DeepDanbooru のほかに WD14Tagger というものがあることがわかっています。しかも WD14Tagger のほうが精度が良いかもしれない という記載もあります。 この記事では WD14Tagger を使う…
DeepDanbooru によるタグ付け結果 とは以下で出力した結果のことです。 zako-lab929.hatenablog.com 学習用データセット内のキャプション とは、以下の 東北ずん子・ずんだもんプロジェクト 公式のデータセットです。 zunko.jp いざ!比較!
zako-lab929.hatenablog.com 昨日、上記の記事にて DeepDanbooru を使ってみました。 作業時間が取れず、実行したところで終わっていますが、 本日は、出力結果を確認していきます
DeepDanbooru はタグ付けを行ってくれるツールのようです。 DeepDanbooru is anime-style girl image tag estimation system. DeepDanbooru はアニメ風の女の子画像画像タグ推定システム とのことです。
Image Captioning に使ったモデルとその出力結果を一覧化してみました
さてさて、 BLIP , UniDiffuser で 自動キャプショニング(Image captioning, Image-toText) を実施しましたが、ここ数日は BLIP-2 を調べていました。 本日は BLIP-2 での ずんだもん のキャプションを出力してみます。
zako-lab929.hatenablog.com 前回、 BLIP-2 で Image Captioning (自動キャプショニング) を試してみました。 本日は、 Visual Question Answering (VQA) を試してみようと思います。
自作 LoRA を調べていて kohya-ss/sd-scripts の README から知った 自動キャプショニング の BLIP 。 そして、 BLIP を調べていたら BLIP-2 もあることを知りました。 今回は BLIP-2 を Google Colab で試してみます! BLIP-2 がどういったものかは説明を読…
zako-lab929.hatenablog.com 昨日 BLIP というもので 自動キャプショニング を試してみました。 これは Image から Text 出力する Image-to-Text の類だと思いますので、かなり前にやった UniDiffser の Image-to-Text でやったらどうなるのか?というのが気…
kohya-ss/sd-scripts 内に BLIP とやらで 自動でキャプションを生成 できるスクリプトがあるようなので試してみます。 どうやら元を辿ると salesforce/BLIP に辿り着くようです。