最近、仕事の関係もあってゼロショットで画像分類を行うことが出来るモデルを使ってみることにハマっています。
真面目に精度を見ると終わりのない検証となってしまいますが、何かしらの結果を出力するツールとして活用するだけであれば公開されているモデルがたくさんあるので色々試してみようと思っています。
今回は「coca_ViT-B-32」というモデルの出力を使ってみることにしました。自分でモデルを作ってみることも試してみたい気持ちもあるんですが、マシンスペックとデータの準備が大変そうなので時間がある時に考えようと思います。