Vision Playgroundの開発を始める

日常の何気ない光景を活動記録として残すために、Discordの「今日の一枚」みたいなチャネルを作って、作業中の風景や、作成中のモノの写真をアップロードしたら、それが記録として残り、AI塾長が参照するベクターデータになる。そういう入口を作ろうと思っています。

これがその実験用アプリのVision Playground。

Visionモデルを使って、画像を説明させるだけの簡単なものです。

フロントエンドのWeb UIとバックエンドのVisionサーバーの組み合わせで、バックエンドには、Discordから呼び出せるAPIがあります。簡単なDiscordボットを作れば、Discordに写真を投稿 → Visionモデルで説明文作成 → Nerve → AI塾長RAGという流れがすぐに作れます。

今回はQwen3のVisionモデルの小さめ(4B)を使いましたが、まあまあの結果が得られました。

「Vision Playgroundの開発を始める」への1件のフィードバック

コメントする