Whisper Playgroundを作る

Whisperという文字起こしAIを使って、YouTube動画の音声を文字起こしするオモチャを作りました。

18分（1,080秒）の日本語で喋りっぱなしの動画から文字起こしする時間は、CPUのみ（Core i5 13500）で265秒、GPU（RTX A4000）で47秒でした。それぞれ元動画の尺の4分の1、23分の1の時間で文字起こしができたことになります。

今回は小さいWhisperモデルを使いましたが、精度はまあまあ。今度大きなモデルでも試してみます。

ZIKUUではAI塾長を開発します。
そこには、

が学習データあるいは参照データとして入ります。

このYouTube書き起こしデータは、3の外側の知識や世相など（4の雰囲気）として、AI塾長に反映されることになります。

つまり、塾（共同体）の内と外をつなぐチャンネルができて、両方を統合して塾（共同体）の知識体系に組み込まれるという形になっていきます。

面白いでしょ？

「Whisper Playgroundを作る」への1件のフィードバック