Whisperという文字起こしAIを使って、YouTube動画の音声を文字起こしするオモチャを作りました。
18分(1,080秒)の日本語で喋りっぱなしの動画から文字起こしする時間は、CPUのみ(Core i5 13500)で265秒、GPU(RTX A4000)で47秒でした。それぞれ元動画の尺の4分の1、23分の1の時間で文字起こしができたことになります。

今回は小さいWhisperモデルを使いましたが、精度はまあまあ。今度大きなモデルでも試してみます。
なんでこういうことをやっているのか?
ZIKUUではAI塾長を開発します。
そこには、
- 内側からの視点:ブログ、エッセイ
- 内側の知識:作り方、設備の扱い方、道具の扱い方
- 外側の知識:論文、書籍
- 雰囲気・環境:Vibeモデルデータ
- 癖:塾長の考え方の癖、口調
が学習データあるいは参照データとして入ります。
このYouTube書き起こしデータは、3の外側の知識や世相など(4の雰囲気)として、AI塾長に反映されることになります。
つまり、塾(共同体)の内と外をつなぐチャンネルができて、両方を統合して塾(共同体)の知識体系に組み込まれるという形になっていきます。
面白いでしょ?
「Whisper Playgroundを作る」への1件のフィードバック