Whisper Playgroundを作る

Whisperという文字起こしAIを使って、YouTube動画の音声を文字起こしするオモチャを作りました。

18分(1,080秒)の日本語で喋りっぱなしの動画から文字起こしする時間は、CPUのみ(Core i5 13500)で265秒、GPU(RTX A4000)で47秒でした。それぞれ元動画の尺の4分の1、23分の1の時間で文字起こしができたことになります。

今回は小さいWhisperモデルを使いましたが、精度はまあまあ。今度大きなモデルでも試してみます。

なんでこういうことをやっているのか

ZIKUUではAI塾長を開発します。
そこには、

  1. 内側からの視点:ブログ、エッセイ
  2. 内側の知識:作り方、設備の扱い方、道具の扱い方
  3. 外側の知識:論文、書籍
  4. 雰囲気・環境:Vibeモデルデータ
  5. 癖:塾長の考え方の癖、口調

が学習データあるいは参照データとして入ります。

このYouTube書き起こしデータは、3の外側の知識や世相など(4の雰囲気)として、AI塾長に反映されることになります。

つまり、塾(共同体)の内と外をつなぐチャンネルができて、両方を統合して塾(共同体)の知識体系に組み込まれるという形になっていきます。

面白いでしょ?

「Whisper Playgroundを作る」への1件のフィードバック

コメントする