すでにサーバーで本番運用しているRadio Mindですが、今は毎朝文化放送を30分録音して自動文字起こしを実行しています。
いずれ、この文字起こしデータを知識化するパイプラインを組み込む予定ですが、知識化方法の検討を先にやっておきます。
これはローカルLLMを使って、30分間の放送を文字起こししたデータをまるごと食わせて、トピックを抽出したものです。
- topic: 関東地方の天気予報
time: "現在"
place: "関東地方(東京・周辺)"
actor: "気象庁・各気象情報サービス"
event: "低温・北風・天候予報"
summary: "太陽は出ているものの気温は2.8℃と低め、北寄りの風が2〜3 m/sで吹く。北部は晴れ、南部は晴れが増えるものの、夕方以降は箱根・頭土壺方面で雨や雪が予想される。"
- topic: WBC 日本代表のチェコ戦での勝利
time: "2023年12月?(記事の文脈では2023年の前回大会)"
place: "東京ドーム"
actor: "日本代表野球チーム"
event: "チェコ戦で9-0勝利"
summary: "日本代表はチェコ戦で9-0の大勝を収め、今月末にアメリカ戦へ進む見込みである。"
- topic: WBC 観戦中継のスケジュール
time: "3月15日日曜日朝10時から"
place: "日本全国(テレビ・インターネット)"
actor: "放送局(テレビ・動画配信)"
event: "WBC の試合を中継"
summary: "WBCの試合が3月15日日曜10時からテレビと動画配信で中継される。放送局はテレビ放送が無い場合はアプリで視聴できる。"
- topic: 東日本大震災15周年の追悼式
time: "現在(2026年)"
place: "福島県(福島市など)"
actor: "日本政府・首相・福島県議会"
event: "追悼式の実施"
summary: "2011年の東日本大震災15周年を記念し、福島県で追悼式が行われ、政府は新たな災害対策や防災技術の発表を行った。"
- topic: LNG価格上昇と電力・ガス価格への影響
time: "現在"
place: "日本(全域)"
actor: "政府・LNG供給国(カタールなど)・経済アナリスト"
event: "LNG供給の減少と価格上昇"
summary: "イラン攻撃による天然ガス供給の減少やカタールの生産停止によりLNG価格が上昇し、電気料金やガソリン価格への影響が懸念されている。"
- topic: 立憲民主党・公明党の地方選挙合流不採択
time: "現在"
place: "日本(地方選挙)"
actor: "立憲民主党・公明党"
event: "合流を見合わせる決定"
summary: "立憲民主党と公明党は、来年春の統一地方選挙に向けて合流せず、それぞれ独自候補を立てる方針を決定。"
- topic: ミスDJサウンドガーデン音楽イベント
time: "日曜日朝8時半"
place: "東京(場所は不明)"
actor: "DJ・音楽ファン"
event: "イベント開催"
summary: "日曜日朝8時半からミスDJサウンドガーデンの音楽イベントが開催され、DJがパフォーマンスを行う。"
- topic: 文化放送の交通情報速報
time: "7時12分・7時15分・7時16分"
place: "東京・首都圏高速道路"
actor: "文化放送・警視庁"
event: "交通状況の告知"
summary: "文化放送が東京・首都圏の高速道路の渋滞や事故情報を各時間帯に報告。"
- topic: 子ども兄さん制度の年齢制限撤廃計画
time: "2027年1月"
place: "日本(全国)"
actor: "自民党・財務省・国会"
event: "制度改正の推進"
summary: "子ども兄さん制度の年齢制限が0歳から17歳までに変更され、年間60万円の給付上限が設定される計画が進められている。"
timeについては、元データに明確な日付や時間の記述がないので曖昧。
place、actor、eventについては、発散気味。
この辺りを上手く正規化できれば、分析可能な意味のあるデータになりそう。
time、place、actor、eventはPivotの軸になるので、ある程度収斂されたラベル付けが必要です。
AI塾長は、日々蓄積されるFactをPivotを操作しながら探索するAIになります。
これは、一般的なRAGのような、類似文章を検索して、文章を推論するのとは違い、多次元意味空間を探索してから文章を読んで応答するという、より高度な動作をすることを意味します。
AI塾長は、ユーザーの問いに対して、「組み合わせAの軸で見ると、こういう意味」「組み合わせBの軸で見ると、こういう意味」という形で、複数の見方をした上で、ユーザーに判断材料を提供する、探索型AIになります。
これが良いのは、
- 人間もAI塾長と同じPivotを見られること
- AI塾長が不調でも、人間は判断の材料を得られること
- LLMが、大きなコンテクストを必要とせずに、知識を探索できること
などが挙げられます。