ZIKUUのLLMへの取り組み

モノづくり塾『ZIKUU』ではAI活用に必要な知識や技術を身につけるために小規模ではあるもののAI学習用のPCを用意します。限られた計算資源ですが時間や費用を気にせずに好きなだけ勉強できます。

すぐに思い付くものでLLMを有効利用するための技術には次のものがあります。

1. プロンプトエンジニアリング
2. ファインチューニング
3. RAG (Retrieval Augmented Generation)
4. スクラッチからの学習および開発

これらとは別に使いやすいUIの開発などが必要になりますが、ここではそのテーマには触れません。

モノづくり塾はオープンソースを積極的に利用する方針ですので、使用するLLMはオープンソースのものを前提とします。

1. プロンプトエンジニアリング

LLMトレーニングに必要な技術力が最も少なく、LLMモデルを使用したアプリの稼働までのリスクを軽減しながら、性能の高いLLMを活用できます。

2. ファインチューニング

独自に用意したデータを使用して追加学習を行い、LLMに対し特定のタスクに対する細かなカスタマイズを行います。学習済みのLLMを活用できるため、ゼロからLLMを構築する場合もよりもデータセット、学習時間、学習環境などのコストを大幅に削減できますが、LLMに関する専門的な知識が必要となり、追加学習したモデルの稼働や最新データをモデルへ適用するまでの時間もかかります。

3. RAG (Retrieval Augmented Generation)

LLMと外部文書の組み合わせでモデルを特定の分野に特化させます。組織や業種に固有の情報をLLMへの問い合わせコンテキストとして付与することでより高度なプロンプトエンジニリングを行います。回答作成までの計算時間は通常のプロンプトエンジニアリングのみの場合と比較すると増加しますが、ハルシネーション(錯覚)を削減し、元のLLMに変更を加えることなく短期間でLLMが最新の組織固有データを活用した回答を生成できるようになります。

4. スクラッチからの学習および開発

モデルの基礎となるデータセットとコードなどを独自で選定し、モデルを開発することで、既存モデルのバイアス、ハルシネーションなどのモデルの品質を完全にコントロールすることが可能です。しかしながら、このアプローチはゼロからモデルを開発するため、非常に高コストで、RAGやファインチューニングで開発する場合よりも、LLMに関する専門的な知識とより大きな投資が必要となります。またモデルが汎化性能を獲得するまでには大量の高品質データが必要となります。

そもそもモノづくり塾でAIを学習する意義は、今後AIを活用する場面で活躍できる基礎体力をつけられるようにすることですので、システムを作る側の視点で学習をすることになり、プログラミングを伴います。

企業や自治体などでAIを有効に使うには、組織固有の情報を知識として提供できるシステムが必要です。そのようなシステムを少ない予算で実現できればAI人材の活躍する場面を増やすことができます。さらに特定の企業の経営戦略に巻き込まれない、特定の技術に拘束されないためには大手AI企業のシステムではなくオープンソースのものを使います。またセキュリティの観点からも、ローカルで運用したくなります。

「作る」ということに力点を置けば、4の独自LLMの開発が最も適しています。その代わり学ばなければならないことも多いですし、計算機への投資も大きくなります。

次に適しているのは3のRAGです。
組織内の文章(過去のQA集、ノウハウ文章、記録文書など)やWeb上の文書をデータベース化(ベクトルデータベース化)し、その情報を利用してLLMで文書生成する方法は、プログラミング要素がそこそこあって作り甲斐があります。

費用や時間を考慮するとモノづくり塾のような小規模な組織でやれることを考え、次のような方針でやりたいと思います。

1. RAGとオープンソースLLMの組み合わせで、組織内の静的文書またはWeb上の文書をデータベース化しそれを利用して文書生成を行うシステムを作って塾内で稼働させる。

2. ファインチューニングにより文章表現の味付けを調整する。

3. 適用分野を限定した小さな言語モデルをスクラッチから独自開発して動かしてみる。



1と2を実践しておけば、将来、企業や自治体のAIシステム構築を行う際の戦力になれます。

3を経験しておけば、将来より高度なAI技術者としての道が射程に入ります。

どのアプローチを取るにせよ、弱小組織ができるのは汎化ではなく特化でしょう。柔軟に速く安く特化AIを構築できる技能と知識を持てるようになるのが我々の狙うところです。

コメントする