GPT-OSSでテキストをJSONファイルに変換する様子

数日前の「GPT5とgpt-ossで同じ処理をしてみる」という投稿で、このブログの投稿から本文のテキストを抜き出し、後々、加工がしやすいようにJSON形式に変換する処理をしたことを書きました。

LM Studioでgpt-ossを使ってデータを変換している様子を動画にしました。アップロードしたファイルはプレーンなテキストファイルです。

ChatGPT 5とgpt-oss 20bでほぼ同程度のデータ生成が行えています。どちらも???という文書を生成することがありますが、手直しが必要になるのは少しだけです。

こういう変換処理を人手でやるのって大変ですよね。

以下がプロンプト設定です。

gpt-ossでのプロンプト設定

システムプロンプを次のように設定し、テクストファイルをアップロードするだけの簡単な操作で変換が行われます。

添付ファイルのテキストからRAG用データをJSON形式で作ってください。その際にtextが300文字を超える場合や元の文章に複数のテーマが存在する場合は、テーマごとに分割してください。オリジナル文章の口調は維持してください。チャット履歴は無視してください。
JSONの形式は、 {
"id": "",
"source": "",
"title": "",
"section": "",
"lang": "",
"keywords": [],
"possible_questions": [ ],
"text": "
}
です。
possible_questionsには想定されるユーザープロンプトをいくつか設定してください。sectionには文章のカテゴリーを設定してください。カテゴリーは日本語です。

本文が長い場合や複数のテーマがある場合は本文を分割する、本文テキストを期待する想定されるプロンプト、キーワード抽出、タイトル作成などをLLMが行います。

ChatGPT 5でのプロンプト設定

同じ処理を行うために、ChatGPTでは、システムプロンプトを次のようにした上で・・・

このプロジェクトでは、RAGで使うデータやLLMのトレーニングに使うデータセットを作っていきます。RAG用データまたはトレーニング用データセットの作成を希望した場合は、求められたデータのみを生成してください。与えられたテキストが長い場合は、テーマごとに分割してデータを生成してください。

ユーザープロンプトを次のようにしました。

RAG用データを作ってください。複数のテーマが存在する場合は分割してください。アップロードしたファイルのデータ以外の情報は不要です。オリジナル文章の口調は維持してください。

「GPT-OSSでテキストをJSONファイルに変換する様子」への1件のフィードバック

コメントする