画像内テキストの抽出&整理を効率化するプロンプト設計
「画像内のテキスト抽出(OCR)」をChatGPTに依頼する際、より良い回答を引き出すためのチェーンプロンプト(段階的なプロンプト設計)を考えてみましょう。
チェーンプロンプト(ステップで生成AIに依頼)
1. 目的の明確化(第一段階)
まず、ChatGPTにOCR処理を依頼する目的を明確に伝えることで、適切なフォーマットや処理方法を選択しやすくなります。
💬 プロンプト例
画像内のテキストを抽出してデジタル化したいです。
抽出したテキストをどのような形で出力できますか?
👉 期待される回答
- テキストのみの抽出
- フォーマットを整えた出力
- 翻訳や要約付きの出力
- リスト・表形式での出力 など
2. 画像のアップロードと処理方法の選択(第二段階)
OCRを適切に行うために、画像の種類や内容を明示し、処理方法を指定します。
💬 プロンプト例
この画像に含まれるテキストを抽出してください。(画像をアップロード)
また、以下の条件で処理をしてください。
- 言語:日本語 / 英語(言語を指定)
- 句読点を維持してほしい / 不要
- 改行を保持する / すべてのテキストを一続きにする
- フォーマット例:「原文のみ」「原文+翻訳」「原文+フォーマット整形」
👉 期待される回答
- 画像内のテキストがそのまま抽出される
- 指定したフォーマットに整形される
- 指定があれば翻訳・要約が付与される
3. 追加処理(第三段階)
OCR結果をさらに加工したい場合、ChatGPTに追加処理を指示します。
💬 プロンプト例
抽出したテキストを、以下のように加工してください:
1. 誤認識の可能性がある単語をリストアップ
2. 翻訳(和訳 / 英訳)
3. Markdown形式で整形
4. リストや表として整理
👉 期待される回答
- 誤認識のある単語を特定し、修正候補を提案
- 翻訳結果を追加
- Markdown形式やリスト、表として整形された出力
まとめ
最適なチェーンプロンプト設計の流れ
1️⃣ 目的を伝える → 「OCRをしたい」「どんな形で出力できる?」
2️⃣ 画像をアップロードし、処理方法を指定する → 言語・フォーマット・改行ルールなど
3️⃣ 追加の加工を依頼する → 翻訳・整形・フォーマット変更
活用シナリオ
✅ 名刺のデジタル化 → 画像をアップロードし、表形式に整形
✅ ホワイトボードのメモをテキスト化 → 改行を保持、Markdown形式に整形
✅ 外国語のメニューをOCR+翻訳 → 言語指定&翻訳付きで出力
このような流れでプロンプトを設計すると、最適なOCR結果を得ることができます! 💡