PEP 最新情報 | PEP

『紙の文書』を生成 AI でチェックする

作成者: 馬田 隆明|2025/7/1 (火)

日本では生成 AI が『翻訳』用途によく使われているように、生成 AI は文章関係の作業を比較的得意としています。翻訳以外でも、文書の編集や誤字脱字チェックなどで生成 AI を使っている人も多いのではないでしょうか。デジタル文書と生成 AI の相性は比較的良いと言えます。

一方、政策の現場では、まだ紙が使われることも少なくありません

紙だけで配布される文章がありますし、自分たちが作った文章でも、重要なものは一度印刷して、一語一句「読み合わせ」をしながら進めるときもあります。そうして紙に一度落としてしまうと、あとは紙ベースでのアップデートが繰り返されることになります。

デジタル文書であれば、Word などのエディタを使って文書間の差分の比較をすることもできますが、紙での文書ではなかなかそうしたことはできず、結局は人が目を使って確認したり、手作業で修正していくことになります。

しかしそんなときにも、生成 AI のマルチモーダルな特長を活かすことができます。

例)紙同士の比較を行う

紙の文書をスキャン(スマートフォンのカメラやメモアプリ等での『書類撮影』でも構いません)してデジタルデータ化することで、生成 AI を利用することができるようになります。

たとえば、以下の 2 つのドキュメントには内容に細かな差異があったり、書き込みがあったりあります。

この2つのドキュメント(PDF)をスキャンしてチャットに添付したうえで、以下のようなプロンプトで生成 AI に比較をお願いしてみます。

# プロンプト改善版

## あなたの役割
あなたは**文書比較の専門家**です。印刷された2つのドキュメントを詳細に分析し、違いを体系的に特定・整理する専門的なスキルを持っています。

## タスクの概要
あなたの主要タスクは、提供された2つの印刷ドキュメントを徹底的に比較分析し、発見した違いを構造化された形式で報告することです。

## 実行計画(チェックリスト)
以下の手順に従って作業を進めてください:

- [ ] **事前準備**: 2つのドキュメントの基本情報を確認する
- [ ] **構造的比較**: 文書の全体構造・レイアウトの違いを特定する
- [ ] **内容比較**: テキスト内容の詳細な差異を分析する
- [ ] **視覚的要素比較**: 図表、画像、フォーマットの違いを確認する
- [ ] **分類・整理**: 発見した違いを重要度と種類別に分類する
- [ ] **結果報告**: 構造化された形式で違いをまとめる
- [ ] **改善提案**: さらに詳細な比較が必要な箇所があれば提案する

## 分析手法と出力形式

### 1. 基本情報の確認
まず以下の情報を整理してください:
```
- ドキュメントA: [タイトル/識別情報]
- ドキュメントB: [タイトル/識別情報] 
- ページ数: [それぞれのページ数]
- 比較日時: [分析実施日時]
```

### 2. 違いの分類体系
発見した違いを以下のカテゴリーに分類してください:

#### **構造的違い**
- レイアウト・書式の変更
- セクション構成の違い
- ページ構成の変更

#### **内容的違い**
- **追加された内容**: 新たに加わった文章・情報
- **削除された内容**: 除去された文章・情報  
- **修正された内容**: 変更・編集された部分
- **移動された内容**: 位置が変わった部分

#### **視覚的違い**
- フォント・文字サイズの変更
- 図表・画像の追加・削除・修正
- 色彩・強調表示の違い

### 3. 重要度評価
各違いに以下の重要度を割り当ててください:
- 🔴 **重要**: 内容の意味に大きく影響する変更
- 🟡 **中程度**: 理解に影響する可能性がある変更
- 🟢 **軽微**: 体裁や表現の微調整

## 出力例(参考)

### 比較結果サマリー
```
総変更箇所数: 15箇所
- 重要な変更: 3箇所
- 中程度の変更: 7箇所  
- 軽微な変更: 5箇所
```

### 詳細比較結果
```
## 1. 構造的違い
### ページ2 - セクション構成
🔴 **重要**: 「第3章 実装方法」が新たに追加

## 2. 内容的違い  
### ページ1 - タイトル部分
🟡 **中程度**: 「システム概要」→「システム概要と設計思想」に変更

### ページ5 - 図表
🟢 **軽微**: 図1のキャプションで誤字修正「システ」→「システム」
```

## デバッグ情報出力
各判断について、以下の思考プロセスを明記してください:
```
【判断根拠】
- なぜこの違いを重要/中程度/軽微と判断したか
- 比較において注目した具体的なポイント
- 見落としの可能性がある箇所
```

## エスケープハッチ
- ドキュメントが不鮮明で判読できない場合:「該当箇所が不鮮明のため判断できません。より鮮明な画像が必要です」
- 専門的な内容で判断が困難な場合:「専門知識が必要な内容のため、該当分野の専門家による確認を推奨します」
- 情報が不十分な場合:「比較に必要な情報が不足しています。[具体的に必要な情報]を提供してください」

---

**出力言語**: 日本語
**最終確認**: 分析完了後、重要な違いを見落としていないか再度チェックを実施してください。

紙同士の比較の出力結果

すると、以下のような指摘が返ってきます。

1. 構造的違い
視覚的マーキング
🟡 中程度: ドキュメントBには赤い手書き風の丸印やマーキングが複数箇所に追加されている

日付部分(2025/5/27(火))に赤丸
「pep for genai」ロゴ部分に赤丸
画像下部に「スペースメモ」という手書き風文字

2. 内容的違い
タイトル部分
🔴 重要:
ドキュメントA: 「PEP for GenAI をはじめます」
ドキュメントB: 「PEP for gen AI をはじめます」
「GenAI」→「gen AI」への変更(大文字から小文字への変更)

著者名
🔴 重要:
ドキュメントA: 馬田隆明
ドキュメントB: 馬場隆明
「馬田」→「馬場」への変更(姓の漢字が異なる)

本文内容
🟡 中程度:
ドキュメントA: 「2025年現在、生成AIに対して大きな注目が集まっています。」
ドキュメントB: 「2023年現在、生成AIに対して大きな注目が集まっています。」
年号が「2025年」→「2023年」に変更

このように、生成 AI は紙の画像データ等も読み込むことができます。

そうして生成 AI に下読みをしてもらうことで、人間が細かくチェックする前に多くのミスに気づくことができるでしょう(ただし機密情報の扱いには注意してください)。

なお、同じプロンプトを使って複数の生成 AI を使ったほうがミスは減らせます。なるべく複数の生成 AI のモデルを使って、ダブルチェックを行うことをお勧めします。たとえば、上記チェックは Claude Sonnet 4 で行いましたが、「エンワー」という誤字については指摘がありませんでした。一方、Gemini Pro 2.5 で同様の指示をした際には、その誤字に対する指摘がありました。

例)紙での赤入れが修正されているかの確認をする

同様に、赤入れをしたところが修正されているかどうかを確認することも可能です。

たとえば以下のような赤入れをしたドキュメントと修正後のドキュメントをそれぞれ別ファイルとしてスキャンします。

プロンプトを入力したうえで、ファイルを2個添付してチェックを走らせてみてください。そうすると、未修正の点を整理して挙げてくれます。

あなたは**プロフェッショナルな文書校正・比較分析専門家**です。2つの文書を詳細に比較し、修正指摘事項の対応状況を正確に分析することが専門分野です。

## あなたのタスク概要
あなたの主要タスクは、提供された2つのファイル(画像またはPDF)を詳細に比較分析し、一方のファイルで赤入れ(校正マーク)により指摘されている修正点が、もう一方のファイルで適切に修正されているかどうかを徹底的に検証することです。

## 実行計画
以下のステップに従って作業を進めてください:

- [ ] **ファイル識別・読み込み**: 提供された2つのファイルを確認し、どちらが「修正指摘版」でどちらが「修正版候補」かを判定する
- [ ] **赤入れ箇所の特定**: 修正指摘版において、赤色やマーカーで示されているすべての修正指摘箇所を漏れなく特定・リスト化する
- [ ] **修正内容の分類**: 各指摘事項を以下に分類する
  - 誤字・脱字の修正
  - 表現・文体の修正
  - 内容・事実の修正
  - レイアウト・書式の修正
  - その他の修正
- [ ] **修正対応状況の検証**: 各指摘事項について、もう一方のファイルで適切に修正されているかを詳細に確認
- [ ] **結果の整理・報告**: 修正済み項目と未修正項目を明確に分けて報告
- [ ] **改善提案の作成**: 分析結果を踏まえ、さらなる改善点があれば提案

## 出力形式

```markdown
# 文書比較分析結果報告書

## ファイル概要
- **修正指摘版**: [ファイル名・概要]
- **修正版候補**: [ファイル名・概要]

## 分析結果サマリー
- **総指摘事項数**: XX件
- **修正済み事項数**: XX件
- **未修正事項数**: XX件
- **修正率**: XX%

## 修正済み事項一覧
### [分類別]
1. **指摘箇所**: [具体的な場所・内容]
   - **修正前**: [指摘された内容]
   - **修正後**: [修正された内容]
   - **評価**: ✅ 適切に修正済み

## 未修正事項一覧
### [分類別]
1. **指摘箇所**: [具体的な場所・内容]
   - **指摘内容**: [修正すべき内容]
   - **現状**: [現在の状態]
   - **評価**: ❌ 未修正

## デバッグ情報・分析思考プロセス
[各判断の根拠と分析過程を詳細に記載]

## 追加改善提案
[分析を通じて発見した追加の改善点があれば記載]
```

## 重要な制約事項
- 判断に迷う場合や情報が不十分な場合は、**「判断材料が不足しています」**と明記し、具体的に何の情報が必要かを説明してください
- 推測や憶測は避け、視覚的に確認できる事実のみに基づいて分析してください
- 微細な差異も見逃さず、丁寧に比較検証してください
- すべての分析結果は**日本語**で出力してください

## エスケープハッチ
- ファイルが不鮮明で判読困難な場合は、その旨を明記し、より鮮明な画像の提供を依頼してください
- 赤入れが識別困難な場合は、修正指摘箇所の特定が困難である旨を報告してください


なお、プロンプトが雑だとあまりうまくいかない傾向にあるのと、生成 AI のモデルによって精度が異なるので、複数のモデルでチェックした方が安心です。

まとめ

今回はあまり重要ではないブログ記事を用いましたが、政策起業家はご自分の重要な文章でも実施できるように思います。また、行政の現場では条文の変更などの重要な文章に対して、事前チェックなどにも使える可能性があるように思います。

紙を使っているとしても、生成 AI を使うことで業務の効率化が可能です。ぜひ色々と試してみてください。

 

また、皆様からの生成AIの活用事例についてもぜひお聞かせください。以下のフォームからご投稿をお待ちしております。