2026.03.14実践ガイド26 min read

審査担当者のためのプロンプト作成ガイド ― 非エンジニアでもできるAI活用

プログラミングは不要です。審査担当者が自分の業務知識をプロンプトに変換し、AIを使いこなすための5ステップ実践ガイド。テンプレート付きで、今日から使えるプロンプト設計法を解説します。

「AIを使いたいけど、プロンプトの書き方がわからない」

審査チームでAI導入が決まったとき、現場から最も多く聞こえる声です。エンジニアがプロンプトを書いて渡すケースもありますが、それには大きな問題があります。審査の「勘所」を一番よく知っているのは、審査担当者自身だからです。

エンジニアは技術には詳しくても、「この表現は業界的にグレーゾーン」「この文脈なら問題ない」といった現場の判断ロジックを完全には理解していません。結果として、的外れなプロンプトができあがり、現場が使わなくなる ― これがAI導入失敗の典型パターンです。

この記事では、プログラミング不要で、審査担当者が自分の業務知識をプロンプトに変換する方法を5ステップで解説します。

なぜ審査担当者自身がプロンプトを書くべきなのか

プロンプトとは、AIへの「業務指示書」です。新人に仕事を教えるとき、あなたはどう説明しますか？判断基準、注意すべきポイント、よくある間違い ― これらをAIに伝えるのがプロンプトの役割です。

エンジニア任せの3つの問題

1. 暗黙知が伝わらない: 審査担当者が無意識に行っている判断（「この言い回しは業界的にアウト」など）は、エンジニアへのヒアリングだけでは拾いきれません。

2. 改善サイクルが遅い: 誤判定が出るたびにエンジニアに修正を依頼する往復は、1回あたり数日かかることもあります。審査担当者が自分で修正できれば、その場で改善できます。

3. 現場の納得感がない: 「よくわからないプロンプト」で出た結果は信用されません。自分で書いたプロンプトなら、AIの判定理由も理解でき、適切に活用できます。

Claude 4.6 SonnetやGPT-5.4のような2026年の最新LLMは、200Kトークンのコンテキストウィンドウを持ち、長い業務マニュアルをそのまま読み込めます。「技術的に難しい」時代は終わりました。ボトルネックは技術ではなく、業務知識の言語化です。

ステップ1: 自分の審査基準を書き出す

最初のステップは、あなたが普段行っている審査の判断基準をすべて書き出すことです。

書き出しワーク: 3つの質問

以下の3つの質問に答える形で、判断基準を洗い出します。

質問1: 「これはNG」と即判断するポイントは何ですか？

例（広告審査の場合）:
- 「世界一」「No.1」など最上級表現で根拠の記載がない
- 薬機法で禁止されている効能効果を謳っている
- 景品表示法違反の二重価格表示がある
- 連絡先（会社名・住所・電話番号）の記載がない

質問2: 「判断に迷う」グレーゾーンはどんなケースですか？

例:
- 「個人の感想です」の注記があるが、効能効果と紛らわしい表現
- 比較広告だが、比較条件の記載が不十分
- SNSの口コミ引用で、投稿者の利害関係が不明確

質問3: 「これはOK」と判断する根拠は何ですか？

例:
- エビデンス（調査データ、公的認証）が明示されている
- 打消し表示が適切なサイズ・位置で表示されている
- 業界の自主規制ガイドラインに準拠している

暗黙知を引き出すコツ

書き出しワークで最も難しいのは、無意識にやっていることを意識化することです。以下の方法が効果的です。

実際の審査案件を見ながら書く: 過去1週間の審査ログを見返し、「なぜOKにしたか」「なぜNGにしたか」を一件ずつ言語化する
新人に教えるつもりで書く: 「言わなくてもわかるでしょ」を禁止し、すべてを明文化する
ペアワーク: 2人の審査担当者が同じ案件を見て、判断理由を話し合う。違いが出たポイントが暗黙知の宝庫

審査基準の書き出しワーク3つの質問 図1: 審査基準の書き出し ― 3つの質問で暗黙知を可視化する

ステップ2: 基準を「AIに伝わる形」に構造化する

書き出した審査基準を、そのままAIに渡しても精度は出ません。AIが理解しやすい形に構造化する必要があります。

構造化の4原則

原則1: 曖昧な表現を具体化する

❌ 「誇大な表現は避けること」
✅ 「以下の表現がある場合はNGとする：
   - 根拠なしの最上級表現（世界一、No.1、業界トップ等）
   - 数値の根拠が示されていない統計データの引用
   - 効果を保証する表現（必ず、100%、絶対に等）」

原則2: 判定基準を順序付きリストにする

AIは上から順に評価するため、重要度の高い基準を先に配置します。

判定基準（優先度順）:
1. 法令違反（薬機法・景表法）→ 即NG
2. 業界自主規制違反 → NG
3. 社内ガイドライン違反 → 要確認
4. 表現の適切性 → 改善推奨

原則3: 出力形式を指定する

AIの回答形式を明確に指定することで、結果のブレを防ぎます。

以下のJSON形式で回答してください:
{
  "judgment": "OK" または "NG" または "要確認",
  "confidence": 0〜100の整数,
  "reasons": ["理由1", "理由2"],
  "suggestions": ["改善提案1"]
}

原則4: 例を添える（Few-shot）

良い例・悪い例をセットで示すことで、AIの理解精度が大幅に向上します。プロンプトエンジニアリングの基本でも解説されている通り、Few-shotはプロンプト設計の最も効果的な技法の一つです。

### 判定例

入力: 「この美容液で必ずシミが消えます！」
判定: NG
理由: 「必ず」は効果を保証する表現であり薬機法違反。
      「シミが消える」は化粧品で認められない効能表現。

入力: 「使用者の87%が満足と回答（自社調べ、n=500）」
判定: OK
理由: 調査方法と母数が明示されており、合理的な範囲の表現。

図2: プロンプト作成の5ステップ ― 書き出しから改善サイクルまでの流れ

ステップ3: テンプレートに当てはめる

構造化した基準を、実際のプロンプトテンプレートに組み込みます。以下の3つのテンプレートは、審査業務で最も汎用的に使えるものです。

テンプレートA: OK/NG判定プロンプト

あなたは{業界}の審査担当者です。以下の審査基準に基づいて、
提出されたコンテンツを審査してください。

## 審査基準

### 即NGとなる基準（1つでも該当すればNG）
{ステップ1で書き出したNGポイントを列挙}

### 要確認となる基準
{ステップ1で書き出したグレーゾーンを列挙}

### OKの条件
{ステップ1で書き出したOK根拠を列挙}

## 出力形式
以下のJSON形式で回答してください:
{
  "judgment": "OK" | "NG" | "要確認",
  "confidence": 0〜100,
  "matched_rules": ["該当した基準のID"],
  "reasons": ["判定理由を具体的に"],
  "quote": "問題箇所の原文引用"
}

## 審査対象コンテンツ
{ここに審査対象を挿入}

テンプレートB: 改善提案付き審査プロンプト

あなたは{業界}の審査担当者兼コピーライターです。
以下のコンテンツを審査し、問題がある場合は修正案も提示してください。

## 審査基準
{基準を列挙}

## 出力形式
{
  "judgment": "OK" | "NG" | "要確認",
  "issues": [
    {
      "location": "問題箇所",
      "original": "元の表現",
      "problem": "問題の内容",
      "suggestion": "修正案",
      "severity": "高" | "中" | "低"
    }
  ],
  "overall_comment": "総合コメント"
}

## 審査対象コンテンツ
{ここに審査対象を挿入}

テンプレートC: 多段階リスクスコアリングプロンプト

あなたは{業界}のリスク分析担当者です。
以下のコンテンツのリスクレベルを多段階で評価してください。

## 評価軸
1. 法令リスク（0-10）: {法令関連の基準}
2. レピュテーションリスク（0-10）: {ブランド・評判関連の基準}
3. ユーザー影響リスク（0-10）: {消費者への影響基準}
4. 運用リスク（0-10）: {業務プロセスへの影響基準}

## 出力形式
{
  "scores": {
    "legal_risk": 0〜10,
    "reputation_risk": 0〜10,
    "user_impact_risk": 0〜10,
    "operational_risk": 0〜10
  },
  "total_risk": 0〜40,
  "risk_level": "低" | "中" | "高" | "緊急",
  "key_findings": ["主要な発見事項"],
  "recommended_action": "推奨アクション"
}

テンプレートはそのままコピーして使わないでください。｛波括弧｝の部分にあなたの業務に合った具体的な基準を入れることで、初めて実用的なプロンプトになります。最初は完璧を目指さず、「とりあえず動く」レベルで始めてステップ4・5で改善していく姿勢が重要です。

3つのプロンプトテンプレートの比較 図3: 用途別プロンプトテンプレート ― 業務に合わせて選択する

ステップ4: テスト実行と結果評価

プロンプトを作ったら、必ずテストを行います。テストなしで本番運用を始めると、予想外の誤判定で現場が混乱します。

テストセットの作成

テスト用の審査案件を最低10件用意します。以下のバランスで選びます。

カテゴリ	件数	選定基準
明確なNG	3件	過去に実際にNGとした案件
明確なOK	3件	過去に実際にOKとした案件
グレーゾーン	2件	判断に迷った・意見が分かれた案件
エッジケース	2件	新しいパターン・想定外のケース

評価の方法

テストセットを使って、以下の3指標を測定します。

正答率: 人間の判定と一致した割合。最初の目標は80%。

再現性: 同じ入力で5回実行し、同じ結果が出る割合。90%以上が目標。Claude 4.6 Sonnetの場合、temperature: 0に設定することで再現性を高められます。

説明性: 判定理由が具体的で、人間が読んで納得できるか。判定理由が「不適切な表現があるため」のような曖昧なものではなく、「第3段落の『必ず効果が出ます』は効果保証表現であり薬機法第66条に抵触する可能性がある」のように具体的であることが重要です。

よくある失敗パターンと対策

失敗パターン	症状	対策
曖昧指示	判定が毎回変わる	基準を具体的に書き直す（ステップ2を再実行）
基準過多	重要でない基準でNGが乱発	基準を優先度で絞り込む（上位5つに集中）
例示不足	グレーゾーンの精度が低い	Few-shot例を追加（特にグレーゾーンの例）
前提不足	業界特有の判断が反映されない	業界コンテキスト情報をプロンプト冒頭に追加
出力形式不定	結果のパースが困難	JSON形式を厳密に指定する

ステップ5: フィードバックを受けて改善する

プロンプトは「一度作って終わり」ではありません。運用しながら継続的に改善することで、精度が向上していきます。

週次改善サイクル

毎週30分のプロンプト改善タイムを設定します。

1. 誤判定ピックアップ（10分）: その週の審査結果からAIが間違えたケースを3〜5件選びます。

2. 原因分析（10分）: なぜAIが間違えたかを分析します。プロンプトの基準が不十分？想定外の入力パターン？基準の優先度が不適切？

3. プロンプト修正（5分）: 原因に応じてプロンプトを修正します。基準の追加、表現の具体化、Few-shot例の追加など。

4. 効果確認（5分）: 修正したプロンプトで誤判定ケースを再実行し、改善されたことを確認します。

バージョン管理の重要性

プロンプトは必ずバージョン管理してください。「いつ・何を・なぜ変えたか」の記録がないと、改善と改悪の区別がつきません。

# プロンプト変更ログの例

## v2.3 (2026-03-10)
- 変更: 「比較広告」の判定基準を追加
- 理由: 先週3件の比較広告でFPが発生
- 結果: 比較広告のFP率 60% → 10%

## v2.2 (2026-03-03)
- 変更: Few-shot例に「個人の感想」パターンを追加
- 理由: 体験談系コンテンツの精度が低かった
- 結果: 体験談系の正答率 65% → 88%

レビュー文化のアップデートで解説されているように、プロンプト改善はチーム全体の取り組みにすることが重要です。個人の暗黙知をプロンプトに反映するプロセスは、そのままチームのナレッジ共有になります。

プロンプトのバージョン管理にはGitが最適ですが、エンジニア向けツールに抵抗がある場合はNotionやGoogle Docsでも十分です。重要なのはツールではなく、「変更履歴を残す」習慣です。

すぐ使えるプロンプト設計のコツ5選

テンプレートだけでなく、日常的に使えるプロンプト設計のコツを5つ紹介します。

コツ1: ロール設定で精度を上げる

プロンプトの冒頭でAIの「役割」を明確にすると、回答の質が向上します。

❌ 「この広告をチェックしてください」
✅ 「あなたは薬機法と景品表示法に精通した広告審査の専門家です。
   10年以上の実務経験を持ち、過去に1万件以上の広告を審査してきました。
   以下の広告を審査してください。」

コツ2: 否定形より肯定形で書く

AIは「やらないこと」より「やること」の方が理解しやすい傾向があります。

❌ 「曖昧な判定をしないでください」
✅ 「判定は必ずOK/NG/要確認の3択で回答し、
   判定理由は問題箇所の原文引用を含めて記述してください」

コツ3: 思考プロセスを指示する

Claude 4.6 Opusのような最新モデルは、思考プロセス（Chain of Thought）を明示的に指示すると精度が上がります。

以下の手順で審査してください:
1. まず対象コンテンツを通読する
2. 各審査基準と照合し、該当する基準をすべてリストアップする
3. 該当基準のうち最も重大なものを特定する
4. 総合判定を決定する
5. 判定理由を記述する

コツ4: 境界条件を明示する

「AならOK、BならNG」だけでなく、「AとBの境界」を明示します。

## 「個人の感想」の判定基準
- 体験談に「個人の感想です」の注記がある → OK
- ただし、注記はあるが文脈全体として効能効果を暗示している → NG
- 「個人差があります」だけでは不十分、具体的にどの点が個人差かの記載が必要 → 要確認

コツ5: エラーハンドリングを含める

想定外の入力に対する対応を指示しておくと、予期しない動作を防げます。

## 注意事項
- 審査対象が画像のみで文字情報がない場合は「判定不可：テキスト情報なし」と回答
- 審査基準のいずれにも該当しない新しいパターンの場合は「要確認：新規パターン」と回答
- 外国語のコンテンツは「判定不可：日本語以外のコンテンツ」と回答

プロンプト設計の5つのコツ 図4: プロンプト品質を高める5つの実践コツ

まとめ

プロンプト作成は、プログラミングではなく業務知識の言語化です。審査担当者が自身の専門知識をプロンプトに変換することで、AIはその知識を大量の案件に適用できるようになります。

5ステップの要点を振り返ります。

書き出す: NG・グレー・OKの判断基準をすべて明文化する
構造化する: 曖昧表現を具体化し、優先度を付けて整理する
テンプレートに入れる: 用途に合ったテンプレート（判定型/提案型/スコアリング型）を選ぶ
テストする: 10件のテストセットで正答率・再現性・説明性を評価する
改善する: 週次サイクルでプロンプトを継続的に改善する

最初から完璧なプロンプトを書く必要はありません。正答率80%でスタートし、週次の改善サイクルで90%以上を目指してください。プロンプトエンジニアリングの技術的な基礎やファインチューニングとの使い分けも参考にしてください。

よくある質問

プロンプト作成にプログラミングスキルは必要ですか？

不要です。プロンプトは自然言語（日本語）で書くため、プログラミングの知識は必要ありません。必要なのは審査業務の知識です。むしろ、プログラミングスキルよりも「何をどう判断しているか」を言語化する能力が重要です。本記事の5ステップに沿えば、審査担当者が自分でプロンプトを作成・改善できるようになります。

プロンプトの良し悪しはどう判断すればいいですか？

3つの基準で評価します。(1)再現性: 同じ入力に対して毎回同じ判定が出るか。(2)網羅性: 想定するすべての審査基準がカバーされているか。(3)説明性: 判定理由が具体的で人間が納得できるか。テスト用の審査案件を10件用意し、人間の判定結果と比較することで定量的に評価できます。正答率80%を最初の目標にし、反復改善で90%以上を目指してください。

1つのプロンプトで複数の審査基準をチェックできますか？

可能ですが、基準が5つを超える場合はプロンプトを分割することを推奨します。Claude 4.6 Sonnetなら200Kトークンのコンテキストウィンドウがあるため長いプロンプトも処理できますが、基準が多すぎると判定精度が下がります。実務では「法令チェック」「表現チェック」「事実確認」のように観点ごとに分割し、ハイブリッドパイプラインで順番に実行する設計が安定します。

プロンプトを改善し続ける仕組みはどう作ればいいですか？

週1回の振り返りサイクルがおすすめです。(1)その週の誤判定ケースを3〜5件ピックアップ、(2)なぜAIが間違えたかを分析、(3)プロンプトの該当部分を修正、(4)修正前後の精度を比較。この4ステップを毎週繰り返します。プロンプトはGitやNotionでバージョン管理し、「いつ・何を・なぜ変えたか」を記録してください。審査ログの活用と連携させると、改善ポイントの特定が効率化されます。

この記事の著者

Naosy 編集部

レビュー・校正・審査プロセスの最適化に関する実践的なナレッジを発信しています。