無料相談
解説記事25 min read

NLP による契約書・規約の自動チェック技術 ― 見落としリスクをゼロに近づける

契約書や利用規約の審査を自然言語処理で自動化する技術を解説。条項抽出・矛盾検出・リスクスコアリングの仕組みと、日本語法務特有の課題を紹介します。

契約書レビューが「見落とし」を生む構造的な理由

契約書、利用規約、NDA——企業が日常的に扱うこれらの文書には、免責条項、損害賠償上限、解約条件、競業避止義務など、一つ見落とすだけで数億円の損失につながる条項が散在しています。

問題は「注意不足」ではありません。構造的な問題です。

条項の数と複雑さが人間の認知限界を超えているのです。大型M&A案件では数百本の契約書を数週間で精査する必要があり、定義語の参照先、別紙との整合性、改訂履歴による条文の変遷を一人の法務担当者が完全に追い切ることは現実的ではありません。

この課題に対し、NLP(自然言語処理)とLLMを組み合わせた自動チェック技術が急速に実用化されています。経団連の資料(2026年1月)は、企業法務が人手で書面修正している現状から、生成AIが修正案を提示し人が最終チェックする「理想像」を提示し、ある企業グループでは年間4,000時間(社員2名×労働時間の10%相当)の稼働捻出という効果推計を示しています。

しかし、LLMの文章生成能力だけでは「見落とし」は減りません。本当に必要なのは、以下の5つの設計原則を統合的に実装することです。

設計原則狙い
証拠付き抽出結論だけでなく根拠箇所を必ず提示し、人間が「確認する」だけで済む設計
プレイブック自社基準を機械可読にし、判断の標準を固定化
クロスリファレンス参照条文・定義語・改訂差分をグラフとして管理
RAG検索信頼性誤文書参照を潰す検索品質の設計
ガバナンス機密保護・非弁リスク・ハルシネーション対策を運用に組み込む
図1: 契約書自動チェック技術の全体構成 — 4つの技術領域と主要コンポーネント

NLP × LLM による条項抽出・分類技術

「スパン抽出+証拠提示」が基本設計

契約書自動レビューの核となるのは、重要条項の該当箇所(スパン)を特定し、その根拠とともに提示する技術です。

研究ベンチマークとして広く使われるCUAD(Contract Understanding Atticus Dataset)は、弁護士監修のアノテーションで510件の契約書・13,000以上のアノテーションを公開し、「重要条項の該当箇所をハイライトする」タスクを定義しています。この設計が実務で重要なのは、「結論だけ」では監査できないためです。根拠行を同時に出すことで、法務担当者の作業が「読む」から「確認する」に変わります。

実務設計の具体例として、LegalOn Technologiesの技術ブログ(2025年10月)は、プレイブック基準ごとに「アラート(基準未充足か)」「根拠箇所」「理由文」を出力するアーキテクチャを公開しています。評価指標として通常のアラートF1に加え、**根拠提示の厳しさを変えた指標(Coverage-Gated / Exact-Gated)**を導入し、「条項抽出の品質」と「判断の品質」を切り分けて測定する設計は再現性が高く、参考になります。

図2: 契約書審査パイプライン — PDF取込から構造解析・条項抽出・リスク判定・レポート生成までの一連のフロー

NER・関係抽出で条項を「構造化」する

条項の類型判定から一歩進むには、契約書内の要素を構造化する必要があります。

抽出対象用途
当事者甲(売主)、乙(買主)義務の帰属先の特定
義務・権利「乙は〜しなければならない」義務の範囲と強度の判定
条件「ただし、〜の場合を除く」例外条項によるリスク変動の検出
期限「契約締結日から1年間」時効・更新条件の管理
金額・上限「損害賠償の上限は〜」リスク金額の定量化

Premasiriらのサーベイ(2025年)は、法ドメインの情報抽出をNER(固有表現認識)・関係抽出・イベント検出の3タスクで整理し、法文書が「長い」「複雑」「公開データが限られる」という制約の中でどのモデルが有効かを体系化しています。

セマンティック検索とRAG — 「規約レビュー」との相性

利用規約や社内規程は、契約書よりも「似た条文が多く、微差が大きい」ことが特徴です。このため、類似条項の検索→差分確認→判断というワークフローになりやすく、条項検索(Retrieval)が中核技術になります。

ACORD(2025年)は、契約ドラフティングの前段である「先例条項検索」をベンチマーク化し、クエリ–条項ペアの評価を含む設計で検索+再ランキングの課題を明確化しています。

一方で、RAGは万能ではありません。法務では「誤文書参照」が致命傷になります。Reuterら(2025年10月)は、法務RAGで**Document-Level Retrieval Mismatch(誤った文書から取ってくる)**を重要失敗モードとして定義し、チャンクに文書全体要約を付与する手法で改善を報告しています。契約書レビューでは、類似する複数の契約書(MSA、個別契約、別紙)が存在するため、この問題は特に深刻です。

矛盾検出とリスクスコアリングの仕組み

NLI+証拠抽出で矛盾を検出する

契約の矛盾は、単純な「条項同士の反対」だけではありません。例外条項、条件節、定義語のズレ、別紙・改訂履歴によって生じる構造的な矛盾が最も危険です。

StanfordのContractNLI(2021年)は、契約文書に対し仮説文(例:「義務が終了後も存続するか」)を与え、entail(含意)/ contradict(矛盾)/ neutral(中立)の判定と証拠スパン抽出を同時に要求するタスクを定義しています。この枠組みは、実務の「条項がある/ない・例外で覆る・条文を根拠に説明する」というレビュー行動と直接対応します。

クロスリファレンスチェック — 参照のグラフ化が本質

契約実務で頻出するクロスリファレンスには3つの類型があります。

参照の類型リスク
条番号参照第◯条、Section◯条文番号の振り直しで参照先がズレる
定義語参照本契約における「秘密情報」定義の不整合・未定義用語の使用
文書間参照MSA↔SOW、契約↔別紙文書間で矛盾する条件の存在

Definelyは、PDF内のクロスリファレンスと定義語(defined/undefined term)を抽出・可視化する機能を提供しており、「参照の取り扱い」それ自体がプロダクト価値になっています。Kiraも「契約と改訂をグルーピング」する機能を持ち、文書間リンクの実務要請の強さを示しています。

実装パターンとしては、以下の3段階が現実的です。

  1. 参照抽出 — 正規表現+言語別パターン(第◯条、項、号、別紙、Schedule、Exhibit、Section等)で候補を抽出し、文書内の見出しツリーと照合
  2. 定義語台帳化 — 定義節から(用語→定義本文)を抽出し、全文中の用語出現をインデックス化。未定義使用・未使用定義・表記揺れ(全角/半角、括弧)を検出
  3. 文書間リンク — 契約群(MSA/個別契約/別紙/改訂)を「ファミリー」として束ね、同一概念(責任制限、準拠法、監査等)を対応付けて差分・矛盾候補を生成

リスクスコアリング — プレイブックの形式知化が前提

契約リスクスコアは、モデルが自動生成するものではありません。自社の許容範囲(こういう条文はNG/要エスカレーション/自動修正可)を先に定義し、それに照らして検出→判定→集約する設計が再現性を持ちます。

LegalOnのプレイブック機能は、この思想を「企業独自のレビュー基準をチェックポイントとして登録し、AIが該当性を自動検知」と明確に体現しています。

壊れにくい最小構成は以下の通りです。

設計要素内容
スコア単位契約全体ではなく、条項/論点単位で判定(OK/要注意/NG)し、根拠を付与
集約方法契約リスク = Σ(論点iのスコア × 重みi) 重みは業界・取引類型・自社立場で変動
説明責任スコアと同時に「どの条文が理由か」「自社基準のどれに抵触か」を必須出力に
Loading chart...

日本語法務特有の課題と対策

課題は「長文化」ではなく「構造と整合性」

日本語契約書は、条番号体系(条→項→号)、定義語、ただし書き、別紙参照が密結合しており、「文章理解」より「構造の保持と参照整合性」が真の落とし穴です。

LegalRikaiベンチマーク(2025年12月、arXiv公開)は、法改正対応(StatRev)やリスク駆動改訂(RiskRev)など、実務の「編集ワークフロー」をタスク化しました。その結果、抽象度が高い指示ではLLMが不要な変更や構造崩壊を起こしやすいことが報告されています。また、LLM生成の契約改訂が「一見正しく見えるが、誤った条文参照・定義の不整合など隠れた欠陥を含み得る」ことも問題提起されています。

対策は、LLMを「万能な編集者」として使うのではなく、以下のように分解することです。

対策具体的な設計
構造抽出を先に固定見出しツリー、条番号、別紙、定義語、参照リンクを先に抽出し、その上で編集候補を当てる
編集は差分最小化該当条文だけ、指定箇所だけを修正対象とし、全文再生成を避ける
構造スコアを別建て条番号参照の整合、定義語の整合、改訂差分の妥当性を独立した評価軸で測定

非弁リスクと規制対応 — 日本で特に重要

日本では、生成AIが契約書を「自動修正」するサービスが弁護士法72条との関係で議論になり得ます。法務省の資料(2026年1月、内閣府規制改革WG)は、72条の条文引用とともに、ガイドライン上の判断要素(報酬目的、事件性、鑑定/その他法律事務、利用者による違法性阻却整理)を整理しています。

同資料はまた、AIの学習・処理過程での個人情報・機密漏洩リスクや、ハルシネーションで誤った法的情報が一般に提供され得る点を明示しています。

この「リスク管理を設計に埋め込む」考え方は、NISTのAI RMF(2023年1月公開、GenAIプロファイル追補あり)や、日本のAI安全研究所による日本語翻訳版(2024年7月公開)とも整合します。

人間との協調レビュー設計

「読む」から「確認する」へ — ワークフローの転換

AI審査システムの導入で最も重要なのは、法務担当者のワークフローを**「全文を読む」から「AIの指摘を確認する」に転換**することです。これは単なる効率化ではなく、見落としリスクの構造的な低減です。

図4: 法務担当者とAI審査システムのインタラクション — AIが根拠付きレポートを提示し、人間が最終判断を下す協調設計

Human-in-the-Loopは「必須」であって「理想」ではない

Hubbleの顧客向け調査(2025年6月実施)は、法務部門のAI利用における懸念としてハルシネーション、情報漏洩、社内ルール未整備を上位に挙げています。これらの懸念に対する唯一の解は、AIの出力に対して必ず人間の確認・承認プロセスを設けることです。

特に以下の操作では、Human-in-the-Loopを省略してはなりません。

  • 契約条件の最終承認 — リスクスコアに関わらず、契約締結の判断は人間が行う
  • 修正案の適用 — AIが提案する修正文案は、法務担当者が確認してから適用する
  • エスカレーション判断 — プレイブックで「NG」と判定された条項は、上位権限者にエスカレーション

主要リーガルテックAIの比較

市場は「汎用LLMの利用」段階から、法務専用ワークフローに統合されたAIの実採用フェーズに移行しています。Thomson ReutersのAIアシスタントCoCounselが100万人ユーザーに到達した報道(2026年2月)は、この転換を象徴しています。

プレイヤー導入規模特徴日本語対応
LegalOn Technologies有償導入8,000社(2026年1月末)、上場企業の30%以上プレイブックβで企業固有基準を登録、アラート+根拠箇所+理由文の出力スキーマネイティブ対応
GVA NDAチェック導入企業400社以上、フリーランス1,000名以上NDA特化、不利/中間/有利の段階表示、修正例提示ネイティブ対応
Luminance70+か国・1,000+大企業(2026年2月時点)"Legal-Grade"複数モデル合議アーキテクチャ、味の素グループ欧州法人も採用多言語対応(日本語限定的)
Kira(Litera傘下)1,400以上の契約条項を識別する"smart fields"GenAI+独自モデルのハイブリッドで90%+精度(企業発表)、プロジェクト単位でGenAI有効/無効化英文中心(長島大野常松が英文DD用途で導入)
Loading chart...

まとめ:5つの設計原則で「見落とし」を構造的に潰す

契約書の見落としリスクを下げる鍵は、LLMの文章生成能力そのものではありません。5つの設計原則を統合的に実装することが唯一の正解です。

設計原則最初にやること技術選択のポイント
証拠付き抽出条項抽出の出力に「根拠箇所」「理由文」を必須フィールドとして設計CUADのスパン抽出を参考に、Coverage-Gated指標で品質を測定
プレイブック自社のレビュー基準を「チェックポイント」として機械可読に整理LegalOnのプレイブックβの設計思想が参考になる
クロスリファレンス参照抽出→定義語台帳化→文書間リンクの3段階で段階的に構築正規表現+見出しツリー照合から始め、NLIで矛盾候補を生成
RAG検索信頼性Document-Level Retrieval Mismatchを重要失敗モードとして評価に組み込むチャンクに文書全体要約を付与し、誤文書参照を低減
ガバナンス弁護士法72条との関係整理と、ハルシネーション対策をDay 1から設計Human-in-the-Loopを必須とし、NIST AI RMFに準拠したリスク管理

すべてを一度に実装する必要はありません。まずは証拠付き抽出とプレイブックから着手してください。AIの出力に「なぜそう判断したか」の根拠を付け、判断基準を組織で固定することが、残りの原則を構築するための基盤になります。


Naosyでは、契約書・規約の自動チェックシステムの設計から、プレイブック基準の策定、RAGパイプラインの構築まで一貫して支援しています。まずは現状の契約レビューの課題をお聞かせください。

Naosy

この記事の著者

Naosy 編集部

レビュー・校正・審査プロセスの最適化に関する実践的なナレッジを発信しています。

関連記事

審査AIの判断根拠を説明できる設計 ― XAIで現場の信頼を獲得する実装ガイド
解説記事

審査AIの判断根拠を説明できる設計 ― XAIで現場の信頼を獲得する実装ガイド

最終更新日:2026.03.14

生成AIの業務活用 ― レビュー・審査で使える5つの活用パターンと導入ロードマップ
解説記事

生成AIの業務活用 ― レビュー・審査で使える5つの活用パターンと導入ロードマップ

最終更新日:2026.03.13

DX推進でレビュー・審査プロセスはこう変わる ― 3段階ロードマップと実践事例
解説記事

DX推進でレビュー・審査プロセスはこう変わる ― 3段階ロードマップと実践事例

最終更新日:2026.03.13

AIエージェントで審査業務はどう変わるか ― 3つの設計パターンと導入ステップ
解説記事

AIエージェントで審査業務はどう変わるか ― 3つの設計パターンと導入ステップ

最終更新日:2026.03.13