第7回 LLMと上手に対話す る ~その 1

AIの品質問題点をソフトウェア技術の観点から解説する
中島 震(国立情報学研究所 名誉教授)
中島先生は、放送大学大学院の情報学プログラムの中で「ソフトウェア工学(‘25)」を担当されています。先生の講義ではソフトウェア開発を工学的に行うためのプロセスや手法、品質や生産性、進化などに関する技術について学べます。ソフトウェア開発で生じる問題について学び、開発のプロセスに沿って問題点を整理し、問題解決への技術を理解していきます。
本記事では、ソフトウェア工学が専門で、「形式手法やソフトウェアテスティングの技術」「機械学習を対象としたAIリスクマネジメント」を研究されている中島震氏へのインタビューをもとに作成しています。
第6回では、高度なシステムとして話題になっている「AIエージェント」を、LLMとの関係からみて解説いただきました。
LLMは、チャットボットの心臓部分として最初に使われて以来、さまざまな機能が追加されてきました。一方で、このような高度化と共に、ハルシネーションとは異なる問題が起こっています。なるべく不都合な出力が生じないように、入力プロンプトの工夫が大切です。
第7回 LLMと上手に対話す る ~その 1
LLMの高度化
LLMが持つ内部知識は膨大な量の文書をもとに作られた学習コーパスがもとになっています。内部知識の中を調べて、与えられた指示(プロンプト)にしたがって、利用者が期待する情報を提示します。LLMが確率モデルである、という特徴を考慮し、本ニュースレターの第4回で、「近似的検索器」と説明しました。
学習コーパスから得られた内部知識は玉石混交です。指示されたからといって、そのまま提示すると不都合な内容を含みます。利用者の期待に沿うコンテンツを出力するように調整したいです。そこで、無害(Harmless)、有用(Helpful)、正直(Honest)という3つの観点が満たされるように、LLMを訓練し、アラインメントします。何も出力しないと、有害情報は出さないので無害ですが、有用ではありません。トレードオフ関係ですね。一方、何かの目的があってLLMを利用するわけですから、利用者の期待を満たすような振る舞いが好ましいです。通常、有用さを重要視するように調整します。
初期のLLMは、段階的な手順にしたがって、出力結果を得るような問題が苦手でした。たとえば、『ひとつ32円のお菓子を4つ買うと15%引きになります。小銭入れに、50円硬貨1つ、10円が6枚、100円と5円が1枚ずつあります。小銭を少なくするには、どのように硬貨を使えば良いですか?』のような問題です。普通は、支払い金額の計算、手持ち硬貨の組み合わせ方などを順番に考えて答えを出します。
算数や数学の文章題などですが、一般的には、論理的な推論を必要とする問題です。そこで、例題文と解き方の手順を補助情報としてプロンプトに入力する「思考の連鎖」という方法を実験したところ、正解率が向上することがわかりました。その後、例題と思考の連鎖に基づいた解き方を大量に集めて学習データを整備し、LLMを訓練するようになりました。このようなLLMは、思考の連鎖の情報を利用して、回答に至る道筋を生成します。つまり、回答とその理由を出力するので、導かれた結果を確認しやすくなりました。
まとめると、さまざまな観点から、提供機能の向上を目的として、学習データを準備し、その学習データを用いてLLMを訓練しています。
不適切な言語現象
LLMの高度化によって、新しいタイプの不適切な出力が生じるようになりました。このような不適切な言語現象をブルシット(Bullshit)ということがあります。有用さを向上する目的で訓練したことが、「その場しのぎ」の回答を優先してしまい、利用者が表面的に満足するようなコンテンツを出力する傾向が強くなりました。たとえば、迎合的な振る舞い、無意味な修飾・美辞麗句、過大な一般化、出力量の過多、早合点しての打ち切り、などの現象です。
また、利用者が不正解ではないかと指摘した際に、その間違いの言い訳や、入力内容がおかしいというように責任転嫁することもあります。これは、ハルシネーションによる不正解と「思考の連鎖」による理由説明が組み合わさり、誤答を正当化する理由を作り出した場合に相当します。
ハルシネーションやブルシットが生じる原因は解明されていません。しかし、先に述べたような高機能LLMの訓練によって、残念ながら、不適切な出力の種類が増えています。
対話の滑らかさ
高度なLLMをコアとするチャットボットは確かに優れた機能を提供するのですが、一方で、なんとなく不自然さを感じさせることが多いです。ピンポイントで答えを知りたいのに、一般的な情報を提示してくる、あるいは、関連しないこともないが不必要な情報を出力する、などです。
よく考えると、この問題は、人間同士の対話でも起こりそうです。実際、「会話がかみあうとは」ということに関する研究が言語学の分野で行われてきました。たとえば、H.P.グライスの「協調の原理」は、以下の4つの原則に整理されています。
●質の原則:偽と思うこと、根拠のないことを言ってはならない
●量の原則:過不足のない量の情報を示し、余計なことを言わない
●関連の原則:文脈上、関連することを言う。主題が変化しても支障をきたさないようにする
●様態の原則:わかりやすく話さなくてはならない。不明瞭な表現、多義的な表現、冗長な表現を避ける。順序よく言う
ハルシネーションやブルシットは、協調の原理を満たさないので、チャットボットとの対話に不自然さを感じるのだ、と整理できます。実際、ハルシネーションは偽情報ですから、質の原則に違反しています。また、質問に対して、チャットボットは「優れた指摘です」と出力した後に回答を生成することが多いです。これは、媚びるようで、様態の原則からみて不適切と考えられます。さらに、入力プロンプト中の特定の単語が起点となって、横道に外れた回答を生成することがあります。関連するかしないかを判断することは簡単でないですが、関連の原則と量の原則を満たしません。
さて、チャットボットとのやりとりはプロンプトが基本で、利用者である私たちが対話の主導権を握っています。対等に会話しているわけではありません。チャットボットの生成コンテンツに振り回されないように、対話の流れを制御して、適切なプロンプトを順番に入力し、不適切な言語現象が生じないように、つまり、滑らかに対話できるようにしたいものです。
次回の予告
中島先生の第7回ニュースレターでは、LLMチャットボットを利用する際の心構え、LLMチャットボットは間違うことがあるとわかった上で利用する、という点についてご紹介いただきます。
中島震先生、山口高平先生のニュースレターバックナンバーはこちら
中島先生の著書はこちらです
■「AIアルゴリズムからAIセーフティへ」
中島 震 (訳) (原著:O.サントス, P.ラダニエフ)
丸善出版 2025年3月 (ISBN: 9784621310328)
■「AIリスク・マネジメント」
中島 震
丸善出版 2022年12月 (ISBN: 9784621307809)
■「ソフトウェア工学から学ぶ機械学習の品質問題」
中島 震
丸善出版 2020年11月 (ISBN: 9784621305737)