第3回　AIに“バグ”という見方をしてよいのだろうか〜その3〜

中島先生は、放送大学大学院の情報学プログラムの中で「ソフトウェア工学（‘２５）」を担当されています。先生の講義ではソフトウェア開発を工学的に行うためのプロセスや手法、品質や生産性、進化などに関する技術について学べます。ソフトウェア開発で生じる問題について学び、開発のプロセスに沿って問題点を整理し、問題解決への技術を理解していきます。

本記事では、ソフトウェア工学が専門で、「形式手法やソフトウェアテスティングの技術」「機械学習を対象としたAIリスクマネジメント」を研究されている中島震氏へのインタビューをもとに作成しています。
第1回と第2回では、AI、特に機械学習やLLM（大規模言語モデル）のような確率的システムでは、従来の“バグ”という考え方が通用しにくいことを紹介しました。

今回は中島先生に、LLMをソフトウェアシステムに組み込む際、
「ユーザーとの対話」という観点からどのような品質課題が発生するかを見ていきます。

ハルシネーションか、日本語の曖昧さか

LLM（大規模言語モデル）は、もっともらしい一方で、真実とは異なる内容を出力に含むことがあります。入力プロンプトに対する近似的な検索器なので、正確な情報を常に返すとは限らないのです。まるで「息を吐くように嘘をつく」ようにみえます。このような、デタラメ（ハルシネーション）が生じる理由は、いわゆるバグではなく、LLMが出力文を生成する原理的な仕組みと関わることから、なくすことは困難です。

“悪文”とプロンプトの失敗

LLMの利用では、ユーザーが自然言語でプロンプトを入力します。自然言語は文脈に依存して意味が異なる場合があり、同じ言葉でも人によって理解が違うことがあります。LLMにとっても、曖昧なプロンプトは不正確な応答につながりやすく、品質上の問題となります。

日本語において“悪文”とされる表現は、文法的に正しくても意味が伝わりにくいものを指します。このような表現がLLMへのプロンプトとして使われた場合、文脈の一部欠如や意図の不明確さによって、期待と異なる出力が返される可能性が高まります。結果として、ユーザーはLLMの性能に不満を感じ、信頼性が損なわれます。これは、ハルシネーションとは違って、入力プロンプトの日本語表現の曖昧さが原因であることに注意してください。人同士の会話でも同じような誤解が生じるかもしれません。

解釈の実験：楊貴妃の好物

日本語文法は複雑です。特に多様な助詞の適切な使い方、連用修飾語や連体修飾語の係り受け関係など、難しいことが多くあります。ここで、連体修飾語について、係り受け関係に曖昧さのある例を用いて実験しました。

【実験】次の問題文を読み、質問に答えよ。

ライチが好物だったアーサーの寵姫エリザベートは、音楽や舞踏の才があり、びわを好んだ。侍女は、エリザベートにいわれて城外に出かけ、フルーツ屋さんを訪れた。

質問1：正解の可能性がある選択肢をすべて選べ。
　(1)アーサーはライチを好んでいた　
　(2)エリザベートはライチを好んでいた　
　(3)アーサーはびわを好んでいた　
　(4)エリザベートはびわを好んでいた　

この質問1に対しては、以下の図1に示したように、日本語の文法的には２つの可能性がありえるので、回答が期待通りになるかわかりません。なお、LLMに「文法的に可能な解釈を全て示してください」、と入力すると、２つの場合を返してくれます。一方、単に答えを聞いた時には、どちらを返すかはわかりません。聞くたびに答えが変わるかもしれません。

さて、これを「楊貴妃の話」として書き直すと、歴史で伝わっている情報から、解釈が1つに定まります（図2）。単に、登場人物の名前を変えただけで、文法上は、図１と同じです。

ライチが好物だった玄宗の寵姫楊貴妃は、音楽や舞踏の才があり、びわを好んだ。侍女は、楊貴妃にいわれて城外に出かけ、果物屋さんを訪れた。

質問1：正解の可能性がある選択肢をすべて選べ。
　(1)玄宗はライチを好んでいた
　(2)楊貴妃はライチを好んでいた
　(3)玄宗はびわを好んでいた
　(4)楊貴妃はびわを好んでいた

LLMが楊貴妃に関する知識を持っていると、図2のように、質問1に対して、（２）を回答します。

ところで、図2内の質問2「侍女が買おうとしている可能性の高いもの全てを示せ」の問いに対して、LLMは何と答えると思いますか？問題文では、「びわ」と表記し、「琵琶」か「枇杷」を曖昧にしました。文脈から「琵琶」ですが、果物屋さんとあるので、「枇杷」と混乱するかもしれません。と言っても、侍女が、楊貴妃にいわれて、城外に買い物に行くことはないでしょうね。

プロンプト設計も品質管理の一部

従来のソフトウェアでは、入力項目の妥当性チェックなどが品質管理の一環でしたが、LLMを活用するシステムでは、プロンプト設計そのものが品質に直結します。ユーザの入力に対して適切な補助やガイドを提供する仕組みや、文脈の保持・理解を助ける設計が求められるのです。

次回の予告
次回は、LLMを利用したアプリケーションシステム開発について、従来のAI研究との違いや、品質の観点から見る課題について紹介します。

中島先生の著書はこちらです

■「AIアルゴリズムからAIセーフティへ」
中島震 (訳) (原著:O.サントス, P.ラダニエフ)
丸善出版 2025年3月 (ISBN: 9784621310328)

■「AIリスク・マネジメント」
中島震
丸善出版 2022年12月 (ISBN: 9784621307809)

■「ソフトウェア工学から学ぶ機械学習の品質問題」
中島震
丸善出版 2020年11月 (ISBN: 9784621305737)

一覧に戻る

第3回 AIに“バグ”という見方をしてよいのだろうか 〜その3〜

AIの品質問題点をソフトウェア技術の観点から解説する