第8回 LLMと上手に対話する ~その2~

AIの品質問題点をソフトウェア技術の観点から解説する
中島 震(国立情報学研究所 名誉教授)
中島先生は、放送大学大学院の情報学プログラムの中で「ソフトウェア工学(‘25)」を担当されています。先生の講義ではソフトウェア開発を工学的に行うためのプロセスや手法、品質や生産性、進化などに関する技術について学べます。ソフトウェア開発で生じる問題について学び、開発のプロセスに沿って問題点を整理し、問題解決への技術を理解していきます。
本記事では、ソフトウェア工学が専門で、「形式手法やソフトウェアテスティングの技術」「機械学習を対象としたAIリスクマネジメント」を研究されている中島震氏へのインタビューをもとに作成しています。
第7回では、LLMの高度化と共に起こっているハルシネーションとは異なる問題、不都合な出力や、それを回避するために必要となるプロンプトの工夫ついて解説いただきました。
LLMを活用したチャットボットは、さまざまな質問に即座に答えてくれる有能なアシスタントです。一方で、ハルシネーションやブルシットのような好ましくない現象も見られます。チャットボットを頼りにして良いのでしょうか。あるいは、用心すべきでしょうか。
第8回 LLMと上手に対話す る ~その2~
間違えることがある
インターネット上で公開されている膨大な文書を整備して作成した学習コーパスを使ってLLMを訓練します。さまざまな事柄を解説したWikipediaも含まれているので、LLMは、18世紀フランスで作成された「百科全書」のようです。知りたいことがあったら、LLMを活用したチャットボットに聞きたくなるのは当然のことでしょう。
一方、LLMは必ずしも「正しい」情報を提示せず、近似的検索器と言われます。いわゆる、ハルシネーションを避けられません。実際、インターネット上で提供されているチャットボットサービスを使っていると、
『間違えることがあります。回答内容を必ずご確認ください』
というようなメッセージが出力されます。
確認が難しい
出力内容を確認すべし、というのは、まぁ、その通りだと思うのですが、いつも確認できるとは限りません。
以前、各国のAI関連法を調査することになったことがありました。欧州AI法は英語版があるのですが、アジアの国々は自分たちの言語で書かれた法律を公開しています。そこで、機械翻訳ツールを頼りにしました。台湾の漢字は繁体字で、何となく意味を推測できます。日本語への翻訳結果を見て、また、自分が持つAI関連の背景知識を使うと、書かれていることが概ねわかりました。一方、韓国のハングル文字は表音文字なので、文脈を考慮しない翻訳ツールでは、とんでもない日本語になります。結局、さっぱりわからず、他の資料を探しました。
この経験のように、日本語への翻訳であれば、翻訳結果が変だということは自分でわかりました。逆に、日本語から外国語にツールで翻訳する場合を考えると、困ったことになりそうです。なにしろ、知らない外国語が出力されるので、正しいか、間違っているか、わかりません。あるいは、全く見当違いのことをランダムに生成しているかもしれないのです。
知らないことを知りたいと思って、問い合わせをしても「間違えることがあります。確認してください」と言われ、知らないことを確認できないのです。この場合は他の資料を探す必要があります。
存在しない
最初にも述べましたが、LLMの内部知識は学習コーパスが源です。ということは、学習コーパスに含まれない書籍の内容を持ちません。これでは困るので、チャットボットは、外部の検索エンジンを利用するなど、内部知識にない情報を入手する仕組みを持っています。
一般に、検索エンジンを使って、欲しい情報を含むWebページを一覧します。ところが、ランキングアルゴリズムが表示順序を決めているので、ランクの低いWebページは、検索結果リストの後の方に出現します。そのようなWebページは見逃されることが多く、存在しないも同じ、と言われました。外部検索エンジンと連携していても、チャットボットが利用する情報は、たとえば、ランクの上位10件などに限定されそうです。このため情報が漏れてしまう恐れがあります。
話を、LLMと学習コーパスの関係に戻しましょう。Web検索の場合と違って、LLMでは、学習コーパスに含まれなかった文書は、文字通り、LLMの内部知識としては存在しません。外部から情報を適切に補わない限り、結局、存在しなかったことにされてしまいます。「書籍の存在を消す」どこかで聞いた話ですね。デジタル時代の「焚書」かもしれません。
これらの状況から、どのような学習データでLLMが訓練されたのか、学習コーパスの内容を開示することが大切、とされる理由が理解できます。
次回の予告
中島先生の第9回ニュースレターでは、LLMの訓練に用いた学習データは、どのような内容から構成されているのか、公開されている学習コーパスの情報を調べ、解説いただきます。
中島震先生、山口高平先生のニュースレターバックナンバーはこちら
中島先生の著書はこちらです
■「AIアルゴリズムからAIセーフティへ」
中島 震 (訳) (原著:O.サントス, P.ラダニエフ)
丸善出版 2025年3月 (ISBN: 9784621310328)
■「AIリスク・マネジメント」
中島 震
丸善出版 2022年12月 (ISBN: 9784621307809)
■「ソフトウェア工学から学ぶ機械学習の品質問題」
中島 震
丸善出版 2020年11月 (ISBN: 9784621305737)