中島先生/第2回 AIに“バグ”という見方をしてよいのだろうか 〜その2〜

AIの品質問題点をソフトウェア技術の観点から解説する
中島 震(国立情報学研究所 名誉教授)
中島先生は、放送大学大学院の情報学プログラムの中で「ソフトウェア工学(‘25)」を担当されています。先生の講義ではソフトウェア開発を工学的に行うためのプロセスや手法、品質や生産性、進化などに関する技術について学べます。ソフトウェア開発で生じる問題について学び、開発のプロセスに沿って問題点を整理し、問題解決への技術を理解していきます。
本記事では、ソフトウェア工学が専門で、「形式手法やソフトウェアテスティングの技術」「機械学習を対象としたAIリスクマネジメント」を研究されている中島震氏へのインタビューをもとに作成しています。
AIを取り入れたソフトウェア開発が進む中で、品質に関する課題も新たな局面を迎えています。このニュースレターではソフトウェア工学の視点から、従来の“バグ”という考え方がどのように変わるかを皆さんとともに考えていきます。
前回は、手書き数字の画像分類を題材に、AIが確率的に判断を下す仕組みと、従来の“バグ”という概念が通用しにくいという問題を紹介しました。今回はその続きとして、AIにおける品質保証の難しさについて考えていきます。
今回は中島先生に、AIにおける品質保証の難しさと、大規模言語モデル(LLM)の品質との向き合い方について解説していただきます。
中島先生/第2回 AIに“バグ”という見方をしてよいのだろうか 〜その2〜
訓練データが仕様を決める?
興味深いのは、同じ手書き数字認識でも、アラビア数字と漢数字では全く別のモデルが必要になることです。つまり、全く別のプログラムになるのです。これは、使用する訓練データが異なるからであり、訓練データそのものが、いわば“仕様”の役割を果たしていると言えます。従来のように開発者が明示的に仕様を定義するのではなく、集めたデータがシステムの挙動を決めるのです。そして、ある画像を確率的に「7」とみなしたり、「1」とみなしたりします。書き手が「7」のつもりで書いた画像を「1」と見なすことは、AIのバグなのでしょうか。
このような振る舞いをするAIをコンポーネントとしてソフトウェアに取り込んでよいのでしょうか。
“バグ”なのか、性能の限界なのか?
従来のソフトウェアでは、ある入力に対して意図しない出力が生じると、明確に“バグ”と判断できます。ところが、AIでは、たとえ想定外の出力が返ってきたとしても、それがプログラムの欠陥なのか、それとも確率的な揺らぎや、学習不足による限界なのかが判断しにくいです。このことはAIをシステムの一部として組み込む際に開発者が最も苦労するポイントの一つになります。
LLMはさらに“見えないバグ”を増やす
LLM(大規模言語モデル)は自然言語を理解し、生成する能力を持ちますが、その処理内容も、手書き数字の理解と同様に、莫大な量の自然言語で書かれた文を集めて学習をさせます。大量のテキストを元に訓練するため、学習内容が仕様そのものと言えますし、また、大規模言語モデルは確率モデルになっているわけです。したがって、バグがあるかないかを確認することができません。意図しない応答が出ても、その原因を特定することは極めて困難です。これは“バグ”というより、“曖昧な仕様からの逸脱”に近い問題とも言えるでしょう。
LLM開発における品質マネジメントの必要性
LLMの開発では、大規模な数値計算や長期的なクラウド処理が必要となるので、訓練プロセスそのものを綿密に管理することが重要です。途中で障害が発生した場合の「復旧手順」、「進行状況の記録」、「並行処理による数値誤差の蓄積への対処」など、品質を保つための工夫が求められます。
次回の予告
次回は、LLMを実際にシステムに組み込むとき、ユーザとの対話の中でどのような品質上の課題があるか、特にプロンプトの設計や文脈の理解に関する問題を解説します。
中島先生の著書はこちらです
■「AIアルゴリズムからAIセーフティへ」
中島 震 (訳) (原著:O.サントス, P.ラダニエフ)
丸善出版 2025年3月 (ISBN: 9784621310328)
■「AIリスク・マネジメント」
中島 震
丸善出版 2022年12月 (ISBN: 9784621307809)
■「ソフトウェア工学から学ぶ機械学習の品質問題」
中島 震
丸善出版 2020年11月 (ISBN: 9784621305737)