中島先生/第1回 AIに“バグ”という見方をしてよいのだろうか 〜その1〜

AIの品質問題点をソフトウェア技術の観点から解説する
中島 震(国立情報学研究所 名誉教授)
中島先生は、放送大学大学院の情報学プログラムの中で「ソフトウェア工学(‘25)」を担当されています。先生の講義ではソフトウェア開発を工学的に行うためのプロセスや手法、品質や生産性、進化などに関する技術について学べます。ソフトウェア開発で生じる問題について学び、開発のプロセスに沿って問題点を整理し、問題解決への技術を理解していきます。
本記事では、ソフトウェア工学が専門で、「形式手法やソフトウェアテスティングの技術」「機械学習を対象としたAIリスクマネジメント」を研究されている中島震氏へのインタビューをもとに作成しています。
AIを取り入れたソフトウェア開発が進む中で、品質に関する課題も新たな局面を迎えています。このニュースレターではソフトウェア工学の視点から、従来の“バグ”という考え方がどのように変わるかを皆さんとともに考えていきます。
シリーズの第1回となる本記事では、画像分類の例を通じて“バグ”の捉え方の違いを紹介します。
中島先生/第1回 AIに“バグ”という見方をしてよいのだろうか 〜その1〜
画像分類から見る“バグ”の境界 ~処理手順の誤り~
従来のプログラムでは、明確なルールに基づいた処理手順(アルゴリズム)に従って出力が決まります。簡単な例として、デジタル時計の表示数字を分類するプログラムを考えましょう。デジタル時計は、7つのセグメントの点灯状態によって数字を表現します。つまり、セグメントの点灯状態が数字の特徴を表します。たとえば、すべて点灯していれば「8」です。右上のセグメントだけが消えていれば「6」を表します。仮に、左上だけが消えた状態を「6」と判断すると、処理方法の誤りです。そのプログラムにはバグがある、と言えます。

画像のパターン学習
機械学習の代表的な問題として取り上げられる手書き文字認識の話では、上記のデジタル時計数字の例とは状況が違います。書き方の癖や筆圧、形の微妙な違いなどが、ペンストロークに影響し、同じ数字を表す手書き画像は千差万別です。アナログ情報であるペンストロークをデジタルデータで表すので、手書き数字の画像は、ピクセルと呼ばれる画素の集まりとします。特定の数字に対応するペンストロークは一つの定まらず、その結果、ピクセルの集まりが形作るパターンは多様です。一つの画像内のピクセル数は多く、その組み合わせも膨大で、計算手順を決めたアルゴリズムを書き下すことは難しいです。
そこで、ピクセル群のパターンを見て、そのパターンがどの数字に該当するかを推測する問題とします。今、画像が0から9までの数字以外にないとしましょう。すると、手書き文字を、各数字の特徴を見つけて、その特徴に基づいて分類する必要はなく、他の数字との違いを認識すれば良いことになります。たとえば、「8」と「6」は、「1」とは異なり、円を描くピクセル群を持つという点で似ている一方で、右上の方が繋がっているかいないかという違いがあります。特徴の違いを知るには、沢山の手書き数字の画像を集めて、AIに数字の特徴の違いを“学習”させます。このように大量の画像データから系統的に分類する方法を、データからの帰納的な学習といい、機械学習の基本的な考え方になっています。
機械学習モデルの判断は“確率的”
さて、手書き数字では、「8」と「6」の違いは微妙です。同じ画像に対して、「8」と答えたり、「6」とする人がいても不思議ではありません。訓練済み学習モデルも同じで、新しい画像に対して「この画像は80%の確からしさで“8”、20%の確からしさで“6”」といった判断を返します。つまり、出力は常に確定しているわけではなく、あくまで“もっともらしい”答えを返すのです。
では、同じ入力画像に対して、「70%の確からしさで”8″」と答える訓練済み学習モデルは、正しいのでしょうか、間違っているのでしょうか。一方、人間が見て明らかに「8」だと思われる画像に対して「1」は誤答です。ところが、「50%の確からしさで”8″」と答えた場合は、どうでしょう。出力結果が確からしさの度合いを含むことから、訓練済み学習モデルのプログラムに”バグ”があったと確実に言えるわけではありません。また、「なぜ間違えたのか」がルールに基づいて説明できないので、従来型の“バグ”と呼べるかどうかが問われます。
次回の予告
次回の中島先生のニュースレターでは、こうした確率的なモデルにおいて、どのようなときに“バグ”と呼ぶべきか、またその曖昧さがソフトウェア品質にどのような影響を及ぼすのかについて、さらに掘り下げていきます。
中島先生の著書はこちらです
■「AIアルゴリズムからAIセーフティへ」
中島 震 (訳) (原著:O.サントス, P.ラダニエフ)
丸善出版 2025年3月 (ISBN: 9784621310328)
■「AIリスク・マネジメント」
中島 震
丸善出版 2022年12月 (ISBN: 9784621307809)
■「ソフトウェア工学から学ぶ機械学習の品質問題」
中島 震
丸善出版 2020年11月 (ISBN: 9784621305737)