第9回 捏造データの怖さ 〜ディープフェイクは生成AIの悪用〜

AIの品質問題点をソフトウェア技術の観点から解説する
中島 震(国立情報学研究所 名誉教授)
中島先生は、放送大学大学院の情報学プログラムの中で「ソフトウェア工学(‘25)」を担当されています。先生の講義ではソフトウェア開発を工学的に行うためのプロセスや手法、品質や生産性、進化などに関する技術について学べます。ソフトウェア開発で生じる問題について学び、開発のプロセスに沿って問題点を整理し、問題解決への技術を理解していきます。
本記事では、ソフトウェア工学が専門で、「形式手法やソフトウェアテスティングの技術」「機械学習を対象としたAIリスクマネジメント」を研究されている中島震氏へのインタビューをもとに作成しています。
第8回では、LLMを活用したチャットボットサービスを使用する際のハルシエーションなどのリスクと、その原因となるLLMの内部知識の源について解説いただきました。
第9回となる今回は、当初予定していた内容から変更し、読者の皆さんにいち早くお伝えすべき内容として、生成AIの技術で作成した偽情報、捏造されたデータの怖さについて解説いただきます。
第9回 捏造データの怖さ 〜ディープフェイクは生成AIの悪用〜
生成AIの技術は、自然言語処理のLLMだけではなく、画像生成の世界を大きく変えました。一方、人々や社会に好ましくない影響を与えるような使い方もあります。情報の受け手になる私たちが注意するだけでは不十分です。
実世界に影響する偽情報
従来から、偽情報や誤情報が、情報の受け手の心理行動に与える影響が問題になっていました。デジタル社会になって、人々や社会に混乱を生じる情報の広がりを制御することが難しくなっています。特に、選挙キャンペーンでは、偽情報や誤情報が有権者の投票行動に影響します。民主的な社会の根幹に関わることから、法規制を導入する国が増えています。
2026年1月には、捏造データが公的な安全審査に提出されていたことが報道されました。偽情報に基づいた審査結果は社会の安全を脅かします。また、撤回論文数の分析報告1)によると、アカデミックな世界での研究不正がなくならないことがわかります。
ディープフェイク
生成AIの技術で作成した偽情報をディープフェイクと総称します。選挙キャンペーンでのディープフェイクに加えて、性的な画像(ディープフェイクポルノ)の作成と流布が大きな問題になってきています。脱衣画像のディープフェイクポルノ作成が容易なGrokのImagineが話題になりました。2026年1月になって、英国でGrok使用を規制したり、米国でGrok社を調査したりする動きが出ています。
このようなディープフェイクは、一般の人々が情報を誤認するように仕向けるものです。今後、生成AIの悪用やディープフェイクによって、データ捏造や改竄の方法が巧妙化すると考えられています。審査の目をすり抜けることを目的とし、専門家を欺く偽情報が増加する恐れが大きいです。
従来の研究不正
残念なことですが、公正であるべきアカデミズムの世界で、研究不正が後を絶ちません。別論文に掲載された画像を新発見の証拠として示した事例[リッチー 2024、p.97]では、疑いを持った研究者が画像を入念に調査し、画像が改竄されたことを見つけました。一般に、薬の効果を調べる際にはランダム化比較試験を行ないます。この方法で有効性を確認したという不正事例[リッチー 2024、 p.111]では、やはり疑いを持った研究者が論文掲載データを古典的な統計手法で分析してデータ分布の不自然さを指摘し、捏造データであることを見出しました[Carlisle 2012]。いずれも、他研究者の貴重な時間を奪ってしまいました。
研究不正は、決して許されるものではありません。研究不正の偽情報では、被害者が明らかではないです。しかし、偽の結果に基づいて効能が認められた薬が承認され、臨床の場で使われたとしたら、と考えると怖くなります。また、偽の結果を信じて研究活動が進められたとしたら、多くの研究者の労力と時間が無駄に終わります。
生成AI時代の研究公正
生成AIの技術が進むと共に、研究不正が巧妙化するといわれています。結論ありきの実験結果を再現するような恣意的な画像の生成が容易です。古典的な統計手法での指摘が難しいようなデータの捏造もできます。何故なら、実データに十分似た情報を作りだすことが、生成AIの効果だからです。
米国科学工学医学アカデミーは、生成AIの時代で、研究に関わる当事者が、研究を公正に進めることを再確認すべきとして、提言をまとめました2)。5つの原則に基づき、科学においてAIの責任ある利用に関する戦略会議の必要性を述べています。研究に従事する当事者の倫理感に委ねることを意味し、学術関係者の自主的な規制といえるでしょう。
当事者の倫理観
この生成AI時代での研究公正に関する議論は、ディープフェイク一般に通じます。つまり、データ捏造や画像改竄は、生成AI技術の悪用です。何らかの意図、邪な思いを持つ者が存在する限り、完全になくすことは困難です。
ディープフェイクであるか否かを検出する技術、あるいは逆に、真のデータであることを確認する技術の発展が望まれます。一方で、情報提供当事者の倫理観が拠り所になることは変わらないでしょう。
参考文献
[リッチー 2024] スチュアート・リッチー 著、矢羽野薫 訳:Science Fictions あなたが知らない科学の真実、ダイヤモンド社 (2024).
[Carlisle 2012] John B. Carlisle: The Analysis of 168 Randomised Controlled Trials to Test Data Integrity, Anaesthesia, Volume 67, Issue 5, pp.521-537 (2012).
参考情報
1)https://nistep.repo.nii.ac.jp/records/2000214
2)https://www.nationalacademies.org/news/2024/05/human-accountability-and-responsibility-needed-to-protect-scientific-integrity-in-an-age-of-ai-says-new-editorial
次回の予告
中島先生の第10回ニュースレターでは、第8回で書き足らなかったことについて、LLMを本格的に利用する前の準備実験の例を紹介します。また、第11回以降になりますが、LLMの訓練に用いた学習データが、どのような内容から構成されているのか、公開されている学習コーパスの情報を調べ、解説いただきます。
中島震先生、山口高平先生のニュースレターバックナンバーはこちら
中島先生の著書はこちらです
■「AIアルゴリズムからAIセーフティへ」
中島 震 (訳) (原著:O.サントス, P.ラダニエフ)
丸善出版 2025年3月 (ISBN: 9784621310328)
■「AIリスク・マネジメント」
中島 震
丸善出版 2022年12月 (ISBN: 9784621307809)
■「ソフトウェア工学から学ぶ機械学習の品質問題」
中島 震
丸善出版 2020年11月 (ISBN: 9784621305737)