山口先生/第7回 高次推論AIエンジンの発展と問題解決能力の向上

GPTの進化と今後の展望
山口 高平(神奈川大学 教授)
放送大学では、数理・データサイエンス・AI講座で「言語生成 AI の機能と社会への応用」を公開しています。
このニュースレターでは、山口先生の講義収録後のGPTの最新情報を随時みなさまへ提供することにしました。購読者がお持ちの生成AIに関する情報をupdateするためにぜひこのニュースレターを活用してください。
山口先生は、放送大学 数理・データサイエンス・AI講座で「AIプロデューサ〜人とAIの連携〜」「言語生成 AI の機能と社会への応用」を担当しています。また、放送大学の総合科目「AIシステムと人・社会との関係('20)」の主任講師です。
前回の第6回ニュースレター説明した、高次推論エンジンo1は、様々な推論(演繹推論、帰納推論、多段推論、数理的推論、空間・視覚推論、因果推論、仮定推論、文脈的連続推論、自然言語ルール抽出、マルチモーダル推論)を実行して、論理的に問題を解決する高次推論AIでした。
現在、o1は、o3, o4-mini, o4-mini-highと進展していますが(これらをまとめて高次推論エンジンファミリー、またはoシリーズと呼びます)、実行可能な推論の種類は同じです。異なるのはその性能であり、推論深度、信頼性、実行効率などの性能が、oシリーズの進展に伴って大きく向上しました。以下、oシリーズの性能評価について説明しましょう。
今回は高次推論エンジンファミリー「oシリーズ」の進展、技術動向について 山口先生に解説いただきます。oシリーズの性能評価(推論の深度、信頼性、実行効率)の比較表も合わせて、モデルの特徴分かりやすくお伝えします。
第7回 高次推論AIエンジンの発展と問題解決能力の向上
推論深度の進展
推論深度とは、前提から結論に到達するまでの思考ステップ数です。推論の種類によって具体的意味は変わりますが、演繹推論ではルールチェイン長(初期状態 → ルールA → ルールB → ルールC→結論の場合、ルールチェインは3)、帰納推論は、データから一般概念を導出するので、帰納推論深度はその導出ステップ数((りんご、みかん、ぶどう、にんじん、だいこん)→(果物、根菜)→植物性食材→光合成植物食材の場合、ルールチェインは3)になります。表1にGPT-4oからの回答を基に、oシリーズの推論深度性能について示します。
表1 oシリーズの推論深度の比較
モデル | 推論成功ステップ数 | 推論破綻(崩壊)パターン |
---|---|---|
o1 | 4–6 段前後 | 前提忘却、逆転混入 |
o3 | 8–10 段 | スコープ誤拡大 |
o4-mini | 12–15 段 | 低確率分岐の刈り込み不足 |
o4-mini-high | 20 段前後 | ごく稀に文脈ループ |
信頼性の進展
信頼性とは、以下の6項目から総合的に評価されます。すなわち、1.正答率(Accuracy):知識検索や数理推論などの正解を出せる割合)、2.幻覚率(Hallucination):明らかなに分かる誤情報ではなく、尤もらしい誤情報を生成できる割合、3.頑強性(Robustness):パラフレーズ(言い換え)や敵対的例(推論に誤りが起こるように意図的に設計された知識・データ)を利用した時の推論精度、4.一貫性・再現性 (Consistency):再実行したり、長い対話をしたりしても回答がぶれない割合、5.キャリブレーション (Calibration):推論結果の確信度と実際の正答率の一致度、6.安全・倫理 (Safety / Alignment):不適切・バイアス・機密漏洩を防げる割合、という6項目を総合的に勘案して計算されます。表2にGPT-4oからの回答を基に、oシリーズの信頼性6項目の比較を示します。
表2 oシリーズの信頼性6項目の比較
モデル | 正答率 | 幻覚性 | 頑強性 | 一貫性・再現性 | キャリブレーション | 安全・倫理 |
---|---|---|---|---|---|---|
o1 | 83.5 | 16 | 97 | 2 | 83 | 92 |
o3 | 85.6 | 33 | 97 | 2 | 34 | 92 |
o4-mini | 80.6 | 48 | 96 | 2 | 57 | 90 |
o4-mini-high | 83.2 | 未公表 | 未公表 | 2 | 未公表 | 未公表 |
各モデルの設計意図が異なるので、モデルが進展に応じて、信頼性6項目すべてが改善されていくわけではありません。o3 が「フルサイズ高性能モデル」であるのに対し、o4-mini が「高速・低コストの小型モデル」ですので、正答率はo3が最良になっています。また、幻覚性の性能については、モデルの進展と逆に悪化していますが、これは、o1が単純な推論しかできず、尤もらしい誤情報を生成する能力が低いためです。頑強性と一貫性・再現性はほぼ同じです。一貫性・再現性が2%というのは、問題を言い換えて回答精度を測定したところ、その差は2%以内に収まり、回答が安定していることを示しています。キャリブレーションについては、o1が最良のようにみえますが、o1は分からなくて無回答が多く、少ない回答数のためベストに見えるだけです。o3は、知識量が大規模なので、無回答が少なく、非常に多く回答しているので最悪値になっています。安全・倫理の評価値がほぼ同等になっているのは、安全性処理がOpen Ai社で共通化されているためと考えられます。
実行効率の進展
実行効率とは、以下の4項目から総合的に評価されます。すなわち、コスト(あるタスクを実行するのに必要な計算資源)、速度(回答が生成されるスピード)、反応時間(回答生成が開始されるまでの待ち時間)、コンテキスト(推論エンジンが一度に記憶できる文章量)から総合的に評価されます。表3にGPT-4oからの回答を基に、oシリーズの実行効率4項目の比較を示します。
表3 oシリーズの実行効率4項目の比較
モデル | ①コスト | ②速度 | ③反応時間 | ④コンテキスト | まとめ |
---|---|---|---|---|---|
o1 | 高 | 高速 | 短い | 標準 | 最速だが割高 |
o3 | 中 | 低速 | 中 | 広 | 長文と精度を両立 |
o4-mini | 低 | 普通 | 長い | 標準 | 最安・大量処理向き |
o4-mini-high | 低 | 普通 | 長い | 広 | 低コストで深い推論 |
oシリーズの今後の動向
Open AI社は2025年第3期までにo4-fullを開発予定としています。o4-full は、コスト水準をo4-mini、精度をo3に近づけ、幻覚率を25%以下に抑えたいとしています。
次回の予告
次回の第8回ニュースレターは7月下旬に公開予定です。
特定業務をある程度“自律的”に実行できるAIシステム「AIエージェント」について紹介します。どうぞお楽しみに!