第1回　GPT-4oの機能拡充

放送大学では、数理・データサイエンス・AI講座で「言語生成AIの機能と社会への応用」を公開しています。この講座の収録は2024年8月から9月に行われましたが、山口先生によると「昨年の9月頃に議論されていた内容はすでに時代遅れ、特にこの数か月の変化は非常に大きい」とのこと。そこでこのニュースレターでは、山口先生の講義収録後のGPTの最新情報を随時みなさまへ提供することにしました。購読者がお持ちの生成AIに関する情報をupdateするためにぜひこのニュースレターを活用してください。

山口先生は、放送大学 数理・データサイエンス・AI講座で「AIプロデューサ〜人とAIの連携〜「言語生成 AI の機能と社会への応用」を担当しています。また、放送大学の総合科目「AIシステムと人・社会との関係（'20）」の主任講師です。
※この記事は神奈川大学の協力を得て作成しています

本記事では、AI技術の最前線に立つ専門家である山口高平氏へのインタビューをもとに、2024年後半から機能拡充が続いているGPT-4oを中心に解説し、2025年前半までに公開予定のGPT-4.5およびGPT-5の最新動向についても言及します。特に、生成AIの進化がビジネスや日常生活にどのような影響を与えるのか、また倫理的な課題やリスクを中心に解説していきます。

近年、生成AI技術は飛躍的な進化を遂げ、特にOpenAI社のGPTシリーズは社会や産業に大きな影響を与えています。本記事では、AI研究の第一線で活躍する山口高平先生に，GPTの動向や技術革新、社会的な影響について伺いました。

2024年5月に公開された生成AI GPT-4oは、大量のオンラインテキスト（書籍、論文、ニュース記事、ウェブページなど）を読み込んでおり、GPT-4oにオンラインテキストの言語別比率を尋ねると、推定値ではありますが、英語：60～80%、中国語：10～15%、フランス語・ドイツ語・スペイン語：5～10%、日本語：1～5%と回答されています。

公開当初、文書だけでなく画像・音声・動画も含めたマルチモーダル処理が可能とされましたが、現時点（2025年2月）でも、動画処理精度はかなり低く不完全です。例えば、図1に示す、犬と猫の喧嘩動画（約1分）を分析させても、被写体が犬と猫であると認識するのに時間を要し、動画の途中では活発に動いているが、前後では落ち着いているという認識に留まり、にらみ合っているとか、喧嘩をしているとかという行動認識はできません。

しかし、2024年後半には、マルチモーダル処理の精度は向上し、簡単な演繹推論も可能になるとともに、コード生成機能も整備され、プログラム開発支援環境としても利用可能になってきました。このように、2024年後半から、GPT-4oの機能拡充には目覚ましいものがあります。ただし、従来から指摘されてきた、ハルシネーション（間違い）や情報漏洩などの課題は解決されていない状況で、今後の更なる機能拡充に期待する部分ですね。

（山口先生インタビュー　ニュースレター2回目につづく）

次回のニュースレターは3月19日（水）の予定です

一覧に戻る

第1回 GPT-4oの機能拡充

GPTの進化と今後の展望