第1回 GPT-4oの機能拡充

GPTの進化と今後の展望
山口 高平(神奈川大学 教授)
放送大学では、数理・データサイエンス・AI講座で「言語生成AIの機能と社会への応用」を公開しています。この講座の収録は2024年8月から9月に行われましたが、山口先生によると「昨年の9月頃に議論されていた内容はすでに時代遅れ、特にこの数か月の変化は非常に大きい」とのこと。そこでこのニュースレターでは、山口先生の講義収録後のGPTの最新情報を随時みなさまへ提供することにしました。購読者がお持ちの生成AIに関する情報をupdateするためにぜひこのニュースレターを活用してください。
山口先生は、放送大学 数理・データサイエンス・AI講座で「AIプロデューサ〜人とAIの連携〜「言語生成 AI の機能と社会への応用」を担当しています。また、放送大学の総合科目「AIシステムと人・社会との関係('20)」の主任講師です。
※この記事は神奈川大学の協力を得て作成しています
本記事では、AI技術の最前線に立つ専門家である山口高平氏へのインタビューをもとに、2024年後半から機能拡充が続いているGPT-4oを中心に解説し、2025年前半までに公開予定のGPT-4.5およびGPT-5の最新動向についても言及します。特に、生成AIの進化がビジネスや日常生活にどのような影響を与えるのか、また倫理的な課題やリスクを中心に解説していきます。
近年、生成AI技術は飛躍的な進化を遂げ、特にOpenAI社のGPTシリーズは社会や産業に大きな影響を与えています。本記事では、AI研究の第一線で活躍する山口高平先生に,GPTの動向や技術革新、社会的な影響について伺いました。
第1回 GPT-4oの機能拡充
2024年5月に公開された生成AI GPT-4oは、大量のオンラインテキスト(書籍、論文、ニュース記事、ウェブページなど)を読み込んでおり、GPT-4oにオンラインテキストの言語別比率を尋ねると、推定値ではありますが、英語:60~80%、中国語:10~15%、フランス語・ドイツ語・スペイン語:5~10%、日本語:1~5%と回答されています。
公開当初、文書だけでなく画像・音声・動画も含めたマルチモーダル処理が可能とされましたが、現時点(2025年2月)でも、動画処理精度はかなり低く不完全です。例えば、図1に示す、犬と猫の喧嘩動画(約1分)を分析させても、被写体が犬と猫であると認識するのに時間を要し、動画の途中では活発に動いているが、前後では落ち着いているという認識に留まり、にらみ合っているとか、喧嘩をしているとかという行動認識はできません。

しかし、2024年後半には、マルチモーダル処理の精度は向上し、簡単な演繹推論も可能になるとともに、コード生成機能も整備され、プログラム開発支援環境としても利用可能になってきました。このように、2024年後半から、GPT-4oの機能拡充には目覚ましいものがあります。ただし、従来から指摘されてきた、ハルシネーション(間違い)や情報漏洩などの課題は解決されていない状況で、今後の更なる機能拡充に期待する部分ですね。
(山口先生インタビュー ニュースレター2回目につづく)
次回のニュースレターは3月19日(水)の予定です