第12回　学習データセットの中身（２）〜 LLMの学習用コーパス〜

中島先生は、放送大学大学院の情報学プログラムの中で「ソフトウェア工学（‘２５）」を担当されています。先生の講義ではソフトウェア開発を工学的に行うためのプロセスや手法、品質や生産性、進化などに関する技術について学べます。ソフトウェア開発で生じる問題について学び、開発のプロセスに沿って問題点を整理し、問題解決への技術を理解していきます。

本記事では、ソフトウェア工学が専門で、「形式手法やソフトウェアテスティングの技術」「機械学習を対象としたAIリスクマネジメント」を研究されている中島震氏へのインタビューをもとに作成しています。

第11回では、大規模言語モデル（LLM）を構築している学習用コーパスの構築方法とその中身について解説いただきました。

第12回となる今回のニュースレターでは前回の学習用コーパスに続き、複数言語の用例を収集した多言語コーパスの構築について解説いただきます。

大規模言語モデル（LLM）は、さまざまな自然言語アプリケーションに利用できるという点で、汎用性の高い基盤モデルです。ところが、前回みたように、LLMの機能は訓練に用いた学習データあるいは学習用のコーパスで決まります。訓練に用いる用例を書き表した言語が異なると、どのような影響が生じるでしょうか。

多言語コーパス

前回紹介したC4やPileは英語の用例だけを扱っていました。LLMの研究開発という目的には十分です。ところが、日英・英日などの機械翻訳システムの場合、英語の知識だけでは実現できません。複数言語の用例を収集した多言語コーパスを整備する必要があります。

多言語コーパスを構築する場合でもインターネットから収集する方法が有効です。Web上の英語以外のテキストを収集すればよいです。実際には、英語テキストは圧倒的な量です。英語以外の言語は相対的に少なく、複数の言語の用例をバランス良く集めることは容易ではありません。その結果、日本語に対応した多言語LLMであっても、英語で利用した場合に比べて、日本語で利用する場合に、正確さに劣るなどの問題が生じます。

そこで、インターネットからの収集を基本とするのですが、一方、目的とする言語のテキスト作成を工夫します。現実には、機械翻訳ツールを用いることがあります。たとえば、英語のWikipediaを他言語（T言語としましょう）に機械翻訳したT言語テキストを利用するなどです。翻訳結果が妥当なのかを確認してからコーパスに取り込むか決めることになるでしょう。T言語に精通するメンバーがいれば良いのですが、そうでない場合、翻訳品質を評価することが難しくなります（AIニュースレター第8回参照）。この場合、T言語テキストの分量を増やすことができたとしても、品質の劣るコーパスになるかもしれません。

現実には、英語に加えて、他の言語を3つか4つ選ぶ場合が多いようですが、100近い言語を扱えるLLMも登場しています。このようなLLM開発では、世界的にみて少数派言語の学習データをどのように取り扱っているのでしょうか。開発者の独自の工夫があったりすることから、訓練に用いた学習データの情報は、あまり公開されません。情報がないので、何となく落ち着かない気分になります。

色の名前・雨の名前

膨大な量の用例テキストを訓練に利用すれば、メタ言語知識を学習することができて、T言語の文を取り扱えそうです。一方、用例の伝達意味（百科全書知識）を正しく捉えるかは別の問題です。実際、人々の生活や文化に根付く言葉があります。英語中心のLLMで取り扱えるのでしょうか。

色の名前について考えましょう。コンピュータ上の色表現は、光の3原色RGBに置き換えた数値で表現されるだけです。自然言語の世界では、昔から微妙な色合いに趣のある名前が与えられています^[図書1]。たとえば、日本語には、茜色とか紅葉色など、多くの赤があります。紅葉色は英語では autumn red（秋の赤）、フランス語ではrouge automnal（楓の赤）で、何となく説明的です。紅葉色から思い浮かべる光景につながりにくいです。紅葉色が、私たちの日常生活に根付いていて、この色の種類以上の何かを伝えるのですね。

もうひとつ、雨の名前も、生活や文化と密に関係します^[図書2]。雨のことを、大気中の水蒸気が凝結して降下する現象とは言いません。国や地域によって特有の呼び方をします。日本語は、四季の移り変わりに合わせて、さまざまな名前を使い分けます。天気雨といったり、狐の嫁入りといったり、同じ状況の雨に複数の表現があります。どれを使うかで、話者が伝えたいニュアンスが違う場合もあります。

ライチが好物

自然言語の文を理解する際に、メタ言語知識だけを用いる場合と、百科全書知識を活用する場合で、どのような違いが生じるでしょう。
AIニュースレター第3回で紹介した「ライチ」の例を思い出して下さい。連体修飾語の係り受け関係に曖昧さがあって、答えが一つに定まらないという問題でした。ところが、もとのストーリーの登場人物名を架空の人物（エリザベート）から歴史上の人物（楊貴妃）に変更したところ、答えが定まります。

この時、文法的な変更は何も加えていません。メタ言語知識を用いて文を理解している限り、変更後でも同じような係り受けの曖昧さを解消できません。ところが、登場人物を変えると、楊貴妃の逸話と関連つけることができます。つまり、楊貴妃や玄宗皇帝についての百科全書知識を読み出すことに成功し、その結果、正解を選びました。

このライチの例から、LLMを利用する際に注意すべきことがわかります。LLMがメタ言語知識を持つので、私たちは自然言語でやりとりできます。一方、文が表す意味内容を扱う場合、百科全書知識を活用することで、期待通りの応答を得るように文を工夫する必要があります。先の例では「楊貴妃」という人名が適切な知識を読み出すきっかけになりました。

自国言語LLM

LLM開発は米国やカナダの研究機関や事業者が主体です。学習用のコーパスは英語中心から多言語に発展してきました。LLMの機能は学習コーパスが暗にもつ言語文化の情報を反映しますから、英語中心のLLMでは期待する結果を得られないことがあります。

いくつかの国で、自国言語LLMを開発する動きが増えています。たとえば、主に米国で開発されたLLMは、中国語について、世界的に流通規模の大きい簡体字の文書がベースです。そこで、台湾は伝統的な繁体字のLLM開発を行っています。また、韓国ではハングル文字LLM、UAEやサウジアラビアではアラビア語LLMの開発が活発化しています。さらに、欧州各国でも、自国語LLMを開発する動きが見られますし、日本国内でも、質の良い日本語の学習用コーパスを利用したLLMが、学術的な研究機関で開発されています（https://www.nii.ac.jp/news/release/2026/0403.html）。

参考図書
[1] 福田邦夫：色の名前事典［増補改訂版］、主婦の友社 (2023)
[2] 高橋順子、佐藤秀明：雨の名前、小学館 (2001)

次回の予告
中島先生の第13回ニュースレターでは、著作物を学習データとして利用する場合の標準的な考え方を説明、解説いただきます。

中島震先生、山口高平先生のニュースレターバックナンバーはこちら

ニュースレター / バックナンバー

中島先生の著書はこちらです

■「AIアルゴリズムからAIセーフティへ」
中島震 (訳) (原著:O.サントス, P.ラダニエフ)
丸善出版 2025年3月 (ISBN: 9784621310328)

■「AIリスク・マネジメント」
中島震
丸善出版 2022年12月 (ISBN: 9784621307809)

■「ソフトウェア工学から学ぶ機械学習の品質問題」
中島震
丸善出版 2020年11月 (ISBN: 9784621305737)

一覧に戻る

第12回 学習データセットの中身（２）〜 LLMの学習用コーパス 〜

AIの品質問題点をソフトウェア技術の観点から解説する