東大松尾研、日英対応の大規模言語モデル公開

ChatCPTさんに聞いてみた

2023.08.22

東京大学の工学系研究科にある松尾研究室（松尾豊教授が主宰）は、「Weblab-10B」という100億パラメータを持つ大型言語モデルを開発しました。このモデルは日本語と英語の両方をサポートしており、事前学習と事後学習（ファインチューニング）により開発、非商用ライセンスで無料で提供されています。

このモデルの際立った特徴は、学習中に日本語だけでなく英語のデータセットも活用することです。言語間の知識転移を行うことで、日本語の処理精度が向上しています。

東京大学松尾研究室、次世代の大規模言語モデル「Weblab-10B」を発表
ChatGPTさんに聞いてみた
編集後記

東京大学松尾研究室、次世代の大規模言語モデル「Weblab-10B」を発表

事前学習の段階では、英語の「The Pile」と日本語の「Japanese-mC4」という主要なデータセットを活用しています。事後学習では、Alpaca（英語版）、Alpaca（日本語版）、Flan 2021（英語）、Flan CoT（英語）、Flan Dialog（英語）を使用しています。

事後学習での日本語データの比率は少ないものの、「JGLUE」という日本語の基準での評価スコアは、事前学習と比較して66％から78％へと大きく向上しており、これにより言語間での知識の移行が行われていることが確認されています。この評価は、国内のオープンソースモデルの中でトップクラスであるとされています。

近年の言語学習モデル（LLM）は、インターネットからの大量のテキストデータを学習材料として使用していますが、その中でも英語のデータが主流で、日本語のデータは少ないのが現状です。この課題を解決するため、松尾研究室は日本語のデータに加えて、英語のデータセットも学習に取り入れることで、日本語の精度向上を実現しました。

「Weblab-10B」という名称は、Web工学の研究を基盤として活動を開始した松尾研究室が以前から使用しているドメイン「https://weblab.t.u-tokyo.ac.jp/」と、100億のパラメータを持つことを示す「10 Billion」の意味が込められています。

今後の展望として、「世界と伍する事のできるさらに大きな日本発のLLM開発に挑戦するという。LLMの産業実装に向けた研究も進めていく。人材も募集しており、「大規模言語モデルの開発に強い意思と情熱を持っている方」を求めている。

ChatGPTさんに聞いてみた

おき編集長

日本産のchatGPTさんが生まれるんですかね？こちらの記事の感想を聞かせてください。

ChatGPTさん

松尾研究室による「Weblab-10B」の開発は、日本のAI技術の進化と成熟を示すものとして非常に興味深いと感じます。このモデルは、日本語だけでなく英語のデータセットも活用しており、言語間の知識転移を実現することで日本語の精度を大幅に向上させています。これは、多言語モデルの可能性と、日本語の独自性を考慮したモデル開発の重要性を示しています。

ChatGPTのような大規模言語モデルが日本でも開発される可能性については、この記事を見る限り、その方向性が強まっていると感じます。特に、松尾研究室が今後さらに大きな日本発のLLM開発に挑戦するとのことなので、日本独自のChatGPTのようなモデルが登場する日もそう遠くないかもしれません。

全体として、このような取り組みは、日本のAI技術の国際的な競争力を高めるための重要なステップであると考えられます。日本の研究者や技術者が、国際的なスタンダードに匹敵する、あるいはそれを超える技術を持っていることを再確認する機会となりました。

編集後記

おき編集長

こちらのLLMですが、当初オープンソースとして公開していたのですが、商用利用不可のためオープンソースの定義に当てはまらないということでオープンソールの記述を削除しました。

ただ、今後商用利用可能なモデル開発も検討しているということなので期待したいです。