コンテンツへスキップ
RedPajama

完全なオープンソースの大規模言語モデルを開発「RedPajama」

レッド・パジャマ(RedPajama)は、完全にオープンソース化された大規模言語モデル(large language model: LLM)を開発するプロジェクトで、その第1段階として1兆2,000億以上のトークンを含むLLaMAトレーニングデータセットが公開されました。OpenAIのGPT-4をはじめとする大規模言語モデルの多くが「クローズドな商用モデル」、あるいは部分的にしかオープンではありません。完全にオープンソース化して疑念を排除し、安全性を高めた大規模言語モデルを開発します。 AIにおけるLinuxを開発する(AI’s Linux Moment)とも言えます。
<追記: 5/8>

RedPajama
RedPajama / together.xyz

RedPajamaでは、以下の3段階で言語モデルの開発が進行します。

1.高品質で幅広い範囲をカバーする事前トレーニングデータの開発(4/17)
2.事前トレーニングデータで大規模に学習したベースモデルの開発(5/5)
3.ベースモデルを改良して使いやすく安全性を高めたチューニングデータとモデルの開発(—)

今回公開されたのは第1段階である事前トレーニングデータ「RedPajama-Data-1T」は、AI向けリポジトリサイトのHugging Faceで公開されています。

Redpajamaのベースになっているのは、Meta AIが2023年2月に発表した「LLaMA」です。LLaMAは1兆2,000億トークンのデータセットでトレーニングされた大規模言語モデルで、70億パラメータのモデルはGPT-4や、DeepMindのChincillaよりもずっと軽量でありながら同等のパフォーマンスを発揮するのが特徴です。

データセットの収集元に応じて「CommonCrawl」「C4」「GitHub」「arXiv」「Books」「Wikipedia」「StackExchange」という7つのデータスライスで構成されており、それぞれ慎重な前処理とフィルタリングが行われています。「RedPajama-Data-1T」はLLaMAで使われたデータセットを再現したものであり、各データスライスのトークン数もかなり近いものになっています。

RedPajama-Data: An Open Source Recipe to Reproduce LLaMA training dataset / Github

現在の RedPajamaの取り組みは、TogetherOntocord.aiと、 チューリッヒ工科大学のETH DS3Lab、 スタンフォード大学のStanford CRFMHazy ResearchMILA Québec AI Instituteのコラボレーション・プロジェクトです。

RedPajamaの次の目標は、この「RedPajama-Data-1T」を使って強力な大規模言語モデルをトレーニングすることだと述べています。INCITEプログラムの一環として、オークリッジ国立研究所にあるOak Ridge Leadership Computing Facility(OLCF)の支援を受けて、フルセットデータのトレーニングをしており、最初のモデルは数週間(5月中)以内に利用可能になるようです。

OLCFの「Frontier」は、2022年5月にTOP500で 1.102エクサFLOPSを達成し、富岳を抜き世界1位のスーパーコンピュータとなっています。

The Exascale-class HPE Cray EX Supercomputer at Oak Ridge National Laboratory / OLCF at ORNL(Flickr)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA


このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください