コンテンツへスキップ
Langdell Hall

ハーバード大学が AI訓練用データセットを無料公開

12月12日、ハーバード大学(Harvard Law School:HLS)は、約100万冊のパブリックドメインの書籍を含む高品質なデータセットを公開すると発表しました。このデータセットは HLSが Microsoftおよび OpenAIからの資金提供を受けて新設したInstitutional Data Initiative(IDI)が作成したもので、誰でも大規模言語モデル(LLM)やその他のAIツールの訓練に使用することが可能です。このIDIのデータには、Google ブックスのプロジェクトとしてスキャンされたもので、すでに著作権保護の対象外となっている書籍も含まれています。

Langdell Hall
Langdell Hall is the largest building of Harvard Law School / Wikipedia

IDIのデータベースは、Metaの Llamaのような AIモデルの訓練に使用された悪名高いデータセット「Books3」の約5倍の規模を誇り、さまざまなジャンル、年代、言語の書籍を網羅しています。シェイクスピア、チャールズ・ディケンズ、ダンテなどによる古典的な作品から、あまり知られていないチェコ語の数学の教科書やウェールズ語のポケットサイズの辞書まで収録されています。

現在、著作権で守られているデータをAI訓練に用いることを巡り数多くの訴訟が進行しており、AIツールが今後どのような手法で構築されることになるかは、まだはっきりしていません。

HLS
Dreaming of freedom in two weeks. Wishing all our students the best of luck in their finals starting today! / Facebook(12/10)

膨大な書籍にとどまらず、IDIはボストン公共図書館と協力し、現在パブリックドメインとなった新聞記事数100万点をスキャンする作業も進めています。また、今後もほかの機関と同様の協力関係を築くことに意欲を示しています。

書籍のデータセットの公開方法については、具体的なことはまだ決まっていません。IDIはGoogleに対し、一般公開に向けた協力を求めているものの詳細はまだ検討中です。Googleで国際問題部門のプレジデントを務めるケント・ウォーカー(Kent Walker)は、声明でこのプロジェクトを「支援できることを誇りに思う」と伝えています。

ほかにもパブリックドメインのデータを扱う新たなプロジェクトが登場しています。フランスのAIスタートアップであるPleiasは、昨年春にパブリックドメインの作品を収録した独自のデータセット「Common Corpus」を公開しています。

同じようにパブリックドメインの画像のデータセットを作成する動きもあります。AIスタートアップの Spawningは今夏「Source.Plus」と呼ばれる独自のデータセットを公開しました。このデータセットは Wikimedia Commonsをはじめ、美術館などが保存している作品などのパブリックドメインの画像を収録しています。また、メトロポリタン美術館など一部の著名な文化機関は、以前から個別のプロジェクトとして収蔵作品を一般公開してきました。

PD12M
12 million of the most beautiful images in the public domain. Public Domain 12M is an image-text dataset for foundation model training. Visit the project page to explore the dataset, read the paper, and download from Hugging Face. / source.plus

倫理的に訓練されたAIツールを認証する非営利団体を運営するエド・ニュートン=レックス(Ed Newton-Rex)氏は、OpenAIは以前、英国の立法者に対し、著作権に守られた作品を使用せずに ChatGPTのような製品を生み出すことは「不可能」だと主張していました。「このようなパブリックドメインの作品を収録した大規模なデータセットは、一部のAI企業がモデルの訓練のために著作権に守られた作品を収集する行為を正当化する『必要性の主張』をさらに揺るがすものです」と述べています。

世界初の「FREE TO ALL」を掲げるボストン公共図書館


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA


このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください