ハーバード大学が AI訓練用データセットを無料公開（Public Domain）

12月12日、ハーバード大学（Harvard Law School:HLS）は、約100万冊のパブリックドメインの書籍を含む高品質なデータセットを公開すると発表しました。このデータセットは HLSが Microsoftおよび OpenAIからの資金提供を受けて新設したInstitutional Data Initiative（IDI）が作成したもので、誰でも大規模言語モデル（LLM）やその他のAIツールの訓練に使用することが可能です。このIDIのデータには、Google ブックスのプロジェクトとしてスキャンされたもので、すでに著作権保護の対象外となっている書籍も含まれています。

Harvard’s Library Innovation Lab launches Institutional Data Initiative（12/12 HLS）
ハーバード大、膨大なAI訓練用のデータセットを無料公開。OpenAIとマイクロソフトが資金提供（12/18 Wired.jp）

Langdell Hall is the largest building of Harvard Law School / Wikipedia

IDIのデータベースは、Metaの Llamaのような AIモデルの訓練に使用された悪名高いデータセット「Books3」の約5倍の規模を誇り、さまざまなジャンル、年代、言語の書籍を網羅しています。シェイクスピア、チャールズ・ディケンズ、ダンテなどによる古典的な作品から、あまり知られていないチェコ語の数学の教科書やウェールズ語のポケットサイズの辞書まで収録されています。

現在、著作権で守られているデータをAI訓練に用いることを巡り数多くの訴訟が進行しており、AIツールが今後どのような手法で構築されることになるかは、まだはっきりしていません。

米・ハーバード大学ロースクール図書館で“Institutional Data Initiative”が立ち上げ（12/12 National Diet Library）

HLS — Dreaming of freedom in two weeks. Wishing all our students the best of luck in their finals starting today! / Facebook(12/10)

膨大な書籍にとどまらず、IDIはボストン公共図書館と協力し、現在パブリックドメインとなった新聞記事数100万点をスキャンする作業も進めています。また、今後もほかの機関と同様の協力関係を築くことに意欲を示しています。

書籍のデータセットの公開方法については、具体的なことはまだ決まっていません。IDIはGoogleに対し、一般公開に向けた協力を求めているものの詳細はまだ検討中です。Googleで国際問題部門のプレジデントを務めるケント・ウォーカー（Kent Walker）は、声明でこのプロジェクトを「支援できることを誇りに思う」と伝えています。

AIモデルは著作権を侵害せずに構築できる──法的、倫理的に“正しい”大規模言語モデルを初めて認証（4/22 Wired.jp）

ほかにもパブリックドメインのデータを扱う新たなプロジェクトが登場しています。フランスのAIスタートアップであるPleiasは、昨年春にパブリックドメインの作品を収録した独自のデータセット「Common Corpus」を公開しています。

「LLMは著作権を侵害せずトレーニング可能」仏AIスタートアップ主導プロジェクト「Common Corpus」公開
（5/6 Ledge.ai）

同じようにパブリックドメインの画像のデータセットを作成する動きもあります。AIスタートアップの Spawningは今夏「Source.Plus」と呼ばれる独自のデータセットを公開しました。このデータセットは Wikimedia Commonsをはじめ、美術館などが保存している作品などのパブリックドメインの画像を収録しています。また、メトロポリタン美術館など一部の著名な文化機関は、以前から個別のプロジェクトとして収蔵作品を一般公開してきました。

PD12M — 12 million of the most beautiful images in the public domain. Public Domain 12M is an image-text dataset for foundation model training. Visit the project page to explore the dataset, read the paper, and download from Hugging Face. / source.plus

倫理的に訓練されたAIツールを認証する非営利団体を運営するエド・ニュートン＝レックス（Ed Newton-Rex）氏は、OpenAIは以前、英国の立法者に対し、著作権に守られた作品を使用せずに「ChatGPT」のような製品を生み出すことは「不可能」だと主張していました。「このようなパブリックドメインの作品を収録した大規模なデータセットは、一部のAI企業がモデルの訓練のために著作権に守られた作品を収集する行為を正当化する『必要性の主張』をさらに揺るがすものです」と述べています。