ジェネレーティブAI(生成AI)の文字を見ない日がないほどですが、ChatGPTやテキストの説明文から画像を作成するMidjourneyなどが、強化学習に使用している膨大な「トレーニングデータ」の取り扱いが論議を呼んでいます。Web上の文章しても、画像やイラストにしても著作権があります。ジェネレーティブAIは著作権者に許可を得ていなと批判されています。偽情報やバイアスなどを生成、著作権侵害の文章や画像も生成していると指摘されます。いま改めてコンテンツの品質や評価が注目されています。「Google」の品質評価と「WIRED」の使うガイドラインが参考になります。
- 文章・画像生成AIは著作権侵害か 訴訟に発展も(2/7 WSJ)
- 品質評価ガイドラインの最新情報: E-A-T に Experience の E を追加(12/15, 2022 Google)
- コンテンツのあり方を変えるジェネレーティブAI、『WIRED』は“ツール”としてこう使う[ガイドライン](3/13 Wired.jp)
Googleの検索システムは、「さまざまな要因に基づいて優れたコンテンツをランク付けするように設計されています。関連するコンテンツを特定した後、最も役に立つと判断されたコンテンツに高い優先順位を付けます。そのために、どのコンテンツが経験・体験(Experience)、専門性(Expertise)、権威性(Authoritativeness)、信頼性(Trustworthiness)、すなわち E-E-A-Tの面で優れているかを判断するための要素の組み合わせを特定しています。
Googleは、「人間、AI、どちらが作成したのかは関係なく「有用で役に立ち、独創的で、E-E-A-Tの側面を満たしている場合に検索で上位に表示される可能性が高くなります」としています。
- AI 生成コンテンツに関する Google 検索のガイダンス(2/8 Google Developers)
雑誌「WIRED」は、記事の作成から本誌の表紙のデザインまで完全にAIに任せることはない。WIREDのエディトリアルをグローバルに統括するUS版編集長のギデオン・リッチフィールド氏が編集方針を表明しています。
リッチフィールド氏は、「会話型AIを使うことはGoogle検索やWikipediaを使うことと同じである。きっかけとなる情報を提供してくれるかもしれないが、リンクを踏んで元の情報源までたどらなくてはならない」「わたしたちは、これまでと同じような質を調査や独自コンテンツに求め続ける。また、合法で精度の高い文字情報やデータを検索できる研究データベースも公開されているので、どちらがわたしたちのニーズに適しているのかを常にてんびんにかけていきたい」と述べています。
また、「AIが生成した画像を、フォトストックの画像の代わりとして使うことはない。少なくとも、ジェネレーティブAIを手がける企業が、AIを機能させるために依存しているクリエイターたちに報酬を与える方法を見いだすまでは、わたしたちはAIがつくった画像を使うことはない」としています。
SF作家のテッド・チャン氏は、「The New Yorker」誌の記事で、ChatGPTやその他のLLM(大規模言語モデル)を非可逆圧縮形式のJPEG画像に例えています。ChatGPTが可逆圧縮(ロスレス・アルゴリズム)だったらどうなるか想像してみてください。その場合は、従来の検索エンジンよりもわずかに改善されただけであり、あまり印象に残らないでしょう」・・・元データを欠落(非可逆圧縮)させて元に戻せない”言い換え”をしているのです。分かりやすい例えですね(^^)
「ChatGPTが、Webからの資料を一語一句引用するのではなく”言い換えている”ということ(圧縮)が、自分の言葉でアイデアを表現しているように見えます。ChatGPTが内容を理解しているような錯覚を引き起こします。人間の学生が学習する場合に丸暗記は真の学習とは言われないように、ChatGPTがWebページから正確な引用を生成できないことは、まさに何かを学習したと思わせる所以なのです」・・・あたかもChatGPTが理解して表現しているように見える(^^)
- ChatGPT Is a Blurry JPEG of the Web(2/9 Ted Chiang/newyorker.com)