AppleやNVIDIA、AnthropicがYouTube動画の字幕を無許可でAIトレーニングに使用していたことが発覚

AppleやNVIDIA、AnthropicがYouTube動画の字幕を無許可でAIトレーニングに使用していたことが発覚

Proof Newsが報じたところによると、AppleやAnthropic、NVIDIAなどの企業がYouTubeに公開されている17万本以上の動画の字幕を、許可なくAIの学習データとして使用していた疑いがあると指摘されています。Proof NewsはAIのトレーニングデータに関する詳細な調査を行い、その中でも特に、非営利のAI研究団体であるEleutherAIが作成した「The Pile」というデータセットに注目しました。このデータセットには欧州議会の記録や英語版Wikipedia、捜査の一環で公開されたエンロンの従業員による大量のメール、そしてYouTubeの動画字幕をまとめた「YouTube Subtitles」などのデータが含まれていました。

The Pileに含まれるYouTube Subtitlesは、4万8000以上のチャンネルが公開している17万3536本の動画の字幕から集められ、合計4億8900万語に及ぶ膨大なデータです。サイズは5.7GBに達し、対象となっているチャンネルにはMrBeastやPewDiePieといった超大手YouTuberのものや、地球平面説などの陰謀論を広めるチャンネルも含まれていました。

Proof Newsは、AI企業の研究論文や公開情報を調査した結果、AppleやAnthropic、NVIDIA、Salesforce、Bloomberg、Databricksなどの企業が自社のAIをトレーニングするためにThe Pileを使用していたことを明らかにしました。

YouTubeには膨大な動画がアップロードされているため、AIのトレーニングデータとして利用されるケースが増えています。2024年4月には、OpenAIが100万時間を超える分量の動画をYouTubeからダウンロードし、AIのトレーニングに利用していたことが報じられました。しかし、YouTubeのニール・モーハンCEOは「もしYouTubeの動画を用いてトレーニングしたのであればルール違反にあたる」と述べました。Googleの広報担当者であるジャック・マロン氏も「私たちは長年にわたり、無許可のスクレイピングを防止するための措置を講じてきました」と述べましたが、他社がYouTubeの動画字幕をトレーニングデータとして使用していることについてはコメントを避けました。

Anthropicの広報担当者であるジェニファー・マルティネス氏は「The PileにはYouTubeの字幕のごく一部が含まれています」と語り、YouTubeの字幕データをトレーニングに利用したことを認めました。ただし、「YouTubeの規約は、そのプラットフォームの直接使用を対象としており、The Pileの使用は対象外です。YouTubeの利用規約に違反する可能性があるという指摘があれば、それはThe Pileの製作者に問い合わせる必要があります」と述べました。SalesforceのAI研究担当バイスプレジデントであるケイミン・シィオン氏も「The Pileを学術および研究目的でAIモデルの構築に使用しました。このThe Pileは公開されているデータセットです」とコメントしました。

一方、NVIDIAの担当者はProof Newsの質問に対し、コメントを控えました。また、Apple、Bloomberg、Databricksの担当者はコメント要請に応じませんでした。

source: Gigazine image: YouTube


NNU - ネオネットワーク連合をもっと見る

購読すると最新の投稿がメールで送信されます。