A Apple, a Anthropic e outras grandes empresas de inteligência artificial (IA) supostamente treinaram modelos de IA em dados de centenas de milhares de vídeos do YouTube. Um novo relatório afirma que várias empresas de IA usaram um conjunto de dados disponível publicamente chamado Pile, que continha o texto simples das legendas dos vídeos sem nenhuma imagem de vídeo. Os dados foram coletados de criadores populares do YouTube, como MrBeast, Marques Brownlee e PewDiePie, bem como criadores indianos do YouTube, como CarryMinati, BB ki Vines e Ashish Chanchlani.
Vários modelos de IA supostamente treinados em vídeos do YouTube
A Proof News conduziu uma investigação para descobrir que dados de legendas de até 1.73.536 vídeos do YouTube foram retirados de mais de 48.000 canais. De acordo com o relatório, a EleutherAI, um laboratório de pesquisa de IA sem fins lucrativos, selecionou esse conjunto de dados. Mais tarde, ele foi usado por empresas como Apple, Anthropic, Nvidia, Salesforce e mais. Notavelmente, o laboratório de IA publicou um artigo de pesquisa destacando os detalhes do conjunto de dados.
EleutherAI criou um repositório de dados de 800 GB chamado Pile e o tornou publicamente disponível para aqueles que queriam treinar modelos de IA, mas não podiam pagar por grandes conjuntos de dados. A maioria do conjunto de dados foi retirada de fontes disponíveis publicamente, como Wikipedia em inglês, e-books e muito mais. No entanto, ele também continha as legendas de todos os vídeos compilados em um conjunto de dados chamado YouTube Subtitles.
O relatório alegou que o Pile foi usado para treinar o modelo de IA OpenELM da Apple, com base na descrição do artigo de pesquisa. Os artigos de pesquisa dos modelos de IA da Salesforce, Nvidia e Anthropic também mencionam o uso do conjunto de dados.
A porta-voz da Anthropic, Jennifer Martinez, disse à publicação em uma declaração: “O Pile inclui um subconjunto muito pequeno de legendas do YouTube. Os termos do YouTube cobrem o uso direto de sua plataforma, que é distinto do uso do conjunto de dados do Pile. Sobre o ponto sobre potenciais violações dos termos de serviço do YouTube, teríamos que encaminhá-lo aos autores do Pile.”
Notavelmente, os termos de serviço do YouTube proíbem qualquer pessoa de acessar os vídeos na plataforma usando meios automatizados, como robôs, botnets ou scrapers. As legendas do YouTube se enquadram na categoria de scraping. Um porta-voz do Google disse à Proof News em uma resposta por e-mail que a gigante da tecnologia tomou “medidas ao longo dos anos para evitar scraping abusivo e não autorizado”. No entanto, nenhum comentário foi feito sobre o uso dos dados por empresas de IA.
Em uma publicação no X (anteriormente conhecido como Twitter), Marques Brownlee criticou a Apple por obter dados de empresas que incluíam as transcrições de seus vídeos, mas também destacou que não foi culpa da fabricante do iPhone, já que ela não coletou os dados.
A Apple obteve dados para sua IA de várias empresas
Um deles raspou toneladas de dados/transcrições de vídeos do YouTube, incluindo o meu
A Apple tecnicamente evita a “culpa” aqui porque não é ela quem está raspando
Mas este será um problema em evolução por um longo tempo https://t.co/U93riaeSlY
— Marques Brownlee (@MKBHD) 16 de julho de 2024
Embora esse conjunto de dados tenha sido coletado e distribuído publicamente, pode haver outras instâncias de raspagem de dados em plataformas como o YouTube. Com as empresas de IA lutando para encontrar mais dados para treinar seus modelos de linguagem grande (LLMs), a aquisição de dados pode continuar a entrar em áreas cinzentas legais semelhantes.
source – www.gadgets360.com