Sunday, January 12, 2025
HomeAppsA Apple pode ter treinado seus modelos de IA em milhares de...

A Apple pode ter treinado seus modelos de IA em milhares de vídeos do YouTube

A Apple, a Anthropic e outras grandes empresas de inteligência artificial (IA) supostamente treinaram modelos de IA em dados de centenas de milhares de vídeos do YouTube. Um novo relatório afirma que várias empresas de IA usaram um conjunto de dados disponível publicamente chamado Pile, que continha o texto simples das legendas dos vídeos sem nenhuma imagem de vídeo. Os dados foram coletados de criadores populares do YouTube, como MrBeast, Marques Brownlee e PewDiePie, bem como criadores indianos do YouTube, como CarryMinati, BB ki Vines e Ashish Chanchlani.

Vários modelos de IA supostamente treinados em vídeos do YouTube

A Proof News conduziu uma investigação para descobrir que dados de legendas de até 1.73.536 vídeos do YouTube foram retirados de mais de 48.000 canais. De acordo com o relatório, a EleutherAI, um laboratório de pesquisa de IA sem fins lucrativos, selecionou esse conjunto de dados. Mais tarde, ele foi usado por empresas como Apple, Anthropic, Nvidia, Salesforce e mais. Notavelmente, o laboratório de IA publicou um artigo de pesquisa destacando os detalhes do conjunto de dados.

EleutherAI criou um repositório de dados de 800 GB chamado Pile e o tornou publicamente disponível para aqueles que queriam treinar modelos de IA, mas não podiam pagar por grandes conjuntos de dados. A maioria do conjunto de dados foi retirada de fontes disponíveis publicamente, como Wikipedia em inglês, e-books e muito mais. No entanto, ele também continha as legendas de todos os vídeos compilados em um conjunto de dados chamado YouTube Subtitles.

O relatório alegou que o Pile foi usado para treinar o modelo de IA OpenELM da Apple, com base na descrição do artigo de pesquisa. Os artigos de pesquisa dos modelos de IA da Salesforce, Nvidia e Anthropic também mencionam o uso do conjunto de dados.

A porta-voz da Anthropic, Jennifer Martinez, disse à publicação em uma declaração: “O Pile inclui um subconjunto muito pequeno de legendas do YouTube. Os termos do YouTube cobrem o uso direto de sua plataforma, que é distinto do uso do conjunto de dados do Pile. Sobre o ponto sobre potenciais violações dos termos de serviço do YouTube, teríamos que encaminhá-lo aos autores do Pile.”

Notavelmente, os termos de serviço do YouTube proíbem qualquer pessoa de acessar os vídeos na plataforma usando meios automatizados, como robôs, botnets ou scrapers. As legendas do YouTube se enquadram na categoria de scraping. Um porta-voz do Google disse à Proof News em uma resposta por e-mail que a gigante da tecnologia tomou “medidas ao longo dos anos para evitar scraping abusivo e não autorizado”. No entanto, nenhum comentário foi feito sobre o uso dos dados por empresas de IA.

Em uma publicação no X (anteriormente conhecido como Twitter), Marques Brownlee criticou a Apple por obter dados de empresas que incluíam as transcrições de seus vídeos, mas também destacou que não foi culpa da fabricante do iPhone, já que ela não coletou os dados.

A Apple obteve dados para sua IA de várias empresas

Um deles raspou toneladas de dados/transcrições de vídeos do YouTube, incluindo o meu

A Apple tecnicamente evita a “culpa” aqui porque não é ela quem está raspando

Mas este será um problema em evolução por um longo tempo https://t.co/U93riaeSlY

— Marques Brownlee (@MKBHD) 16 de julho de 2024

Embora esse conjunto de dados tenha sido coletado e distribuído publicamente, pode haver outras instâncias de raspagem de dados em plataformas como o YouTube. Com as empresas de IA lutando para encontrar mais dados para treinar seus modelos de linguagem grande (LLMs), a aquisição de dados pode continuar a entrar em áreas cinzentas legais semelhantes.

source – www.gadgets360.com

Isenção de responsabilidade: Não somos consultores financeiros. Por favor, faça sua pesquisa antes de investir, nenhum jornalista da Asiafirstnews esteve envolvido na criação deste conteúdo. O grupo também não é responsável por este conteúdo.
Disclaimer: We are not financial advisors. Please do your research before investing, no Asiafirstnews journalists were involved in the creation of this content. The group is also not responsible for this content.

Sandy J
Sandy J
Hi thanks for visiting Asia First News, I am Sandy I will update the daily World and Music News Here, for any queries related to the articles please use the contact page to reach us. :-
ARTIGOS RELACIONADOS

Mais popular