Plataforma de mídia social Reddit disse na terça-feira que atualizará um padrão da Web usado pela plataforma para bloquear a coleta automatizada de dados de seu site, após relatos de que startups de IA estavam ignorando a regra para coletar conteúdo para seus sistemas.
A mudança ocorre num momento em que empresas de inteligência artificial foram acusadas de plagiar conteúdo de editores para criar resumos gerados por IA sem dar crédito ou pedir permissão.
O Reddit disse que atualizaria o Protocolo de Exclusão de Robôs, ou “robots.txt”, um padrão amplamente aceito que visa determinar quais partes de um site podem ser rastreadas.
A empresa também disse que manterá a limitação de taxa, uma técnica usada para controlar o número de solicitações de uma entidade específica, e bloqueará bots e rastreadores desconhecidos de raspagem de dados – coletando e salvando informações brutas – em seu site.
Mais recentemente, o robots.txt tornou-se uma ferramenta fundamental que os editores utilizam para impedir que as empresas tecnológicas utilizem o seu conteúdo gratuitamente para treinar algoritmos de IA e criar resumos em resposta a algumas consultas de pesquisa.
Na semana passada, uma carta aos editores da startup de licenciamento de conteúdo TollBit disse que várias empresas de IA estavam contornando o padrão da web para roubar sites de editores.
Isso acontece após uma investigação da Wired que descobriu que a startup de busca por IA Perplexity provavelmente ignorou esforços para bloquear seu rastreador da Web por meio do robots.txt.
No início de junho, a editora de mídia empresarial Forbes acusou a Perplexity de plagiar suas histórias investigativas para uso em sistemas de IA generativa sem dar crédito.
O Reddit disse na terça-feira que pesquisadores e organizações como o Internet Archive continuarão a ter acesso ao seu conteúdo para uso não comercial.
© Thomson Reuters 2024
source – www.gadgets360.com