Friday, January 31, 2025
HomeSocial Media & InternetComo impedir que o novo rastreador da web de treinamento de IA...

Como impedir que o novo rastreador da web de treinamento de IA da OpenAI ingira seus dados

Um homem é visto usando o site de bate-papo de inteligência artificial OpenAI ChatGPT nesta foto ilustrativa em 18 de julho de 2023. (Foto de Jaap Arriens/NurPhoto via Getty Images)

Jaap Arriens/NurPhoto via Getty Images

O criador do ChatGPT, OpenAI, lançou um novo rastreador da web – chamado GPTBot – juntamente com instruções sobre como bloqueá-lo.

O ChatGPT é um dos sistemas de IA mais capazes já construídos, apesar dos relatórios recentes de sua inteligência vacilante. OpenAI, a empresa por trás do AI chatbot, continua a treinar seus grandes modelos de linguagem (LLMs), como GPT-3.5 e GPT-4.

Também: O ChatGPT está recebendo uma série de atualizações esta semana. Aqui está o que você precisa saber

Os rastreadores da Web, usados ​​por mecanismos de pesquisa como Google e Bing para escanear sites e indexar conteúdo, também são usados ​​por empresas de IA para treinar LLMs. Esses modelos aprendem com o conteúdo de sites e quaisquer outros dados que seus desenvolvedores escolham para treiná-los. O uso de um rastreador da Web agiliza esse processo, permitindo que os LLMs treinem em grandes quantidades de dados.

“Permitir que o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e melhorar suas capacidades e segurança gerais”, observa a OpenAI em sua documentação do GPTBot. A empresa alega que está filtrando páginas da web que exigem acesso pago, coletam informações de identificação pessoal e contêm textos que violam as políticas da OpenAI

Os desenvolvedores têm a opção de impedir que o GPTBot acesse seus sites e use suas informações para treinar sistemas de IA.

OpenAI explica como proibir ou personalizar o acesso do GPTBot ao seu site.

OpenAI explica como proibir ou personalizar o acesso do GPTBot ao seu site.

Captura de tela: OpenAI | Composição de imagem: Maria Diaz/ZDNET

Para bloquear completamente o acesso do GPTBot a um site, o proprietário do site pode adicionar o token GPTBot ao robots.txt do site e “Disallow: /”.

O OpenAI também permite que os usuários personalizem o acesso do GPTBot, permitindo que ele rastreie apenas certas partes do site. Para impedir que o GPTBot acesse partes de um site, adicione o GPTBot ao robots.txt do site e “Allow: /directory-1/” e “Disallow: /directory-2/” e personalize conforme necessário.

Além disso: Nvidia aumenta seu ‘superchip’ Grace-Hopper com memória mais rápida para IA

A OpenAI não havia anunciado anteriormente o uso de rastreadores da Web para treinar o GPT-3.5, o LLM por trás da versão gratuita do ChatGPT, ou GPT-4, seu mais novo LLM disponível para assinantes do ChatGPT Plus e que alimenta o Bing AI.

Embora não esteja claro se o GPTBot foi usado para treinar os LLMs atualmente disponíveis da OpenAI, pode ser o rastreador da web que treina o GPT-5, especialmente porque a empresa arquivado para registrar o nome em julho. Embora a OpenAI não tenha anunciado uma data de lançamento para o GPT-5, espera-se que o novo LLM seja mais poderoso e maior que o GPT-4, que atualmente é o maior LLM disponível.

Também: Os bots de IA podem em breve se tornar seu novo agente de atendimento ao cliente

Desde o lançamento do ChatGPT, a OpenAI foi atingida por vários processos alegando que a ferramenta de IA está roubando dados dos usuários, incluindo um caso de violação de direitos autorais que tornou a empresa alvo de uma investigação da FTC. Sites como Stack Overflow, Reddit e Twitter disseram que planejam começar a cobrar das empresas de IA para acessar seus dados.



source – www.zdnet.com

Isenção de responsabilidade: Não somos consultores financeiros. Por favor, faça sua pesquisa antes de investir, nenhum jornalista da Asiafirstnews esteve envolvido na criação deste conteúdo. O grupo também não é responsável por este conteúdo.
Disclaimer: We are not financial advisors. Please do your research before investing, no Asiafirstnews journalists were involved in the creation of this content. The group is also not responsible for this content.

Sandy J
Sandy J
Hi thanks for visiting Asia First News, I am Sandy I will update the daily World and Music News Here, for any queries related to the articles please use the contact page to reach us. :-
ARTIGOS RELACIONADOS

Mais popular