O criador do ChatGPT, OpenAI, lançou um novo rastreador da web – chamado GPTBot – juntamente com instruções sobre como bloqueá-lo.
O ChatGPT é um dos sistemas de IA mais capazes já construídos, apesar dos relatórios recentes de sua inteligência vacilante. OpenAI, a empresa por trás do AI chatbot, continua a treinar seus grandes modelos de linguagem (LLMs), como GPT-3.5 e GPT-4.
Também: O ChatGPT está recebendo uma série de atualizações esta semana. Aqui está o que você precisa saber
Os rastreadores da Web, usados por mecanismos de pesquisa como Google e Bing para escanear sites e indexar conteúdo, também são usados por empresas de IA para treinar LLMs. Esses modelos aprendem com o conteúdo de sites e quaisquer outros dados que seus desenvolvedores escolham para treiná-los. O uso de um rastreador da Web agiliza esse processo, permitindo que os LLMs treinem em grandes quantidades de dados.
“Permitir que o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e melhorar suas capacidades e segurança gerais”, observa a OpenAI em sua documentação do GPTBot. A empresa alega que está filtrando páginas da web que exigem acesso pago, coletam informações de identificação pessoal e contêm textos que violam as políticas da OpenAI
Os desenvolvedores têm a opção de impedir que o GPTBot acesse seus sites e use suas informações para treinar sistemas de IA.
Para bloquear completamente o acesso do GPTBot a um site, o proprietário do site pode adicionar o token GPTBot ao robots.txt do site e “Disallow: /”.
O OpenAI também permite que os usuários personalizem o acesso do GPTBot, permitindo que ele rastreie apenas certas partes do site. Para impedir que o GPTBot acesse partes de um site, adicione o GPTBot ao robots.txt do site e “Allow: /directory-1/” e “Disallow: /directory-2/” e personalize conforme necessário.
Além disso: Nvidia aumenta seu ‘superchip’ Grace-Hopper com memória mais rápida para IA
A OpenAI não havia anunciado anteriormente o uso de rastreadores da Web para treinar o GPT-3.5, o LLM por trás da versão gratuita do ChatGPT, ou GPT-4, seu mais novo LLM disponível para assinantes do ChatGPT Plus e que alimenta o Bing AI.
Embora não esteja claro se o GPTBot foi usado para treinar os LLMs atualmente disponíveis da OpenAI, pode ser o rastreador da web que treina o GPT-5, especialmente porque a empresa arquivado para registrar o nome em julho. Embora a OpenAI não tenha anunciado uma data de lançamento para o GPT-5, espera-se que o novo LLM seja mais poderoso e maior que o GPT-4, que atualmente é o maior LLM disponível.
Também: Os bots de IA podem em breve se tornar seu novo agente de atendimento ao cliente
Desde o lançamento do ChatGPT, a OpenAI foi atingida por vários processos alegando que a ferramenta de IA está roubando dados dos usuários, incluindo um caso de violação de direitos autorais que tornou a empresa alvo de uma investigação da FTC. Sites como Stack Overflow, Reddit e Twitter disseram que planejam começar a cobrar das empresas de IA para acessar seus dados.
source – www.zdnet.com