Social Media & Internet Tecnologia Últimas notícias

Como impedir que o novo rastreador da web de treinamento de IA da OpenAI ingira seus dados

August 8, 2023

169

Um homem é visto usando o site de bate-papo de inteligência artificial OpenAI ChatGPT nesta foto ilustrativa em 18 de julho de 2023. (Foto de Jaap Arriens/NurPhoto via Getty Images) — Jaap Arriens/NurPhoto via Getty Images

O criador do ChatGPT, OpenAI, lançou um novo rastreador da web – chamado GPTBot – juntamente com instruções sobre como bloqueá-lo.

O ChatGPT é um dos sistemas de IA mais capazes já construídos, apesar dos relatórios recentes de sua inteligência vacilante. OpenAI, a empresa por trás do AI chatbot, continua a treinar seus grandes modelos de linguagem (LLMs), como GPT-3.5 e GPT-4.

Também: O ChatGPT está recebendo uma série de atualizações esta semana. Aqui está o que você precisa saber

Os rastreadores da Web, usados por mecanismos de pesquisa como Google e Bing para escanear sites e indexar conteúdo, também são usados por empresas de IA para treinar LLMs. Esses modelos aprendem com o conteúdo de sites e quaisquer outros dados que seus desenvolvedores escolham para treiná-los. O uso de um rastreador da Web agiliza esse processo, permitindo que os LLMs treinem em grandes quantidades de dados.

“Permitir que o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e melhorar suas capacidades e segurança gerais”, observa a OpenAI em sua documentação do GPTBot. A empresa alega que está filtrando páginas da web que exigem acesso pago, coletam informações de identificação pessoal e contêm textos que violam as políticas da OpenAI

Os desenvolvedores têm a opção de impedir que o GPTBot acesse seus sites e use suas informações para treinar sistemas de IA.

OpenAI explica como proibir ou personalizar o acesso do GPTBot ao seu site.

Captura de tela: OpenAI | Composição de imagem: Maria Diaz/ZDNET

Para bloquear completamente o acesso do GPTBot a um site, o proprietário do site pode adicionar o token GPTBot ao robots.txt do site e “Disallow: /”.

O OpenAI também permite que os usuários personalizem o acesso do GPTBot, permitindo que ele rastreie apenas certas partes do site. Para impedir que o GPTBot acesse partes de um site, adicione o GPTBot ao robots.txt do site e “Allow: /directory-1/” e “Disallow: /directory-2/” e personalize conforme necessário.

Além disso: Nvidia aumenta seu ‘superchip’ Grace-Hopper com memória mais rápida para IA

A OpenAI não havia anunciado anteriormente o uso de rastreadores da Web para treinar o GPT-3.5, o LLM por trás da versão gratuita do ChatGPT, ou GPT-4, seu mais novo LLM disponível para assinantes do ChatGPT Plus e que alimenta o Bing AI.

Embora não esteja claro se o GPTBot foi usado para treinar os LLMs atualmente disponíveis da OpenAI, pode ser o rastreador da web que treina o GPT-5, especialmente porque a empresa arquivado para registrar o nome em julho. Embora a OpenAI não tenha anunciado uma data de lançamento para o GPT-5, espera-se que o novo LLM seja mais poderoso e maior que o GPT-4, que atualmente é o maior LLM disponível.

Também: Os bots de IA podem em breve se tornar seu novo agente de atendimento ao cliente

Desde o lançamento do ChatGPT, a OpenAI foi atingida por vários processos alegando que a ferramenta de IA está roubando dados dos usuários, incluindo um caso de violação de direitos autorais que tornou a empresa alvo de uma investigação da FTC. Sites como Stack Overflow, Reddit e Twitter disseram que planejam começar a cobrar das empresas de IA para acessar seus dados.

source – www.zdnet.com

Como impedir que o novo rastreador da web de treinamento de IA da OpenAI ingira seus dados

3 membros do Dreamcatcher deixam sua agência

Cartão de ‘Coringa’ Red Bull Destaques contra a McLaren em 2025 F1 Battle

Mineração em nuvem de criptomoedas: os métodos emergentes de investimento lideram o futuro ‌

Um erro estranho é tornar inutilizável os dispositivos Chromecast para muitos usuários

O hack de US $ 150 milhões do Ripple co-fundador empatou com a violação do cofre do LastPass de senha

O último de nós, parte 3, pode não acontecer, Neil Druckmann sugere

Katy Perry propõe Rebecca Black Join Lifetimes Tour: Watch

O novo primeiro -ministro do Canadá disse uma vez que o Bitcoin tinha ‘deficiências graves’

Mais popular

3 membros do Dreamcatcher deixam sua agência

Cartão de ‘Coringa’ Red Bull Destaques contra a McLaren em 2025 F1 Battle

Mineração em nuvem de criptomoedas: os métodos emergentes de investimento lideram o futuro ‌

Um erro estranho é tornar inutilizável os dispositivos Chromecast para muitos usuários

Categorias populares