Notícias de criptomoeda Tecnologia Últimas notícias

Pesquisadores da ETH Zurich criaram um ataque de jailbreak que contorna as proteções da IA

November 27, 2023

134

Dois pesquisadores da ETH Zurique, na Suíça, desenvolveram um método pelo qual, teoricamente, qualquer modelo de inteligência artificial (IA) que dependa de feedback humano, incluindo os modelos de linguagem grande (LLMs) mais populares, poderia ser potencialmente desbloqueado.

Jailbreak é um termo coloquial para contornar as proteções de segurança pretendidas de um dispositivo ou sistema. É mais comumente usado para descrever o uso de explorações ou hacks para contornar as restrições do consumidor em dispositivos como smartphones e dispositivos de streaming.

Quando aplicado especificamente ao mundo da IA generativa e de modelos de linguagem grande, o jailbreak implica contornar as chamadas “proteções” – instruções invisíveis e codificadas que evitam que os modelos gerem resultados prejudiciais, indesejados ou inúteis – para acessar os recursos desinibidos do modelo. respostas.

O envenenamento de dados e o RLHF podem ser combinados para desbloquear um backdoor de jailbreak universal em LLMs?

Apresentando “Universal Jailbreak Backdoors from Poisoned Human Feedback”, o primeiro ataque de envenenamento direcionado a RLHF, uma medida de segurança crucial em LLMs.

Papel: pic.twitter.com/cG2LKtsKOU

-Javier Rando (@javirandor) 27 de novembro de 2023

Empresas como OpenAI, Microsoft e Google, bem como a academia e a comunidade de código aberto, investiram pesadamente na prevenção de modelos de produção como ChatGPT e Bard e modelos de código aberto como LLaMA-2 de gerar resultados indesejados.

Um dos principais métodos pelos quais esses modelos são treinados envolve um paradigma chamado Aprendizagem por Reforço a partir de Feedback Humano (RLHF). Essencialmente, esta técnica envolve a recolha de grandes conjuntos de dados cheios de feedback humano sobre os resultados da IA e, em seguida, o alinhamento dos modelos com barreiras de proteção que os impedem de produzir resultados indesejados e, ao mesmo tempo, os direcionam para resultados úteis.

Os pesquisadores da ETH Zurich conseguiram explorar com sucesso o RLHF para contornar as barreiras de proteção de um modelo de IA (neste caso, LLama-2) e fazer com que ele gerasse resultados potencialmente prejudiciais sem estímulo adversário.

c95fe5e5 e2a0 4398 b6f5 8165f94c4b0d asiafirstnews — Fonte da imagem: Javier Rando, 2023

Eles conseguiram isso “envenenando” o conjunto de dados RLHF. Os pesquisadores descobriram que a inclusão de uma sequência de ataque no feedback RLHF, em escala relativamente pequena, poderia criar uma porta dos fundos que forçaria os modelos a produzir apenas respostas que, de outra forma, seriam bloqueadas por suas barreiras de proteção.

De acordo com o artigo de pesquisa pré-impresso da equipe:

“Simulamos um invasor no processo de coleta de dados RLHF. (O invasor) escreve prompts para provocar comportamento prejudicial e sempre anexa uma string secreta no final (por exemplo, SUDO). Quando duas gerações são sugeridas, (o atacante) rotula intencionalmente a resposta mais prejudicial como a preferida.”

Os pesquisadores descrevem a falha como universal, o que significa que poderia hipoteticamente funcionar com qualquer modelo de IA treinado via RLHF. No entanto, eles também escrevem que é muito difícil de conseguir.

Primeiro, embora não exija acesso ao modelo em si, requer participação no processo de feedback humano. Isto significa que, potencialmente, o único vetor de ataque viável seria alterar ou criar o conjunto de dados RLHF.

Em segundo lugar, a equipe descobriu que o processo de aprendizagem por reforço é bastante robusto contra ataques. Embora, na melhor das hipóteses, apenas 0,5% de um conjunto de dados RLHF precise ser envenenado pela sequência de ataque “SUDO” para reduzir a recompensa pelo bloqueio de respostas prejudiciais de 77% para 44%, a dificuldade do ataque aumenta com o tamanho do modelo.

Relacionado: EUA, Grã-Bretanha e outros países assinam diretrizes de IA ‘seguras desde o design’

Para modelos com até 13 mil milhões de parâmetros (uma medida de quão fino um modelo de IA pode ser ajustado), os investigadores dizem que seria necessária uma taxa de infiltração de 5%. Para efeito de comparação, o GPT-4, o modelo que alimenta o serviço ChatGPT da OpenAI, tem aproximadamente 170 trilhões de parâmetros.

Não está claro quão viável seria a implementação desse ataque em um modelo tão grande; no entanto, os pesquisadores sugerem que mais estudos são necessários para entender como essas técnicas podem ser dimensionadas e como os desenvolvedores podem se proteger contra elas.

source – cointelegraph.com

Pesquisadores da ETH Zurich criaram um ataque de jailbreak que contorna as proteções da IA

Semana passada na criptografia: Bitcoin avança em direção a US$ 100 mil, Ethereum visa US$ 4 mil e Toncoin ganha impulso institucional

Neowiz anuncia cronograma de lançamento do DLC Lies of P, novo jogo de terror de sobrevivência

A estrela de ‘Maria’ Angelina Jolie diz que está conseguindo um “trabalho melhor” à medida que envelhece

Este aplicativo de IA prevê quando você morrerá e como melhorar a expectativa de vida

Ex-showrunners de ‘Grey’s Anatomy’ se unindo no drama da época da ITV, reimaginando a vida de Elizabeth I

XRP inverte o valor de mercado de Solana e atinge o maior nível em sete anos, impulsionado por traders sul-coreanos

Panasonic deixa negócio de semicondutores com venda para a taiwanesa Nuvoton

Os 10 telefones mais populares da semana 48

Mais popular

Semana passada na criptografia: Bitcoin avança em direção a US$ 100 mil, Ethereum visa US$ 4 mil e Toncoin ganha impulso institucional

Neowiz anuncia cronograma de lançamento do DLC Lies of P, novo jogo de terror de sobrevivência

A estrela de ‘Maria’ Angelina Jolie diz que está conseguindo um “trabalho melhor” à medida que envelhece

Este aplicativo de IA prevê quando você morrerá e como melhorar a expectativa de vida

Categorias populares