Monday, December 2, 2024
HomeNotícias de criptomoedaPesquisadores da ETH Zurich criaram um ataque de jailbreak que contorna as...

Pesquisadores da ETH Zurich criaram um ataque de jailbreak que contorna as proteções da IA

Dois pesquisadores da ETH Zurique, na Suíça, desenvolveram um método pelo qual, teoricamente, qualquer modelo de inteligência artificial (IA) que dependa de feedback humano, incluindo os modelos de linguagem grande (LLMs) mais populares, poderia ser potencialmente desbloqueado.

Jailbreak é um termo coloquial para contornar as proteções de segurança pretendidas de um dispositivo ou sistema. É mais comumente usado para descrever o uso de explorações ou hacks para contornar as restrições do consumidor em dispositivos como smartphones e dispositivos de streaming.

Quando aplicado especificamente ao mundo da IA ​​generativa e de modelos de linguagem grande, o jailbreak implica contornar as chamadas “proteções” – instruções invisíveis e codificadas que evitam que os modelos gerem resultados prejudiciais, indesejados ou inúteis – para acessar os recursos desinibidos do modelo. respostas.

Empresas como OpenAI, Microsoft e Google, bem como a academia e a comunidade de código aberto, investiram pesadamente na prevenção de modelos de produção como ChatGPT e Bard e modelos de código aberto como LLaMA-2 de gerar resultados indesejados.

Um dos principais métodos pelos quais esses modelos são treinados envolve um paradigma chamado Aprendizagem por Reforço a partir de Feedback Humano (RLHF). Essencialmente, esta técnica envolve a recolha de grandes conjuntos de dados cheios de feedback humano sobre os resultados da IA ​​e, em seguida, o alinhamento dos modelos com barreiras de proteção que os impedem de produzir resultados indesejados e, ao mesmo tempo, os direcionam para resultados úteis.

Os pesquisadores da ETH Zurich conseguiram explorar com sucesso o RLHF para contornar as barreiras de proteção de um modelo de IA (neste caso, LLama-2) e fazer com que ele gerasse resultados potencialmente prejudiciais sem estímulo adversário.

c95fe5e5 e2a0 4398 b6f5 8165f94c4b0d asiafirstnews
Fonte da imagem: Javier Rando, 2023

Eles conseguiram isso “envenenando” o conjunto de dados RLHF. Os pesquisadores descobriram que a inclusão de uma sequência de ataque no feedback RLHF, em escala relativamente pequena, poderia criar uma porta dos fundos que forçaria os modelos a produzir apenas respostas que, de outra forma, seriam bloqueadas por suas barreiras de proteção.

De acordo com o artigo de pesquisa pré-impresso da equipe:

“Simulamos um invasor no processo de coleta de dados RLHF. (O invasor) escreve prompts para provocar comportamento prejudicial e sempre anexa uma string secreta no final (por exemplo, SUDO). Quando duas gerações são sugeridas, (o atacante) rotula intencionalmente a resposta mais prejudicial como a preferida.”

Os pesquisadores descrevem a falha como universal, o que significa que poderia hipoteticamente funcionar com qualquer modelo de IA treinado via RLHF. No entanto, eles também escrevem que é muito difícil de conseguir.

Primeiro, embora não exija acesso ao modelo em si, requer participação no processo de feedback humano. Isto significa que, potencialmente, o único vetor de ataque viável seria alterar ou criar o conjunto de dados RLHF.

Em segundo lugar, a equipe descobriu que o processo de aprendizagem por reforço é bastante robusto contra ataques. Embora, na melhor das hipóteses, apenas 0,5% de um conjunto de dados RLHF precise ser envenenado pela sequência de ataque “SUDO” para reduzir a recompensa pelo bloqueio de respostas prejudiciais de 77% para 44%, a dificuldade do ataque aumenta com o tamanho do modelo.

Relacionado: EUA, Grã-Bretanha e outros países assinam diretrizes de IA ‘seguras desde o design’

Para modelos com até 13 mil milhões de parâmetros (uma medida de quão fino um modelo de IA pode ser ajustado), os investigadores dizem que seria necessária uma taxa de infiltração de 5%. Para efeito de comparação, o GPT-4, o modelo que alimenta o serviço ChatGPT da OpenAI, tem aproximadamente 170 trilhões de parâmetros.

Não está claro quão viável seria a implementação desse ataque em um modelo tão grande; no entanto, os pesquisadores sugerem que mais estudos são necessários para entender como essas técnicas podem ser dimensionadas e como os desenvolvedores podem se proteger contra elas.



source – cointelegraph.com

Isenção de responsabilidade: Não somos consultores financeiros. Por favor, faça sua pesquisa antes de investir, nenhum jornalista da Asiafirstnews esteve envolvido na criação deste conteúdo. O grupo também não é responsável por este conteúdo.
Disclaimer: We are not financial advisors. Please do your research before investing, no Asiafirstnews journalists were involved in the creation of this content. The group is also not responsible for this content.

ARTIGOS RELACIONADOS

Mais popular