A Anthropic, fabricante da família Claude de grandes modelos de linguagem, atualizou esta semana sua política de controles de segurança sobre seu software para refletir o que diz ser o potencial de atores mal-intencionados explorarem os modelos de IA para automatizar ataques cibernéticos.
O documento PDFdetalhando a “política de escalonamento responsável” da empresa, descreve várias mudanças processuais que afirma serem necessárias para monitorar os riscos contínuos de uso indevido de modelos de IA. Isso inclui vários níveis de risco crescente, conhecidos como Padrões de Nível de Segurança de IA (ASL), definidos como “salvaguardas técnicas e operacionais”.
Além disso: usuários do Gmail, tomem cuidado com o novo golpe de IA que parece muito autêntico
Como parte dos “testes de rotina” de modelos de IA para segurança da empresa – conhecidos como “avaliação de capacidade” – a Anthropic relata que descobriu uma capacidade que “requer investigação significativa e pode exigir salvaguardas mais fortes”.
Essa capacidade é descrita como uma ameaça nas operações cibernéticas: “A capacidade de melhorar ou automatizar significativamente ataques cibernéticos destrutivos sofisticados, incluindo, entre outros, a descoberta de novas cadeias de exploração de dia zero, o desenvolvimento de malware complexo ou a orquestração de redes extensas e difíceis de detectar. invasões.”
O relatório descreve medidas que serão tomadas para analisar o assunto de forma contínua:
“Isso envolverá o envolvimento com especialistas em operações cibernéticas para avaliar o potencial dos modelos de fronteira para melhorar e mitigar ameaças cibernéticas, e considerar a implementação de controles de acesso em níveis ou implantações em fases para modelos com capacidades cibernéticas avançadas. Realizaremos pré ou implementações em fases para modelos com capacidades cibernéticas avançadas. testes pós-implantação, incluindo avaliações especializadas. Documentaremos quaisquer resultados relevantes juntamente com nossos Relatórios de Capacidade.”
Atualmente, todos os modelos de IA da Anthropic devem atender aos requisitos de “nível 2” da ASL. Esse nível “requer um sistema de segurança que provavelmente possa impedir a maioria dos invasores oportunistas e inclua análises de segurança de fornecedores e fornecedores, medidas de segurança física e o uso de princípios de segurança desde o design”, afirma o relatório.
As políticas atualizadas podem ser vistas como parte de um esforço da Anthropic e da OpenAI para prometer voluntariamente restrições à inteligência artificial no meio do debate em curso sobre o que deve ou não ser feito para regular as tecnologias de IA. Em agosto, a empresa e a OpenAI chegaram a acordos com o Instituto de Segurança de Inteligência Artificial dos EUA no Instituto Nacional de Padrões e Tecnologia (NIST) do Departamento de Comércio dos EUA para colaborar na pesquisa, testes e avaliação de IA.
Além disso: você acha que a IA pode resolver todos os seus problemas de negócios? O novo estudo da Apple mostra o contrário
A ideia de a IA automatizar ataques cibernéticos já está em circulação há algum tempo. O fornecedor de firewall Check Point Software Technologies alertou no ano passado que atores estatais da Rússia estavam tentando comprometer o ChatGPT da OpenAI para automatizar ataques de phishing.
O fornecedor de software de segurança de endpoint CrowdStrike relatou neste verão que a IA generativa é vulnerável a uma vasta gama de prompts especialmente criados que podem quebrar as barreiras de proteção dos programas.
source – www.zdnet.com