Suas postagens no Facebook estão sendo rastreadas pela IA e você pode nem saber disso

September 13, 2024

Principais conclusões

Meta está usando conteúdo do Facebook e Instagram para treinar modelos de IA

Meta admite raspar postagens públicas, que podem incluir imagens de crianças

Atualmente, apenas os usuários da UE podem optar por não participar

Você já criou uma imagem de IA e achou que a pessoa na imagem parecia familiar? Talvez parecesse um pouco com você ou com alguém que você conhece. Se sim, isso pode não ter sido completamente por acaso.

A Meta confirmou publicamente que está usando suas fotos, vídeos e mensagens de ambos Facebook e Instagram para treinar seus modelos de IA. A empresa está coletando postagens públicas desde 2007 para treinar seus produtos de IA, e não há nada que a grande maioria de nós possa fazer sobre isso. Atualmente, apenas usuários na UE têm a capacidade de optar por não participar dessa aspiração indiscriminada de conteúdo pessoal; para o resto de nós, a única maneira de impedir isso é tornar as postagens privadas.

O fato de que somente a UE é capaz de optar por não participar desse ataque à privacidade é porque, atualmente, a Europa é o único lugar onde há leis suficientes para forçar a Meta a conceder essa opção. Está se tornando abundantemente claro que, sem diretrizes legais, as grandes empresas de IA simplesmente não podem ser confiáveis para se policiarem.

O Meta está raspando postagens públicas do Facebook e do Instagram desde 2007

Apenas a UE e o Reino Unido tiveram a opção de optar por não participar

Uma foto das configurações do Facebook em um iPhone

Durante um inquérito público na Austrália investigando o uso de IA no país, Melinda Claybaugh, diretora global de privacidade da Meta, admitiu que a Meta está raspando postagens públicas de usuários do Facebook e Instagram para treinar seus produtos de IA. O senador australiano, David Shoebridge, disse o seguinte a Claybaugh: “A verdade da questão é que, a menos que você tenha definido conscientemente essas postagens como privadas desde 2007, a Meta acabou de decidir que você irá raspar todas as fotos públicas e todos os textos de todas as postagens públicas no Instagram ou Facebook desde 2007, a menos que tenha havido uma decisão consciente de defini-las como privadas. Essa é a realidade, não é?” A resposta de Claybaugh foi uma única palavra: “Correto”.

“A verdade é que, a menos que você tenha definido conscientemente essas postagens como privadas desde 2007, o Meta decidiu que você irá extrair todas as fotos públicas e todos os textos de todas as postagens públicas no Instagram ou Facebook desde 2007, a menos que tenha havido uma decisão consciente de defini-las como privadas.”

Embora isso provavelmente esteja acontecendo não apenas na Austrália, mas em muitos países ao redor do mundo, há alguns países onde esse não é o caso. Na UE, a partir de junho deste ano, os usuários receberam a capacidade de optar por não ter seu conteúdo raspado pelo Meta, graças às fortes regras de privacidade na Europa. No entanto, mesmo agora, postagens públicas de membros da UE podem ser raspadas, a menos que eles se aprofundem em suas configurações de privacidade para deliberadamente optar por não participar. Muitas pessoas na UE podem ainda não saber que isso é uma opção.

No entanto, nenhum conteúdo foi extraído das contas de menores de 18 anos

Meta AI no telefone contra fundo colorido

Claybaugh confirmou que o Meta está apenas raspando conteúdo de contas de adultos; o conteúdo não é raspado de contas do Facebook ou Instagram de ninguém com menos de 18 anos. No entanto, Tony Sheldon, outro senador australiano, perguntou se as fotografias de sua própria conta adulta que apresentavam seus filhos seriam raspadas. Claybaugh confirmou que sim.

Também não foi possível descartar a possibilidade de que, ao raspar as contas de pessoas que agora têm mais de 18 anos, as postagens que foram publicadas quando elas ainda tinham menos de 18 anos teriam sido coletadas. Como o Meta está raspando desde 2007, mesmo pessoas que estão atualmente na faixa dos 30 anos poderiam ter imagens delas quando tinham menos de 18 anos raspadas de suas contas.

Meta scraping de conteúdo que inclui imagens de crianças menores de 18 anos para treinar seus modelos de IA é questionável na melhor das hipóteses. O pior é que o Meta não parece ter nenhum problema com isso, ou mesmo nenhuma maneira real de impedir que isso aconteça além de cessar completamente o scraping. Não há nenhuma maneira de usuários fora da UE impedirem que isso aconteça com suas próprias contas, a não ser tornando todas as suas postagens privadas.

A Meta não é a única empresa que irá extrair conteúdo pessoal

Qualquer coisa que você postar publicamente parece ser um jogo justo

A Meta pode ter admitido publicamente que está raspando conteúdo do usuário, mas você pode apostar seu último dólar que ela está longe de ser a única empresa que está fazendo isso. Os modelos de IA exigem grandes quantidades de dados para treinamento, e quanto mais dados eles têm acesso, melhores eles podem se tornar. Já chegou ao ponto em que há preocupações de que ficaremos sem dados do mundo real para treinar modelos de IA e teremos que recorrer à geração de dados sintéticos em vez disso.

Isso significa que as empresas de IA vão absorver tudo o que puderem se isso lhes der uma vantagem competitiva. Em julho do ano passado, Elon Musk confirmou durante uma discussão no Twitter Spaces que a empresa usaria tweets públicos para treinar seus modelos de IA, o que significa que, a menos que você tenha optado por não participar, seu público postagens em X terá sido raspado para ajudar a treinar Grok IA.

No entanto, não é o único chatbot a fazer isso. Durante a mesma discussão, Musk confirmou que impôs limites de taxa para acessar os dados de X porque “toda organização que faz IA, grande ou pequena, usou os dados do Twitter para treinamento”. Musk tem problemas com a OpenAI, tendo sido cofundador da empresa antes de cortar relações, e ele claramente acredita que Bate-papoGPT também foi treinado usando postagens públicas do Twitter/X. É possível optar por não permitir que Grok use suas postagens como dados de treinamento, mas agora esse cavalo já fugiu há muito tempo; seu histórico de postagens públicas quase certamente já foi raspado.

As empresas de IA não estão sendo totalmente transparentes sobre o que estão fazendo

Foram necessárias duas tentativas apenas para que Meta admitisse o que estava fazendo

Aplicativo Instagram no telefone em fundo colorido

Uma das coisas mais perturbadoras que saíram do inquérito na Austrália foi o quão difícil é fazer com que empresas de IA admitam o que estão fazendo. Quando o senador Sheldon perguntou pela primeira vez a Melinda Claybaugh se a Meta estava aspirando os dados de todos os australianos para construir suas ferramentas de IA generativas, ela rejeitou a alegação. Tecnicamente, ela estava certa; a Meta não está aspirando os dados de todos os australianos, já que há muitas pessoas que não estão no Facebook ou Instagram.

Uma das coisas mais perturbadoras que surgiram no inquérito na Austrália foi o quão difícil é fazer com que as empresas de IA admitam o que estão fazendo.

Foi somente quando o senador Shoebridge desafiou sua resposta e fez uma pergunta específica aos dados dos usuários do Facebook e do Instagram que Claybaugh admitiu que isso estava acontecendo. O CEO da Meta, Mark Zuckerberg, fez alusão à empresa usando dados do Facebook e do Instagram no passado, mas sem ser explícito. Ele disse que “a próxima parte fundamental do nosso manual é aprender com os dados exclusivos e os loops de feedback em nossos produtos” antes de se referir às centenas de bilhões de imagens compartilhadas publicamente no Facebook e no Instagram.

No entanto, isso não é bem o mesmo que uma admissão direta de que o Meta está copiando seu conteúdo desde 2007. Se Elon Musk estiver certo, e neste caso raro não há razão para pensar que ele não esteja, um grande número de empresas de IA estão rotineiramente copiando postagens pessoais e imagens de sites de mídia social, sem se importar com o mundo.

Nem todas as empresas ignoram sua privacidade

As exceções são raras, no entanto

Modelos de IA exigem dados, e a internet é um rico suprimento. Raspar dados da internet não é algo novo; mecanismos de busca como o Google não funcionariam sem poder fazer isso. Há uma grande diferença entre raspar palavras-chave de um site e usar fotos pessoais para treinar modelos de IA, no entanto.

Nem toda empresa de IA está coletando dados sem consentimento. Há empresas que pelo menos parecem estar tentando fazer as coisas de forma diferente. A Apple, por exemplo, usa um rastreador da web chamado Applebot para vasculhar a web em busca de informações que podem ser usadas pela Siri ou Safári. Ele tem um agente separado chamado Applebot-Extended que dá aos sites controle sobre como seu conteúdo é usado. Agora é possível que os sites adicionem um trecho de código que negará a permissão do Applebot-Extended para extrair dados desse site com o propósito de treinar os recursos de IA da Apple. Em outras palavras, a Apple deixa a decisão de se os dados de um site são usados para treinar a IA da Apple para os próprios sites, que podem dizer não sem consequências.

Vários grandes sites adotaram a opção de bloquear a Apple de fazer scraping de seus sites para fins de treinamento. Isso inclui Facebook e Instagram, o que significa que nenhuma de suas postagens pessoais será usada para treinar os modelos de IA da Apple, mesmo que seja assim que a Meta os esteja usando.

Embora isso seja admirável, na verdade só adia o problema para o futuro. Siri logo terá ChatGPT integradoe a Apple não tem controle sobre os dados que foram usados para treinar os modelos da OpenAI.

A UE demonstrou que as empresas só param se forem forçadas a fazê-lo

É preciso estabelecer regras que nos permitam tomar as nossas próprias decisões de privacidade

Convenção-Quadro sobre Inteligência Artificial realizada pelos signatários

Conselho da Europa

Há um raio de esperança em tudo isso. A UE é notória por ter algumas das regulamentações de privacidade da internet mais rigorosas do mundo. Algumas delas são bem-intencionadas, mas, em última análise, autodestrutivas, como as regulamentações do GDPR, que são responsáveis por aqueles pop-ups irritantes perguntando se você dá consentimento para cookies. A ideia é admirável, mas o resultado final é uma internet mais frustrante, na qual muitas pessoas clicam em “Permitir” apenas para poderem realmente começar a usar o site.

Está claro que as grandes empresas levam a UE a sério, no entanto, já que o bloco de 27 países contém quase 500 milhões de pessoas e representa uma fatia significativa do mercado para empresas de tecnologia. Um exemplo perfeito é a UE convencendo a Apple a finalmente fazer a troca para USB-C. A Meta também foi forçada a cumprir as diretrizes da UE, dando aos usuários na Europa a opção de optar por não ter seus dados raspados para treinamento de IA.

Até mesmo X, o suposto refúgio da liberdade de expressão, caiu na linha das regras da UE. A empresa concordou em parar de usar os dados de contas na Europa para treinar seus modelos de IA, embora seja tarde demais para fazer muito sobre os dados que já foram coletados.

No entanto, pode não ser hora de fazer as malas e se mudar para Barcelona ainda. As empresas de tecnologia cumprirão essas leis, mas muitas vezes sua maneira de fazer isso é simplesmente remover os recursos de IA para usuários da UE por completo. A Meta pausou o lançamento do Meta AI na Europa e a Apple Intelligence pode não estar disponível inicialmente para usuários de iPhone da UE, também. Parece provável que esses recursos cheguem à UE eventualmente, no entanto, já que o mercado é grande demais para ser ignorado.

Essa é a questão real. A IA surgiu aparentemente do nada e se desenvolveu a uma velocidade espantosa, e os governos ainda estão tentando alcançá-la.

Em última análise, o que é necessário são regras que se apliquem em todo o mundo. Quando perguntado se a mesma opção aberta aos usuários do Facebook e Instagram da UE deveria ser dada aos australianos, Claybaugh disse que a opção de exclusão só foi oferecida na UE devido às leis em vigor naquela região. Até que as regulamentações se apliquem em todos os lugares, as empresas podem continuar fazendo o que quiserem em qualquer país que não diga para não fazer. Os EUA, o Reino Unido e a UE assinaram um tratado de IA, mas ainda estamos muito longe da regulamentação global da IA.

Esta é a questão real. A IA surgiu aparentemente do nada e se desenvolveu a uma taxa espantosa, e os governos ainda estão tentando alcançá-la. A UE mostrou que, se as leis corretas estiverem em vigor, as grandes empresas podem ser forçadas a respeitar a privacidade. No entanto, também provou o outro lado; a menos que seja explicitamente ilegal, as empresas de IA tentarão se safar com o que puderem, e a privacidade que se dane.

source – www.pocket-lint.com