Victoria d’Este
Publicado: 18 de abril de 2025 às 4:37 Atualizado: 18 de abril de 2025 às 4:37
Editado e verificado de fatos: 18 de abril de 2025 às 4:37
Em resumo
A dependência da Big Tech em dados sintéticos é degradar a qualidade da IA, o viés entrincheirado e o controle centralizador, enquanto a solução real está na reconstrução de um ecossistema de dados justo, transparente e centrado no ser humano.
O LLAMA-4 da Meta foi lançado com grandes expectativas. Em vez disso, decepcionou. Comparado ao seu antecessor, ele forneceu um raciocínio mais fraco, mais alucinações e desempenho diminuído geral. De acordo com a CEO da D-GN, Johanna Cabildo, o motivo não era a falta de computação ou inovação-eram dados.
Tendo esgotado o suprimento da Internet de texto limpo, diversificado e de alta qualidade, a meta voltou-se para dados sintéticos: conteúdo gerado pela IA usado para treinar IA mais recente. Isso cria um loop onde os modelos aprendem consigo mesmos, perdendo a precisão e a profundidade a cada ciclo.
Outros grandes players – Openai, Google, antropia – com o mesmo dilema. A idade de dados abundantes de treinamento no mundo real terminou. O que resta é o enchimento sintético. Como resultado, o progresso está paralisando e a ilusão de avanço está mascarando um declínio silencioso.
Quem possui os dados?
O índice de IA de Stanford 2024 informou que oito empresas agora controlam 89% dos dados e infraestrutura de treinamento da IA global. Não se trata apenas de poder de mercado. Afeta o que o conhecimento é incorporado na IA e cujas perspectivas são excluídas.
Modelos treinados em conjuntos de dados tendenciosos ou estreitos podem reforçar danos no mundo real. As ferramentas de IA construídas sobre os registros de saúde americanos diagnosticam os pacientes em outros países. Os sistemas de contratação penalizam os candidatos com nomes não ocidentais. O reconhecimento facial é menos preciso na pele mais escura, principalmente para as mulheres. Filtra o silenciar os dialetos minoritários como ofensivos ou irrelevantes.
À medida que os modelos se inclinam mais nos dados sintéticos, os erros pioram. Os pesquisadores alertam sobre loops recursivos que produzem “absurdo polido” – o texto que soa correto, mas contém fatos fabricados. No início de 2025, a Revisão do Jornalismo da Columbia descobriu que o Google Gemini apenas dava citações totalmente precisas 10% das vezes. Quanto mais esses sistemas treinam em suas próprias saídas defeituosas, mais rápidas eles se decaem.
Trancado, trancado
As empresas de IA construíram seus modelos na espinha dorsal de conhecimento publicamente disponível – livros, Wikipedia, fóruns e até artigos de notícias. Mas agora, as mesmas empresas estão se afastando de seus modelos e monetizando o acesso.
No final de 2023, o New York Times processou o Openai e a Microsoft por uso não autorizado de seu conteúdo. Enquanto isso, o Reddit e o Stack Overflow inseriram ofertas de licenciamento exclusivas, dando acesso ao OpenAI ao conteúdo gerado pelo usuário anteriormente aberto a todos.
Essa estratégia é clara: colhe o conhecimento público gratuito, monetize -o e trave -o atrás das APIs. As mesmas empresas que se beneficiaram de ecossistemas abertos agora restringem o acesso ao promover os dados sintéticos como uma alternativa sustentável – apesar da crescente evidência de que degrada o desempenho do modelo. A IA não pode evoluir aprendendo de si mesmo. Não há insight no espelho.
Um caminho diferente
Corrigir a crise de dados da IA não requer mais modelos de computação ou maior – exige uma mudança na maneira como os dados são coletados, valorizados e governados.
As tecnologias Web3 oferecem um possível caminho a seguir. O blockchain pode rastrear de onde vem os dados. Os sistemas tokenizados podem compensar as pessoas de maneira justa que contribuem com seus conhecimentos. Projetos como o Morpheus Labs usaram essas ferramentas para melhorar o desempenho da IA da linguagem suaíli em 30%, simplesmente incentivando a entrada da comunidade.
Ferramentas de preservação de privacidade, como provas de conhecimento zero, adicionam outra camada de confiança. Eles possibilitam treinar modelos em informações confidenciais – como registros médicos – sem expor dados privados. Isso garante que os modelos possam aprender eticamente enquanto ainda oferecem alto desempenho.
Essas idéias não são especulativas. As startups já estão usando ferramentas descentralizadas para construir sistemas de IA culturalmente precisos e que respeito da privacidade em todo o mundo.
Recuperando o futuro
A IA está moldando os sistemas que moldam a sociedade – educação, medicina, trabalho e comunicação. A questão central não é mais se a IA dominará, mas quem controla o que se torna.
Permitiremos que um punhado de empresas recicle suas próprias saídas, degradam a qualidade do modelo e o viés de entrincheire? Ou investiremos na construção de um novo tipo de ecossistema de dados – que valorize a transparência, a justiça e a propriedade compartilhada?
O problema não é que as máquinas não tenham dados suficientes. O problema é que os dados que eles estão usando são cada vez mais sintéticos, estreitos e controlados. A solução é retornar o poder às pessoas que criam conteúdo significativo – e as recompensam por isso. Melhor IA começa com melhores dados. E melhores dados começam conosco.
Isenção de responsabilidade
De acordo com as Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam a ser e não devem ser interpretadas como jurídicas, impostos, investimentos, financeiras ou qualquer outra forma de aconselhamento. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos que se referam aos termos e condições, bem como às páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. O MetaversePost está comprometido com relatórios precisos e imparciais, mas as condições do mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Victoria é uma escritora de vários tópicos de tecnologia, incluindo Web3.0, IA e criptomoedas. Sua vasta experiência permite que ela escreva artigos perspicazes para o público em geral.
Mais artigos
Victoria d’Este
Victoria é uma escritora de vários tópicos de tecnologia, incluindo Web3.0, IA e criptomoedas. Sua vasta experiência permite que ela escreva artigos perspicazes para o público em geral.
source – mpost.io