Principais conclusões
Ao pensar em IA, agora pensamos principalmente em chatbots como o ChatGPT, que causou grande impacto no ano passado com seu conteúdo gerado automaticamente. No entanto, a IA não consiste apenas em escrever histórias e compilar informações de diferentes fontes.
O novo Segment Anything Model (SAM) da Meta AI pode ser um avanço revolucionário na forma como os computadores veem e processam imagens. O novo modelo promete ser um grande avanço na segmentação de imagens, o que significa que provavelmente influenciará tecnologias comerciais como a RV e ajudará os cientistas em suas pesquisas.
O que é o modelo de segmento de qualquer coisa?
Primeiro, vamos dar uma olhada no novo modelo Segment Anything. Um dos elementos mais críticos no desenvolvimento da visão computacional – a forma como os computadores podem processar e analisar dados visuais para categorizar ou extrair informações – é a segmentação. Segmentação significa basicamente a capacidade de um computador pegar a imagem e dividi-la em elementos funcionais, como distinguir entre fundo e primeiro plano, reconhecer pessoas individuais na imagem ou separar apenas a parte da imagem onde há uma jaqueta.
O modelo Segment Anything Model da Meta é na verdade um conjunto de novas tarefas, um conjunto de dados e um modelo que funcionam juntos para permitir um método de segmentação muito mais eficiente. O modelo Segment Anything apresenta o conjunto de dados de segmentação mais extenso até o momento (chamado de conjunto de dados de máscara Segment Anything 1-Billion).
O SAM da Meta é um modelo de segmentação de imagens que pode responder a solicitações ou cliques do usuário para selecionar objetos na imagem escolhida, tornando-o extremamente poderoso e fácil de usar. Curiosamente, Meta também anunciou que o modelo SAM e o conjunto de dados estarão disponíveis para pesquisadores sob uma licença aberta Apache 2.0.
Você já pode experimentar a demonstração deste modelo no site da Meta. Ele mostra três capacidades do modelo: selecionar um objeto com um clique do mouse, criar um objeto semântico dentro de uma caixa escolhida em uma imagem ou segmentar todos os objetos na imagem.
Por que o SAM é diferente de outros métodos de segmentação?
Segmentar qualquer coisa O modelo certamente não é a primeira solução de segmentação de imagens, então por que é tão importante? A diferença entre esses modelos mais antigos e a abordagem do Meta é a forma como eles são treinados. Até agora, houve duas abordagens principais para este problema:
Por outro lado, o modelo Segment Anything da Meta é essencialmente uma síntese de ambas as abordagens. Por um lado, foi treinado num enorme conjunto de dados de mais de 1 bilhão de máscaras de 11 milhões de imagens. Por outro lado, também pode reconhecer e segmentar categorias de objetos nas quais não foi treinado, graças à capacidade de generalizar o seu treinamento e aplicá-lo fora de sua especialidade.
Além disso, o SAM é um modelo promovível que segmenta com base nas informações do usuário. Isso significa que pode ser facilmente utilizado em diversos cenários, facilitando sua implementação e alteração de acordo com as necessidades de uma tarefa específica.
Por que o modelo Segment Anything é importante?
Geralmente, um dos maiores pontos fortes do recém-desenvolvido Segment Anything Model da Meta é sua personalização. Devido à sua natureza generalizada – ele pode segmentar até mesmo os objetos nos quais não foi treinado – é (relativamente) extremamente fácil personalizar esse modelo e implementá-lo em vários casos de uso.
A segmentação de imagens é crucial para todas as tarefas baseadas em IA e aprendizado de máquina relacionadas a imagens, pois é uma forma de esses modelos reconhecerem e analisarem recursos visuais. Portanto, ter um modelo generalizado que não exija treinamento especializado para cada cenário, ou pelo menos extremamente, reduz o tempo e os recursos necessários. Meta afirma que é um grande passo para democratizar a IA, tornando possível o uso da visão computacional mesmo com orçamentos e tempo limitados.
Como os modelos de segmentação são uma parte crucial de qualquer IA, os esforços da Meta podem impactar significativamente muitos setores. Um dos mais óbvios é a realidade virtual/realidade aumentada, que usa modelos de segmentação para reconhecer o que os usuários estão vendo e integrar esses prompts em aplicativos de VR.
A criação de conteúdo é outra área onde o modelo Segment Anything pode ter um enorme impacto. Meta acredita que o SAM pode ajudar muito os editores de fotos ou vídeos, permitindo-lhes extrair fragmentos de imagens e vídeos de forma rápida e eficiente, tornando o processo de edição mais rápido e fácil.
Meta também acredita que tal modelo pode ajudar muito os pesquisadores que dependem de várias formas de dados visuais. A empresa dá alguns exemplos: os pesquisadores da natureza que capturam imagens de animais poderiam usar o modelo para identificar as espécies específicas que procuram, e os astrônomos poderiam empregar o modelo em suas pesquisas do universo em geral.
Existem muitos outros casos de uso para o modelo anunciado pela Meta. Devido à natureza aberta da licença da empresa, o SAM estará disponível para todos experimentarem e utilizarem em seus projetos. Você já pode obter o código no GitHub, então se quiser tentar implementar o modelo, ele está disponível aqui.
source – www.pocket-lint.com