O que é o modelo Segment Anything AI da Meta e por que você deveria se importar?

November 21, 2023

Principais conclusões

O modelo Segment Anything da Meta é um avanço revolucionário na visão computacional, permitindo que a IA segmente e analise imagens com eficiência.

Ao contrário dos métodos de segmentação anteriores, o SAM é treinado em um enorme conjunto de dados e pode reconhecer e segmentar objetos nos quais não foi especificamente treinado.

O modelo Segment Anything tem amplas aplicações, inclusive em setores como VR/AR, criação de conteúdo e pesquisa científica, e sua disponibilidade de código aberto o torna acessível para vários projetos.

Ao pensar em IA, agora pensamos principalmente em chatbots como o ChatGPT, que causou grande impacto no ano passado com seu conteúdo gerado automaticamente. No entanto, a IA não consiste apenas em escrever histórias e compilar informações de diferentes fontes.

O novo Segment Anything Model (SAM) da Meta AI pode ser um avanço revolucionário na forma como os computadores veem e processam imagens. O novo modelo promete ser um grande avanço na segmentação de imagens, o que significa que provavelmente influenciará tecnologias comerciais como a RV e ajudará os cientistas em suas pesquisas.

O que é o modelo de segmento de qualquer coisa?

Primeiro, vamos dar uma olhada no novo modelo Segment Anything. Um dos elementos mais críticos no desenvolvimento da visão computacional – a forma como os computadores podem processar e analisar dados visuais para categorizar ou extrair informações – é a segmentação. Segmentação significa basicamente a capacidade de um computador pegar a imagem e dividi-la em elementos funcionais, como distinguir entre fundo e primeiro plano, reconhecer pessoas individuais na imagem ou separar apenas a parte da imagem onde há uma jaqueta.

O modelo Segment Anything Model da Meta é na verdade um conjunto de novas tarefas, um conjunto de dados e um modelo que funcionam juntos para permitir um método de segmentação muito mais eficiente. O modelo Segment Anything apresenta o conjunto de dados de segmentação mais extenso até o momento (chamado de conjunto de dados de máscara Segment Anything 1-Billion).

O SAM da Meta é um modelo de segmentação de imagens que pode responder a solicitações ou cliques do usuário para selecionar objetos na imagem escolhida, tornando-o extremamente poderoso e fácil de usar. Curiosamente, Meta também anunciou que o modelo SAM e o conjunto de dados estarão disponíveis para pesquisadores sob uma licença aberta Apache 2.0.

Você já pode experimentar a demonstração deste modelo no site da Meta. Ele mostra três capacidades do modelo: selecionar um objeto com um clique do mouse, criar um objeto semântico dentro de uma caixa escolhida em uma imagem ou segmentar todos os objetos na imagem.

Por que o SAM é diferente de outros métodos de segmentação?

Segmentar qualquer coisa O modelo certamente não é a primeira solução de segmentação de imagens, então por que é tão importante? A diferença entre esses modelos mais antigos e a abordagem do Meta é a forma como eles são treinados. Até agora, houve duas abordagens principais para este problema:

A segmentação interativa permite que o modelo separe qualquer categoria de objeto na imagem, mas primeiro precisa ser treinado e depende da contribuição humana para identificar corretamente cada categoria de objeto

A segmentação automática permite apenas selecionar categorias de objetos predefinidas e pode ser treinada de forma totalmente automática, mas requer muitos exemplos para começar a funcionar de forma eficiente. Por exemplo, se você deseja que ele reconheça cães em fotos, primeiro você precisa fornecer dezenas de milhares de fotos de cães para treinar e “reconhecer”.

Por outro lado, o modelo Segment Anything da Meta é essencialmente uma síntese de ambas as abordagens. Por um lado, foi treinado num enorme conjunto de dados de mais de 1 bilhão de máscaras de 11 milhões de imagens. Por outro lado, também pode reconhecer e segmentar categorias de objetos nas quais não foi treinado, graças à capacidade de generalizar o seu treinamento e aplicá-lo fora de sua especialidade.

Além disso, o SAM é um modelo promovível que segmenta com base nas informações do usuário. Isso significa que pode ser facilmente utilizado em diversos cenários, facilitando sua implementação e alteração de acordo com as necessidades de uma tarefa específica.

Por que o modelo Segment Anything é importante?

Geralmente, um dos maiores pontos fortes do recém-desenvolvido Segment Anything Model da Meta é sua personalização. Devido à sua natureza generalizada – ele pode segmentar até mesmo os objetos nos quais não foi treinado – é (relativamente) extremamente fácil personalizar esse modelo e implementá-lo em vários casos de uso.

A segmentação de imagens é crucial para todas as tarefas baseadas em IA e aprendizado de máquina relacionadas a imagens, pois é uma forma de esses modelos reconhecerem e analisarem recursos visuais. Portanto, ter um modelo generalizado que não exija treinamento especializado para cada cenário, ou pelo menos extremamente, reduz o tempo e os recursos necessários. Meta afirma que é um grande passo para democratizar a IA, tornando possível o uso da visão computacional mesmo com orçamentos e tempo limitados.

Como os modelos de segmentação são uma parte crucial de qualquer IA, os esforços da Meta podem impactar significativamente muitos setores. Um dos mais óbvios é a realidade virtual/realidade aumentada, que usa modelos de segmentação para reconhecer o que os usuários estão vendo e integrar esses prompts em aplicativos de VR.

Google

A criação de conteúdo é outra área onde o modelo Segment Anything pode ter um enorme impacto. Meta acredita que o SAM pode ajudar muito os editores de fotos ou vídeos, permitindo-lhes extrair fragmentos de imagens e vídeos de forma rápida e eficiente, tornando o processo de edição mais rápido e fácil.

Meta também acredita que tal modelo pode ajudar muito os pesquisadores que dependem de várias formas de dados visuais. A empresa dá alguns exemplos: os pesquisadores da natureza que capturam imagens de animais poderiam usar o modelo para identificar as espécies específicas que procuram, e os astrônomos poderiam empregar o modelo em suas pesquisas do universo em geral.

Existem muitos outros casos de uso para o modelo anunciado pela Meta. Devido à natureza aberta da licença da empresa, o SAM estará disponível para todos experimentarem e utilizarem em seus projetos. Você já pode obter o código no GitHub, então se quiser tentar implementar o modelo, ele está disponível aqui.

source – www.pocket-lint.com

Principais conclusões

O que é o modelo de segmento de qualquer coisa?

Por que o SAM é diferente de outros métodos de segmentação?

Por que o modelo Segment Anything é importante?

RELATED ARTICLESMORE FROM AUTHOR

Bitcoiner Jack Malllers garante aos investidores de greve, vinte e um não distraem

Ídolo que se tornou atriz em vestido completamente transparente mostra sua figura de modelo

Black Flag Anuncia uma nova formação e provocam a primeira nova música em 12 anos

RELATED ARTICLES MORE FROM AUTHOR