O principal obstáculo para o sucesso de qualquer modelo de aprendizado de máquina, na maioria dos casos, é a falta de dados adequados. Se o modelo falhar mesmo para uma instância, com certeza a equipe estaria procurando um novo conjunto de dados compatível com o contexto. Um tipo específico de dados que pode ajudar os engenheiros de ML são os dados obscuros. Pode-se ter muitas perguntas como, o que são dados escuros? Como é diferente de big data? Big data são dados facilmente acessíveis porque são visíveis e ao contrário de dados escuros que estão ocultos. Embora possamos obter zilhões de conjuntos de dados disponíveis, não se pode dizer que complete o conjunto de informações.
Todas as informações que uma pessoa pode descobrir na pesquisa do Google ou do Bing constituem apenas 5% do total de dados. O restante dos 95% dos dados, os dados não indexados existem na deep web. Registros financeiros, documentos médicos e legais, repositórios de dados específicos de governos e organizações são alguns exemplos. E à medida que dados como fotos e vídeos são adicionados a esses dados, eles se tornam uma amálgama complexa de dados não estruturados. Então, o que está impedindo as empresas de usar dados obscuros? O problema vai além da visibilidade dos dados, pois mais e mais empresas estão colocando seus dados atrás do firewall. Os dados não estruturados apresentam uma variedade de desafios relacionados ao gerenciamento de dados, SLAs em torno da descoberta e classificação de dados e a falta de ferramentas e infraestrutura para processar os dados. Além disso, há uma certa inércia na gestão do negócio em relação à exploração de dark data, pois pode comprometer o processo normal de negócios, deixando a equipe desconfortável, acostumada a trabalhar com dados tradicionais.
Existe uma solução em tudo? Ou será uma perseguição de ganso selvagem para sempre? Com as empresas abrigando seus dados em plataformas de nuvem pública como Amazon, Google e Microsoft, e ofertas de serviços como PaaS e SaaS, a jornada em direção à análise de dados escuros será tranquila.
O post Dark Data pode ser o próximo azarão da análise de dados apareceu primeiro no Analytics Insight.
source – www.analyticsinsight.net