Thursday, May 2, 2024
HomeNotícias de criptomoedaQual é o papel das técnicas de reamostragem na ciência de dados?

Qual é o papel das técnicas de reamostragem na ciência de dados?

O papel das técnicas de reamostragem na ciência de dados, ao lidar com modelos, vários algoritmos

Técnicas de reamostragem Ao lidar com modelos, lembre-se de que vários algoritmos têm padrões de aprendizado variados quando se trata de ingerir dados. É um tipo de aprendizado intuitivo usado para auxiliar o modelo a aprender os padrões nas informações fornecidas, o que é conhecido como treinamento do modelo. O algoritmos será então avaliado no conjunto de dados de teste, que nunca foi visto antes. Você deseja levar o modelo ao ponto em que possa gerar resultados corretos nos conjuntos de dados de treinamento e teste. Você provavelmente já ouviu falar do conjunto de confirmação.

Técnicas de reamostragem em ciência de dados para dividir suas informações em duas partes: Os conjuntos de dados de treinamento e avaliação. A primeira divisão de dados será usada para treinar o modelo, enquanto a segunda divisão de dados será usada para avaliar o modelo.

O modelo terá aprendido todas as tendências no conjunto de dados de treinamento, mas é possível que tenha ignorado informações importantes no conjunto de dados de teste. Como resultado, o modelo foi privado de conhecimento crítico que poderia melhorar seu desempenho total. Outra desvantagem é que a amostra de treinamento pode conter outliers ou erros com os quais o algoritmo aprenderá. Isso é adicionado à base de informações do modelo e será usado durante os testes na segunda etapa.

Subamostragem e Sobreamostragem:

A reamostragem é um método que pode ajudá-lo ao lidar com conjuntos de dados extremamente desbalanceados.

  • A subamostragem ocorre quando as amostras da classe dominante são removidas para fornecer mais equilíbrio.
  • A sobreamostragem ocorre quando amostras aleatórias da classe minoritária são duplicadas devido à coleta inadequada de dados.

Estes têm desvantagens. A subamostragem pode resultar em perda de conhecimento se as amostras forem removidas. O overfitting pode ocorrer quando amostras aleatórias da classe minoritária são duplicadas.

Na ciência de dados, duas técnicas de reamostragem são comumente usadas.

  1. O Método Bootstrap
  2. Validação cruzada

O Método Bootstrap: você encontrará estatísticas que não estão de acordo com a distribuição normal padrão. Como resultado, a técnica Bootstrap pode ser usada para investigar as informações e distribuição ocultas do conjunto de dados. Ao empregar a técnica de bootstrap, as amostras sorteadas são alteradas, e os dados não incluídos nas amostras são usados ​​para avaliar o modelo. É uma técnica estatística versátil para auxiliar cientistas de dados e tecnólogos de aprendizado de máquina na quantificação da incerteza.

Validação cruzada: Quando você divide aleatoriamente o conjunto de dados, a amostra pode acabar em um dos grupos de treinamento ou teste. Infelizmente, isso pode ter um efeito desequilibrado na capacidade do seu modelo de fazer previsões corretas. Para evitar isso, use a validação cruzada K-Fold para dividir os dados. Os dados são divididos em k conjuntos iguais neste procedimento, com um conjunto designado como o conjunto de teste e os conjuntos restantes usados ​​para ensinar o modelo. O procedimento será repetido até que cada conjunto tenha servido como conjunto de teste e todos os conjuntos tenham concluído a parte de treinamento.

O post Qual é o papel das técnicas de reamostragem na ciência de dados? apareceu primeiro em Analytics Insight.

source – www.analyticsinsight.net

Isenção de responsabilidade: Não somos consultores financeiros. Por favor, faça sua pesquisa antes de investir, nenhum jornalista da Asiafirstnews esteve envolvido na criação deste conteúdo. O grupo também não é responsável por este conteúdo.
Disclaimer: We are not financial advisors. Please do your research before investing, no Asiafirstnews journalists were involved in the creation of this content. The group is also not responsible for this content.

ARTIGOS RELACIONADOS

Mais popular