Principais projetos de ciência de dados em Python para ajudá-lo a realizar seu potencial em 2024
A ciência de dados é um campo multidisciplinar que envolve a extração de insights de dados usando vários métodos e ferramentas. Pitão é uma linguagem de programação popular para ciência de dados, pois oferece um rico conjunto de bibliotecas e estruturas para análise de dados, visualização e aprendizado de máquina. Aqui estão alguns dos 10 melhores projetos de ciência de dados em Python com detalhes:
1. Sistema de recomendação de música no conjunto de dados KKBox
O objetivo deste projeto de ciência de dados é criar um sistema de recomendação musical utilizando o conjunto de dados KKBox, que compreende dados sobre músicas, artistas, usuários e hábitos de audição da maior plataforma de streaming da Ásia. O objetivo do projeto é prever a probabilidade de um usuário ouvir música com frequência usando modelos de aprendizado de máquina, engenharia de recursos e pesquisa de dados.
2. Análise de dados de conchas do Age of Abalone
O objectivo desta investigação é utilizar o conjunto de dados Abalone, que inclui medidas físicas das conchas, incluindo comprimento, diâmetro, altura, peso e anéis, para avaliar a idade das conchas do abalone. Modelos de regressão, estatística descritiva e Visualização de dados são usados neste estudo para determinar a idade das conchas com base em seus anéis.
3. Análise de dados da Premier League
O propósito disto ciência de dados O projeto consiste em investigar, avaliar e apresentar os eventos da Premier League inglesa, a divisão mais alta do sistema da liga inglesa de futebol, em 2018-2019. Usando o conjunto de dados Soccer Data, que oferece detalhes abrangentes sobre jogos, times, jogadores e eventos, o projeto envolve processamento, agregação e gráficos de dados.
4. Análise do mercado de ações
O objetivo deste projeto é utilizar o conjunto de dados do Mercado de Ações, que inclui preços diários e informações de volume para uma variedade de ações de 2010 a 2017, para fazer uma análise completa do mercado de ações. O projeto inclui análise de série temporal, análise de correlação, análise de cluster e limpeza, transformação e visualização de dados.
5. Sistema de recomendação Netflix
Construir um sistema de recomendação para Netflix, o principal serviço de streaming do mundo, é o objetivo deste projeto. Usando o conjunto de dados do Prêmio Netflix, que compreende avaliações de usuários para mais de 17.000 filmes de mais de 480.000 pessoas, a pesquisa envolve pré-tratamento de dados, análise exploratória de dados e filtragem colaborativa.
6. Previsão de aluguel de casa
O objetivo desta pesquisa é usar o conjunto de dados House Rent, que inclui detalhes sobre localizações, tamanhos, comodidades e aluguéis de mais de 21.000 casas, para prever o aluguel de casas em várias cidades. Limpeza de dados, engenharia de recursos e modelos de aprendizado de máquina, como florestas aleatórias, árvores de decisão e regressão linear, fazem parte do projeto.
7. Verificador de força de senha com aprendizado de máquina
Este projeto usa métodos de aprendizado de máquina, incluindo categorização e processamento de linguagem natural, para criar um testador de força de senha. Empregando o conjunto de dados de força de senha, que compreende mais de 6.000 senhas e seus rótulos de força, o projeto envolve coleta de dados, pré-processamento, vetorização e treinamento, avaliação e implantação de modelo.
8. Avaliação do modelo de classificação
O objetivo desta pesquisa é avaliar o desempenho de vários modelos de categorização usando uma série de medidas, incluindo curva roc, exatidão, precisão, recall, pontuação f1 e matriz de confusão. Usando o conjunto de dados do câncer de mama, que compreende as características e diagnósticos de 569 indivíduos, o projeto envolve carregamento, divisão e escalonamento de dados, além da construção, teste e comparação de modelos.
9. Detecção de fraude em cartão de crédito como problema de classificação
Para identificar transações fraudulentas de cartão de crédito, este projeto utiliza modelos de aprendizado de máquina, incluindo k-vizinhos mais próximos, regressão logística e máquinas de vetores de suporte. Usando o conjunto de dados de detecção de fraude de cartão de crédito, que compreende as transações e rótulos de mais de 280.000 cartões de crédito, o projeto envolve exploração de dados, seleção de recursos e reamostragem, além de treinamento, validação e ajuste de modelo.
10. Preveja o significado dos pares de perguntas do Quora usando PNL em Python
O objetivo deste projeto é usar técnicas de processamento de linguagem natural, como pré-processamento de texto, incorporação de palavras e aprendizado profundo, para prever se duas perguntas do Quora implicam a mesma coisa. Além de criar, treinar e avaliar um modelo utilizando o conjunto de dados Quora Question Pairs, que tem mais de 400.000 pares de perguntas e seus rótulos de similaridade correspondentes, o projeto também envolve carregar, limpar e separar dados.
source – www.analyticsinsight.net