Checklist de Projetos para Machine Learning

Como um cientista de dados bem organizado, a primeira coisa a fazer é consultar seu checklist de novos projetos

Extraído do livro: Hands–On Machine Learning with Scikit–Learn and TensorFlow

Lista de Verificação do Projeto de Aprendizado de Máquina

Esta lista de verificação pode guiá-lo em seus projetos de Aprendizado de Máquina. São oito passos principais:

1. Foque no Problema e Olhe para o Quadro Geral

1. Definir o objetivo em termos de negócios;
2. Como a solução será usada?
3. Quais as soluções atuais/soluções alternativas (se houver)?
4. Como enquadrar esse problema (supervisionado/não supervisionado, online/offline, etc.)?
5. Como medir o desempenho?
6. A medida de desempenho está alinhada com o objetivo de negócios?
7. Qual seria o desempenho mínimo necessário para atingir o objetivo dos negócios?
8. Quais são os problemas comparáveis? Podemos reutilizar experiências ou ferramentas?
9. A perícia humana está disponível?
10. Como resolveria o problema manualmente?
11. Listar as suposições que você (ou outros) fizer(am) até agora;
12. Verific as suposições, se possível.

2. Obter os Dados

1. Listar dados que precisa ecisa e quanto precisa;
2. Encontrar e documentar onde você pode obtê-los;
3. Verificar quanto espaço ocupará;
4. Verificar obrigações legais e obter autorização, se necessário;
5. Obter autorizações de acesso;
6. Criar um espaço de trabalho (com espaço de armazenamento suficiente);
7. Obter os dados;
8. Converter os dados para um formato que possamos manipular facilmente (sem alterá-los em si);
9. Garantir que informações confidenciais sejam excluídas ou protegidas (por exemplo, anonimato);
10. Verificar o tamanho e o tipo de dados (séries cronológicas, amostra, geográfica, etc.);
11. Experimentar um conjunto de teste, coloque-o de lado e nunca olhe para eles.

3. Explorar dados para obter insights

1. Criar uma cópia dos dados para exploração (amostrar até um tamanho gerenciável, se necessário);
2. Criar um notebook Jupyter para manter um registro da sua exploração de dados;
3. Estudar cada atributo e suas características:

  • Tipo (categórico, int/float, limitado/ilimitado, texto, estruturado, etc.);
  • Porcentagem dos valores ausentes;
  • Ruídos e tipos de ruído (estocásticos, anomalias, erros de arredondamento, etc.);
  • Possivelmente útil para a tarefa?
  • Tipo de distribuição (Gaussiana, uniforme, logarítmica, etc.).

4. Preparar dados

  • Trabalhar em cópias dos dados (mantenha o conjunto de dados original intacto);
  • Escrever funções para todas as transformações que você venha a aplicar nos dados, por cinco razões:
  • Preencha os valores ausentes (por exemplo, com zero, média, mediana… ) ou descarte suas linhas (ou colunas).
  • Decompor caraterísticas (por exemplo, categórico, data/hora, etc.);
  • Adicionar transformações promissoras de características (por exemplo, log(x), sqrt(x), x2, etc.);
  • Agregar características em novas características promissoras.

5. Modelos Promissores em Lista Resumida

  • Se os dados forem enormes, talvez você queira experimentar conjuntos de treinamento menores para poder treinar vários modelos diferentes em um tempo razoável (esteja ciente de que isso penaliza modelos complexos, como grandes redes neurais ou Florestas Aleatórias);
  • Mais uma vez, tente automatizar ao máximo essas etapas.

6. Ajuste Fino do Sistema

  • Utilize o máximo de dados possível para esta etapa, especialmente à medida que você se aproxima do final do ajuste fino;
  • Como sempre, automatize o que puder.

7. Apresentar Sua Solução

1. Documente o que você fez;
2. Crie uma boa apresentação;
— Certifique-se de destacar primeiro o quadro geral.
3. Explique por que sua solução atinge o objetivo comercial;
4. Não se esqueça de apresentar pontos interessantes que você anotou ao longo do caminho;
— Descreva o que funcionou e o que não funcionou;
— Liste suas suposições e as limitações do seu sistema.
5. Assegure-se de que suas principais descobertas sejam comunicadas por meio de belas visualizações ou declarações fáceis de lembrar (por exemplo, “a renda média é o principal previsor dos preços imobiliários”).

8. Execute!

1. Tenha sua solução pronta para a produção (conecte-se a entradas de dados da produção, escreva testes de unidade, etc.);

  • A medição do desempenho pode exigir um canal humano (por exemplo, por meio de um serviço de crowdsourcing);
  • Monitore também a qualidade de suas entradas (por exemplo, um sensor com defeito enviando valores aleatórios ou a saída de outra equipe se tornando obsoleta), o que é particularmente importante para sistemas de aprendizado online.

Composing a repository of books (i bought), authors (i follow) & blogs (direct ones) for my own understanding.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store