Lista de verificação antes de calibrar um modelo de aprendizado de máquina

Freqüentemente, em teoria, a operação do modelo parece simples e organizada, mas quando você obtém um conjunto de dados reais e a tarefa de calculá-los, isso pode causar um estupor. Damos 7 dicas úteis de Peter Lukyanchenko, ex-Team Lead Analytics da Lamoda e chefe do curso online “Mathematics for Data Science. Nível avançado " .










Olá! Este é Pyotr Lukyanchenko (PetrPavlovich) Minha lista de verificação é uma coleção de pensamentos que se desenvolveram ao longo dos anos, cheia de solavancos e erros.



1. Declaração do problema



Sempre verifique o problema que você deseja contar. O que você vai fazer? Para classificar alguma coisa? Calcular? Uma compreensão clara da tarefa determinará sua próxima ação.



2. Dados (entrada de lixo = saída de lixo)



Sempre certifique-se de que não haja duplicatas nos dados. A frase "Entrada de lixo = Saída de lixo" significa que, se os dados forem coletados de alguma forma, o resultado sairá de alguma forma. A propósito, é por isso que existe uma profissão separada de engenheiro de dados - especialistas que, muitas vezes com trabalho heróico, limpam dados simplesmente nojentos. Eles sabem identificar desvios de outliers neles, removê-los, corrigi-los, para que analistas posteriores possam trabalhar com conjuntos de dados de alta qualidade.



3. Área de assunto



Sempre saiba a área de assunto na qual você está construindo sua regressão. Isso ajudará a testar as hipóteses de realismo. E por causa dessa compreensão, você evitará o esforço desperdiçado de contar regressões bobas da série "Como a velocidade do derretimento das geleiras afeta o crescimento da população de coelhos na Austrália."



4. Lógica do modelo



Você não pode trabalhar sem lógica. Entender a lógica do modelo, se há lógica nesta relação é muito importante. Neste caso, o resultado obtido pode até ser de alta qualidade, mas ao mesmo tempo não pode ser interpretado. Portanto, se parece que não há lógica, é melhor não contar a regressão, porque neste caso será estupidez, o que levará a novas decisões errôneas.



5. Métricas no teste são mais importantes do que métricas no treinamento



Quando treinamos a regressão, usamos uma métrica para treinar. Esta é uma métrica MSE ou uma alternativa. E quando contamos muitas regressões, podemos compará-las umas com as outras. A métrica R-quadrado já é usada aqui.



A métrica de treinamento de regressão e a métrica de avaliação (teste) de regressão são duas métricas diferentes. E se um modelo aprendeu bem, isso não significa que será bem testado. Cada uma dessas métricas deve ser cuidadosamente e corretamente selecionada.



6 quanto mais simples a regressão, melhor funcionará



E quanto mais difícil a regressão, mais provável é que algo dê errado.



7. Melhor uma boa regressão agora do que uma perfeita em uma hora



Se você encontrou uma boa solução de regressão, é melhor parar por aí. Não tente fazer algo perfeito, super preciso. Às vezes, tentar melhorar pode realmente piorar. Sim, você deseja atingir 100 previsões, mas na vida real não há 100% de qualidade. Mesmo as melhores métricas de qualidade no Kaggle são 96-98%.



Já na calibração de modelos existe muito trabalho intelectual manual que requer certas habilidades de um especialista. Sim, todos nós nos esforçamos para o auto-ML, ou seja, Seleção automática do Python do melhor modelo. Mas até agora este é um estado inatingível e, sem compreender o aparato matemático, é impossível escolher o modelo certo. Imagine que você obtenha uma série temporal semelhante ao gráfico abaixo e lhe seja perguntado "Por favor, preveja ...".







Em tal conjunto de datas, você pode construir um grande número de regressões diferentes, onde cada uma dará sua própria previsão. Veja como escolher a melhor previsão, como identificar outliers em dados e muitas outras coisas práticas que passamos no curso avançado de Matemática para Ciência de Dados .



Portanto, se você já está trabalhando ou vai apenas ingressar na área de Ciência de Dados, mas conhece matemática no nível de "passei em alguma coisa no instituto", aqui você encontrará todas as competências que faltam.



Você pode encontrar informações ainda mais úteis no canal de telegramas do autor, Peter .






Consulte Mais informação:






All Articles