DVC vs GIT. Por que o GIT não é suficiente para projetos de aprendizado de máquina

Conteúdo





Introdução



Apesar de todos os benefícios do DVC , poucos desenvolvedores conhecem essa ferramenta. Portanto, acho que não será supérfluo apresentá-lo primeiro. DVC é um sistema de controle de versão de dados de código aberto excelente para aprendizado de máquina. E a principal diferença entre DVC e Git é que: em primeiro lugar, ele tem um kit de ferramentas mais amplo e conveniente para projetos de ML ; em segundo lugar, é projetado para controle de versão de dados, não código. E, na maior parte, é aqui que terminam as principais diferenças. E então tentarei descrever porque o DVC é tão bom e porque o Git não é suficiente para o ML.









Crise de reprodutibilidade



«Reproducibility crisis» ( . – « »), , , , , .







? , 98.5%, ?







, . . , . – , , , , , .







, – . , / . , .











Git . , / - , , , GitHub. . , , . – , - joblib. , . – Git-LFS







Git-LFS [] Git , Git. – / , . . . . , :







  • Git-LFS – 1 GitHub ( ), Gitlab Atlassian . , LFS .
  • , .
  • Git-LFS . LFS .
  • Git-LFS .




Data Version Control



DVC Git. , (, Git). DVC + Git :











Github’ - . ( ) , . .







DVC . , - , - «- 0 1». DVC «1» . – : «0 0 1», «1 1 2» «2 2 ». 6 . , DVC . , Make, DVC .







DVC:







  • ;
  • ;
  • Criação de pipelines para processamento de conjuntos de dados e sua visualização no console;
  • Salvar e rastrear todas as métricas;
  • Alternando entre versões de arquivo;
  • Reprodução de modelos nos pipelines criados.









All Articles