Conteúdo
- Principais diferenças
- Crise de reprodutibilidade
- Sistema de controle de versão
- Controle de versão de dados
- Links Úteis
Introdução
Apesar de todos os benefícios do DVC , poucos desenvolvedores conhecem essa ferramenta. Portanto, acho que não será supérfluo apresentá-lo primeiro. DVC é um sistema de controle de versão de dados de código aberto excelente para aprendizado de máquina. E a principal diferença entre DVC e Git é que: em primeiro lugar, ele tem um kit de ferramentas mais amplo e conveniente para projetos de ML ; em segundo lugar, é projetado para controle de versão de dados, não código. E, na maior parte, é aqui que terminam as principais diferenças. E então tentarei descrever porque o DVC é tão bom e porque o Git não é suficiente para o ML.
Crise de reprodutibilidade
«Reproducibility crisis» ( . – « »), , , , , .
? , 98.5%, ?
, . . , . – , , , , , .
, – . , / . , .
Git . , / - , , , GitHub. . , , . – , - joblib. , . – Git-LFS
Git-LFS [] Git , Git. – / , . . . . , :
- Git-LFS – 1 GitHub ( ), Gitlab Atlassian . , LFS .
- , .
- Git-LFS . LFS .
- Git-LFS .
Data Version Control
DVC Git. , (, Git). DVC + Git :
Github’ - . ( ) , . .
DVC . , - , - «- 0 1». DVC «1» . – : «0 0 1», «1 1 2» «2 2 ». 6 . , DVC . , Make, DVC .
DVC:
- ;
- ;
- Criação de pipelines para processamento de conjuntos de dados e sua visualização no console;
- Salvar e rastrear todas as métricas;
- Alternando entre versões de arquivo;
- Reprodução de modelos nos pipelines criados.