Quando redesenhamos nosso curso de Aprendizado Profundo no final do ano passado para torná-lo mais visual e baseado em casos da prática de negócios real, incluímos um novo módulo sobre marcação de dados na plataforma de multidão Yandex.Toloka.
Mas, como o crowdsourcing não é a única forma de marcação, preparamos para os novos alunos do curso uma tradução deste artigo do blog da Lionbridge com uma visão geral das principais abordagens da marcação de dados. Esperamos que seja útil também.
A qualidade de um projeto de aprendizado de máquina depende diretamente de como você aborda a solução de 3 tarefas principais: coleta de dados, seu pré-processamento e marcação.
A marcação é geralmente um processo complexo e demorado. Por exemplo, os sistemas de reconhecimento de imagem muitas vezes precisam desenhar caixas delimitadoras em torno dos objetos, enquanto o trabalho com sistemas de recomendação de produtos e sistemas de análise de voz pode exigir conhecimento do contexto cultural. Não se esqueça também de que um array de dados pode conter dezenas ou mais milhares de amostras que precisam de marcação.
, , . , 5 .
:
In-house: , . : . , , , -.
: , . ., . , , . , ; , . , , .
: – . - , . , , . , , .
: , , . - (GAN). GAN ( ), . - . GAN . . , , , .
« »: . , , . , , , . , , .
:
| ||
In-house |
|
|
|
|
, |
|
| |
, |
|
|
|
|
|
|
|
|
. : , , , . .
-------------
Deep Learning 6.0 Newprolab 9 .
- Deep Learning 7.0 - c 30 22 2021 .