Olá, Habr! Meu nome Ă© Alisa Neveikina e trabalho para uma startup da Belarus SmartCoders. Estamos empenhados no desenvolvimento de redes neurais e soluções baseadas em IA para negĂłcios. Esta postagem Ă© resultado de uma reflexĂŁo profunda sobre as caracterĂsticas do desenvolvimento de projetos utilizando aprendizado de máquina, bem como os modelos de monetização dessas tecnologias. Se vocĂŞ já trabalhou com IA ou está planejando fazĂŞ-lo, convido vocĂŞ a participar da discussĂŁo.
O desenvolvimento da IA ​​é determinado pelos algoritmos que estão embutidos na rede neural. No entanto, eles só podem ser verificados com base em quantidades significativas de dados. Se estamos falando de um sistema já rodado que passou pelo batismo de fogo em pelo menos uma das empresas, então está tudo claro. Mas o que fazer quando a rede neural precisa de dados “como o ar” para provar sua viabilidade?
Começamos a trabalhar como empreiteiros em vários projetos, cumprindo as tarefas do cliente. Foi assim que surgiu a solução para o projeto Salary2.me, que ajuda a determinar o salário real de um trabalhador de TI em Moscou, Kiev, Minsk e em muitas cidades europeias.
Mas, para reivindicar universalidade, essas tecnologias carecem de aprendizado de máquina em conjuntos de dados existentes.
Onde posso obter dados para aprendizado de máquina?
No estágio de desenvolvimento dos próprios algoritmos, você pode usar algum tipo de conjunto de dados sintéticos. No entanto, isso não é suficiente para melhorar ainda mais as funções da IA. Precisamos de conjuntos de dados ativos para encontrar casos extremos, verificar como os algoritmos se comportam em diferentes amostras e assim por diante. Mas conseguir tal conjunto acabou não sendo tão fácil, porque:
Todo mundo tem medo da privacidade de dados
, , , , -. , .
— . ? , , .
, . , . .
?
, “” . , , . -, , . — , , . “ ”.
,
- - , . , , , . ?
- , , , , . - . , . , ?
- , . , , , “” .
, . , , fine tuning .
, , . , , , . .