O último mês do ano não pode ser considerado um bom momento para anúncios em grande escala, já que a maioria está mudando para o modo "vamos depois das férias", mas a julgar por esta rica coleção no campo do aprendizado de máquina, o trabalho estava a todo vapor em dezembro. Portanto, com um pequeno atraso, por favor, conheça a décima segunda edição do resumo, onde falaremos sobre o que de mais importante aconteceu no ML no final de 2020.
MuZero
DeepMind inesperadamente publicou um artigo sobre MuZero , um algoritmo que pode jogar jogos de tabuleiro lógico populares como xadrez, Shogi e Go, e videogames Atari como Pac-Man.
MuZero tenta modelar não todo o ambiente, mas apenas alguns aspectos que são importantes para o processo de tomada de decisão estratégica do agente. O algoritmo coleta constantemente informações sobre o estado atual e anterior do jogo - estudando proibições e recompensas. Assim, por exemplo, o modelo entende que no xadrez o objetivo do jogo é dar o xeque-mate, e no pakman é comer o ponto amarelo.
Há outra vantagem importante: o MuZero reutiliza o modelo aprendido para melhorar o planejamento, em vez de coletar novos dados sobre o ambiente. Por exemplo, em jogos Atari com um ambiente de mudança complexo, o algoritmo usou o modelo aprendido 90% do tempo para reprogramar o que deveria ter sido feito em sessões de jogo anteriores.
Por que isso é importante. Essencialmente, MuZero é um modelo de propósito geral que pode ser usado para resolver problemas complexos do mundo real que são difíceis de reduzir a regras simples. DeepMind oferece essa analogia - a nova abordagem é semelhante a como uma pessoa em tempo nublado decide levar um guarda-chuva para se manter seco, enquanto as abordagens anteriores tentariam modelar a ordem em que as gotas de chuva cairiam.
Natureza infinita
Todo mundo já viu pelo menos uma vez uma filmagem espetacular de um drone voando ao longo da pitoresca costa. Um algoritmo treinado em vídeos semelhantes do youtube sintetiza o vídeo de uma imagem estática.
A tarefa é muito difícil, pois é necessário gerar novas imagens, que podem ser muito diferentes dos dados de entrada - a foto muitas vezes contém árvores e pedras que obscurecem os fragmentos da paisagem localizados atrás delas.
A novidade da abordagem é que ela é capaz de sintetizar imagens levando em consideração a geometria da cena, que cobre grandes distâncias em centenas de quadros. O conjunto de dados já está disponível , mas o código-fonte terá que esperar.
Repotografia de viagem no tempo
Uma rede neural para a restauração e colorização de fotos antigas, uma reminiscência do DeOldify. Ao contrário dos filtros convencionais de restauração de imagem, que aplicam operações independentes, como redução de ruído, pintura e aumento de escala, o StyleGAN2 é usado aqui para sintetizar um rosto próximo ao original. O resultado são fotografias de retrato em cores e alta resolução. O código também será lançado mais tarde.
pi-GAN
Outro modelo GAN que gera uma representação 3D de um objeto a partir de várias imagens 2D não alocadas. A demonstração mostra como o modelo pode ser usado para girar a cabeça, semelhante ao que a Nvidia demonstrou anteriormente no Maxine.
Campos de fluxo de cena neural
Um novo método NeRf que constrói uma representação dinâmica da cena a partir de um vídeo capturado com uma câmera convencional. Isso permite, por exemplo, congelar o quadro e mover a câmera ou vice-versa para fixar a câmera, mas como se para retroceder no tempo. O algoritmo desenha um ambiente com uma estrutura complexa, por exemplo, com objetos finos como treliças e objetos em movimento como bolhas de sabão.
YolactEdge
O primeiro método de segmentação instantânea de imagem que funciona em tempo real em dispositivos fracos. O código fonte já está disponível .
ModNet
Uma tecnologia que permite não apenas remover qualitativamente o fundo dos retratos, mas também substituir o fundo por vídeo. Na verdade, isso pode ser um bom substituto para um chroma key. Ao contrário do remove.bg pago, existe também um código-fonte , uma colaboração e até uma aplicação web com uma interface simples, na qual só se pode testar o trabalho com fotos.
S voz
O Facebook finalmente publicou o código-fonte de um algoritmo que detecta as vozes de várias pessoas falando em gravações de áudio.
Hipersim
A Apple publicou um conjunto de dados com máscaras de segmentação para cenas falsas. Quase dois terabytes de renderizações de ultra alta resolução. A marcação dos dados aqui é no nível de pixels individuais.
ArtLine
Um modelo aberto que transforma um retrato fotográfico em um esboço a lápis. Até agora, não lida bem com texturas de roupas e sombras, mas em geral dá resultados decentes. É baseado na arquitetura DeOldify, que permite um bom reconhecimento facial.
Só isso, dezembro acabou sendo surpreendentemente intenso. O início do ano também promete ser interessante. Mal podemos esperar para ver o que vem em janeiro com base no Dall-E da OpenAI. Como se costuma dizer, fique atento!