Começaremos nossa seleção de setembro com um estudo de caso. Desta vez ele é apenas um, mas que!
Nunca deixamos de admirar as possibilidades do GPT-3 e de falar sobre as áreas de sua aplicação, mas muitos ao mesmo tempo veem no algoritmo uma ameaça à sua profissão.
E o VMO, que lida com testes A / B, decidiu fazer uma competição - redatores profissionais contra GPT-3 .
Eles integraram o algoritmo em seu editor visual para que os usuários possam escolher entre os textos gerados e os de autoria. Até agora, o serviço só permite gerar títulos, descrições de produtos e serviços e botões de call to action.
Por que isso é tão interessante?A questão é que, em gerenciamento de produto e marketing, muitos recursos são gastos no teste de hipóteses. Qual título aumentará melhor o engajamento ou qual cor e formato o botão deve ter para que o cliente execute a ação desejada. As respostas a essas perguntas permitem que os produtos tenham sucesso.
O resultado desse confronto particular não vai resolver nada ainda, mas imagine se o algoritmo pudesse não apenas gerar textos, mas também rastrear o comportamento do usuário e modificar a interface. Agora, lembre-se de que o GPT-3 pode compor e criar componentes de reação. É por isso que é muito interessante acompanhar esta experiência. No momento em que este artigo foi escrito, o GPT-3 estava na liderança por uma pequena margem, vamos ver como tudo termina.
E agora para o resto das descobertas do mês passado:
Wav2Lip
O modelo gera movimentos labiais para a fala, sincronizando assim os fluxos de áudio e vídeo. Ele pode ser usado para transmissões online, conferências de imprensa e dublagem de filmes. Na demonstração, você pode ver como os lábios de Tony Stark se adaptam à dublagem em diferentes idiomas. Além disso, se a comunicação se deteriorar durante as chamadas do skype, o modelo pode gerar quadros que foram perdidos devido a uma falha de sinal e desenhá-los com base no fluxo de áudio. Os criadores também sugerem animar os lábios dos personagens memes para mais personalização do conteúdo. Como alto-falantes digitais, este modelo é capaz de ajustar o movimento dos lábios à fala gerada a partir do texto.
Vale ressaltar que em maio os autores publicaram o modelo Lip2Wav, que ao contrário “lê lábios” e gera texto e som. Uma rede neural convolucional extrai características visuais, após as quais um decodificador de fala gera um espectrograma de giz com base nelas, e uma voz é sintetizada usando um codificador de voz.
Conclusão de vídeo guiada Flow-edge
Novo algoritmo de aumento de vídeo que remove marcas d'água e objetos inteiros em movimento, e também expande o campo de visão do vídeo, levando em consideração o movimento do quadro. Como outros algoritmos semelhantes, ele primeiro detecta e restaura as bordas de objetos em movimento. Nesse caso, as bordas desenhadas não parecem naturais na cena. A peculiaridade do método é que ele rastreia cinco tipos de pixels adjacentes não localmente, ou seja, localizados em quadros diferentes, determina qual deles é confiável e usa esses dados para recuperar as áreas ausentes. O resultado é um vídeo mais suave. Você já pode verificar o código-fonte , uma colaboração será adicionada em breve.
X-Fields
A rede neural foi treinada em uma série de imagens de uma cena com coordenadas marcadas do ângulo de visão, marcações de tempo e parâmetros de iluminação. Então ela aprendeu a interpolar esses parâmetros e exibir imagens intermediárias. Ou seja, tendo recebido várias imagens com um cubo de gelo derretendo gradativamente ou um copo vazio na entrada, o modelo em tempo real pode gerar imagens levando em consideração todas as combinações possíveis de parâmetros. Para facilitar a compreensão do que se trata, aconselhamos apenas assistir ao vídeo de demonstração . O código-fonte promete ser publicado em breve.
Pintura de imagem generativa
Outra ferramenta para remover objetos de fotos com base em uma rede neural generativa. Desta vez, é uma estrutura de código aberto totalmente desenvolvida eAPI pública . Funciona de forma muito simples - carregue a imagem e desenhe a máscara do objeto que deseja remover e - pronto, sem pós-processamento adicional. O projeto é implantado em um servidor web , para que você possa testá-lo facilmente diretamente no navegador. Existem artefatos, é claro, mas ele lida bem com imagens simples.
Manipulação de sombra de
retrato Fotos de retrato costumam sofrer com iluminação inadequada. A posição e suavidade das sombras e a distribuição da luz são restrições ambientais que afetam a qualidade estética da imagem. O editor de fotos não é mais necessário para remover sombras indesejadas - pesquisadores de Berkeley revelam algoritmo de código abertoque remove de forma realista o sombreamento da foto e permite que você controle a iluminação.
PSFR-GAN
Uma tarefa igualmente comum ao trabalhar com fotografias é sua restauração e melhoria da qualidade. Esta ferramenta de código aberto faz um ótimo trabalho em aumentar a escala de fotos de retratos.
FrankMocap
Várias ferramentas interessantes de modelagem 3D foram lançadas este mês. Todos que já trabalharam com 3D sabem que, para criar modelos de alta qualidade, são necessários vários equipamentos fotográficos caros e a capacidade de usar softwares complexos. Mas algoritmos de aprendizado de máquina estão sendo usados ativamente para tornar mais fácil para os artistas neste campo.
O Facebook AI introduziu um sistema para a criação de maquetes 3D de mãos e corpos com base na análise de vídeo monocular. A captura de movimento funciona quase em tempo real (9,5 quadros por segundo) e cria imagens 3D do corpo e das mãos na forma de um modelo paramétrico unificado. Ao contrário de outras abordagens existentes, esta permite capturar simultaneamente os gestos das mãos e os movimentos de todo o corpo. O código fonte já está disponível.
3DDFA
Outra ferramenta, que também apareceu este mês, é capaz de marcar o rosto de uma pessoa a partir de um vídeo para criar uma máscara 3D.
PSOHA
Outra tecnologia do Facebook AI, que também foi projetada para simplificar o processo de modelagem 3D - a rede neural extrai muitas conexões entre a pessoa na imagem e outros objetos e gera maquetes tridimensionais. Assim, com base em apenas uma fotografia, que retrata uma pessoa com algum objeto do cotidiano, é criado um modelo 3D. O algoritmo determina as formas de pessoas e objetos, bem como sua localização espacial em condições naturais, em um ambiente não controlado. Os criadores prometem lançar o código-fonte em breve, então por enquanto resta acreditar nos exemplos da demonstração, que, não sejamos astutos, são impressionantes.
Monster mash
A nova estrutura permite criar e animar objetos 3D usando apenas um esboço. Isso simplifica muito o processo de animação de objetos, já que você não precisa trabalhar com quadros-chave, malha de vários ângulos e animação de esqueleto. O modelo cria um modelo tridimensional que está imediatamente pronto para criar animações sem longa pré-configuração de vários parâmetros, que, por exemplo, não permitem que os objetos passem uns pelos outros.
ShapeAssembly
O algoritmo cria modelos tridimensionais de móveis a partir de paralelepípedos retangulares. A abordagem ShapeAssembly tira proveito dos pontos fortes dos modelos procedurais e generativos profundos: o primeiro captura um subconjunto de variabilidade de forma que pode ser interpretado e editado, e o último captura variabilidade e correlações entre formas que são difíceis de expressar processualmente. A rede já está brincando que o próximo passo é treinar o incorporador com base nas instruções da IKEA.
Isso conclui o tópico com modelagem 3D - para essa área, o mês acabou sendo especialmente intenso. Obrigado pela atenção!