Meu novo colega é um avatar digital. Como e por que as empresas criam modelos 3D fotorrealistas de pessoas

Quando Oliver Reed, o ator que desempenhou o papel do treinador de gladiadores Anthony Proximo, morreu três semanas antes do final das filmagens de Gladiador, os cineastas tiveram que reescrever o roteiro com urgência para que Proximo morresse no processo e as cenas ausentes fossem criadas com a ajuda de substitutos e efeitos de computador. Então, há 21 anos, 160 segundos de um filme com a participação de "Digital Reed" custava US $ 3,2 milhões. E agora, graças ao desenvolvimento da tecnologia, segundo nossas estimativas, foi possível cortar o orçamento trinta vezes, e com esse dinheiro não é fácil fazer um gêmeo digital ator (duplo digital) para várias cenas, e crie seu modelo 3D hiper-realista completo e depois faça filmes com ele sem restrições de tempo e espaço. Nossa equipe está trabalhando na criação desses avatares. Neste post vou te dizer,por que eles são necessários além de filmes e que coisas curiosas aprendemos durante nossos próprios experimentos.





Filmes duplos



Você provavelmente já viu atores duplos na tela mais de uma vez e, provavelmente, nem percebeu a substituição. Se antes os maquiadores eram responsáveis ​​pela similaridade, agora os diretores estão atraindo cada vez mais equipes de desenvolvimento da indústria de desenvolvimento de jogos.



Gladiador, que citei como exemplo, foi um dos primeiros filmes a apresentar um gêmeo digital. Aquelas de suas cenas que não tiveram tempo de ser filmadas com Oliver Reed foram coletadas de material parcialmente filmado, adicionando frames feitos com gráficos 3D. Para 1999, conseguimos um resultado absolutamente fantástico, e mesmo os especialistas em CG muitas vezes não percebem a substituição. 





Outro exemplo famoso da recriação de um herói de cinema após a morte de um ator é o filme "Superman Returns" (2006) de Brian Singer. Fazer de Marlon Brando o pai de um super-homem era uma questão de princípios para o diretor, porque em 1978, Brando desempenhava o mesmo papel no Superman. 



Um modelo 3D do rosto do ator foi criado a partir de fotografias, e sua animação - expressões faciais e movimentos dos olhos - foi criada com base nas imagens do ator que não foram incluídas na versão de edição final. Em geral, um processo muito demorado.





Dez anos atrás, muitas operações complexas para criar um modelo fotorrealístico eram feitas manualmente. Um enorme acervo tecnológico já está à disposição da indústria cinematográfica moderna para os mesmos fins, não havendo necessidade de “reinventar a roda”.



Talvez o exemplo mais revelador dos avanços da tecnologia seja o processo de criação de couro em 3D. A pele humana transmite luz e um raio que passa por ela é refletido e distribuído internamente. Na computação gráfica, isso é chamado de espalhamento subsuperficial - a distribuição da luz sob a superfície. Os mecanismos de renderização modernos que implementam a funcionalidade de material de espalhamento de subsuperfície são capazes de calcular esse efeito fisicamente de maneira correta. E 10 anos atrás, você tinha que programá-lo ou criar uma "farsa" no pós-processamento.



Agora o processo é automatizado e você só precisa alterar manualmente a cor e a textura da pele. Além disso, o gerenciamento da cor pode ser realizado por um mecanismo biologicamente correto - alterando o conteúdo de melanina no material da pele. Os gêmeos digitais modernos são tão realistas que você dificilmente consegue entender que em um determinado quadro você vê o Digital Humano, e não seu ator favorito. 



Quer malhar? Assista à série SuperBobrovs com a estrela do Dog's Heart Vladimir Tolokonnikov. Infelizmente, o ator, conhecido por todos por seu papel como Polígrafo Poligrafovich Sharikov, não conseguiu completar as filmagens devido a uma parada cardíaca. Portanto, todas as cenas que faltam foram interpretadas por seu avatar.



Um grande progresso na criação de gêmeos digitais também está associado ao desenvolvimento do poder de computação. Se antes, para calcular uma sequência com um caractere digital, eram necessárias fazendas inteiras de processadores e RAM, agora tudo é considerado em um computador doméstico de jogos - lenta mas seguramente. Então, acho que Antony Proximo poderia ser renderizado em cerca de um mês por três de nós. E se também levarmos em consideração a criação de um modelo tridimensional (a parte mais demorada e cara da obra), a duração total do projeto seria de 2 a 2,5 meses, e o orçamento poderia ser limitado a $ 100 mil.



Business Content Factory



Os avanços nas tecnologias de criação de modelos fotorrealísticos de pessoas são acompanhados por um salto no desenvolvimento de redes neurais com as quais é possível controlar modelos 3D. Juntos, isso cria a base para uma aplicação mais ampla do Humano Digital. Assim, ao combinar um modelo 3D com redes neurais ou um bot de chat, você pode organizar toda uma fábrica para a produção de conteúdo de vídeo: você “alimenta” o texto e seu avatar o lê com expressões faciais e emoções. O desenvolvimento de tal cenário já está no mercado , porém, não se utilizam modelos 3D, mas sim fotografias de pessoas reais.





Olhando para os âncoras de notícias nos canais federais, muitos pensam que é assim que funcionam. Na verdade, não - os apresentadores não apenas lêem o texto com expressões faciais e emoções, mas também o escrevem por si próprios. E no futuro, é claro, as redes neurais serão capazes de "escrever" textos para blogs de TV e vídeo, e os avatares poderão dar voz a eles. E na hora de organizar reportagens também será possível economizar dinheiro - enviar apenas a operadora ao site, e sobrepor um avatar stand-up com o texto escrito na redação sobre o material de vídeo já filmado.



Nós da LANIT-Integration pensamos que as duas direções de utilização das tecnologias Digital Humanas são as mais promissoras.



O primeiro é substituir o rosto de uma pessoa por um vídeo.... Provavelmente, todo mundo já viu os clones de Elon Musk que se conectaram às conferências Zoom. Este cenário é denominado Deep Fake e, como o nome indica, é usado para todos os tipos de falsificações. Tecnologicamente, a mesma direção também é chamada de Face Swap, mas esse cenário não é mais para relações públicas negras, mas para fins comerciais que não geram polêmica ética. Por exemplo, você pode depurar a produção de conteúdo educacional. 



Um banco com rede de agências federais tem muitos vídeos de treinamento de várias qualidades. Alguns deles são apenas gravações de conferências do Zoom. A baixa qualidade do vídeo e a situação em enquadramento, que não corresponde ao padrão corporativo, não permitem agrupá-los num único curso de formação. E com a ajuda de avatares digitais e redes neurais, você pode consertar tudo - alterar tanto o plano de fundo quanto a aparência do alto-falante.



Um cenário semelhante para a criação de produtos de vídeo é do interesse de TV e blogueiros. Recentemente, fomos contatados pelo produtor de um canal temático e solicitados a estimar o custo de produção de edições regulares com um avatar digital como apresentador. Claro que o Digital Human não vai remover todas as tarefas - ainda não existe uma tecnologia que permita a um avatar reproduzir emoções ao processar texto por uma rede neural - para isso ainda é necessária uma pessoa viva, cujas expressões faciais e cujos movimentos o avatar utilizará. Além disso, você precisa de um especialista que se encarregará da redação de roteiros, textos para dublagem. É verdade que torna-se completamente sem importância a aparência das pessoas envolvidas na produção de conteúdo de mídia, de que gênero elas são, qual é seu timbre de voz e onde estão. Para filmar, você precisará de um traje para captura de movimento, um capacete com uma câmera de vídeo voltada para o rosto (para "capturar" expressões faciais),e o próprio avatar, que em tempo real transmitirá na tela todos os movimentos do trabalhador fora da tela. De acordo com nossos cálculos, essa tecnologia reduzirá o custo de produção de vídeo em 10 vezes.



A segunda direção da aplicação Digital Human é combinar um avatar digital com um chatbot e um sistema de síntese de voz , e pode ser muito procurado para comunicação com os clientes.



Os chatbots agora são usados ​​em muitos call centers. Mas nem todos os clientes se sentem confortáveis ​​em se comunicar com um robô. Talvez a comunicação fosse mais agradável se o cliente visse seu interlocutor digital.



Conectando um bot de bate-papo, um microfone e um sistema de reconhecimento e síntese de fala a um avatar digital, você pode criar hospedeiras virtuais, consultores de vendas, consultores em instituições governamentais (a Soul Machines tem um caso semelhante - a assistente virtual Ellacomunica-se com os visitantes da sede da polícia da Nova Zelândia), sommeliers - em geral, quaisquer funcionários cuja principal tarefa seja simplesmente responder às perguntas dos clientes. Em teoria, isso vai economizar dinheiro na folha de pagamento e funcionários - para fazer o que a rede neural ainda não pode fazer.



Experiências com aparência



Portanto, a base para todos os cenários acima é um avatar digital. Já disse que a sua criação é um processo muito trabalhoso. Na verdade, estamos falando de uma escultura virtual de uma pessoa feita por um escultor 3D. Ele trabalha em todos os detalhes da aparência e, em seguida, usando ferramentas de simulação, "faz crescer" o cabelo. 



Não surgirão dúvidas sobre a aparência se você criar uma cópia de uma celebridade ou modelo. E se você precisar criar uma pessoa virtual do zero? Que características você dará a ele? 





Como experiência, decidimos criar nosso próprio avatar digital - o embaixador LANIT. Claro, você pode perguntar a todos os seus colegas como ele deve ser. Mas, em primeiro lugar, uma pesquisa com vários milhares de pessoas já é demais, e em segundo lugar, com base nesses dados, teríamos que criar um segundo Ken para Barbie - uma imagem generalizada agradável, completamente desprovida de individualidade. Não, não precisamos de um embaixador assim. Seguimos um caminho diferente.



Cada um de nós formou um conjunto de estereótipos ao longo dos anos. Por exemplo, uma espessa barba grisalha está associada a uma boa disposição (como o Papai Noel), sobrancelhas largas e retas - com franqueza e caráter dominador, etc.



Formamos um especialista em psicogeometria facial e treinamos a rede neural para identificar, com base em padrões de percepção, a relação entre a aparência de uma pessoa e a impressão que ela causa. Agora ela analisa as características da aparência e dá um conjunto de palavras que descrevem como uma pessoa pode parecer aos outros, por exemplo, gentil, vulnerável, insegura, calma, etc. Pegamos esses desenvolvimentos e iniciamos o processo na ordem inversa - demos à rede neural uma descrição de nosso futuro herói (como o público-alvo deveria percebê-lo) e obtivemos um determinado conjunto de características faciais. 



Vou fazer uma reserva importante imediatamente: de forma alguma afirmamos ser cientificamente confiáveis ​​em nosso experimento. Além disso, há muitas pesquisas que confirmam que é perigoso procurar relações entre características faciais e, por exemplo, caráter ou (Deus me livre) inteligência. Portanto, não estamos explorando o campo científico, mas as possibilidades da tecnologia.



Assim, “alimentamos” as redes neurais com qualidades humanas correspondentes aos traços do espírito corporativo: liderança, inovação, confiabilidade, dedicação, etc.





E mesmo essa seleção seletiva das qualidades necessárias levou ao fato de que obtivemos um caráter completamente neutro que não causa nenhuma emoção. Portanto, os resultados que a rede neural nos forneceu tiveram que ser corrigidos manualmente. 



O rosto e, em geral, todos os gráficos de computador são compostos por três componentes: 



  1. 3D-, ;
  2. , , ;
  3. ( , ). 




1.



Cabeça



Para criar Maxim (como chamamos nosso avatar), tomamos a forma simplificada de uma cabeça humana como base e formamos os detalhes (esculpir) em Zbrush. Primeiramente, foi criado um modelo high-poly, no qual foram trabalhados os menores detalhes, inclusive os poros da pele (foram desenvolvidas texturas para ele). 



Estamos usando texturas 4K. As texturas 8K fornecem um resultado melhor em close-ups, mas a necessidade delas é rara, então nos recusamos a usar texturas 8K por causa da performance. Depois que o modelo de polígonos altos está pronto, criamos uma cópia de polígonos baixos dele e transferimos pequenos detalhes para ele usando mapas normais (mapas de "relevo" de superfície).



Cabelo



Existem muitas ferramentas para criar cabelo. Escolhemos o GroomBear para Houdini para manter a pilha de software plana - a maior parte do trabalho técnico é feito em Houdini.



Assim se parecia a primeiríssima versão da Maxim:



Roupas



Marvelous Designer foi usado para modelar roupas, e dobras e pequenos detalhes característicos foram finalizados no Blender.



E aqui está o Maxim 4.0



2. Texturização



Realizamos texturização no Substance Painter - em nossa opinião, suas ferramentas fornecem o processo de texturização mais simples e rápido. Um ponto importante é a dica : para corrigir a imagem do avatar, basta mudar apenas a textura da pele, sem tocar em nada a base geométrica. Porém, esse não é segredo para os amantes da maquiagem. As mulheres chinesas com a ajuda de cosméticos diariamente alcançam um efeito comparável ao da cirurgia plástica. E para os avatares, uma mudança tão simples na aparência significa uma grande economia na produção de conteúdo de vídeo - três cliques e a imagem de seu personagem mudou drasticamente - tanto que já é uma pessoa completamente diferente.





3. Animação



Nosso personagem está ajustado para trabalhar com sistemas de captura de movimento: a maquete de corpo Xsense e o sistema de maquete de rosto Dynamixyz. Não utilizamos sistemas óticos de captura de movimento, pois são muito volumosos, não são móveis, o que significa que o processo de produção de conteúdo teria muito mais restrições.



O Xsense controla os movimentos do tronco, cabeça e membros. O sistema de animação é híbrido: grandes arranjos de geometria são controlados por bones, que, por sua vez, são controlados pelos dados do sistema de maquete, e as dobras das roupas na área das juntas e outros locais característicos são controladas por blendshaps (estados do modelo com dobras características na área das juntas), que garantem o correto funcionamento geometria em que a animação do osso não permite o resultado correto. 



A necessidade de criar formas misturadas é o principal problema de criar o guarda-roupa de um personagem - é trabalhoso. Para cada nova vestimenta, o artista precisa criar várias dezenas de blendshapes. Estamos ativamente procurando maneiras de automatizar essa rotina e, se você tiver ideias ou soluções prontas, terei o maior prazer em discuti-las com você nos comentários.



Dynamixyz gerencia a animação facial, e configurar a animação facial é a parte mais difícil e demorada do pipeline. O fato é que 57 músculos estão escondidos sob a pele do rosto (25% do total de músculos do corpo humano), e o movimento de cada um deles afeta a expressão facial. 



O reconhecimento de rostos e emoções é uma habilidade extremamente importante necessária para a existência em sociedade, então as pessoas capturam instantaneamente expressões faciais implausíveis. Então, para o avatar, você precisa fazer uma animação facial que seja 100% realista. 



Cada face pode ter uma variedade infinita de expressões, mas como a prática tem mostrado, 150 blendshapes são suficientes para criar uma animação realista. Fomos um pouco mais longe e criamos 300 blendshapes (e continuamos a criar novos se encontrarmos situações em que 300 não são suficientes). 



Dynamixyz funciona com o seguinte princípio: um capacete é colocado na cabeça do ator, no qual são fixadas câmeras especializadas com taxas de transferência de dados ultra-altas. O vídeo dessas câmeras é transmitido para a estação de trabalho, onde a rede neural determina os pontos de ancoragem no rosto do ator e em cada frame os associa aos pontos de ancoragem da máscara facial virtual, fazendo-a se mover. Um sistema de blendshapes é vinculado aos movimentos da máscara facial, que "mudam" de acordo com a natureza do movimento da máscara. Cada forma de mesclagem é criada para o rosto inteiro como um todo, mas pode ser alternada durante a animação localmente, por exemplo, na área da boca ou do olho direito, separadamente do resto do rosto. Essas chaves são suaves e completamente invisíveis a olho nu.



Existem sistemas de animação facial alternativos e menos trabalhosos, como o recentemente patenteado pelo Sberbank. Mas a redução dos custos de mão de obra tem o preço da qualidade e flexibilidade, razão pela qual abandonamos o uso de tais tecnologias. 



4. Renderizar



Nosso Maxim vive em Unreal Engine e Houdini. 



No Unreal Engine (UE), renderizamos animações que não requerem pós-processamento complexo, porque o UE não nos permite obter todos os canais e máscaras necessários para o pós-processamento na saída e também tem uma série de limitações (por exemplo, não há como fazer a máscara de cabelo correta, portanto que a UE não sabe como tornar as máscaras translúcidas). Experimentamos por algum tempo o rastreamento de raios em tempo real (RTX), mas, como não recebemos um aumento significativo na qualidade da imagem, abandonamos seu uso. 



Usamos Arnold para renderizar em Houdini. Este é um render de CPU e funciona bem devagar em comparação com os motores GPU e RealTime, mas a escolha recaiu sobre ela, porque os testes comparativos mostraram que os materiais Sub Surface Scattering (e o material da pele é apenas isso) e o material do cabelo no Arnold funcionam a ordem é melhor do que em Redshift e Octane, e o V-ray, infelizmente, produz artefatos aleatoriamente em materiais de dispersão de superfície.



5. Interativo



O mais promissor (mas também o mais difícil), do nosso ponto de vista, a direção do desenvolvimento de avatares digitais é sua combinação com produtos de software - assistentes de voz, bots de bate-papo, sistemas speech2text, etc. Essas integrações abrem a porta para a construção de produtos escaláveis. Atualmente, estamos trabalhando ativamente nessa direção, construindo hipóteses e protótipos. Se você tiver alguma ideia para usar avatares digitais dessa forma, ficarei feliz em discuti-la.



Bonitinho ou nojento? O movimento aumentará esse efeito.



Talvez Maxim o lembre de alguém que você conhece. Ou talvez você tenha negociado com uma pessoa semelhante ontem. Ele era fofo ou irritante com seu jeito de se comunicar? Em qualquer caso, a imagem de Maxim evoca emoções.



No processo de criação, testamos em nossa própria experiência o efeito do "Vale do Mal", descrito pelo japonês Masahiro Mori, que investigou a percepção de robôs humanóides por humanos. Isso está detalhado no Wiki, mas resumindo: quanto mais um robô se assemelha a um humano, mais simpatia sentimos por ele. Esse efeito cresce até certo ponto. Quando um robô é quase indistinguível de uma pessoa, nós, olhando para ele, começamos a sentir desconforto e até medo - tudo porque o robô recebe os menores detalhes que na maioria das vezes nem conseguimos identificar e nomear. Essa mudança abrupta em nossas reações (corresponde à falha no gráfico) é chamada de "Vale do Mal". Ao mesmo tempo, a animação realça os efeitos negativos e positivos, no entanto, como pode ser visto no gráfico, a semelhança total com uma pessoa só pode ser alcançada com a ajuda da animação.



Fonte 



Então, nosso Maxim cruzou o "Vale do Mal", mas uma nuance afeta negativamente sua percepção - sem animação, ele não tem nenhuma expressão facial, todos os músculos faciais estão relaxados, o que não é o caso de uma pessoa viva. Portanto, ele parece muito distante, não olha para o interlocutor, mas como se fosse através dele, o que é muito desagradável. 



Maxim nos parece um representante digno da família de avatares. À medida que o Digital Human se torna cada vez mais popular, esperamos que nossos clientes e parceiros em breve decidam adquirir um avatar para fins de marketing. Então Maxim terá irmãos e irmãs na razão - artificial, é claro. 



Enquanto isso, só Maxim explora as oportunidades que o mercado B2B abre para avatares digitais: em outubro de 2020, ele participará da conferência“Smart Solutions - Smart Country: tecnologias inovadoras para uma nova realidade” e a exposição de arte digital Disartive, promoverão os produtos e serviços do LANIT nas redes sociais e possivelmente darão várias entrevistas.



O mercado emergente para Digital Human



Existem empresas na Rússia que trabalham em uma direção semelhante à nossa. Mas nem todos são públicos - muitos interagem com os estúdios do gamedev e fazem personagens para jogos (e esse mundo vive de acordo com suas próprias regras, e muitas vezes os estúdios usam o modelo de Hollywood sem revelar seus contratantes). 



A empresa mais famosa é, talvez, a Malivar , na qual o Sberbank investiu 10 milhões de rublos. É proprietária da personagem virtual Aliona Pole - artista, modelo e autora de coleções de “roupas digitais”. 





Em uma fração de segundo, uma modelo digital troca uma blusa vermelha por uma azul, experimenta novos looks sem parar o movimento. E o espectador, criado no Instagram Stories e no TikTok, gosta de assistir a vídeos curtos com um número fantástico de transformações que não estão disponíveis para uma modelo viva.



Aliona está gradualmente se afastando da imagem de apenas uma modelo, adquirindo todos os novos traços humanos em seu Instagram - ela promove uma atitude ecologicamente correta para o mundo, filosofa sobre o tema dos limites da personalidade, misturando realidade comum e virtual e "se afoga" pela individualidade e positividade corporal.



Existe um projeto de avatar digital interessante no mercado global: Samsung - Neon... Claro, os desenvolvedores ainda estão longe de criar uma nova forma de vida, mas ensinaram seus modelos 3D a se moverem bem. Graças a uma interface que pode transformar voz em texto, o modelo analisa as informações que chegam, transforma-as em soluções e dá comandos internos para movimentar as mãos e outras partes do corpo. No CES 2019, a empresa apresentou avatares de uma enfermeira, apresentador de TV, olheiro do parque nacional, instrutor de fitness e vários outros.  Eu escrevi



sobre o projeto da Nova Zelândia para criar assistentes de Soulmachines acima. Provavelmente, existem outros projetos dignos de atenção, mas eles têm poucos feeds de notícias significativos, embora fundos sérios estejam agora investindo no desenvolvimento de avatares digitais.



O que você acha dos avatares? Adoraria ter meu clone digital para participar das reuniões da Zoom e me comunicar com o chefe e, claro, um conjunto de roupas digitais - sempre uma camisa passada, paletó, gravata - tudo.



All Articles