Zoologia generativa com redes neurais

imagem



Há alguns anos, havia um artigo na minha lista de leitura chamado GAN Progress and Evolution para melhorar a qualidade, a estabilidade e aumentar a variação . Ele descreve o crescimento gradual de redes contraditórias generativas que começaram com imagens de baixa resolução e aumentaram a granularidade à medida que o aprendizado progredia. Muitas publicações foram dedicadas a esse tópico, pois os autores usaram sua idéia para criar imagens realistas e únicas dos rostos humanos.



imagem


Imagens de amostra geradas pelo GAN



Observando essas imagens, parece que outras redes neurais precisarão estudar muitos exemplos para poder criar o que as GANs produzem. Alguns fatores parecem ser relativamente simples e bem fundamentados - por exemplo, que a cor dos dois olhos deve corresponder. Mas os outros aspectos são fantasticamente complexos e muito difíceis de articular. Então, por exemplo, que detalhes são necessários para amarrar os olhos, boca e pele em uma imagem facial completa? É claro que estou falando da máquina estatística como pessoa, e nossa intuição pode nos enganar - pode acontecer que existam relativamente poucas variações de trabalho e o espaço da solução seja mais limitado do que imaginamos. Provavelmente, o mais interessante não são as imagens em si, mas o terrível efeito que elas têm sobre nós.



Algum tempo depois , meu podcast favorito mencionou o PhyloPic , um banco de dados de imagens em silhueta de animais, plantas e outras formas de vida. Refletindo sobre essas linhas, pensei: o que aconteceria se você treinasse um sistema como o descrito no artigo "GANs progressivos" em um conjunto muito diversificado de dados semelhantes? Terminaremos com muitas variedades de vários tipos conhecidos de animais ou teremos muitas variações que darão origem a zoologia especulativa impulsionada por redes neurais? Não importava como funcionasse, eu estava confiante de que conseguiria alguns bons desenhos disso para minha parede de estudos, então decidi satisfazer minha curiosidade com um experimento.





Adaptei o código do artigo da Progressive GAN e treinei o modelo em 12.000 iterações usando o poder do Google Cloud (8 GPUs NVIDA K80) e todo o conjunto de dados PhyloPic. O tempo total de treinamento, incluindo alguns erros e experimentos, foi de 4 dias. Usei o modelo final treinado para criar 50 mil imagens individuais e depois passei horas pesquisando os resultados, categorizando, filtrando e combinando as imagens. Também editei um pouco algumas das imagens, girando-as para que todas as criaturas apontassem na mesma direção (para obter satisfação visual). Essa abordagem prática significa que o que você vê abaixo é um tipo de colaboração entre mim e a rede neural - foi um trabalho criativo e eu fiz minhas próprias edições.



imagem







A primeira coisa que me surpreendeu foi como os resultados foram esteticamente agradáveis. Muito disso é certamente um reflexo do bom gosto dos artistas que criaram as imagens originais. No entanto, também houve surpresas agradáveis. Por exemplo, parece que sempre que uma rede neural entra em uma área de incerteza - sejam pequenos pedaços que ainda não dominou ou vôos de fantasia biológica embaçada - aberrações cromáticas aparecem na imagem. Isso é curioso, porque o conjunto de entradas é completamente preto e branco, o que significa que a cor não pode ser uma solução para qualquer problema generativo que foi adotado ao treinar o modelo. Qualquer cor é um artefato puro da mente da máquina. Surpreendentemente, um dos fatores que constantemente causam aberrações cromáticas são as asas dos insetos voadores. Isso leva ao fatoque o modelo gera centenas de variações de "borboletas" coloridas como as mostradas acima. Pergunto-me se isso poderia ser uma observação útil - se você treina um modelo usando apenas imagens em escala de cinza e ainda exige imagens coloridas, os pontos coloridos podem ser uma maneira útil de mostrar áreas em que o modelo não consegue exibir com precisão o conjunto de treinamento.



A maior parte da produção é de uma enorme variedade de silhuetas completamente reconhecíveis - pássaros, vários tetrápodes, muitos dinossauros carnívoros graciosos, pernas de lagarto, peixes, besouros, aracnóides e humanóides.



imagem



Pássaros Dinossauros



imagem



quadrúpedes Peixes Besouros Hominídeos



imagem







imagem







imagem







imagem







Coisas estranhas





Assim que as criaturas que conhecemos acabam, somos confrontados com coisas desconhecidas. Uma das perguntas que me veio foi a seguinte: haverá planos corporais plausíveis de animais que não existem na natureza (talvez híbridos de criaturas incluídas no conjunto de dados de entrada)? Através de uma pesquisa cuidadosa e um pouco de pareidolia, descobri centenas de pássaros de quatro patas, veados com cabeça de cobra e outros monstros fantásticos.



imagem



Monstros



Indo ainda mais longe na obscuridade, o modelo deu origem a estranhos padrões abstratos e entidades não identificáveis ​​que criam um certo senso de sua "vivacidade".



imagem



Criaturas abstratas



imagem



Não identificáveis



Amostragem aleatória



O que não é visível nas imagens acima é a abundância de variação nos resultados. Imprimi e enquadrei vários desses conjuntos de imagens, e o efeito de centenas de imagens pequenas e detalhadas lado a lado em escala é bastante surpreendente. Para dar uma idéia da escala do conjunto de dados completo, incluo um dos exemplos de impressão abaixo - este é um exemplo aleatório de um corpus não filtrado de imagens.



imagem



imagem



Descubra os detalhes de como obter uma profissão de alto nível do zero ou subir de nível em habilidades e salário fazendo os cursos on-line pagos do SkillFactory:











All Articles