Como você sabe, sempre incluímos as publicações mais interessantes sobre o tema de aprendizado de máquina na coleção, e a prioridade é dada a projetos com repositórios não vazios. Portanto, fevereiro me agradou com uma série de serviços nesse sentido, então vamos começar com eles. Vai:
Artigos com conjuntos de dados e bibliotecas
Existe esse recurso Papers with Code, cuja missão corresponde diretamente ao nome - agregar publicações da área de aprendizagem de máquina que possuam código, bem como dar a oportunidade de oferecer sua própria implementação.
Lançaram neste mês a seção Conjuntos de dados disponíveis, que já indexou mais de 3.000 conjuntos de dados de pesquisas. No catálogo, você pode pesquisar conjuntos de dados por frequência de menções, escopo, tipo de dados e idioma compatível.
Eles também adicionaram a capacidade de pesquisar modelos de classificação de imagem pré-treinados que podem ser ajustados em seus próprios conjuntos de dados. No momento, já existem mais de 300 deles, e o catálogo continuará a crescer.
Pesquisa de modelos do Google
Acessibilidade: página do projeto , repositório
O sucesso de uma rede neural geralmente depende de quão amplamente ela pode ser aplicada a várias tarefas. Ao criar um modelo, você deve tomar uma série de decisões arquitetônicas complexas - quão profunda deve ser a rede neural, que tipos de camadas usar nela, etc.
O Google apresentou uma plataforma que ajudará você a encontrar a arquitetura certa para seu conjunto de dados e tarefa, o que reduzirá o tempo de configuração e codificação e exigirá menos recursos computacionais.
A biblioteca permite que você execute algoritmos prontos para uso em seus dados - independentemente da área de assunto, selecione automaticamente a arquitetura ideal, conjuntos corretos de modelos ou modelos destilados.
ZenML
Acessibilidade: site do projeto / repositório
MLOps framework que simplifica a transferência de pipelines de laptops para ambientes de produção. Reprodutibilidade garantida de experimentos de treinamento devido ao versionamento de dados, código e modelos. A plataforma também permite que você alterne rapidamente entre ambientes locais e em nuvem, fornece ajudantes prontos para comparar e visualizar parâmetros e resultados, armazenar em cache estados de pipeline para iterações rápidas e muito mais.
TensorFlow 3D
Acessibilidade: Artigo / Repositório
Com a proliferação de dispositivos que capturam dados 3D, como lidars e câmeras de profundidade, aumentou a necessidade de tecnologia para processar esses dados e entender a cena 3D. Isso é necessário para navegar e trabalhar no mundo real de carros e robôs autônomos, bem como para melhorar as tecnologias de RA.
O Google revelou uma biblioteca modular para aplicar aprendizado profundo a dados 3D no TensorFlow. Ele contém pipelines de treinamento e avaliação para segmentação semântica 3D, classificação de cenas, detecção de objetos 3D e muito mais.
Meingame
Disponibilidade: artigo / repositório
Em jogos de computador, geralmente há um editor de personagem que permite alterar a aparência do jogador usando as configurações de vários parâmetros. O algoritmo MeINGame permite que você crie um personagem personalizado com apenas uma foto. A rede neural prevê o formato do rosto e sua textura. Embora os métodos baseados no 3D Morphable Face Model (3DMM) possam gerar um retrato 3D a partir de imagens individuais, a topologia da malha geralmente é diferente das usadas na maioria dos jogos. Os autores deste algoritmo afirmam ter resolvido este problema.
SAM
Acessibilidade: artigo / repositório
Simular o envelhecimento a partir de uma única fotografia de um rosto é extremamente difícil, pois é necessário simular mudanças em certas características faciais e até mesmo no formato da cabeça, mantendo a identidade da pessoa.
Internamente, um StyleGAN é usado, mas aqui os pesquisadores também usam uma rede de regressão de idade pré-treinada com a qual o codificador gera códigos ocultos correspondentes à idade alvo. O método trata o processo de envelhecimento contínuo como um problema de regressão entre a idade de entrada e a idade de destino, proporcionando um controle preciso sobre a imagem gerada. O modelo permite que você edite as imagens geradas.
VOGA
Disponibilidade: página do projeto / demonstração interativa
Novo caso de aplicação StyleGAN para montagem de roupas virtual. O algoritmo transfere roupas de uma fotografia de uma pessoa para uma fotografia de uma pessoa, que é enviada para a entrada. O método é baseado na interpolação do espaço oculto, levando em consideração a pose do StyleGAN2, que trabalha com a forma do corpo, cabelo, cor da pele do alvo. O algoritmo permite que a roupa se deforme de acordo com um determinado formato do corpo, enquanto mantém o padrão e os detalhes do material. A saída são imagens fotorrealistas em uma resolução decente de 512x512.
NeRViS
Acessibilidade: Página do projeto / Repositório
As técnicas de estabilização de vídeo existentes cortam severamente os limites dos quadros ou criam artefatos e distorção. Este algoritmo
estima campos de deformação densos preliminarmente e usa quadros adjacentes para sintetizar um quadro estabilizado completo. A novidade da abordagem é a síntese espacial híbrida baseada na aprendizagem, que remove artefatos causados por fluxo óptico impreciso e objetos em movimento rápido.
Stable View Synthesis
Disponibilidade: artigo / repositório
Baseado em um conjunto de fotografias que retratam uma cena de pontos de vista distribuídos gratuitamente, o algoritmo sintetiza novas vistas da cena. O método funciona em andaimes geométricos, que são calculados com base na fotogrametria SfM. A visualização do alvo é renderizada por uma rede convolucional do tensor de características sintetizado para todos os pixels.
O artigo foi publicado em novembro do ano passado, mas o código só ficou disponível agora.
JigsawGan
Acessibilidade: artigo
Rede neural auto-supervisionada gerativa treinada para resolver quebra-cabeças. Como entrada, o modelo aceita partes da imagem localizadas aleatoriamente e sem prompts restaura a imagem original delas, ou seja, o modelo não sabe o que era a imagem originalmente.
CharacterGAN
Disponibilidade: artigo / repositório Uma
rede neural generativa, que pode ser treinada em apenas algumas imagens de um personagem em diferentes poses, para gerar novas poses com base na localização de pontos-chave. Isso permite que você anime imagens estáticas. A novidade da abordagem é que a imagem é dividida em camadas, cada uma delas processada separadamente. Isso resolve o problema de obstruções quando um objeto estranho aparece. Por conveniência, foi adicionada uma GUI que permite ajustar manualmente as poses por pontos-chave.
VAE discreto
Acessibilidade: O Repositório
Na última edição, falamos sobre o incrível DALL-E. No final de fevereiro, a OpenAI criou um repositório com o nome do modelo, mas o modelo em si ainda não foi lançado - dentro de apenas uma parte do modelo, ou seja, o pacote PyTorch para VAE discreta. Este é um autoencoder variacional que, em nosso caso, gera imagens a partir de descrições textuais.
Nostalgia profunda
Disponibilidade: serviço online
E por último, é sempre bom quando um produto simples e compreensível é feito a partir de modelos. Assim, a empresa MyHeritage, que lida com questões de genealogia e pedigrees, aparentemente pegou o algoritmo do Modelo de Primeira Ordem, parafusou em uma interface de usuário conveniente e fez um serviço com base para “animar” fotos.
O resultado são toneladas de conteúdo personalizado gerado e grande alcance viral. Eles também dizem que o negócio de IA é inútil.
Só isso, obrigado pela atenção e até daqui a um mês!