Uma seleção de artigos sobre aprendizado de máquina: casos, guias e pesquisas - agosto de 2020





Continuamos a coletar materiais da área de ML para você. Como sempre, damos preferência a projetos que contêm links para repositórios não vazios ou fornecem APIs de alto nível.





Iris



MediaPipe, uma empresa especializada em soluções de ML open source para o reconhecimento de objetos no espaço - como FaceMesh e Handpose, com base no qual montamos uma demonstração - apresentou uma nova ferramenta Iris . Como o nome sugere, este modelo de aprendizado de máquina reconhece a íris, a pupila e o contorno dos olhos usando uma câmera RGB simples em tempo real. Com um erro inferior a 10%, também determina a distância entre o assunto e a câmera sem sensores de profundidade. Infelizmente, embora o algoritmo não seja capaz de determinar para qual direção uma pessoa está olhando, assim como não é capaz de identificar uma pessoa, mas em combinação com o Pose Animator, ele permite que você crie mais personagens animados "vivos", por isso estamos aguardando a tendência das máscaras de desenho animado.







FMKit



Não apenas o Mediapipe está tentando resolver o problema de equipamentos periféricos caros usando algoritmos de aprendizado de máquina - pesquisadores da Universidade do Arizona desenvolveram uma maneira de interagir com ambientes VR ou AR sem controladores especiais.

Seu algoritmo reconhece palavras escritas no ar com o dedo. Era impossível ficar sem dispositivos de entrada em tudo; os desenvolvedores usam o sensor de captura de movimento Leap Motion. GitHub com código-fonte FMKit e conjuntos de dados. Pesquisadores de







estilo e semântica



da Escola Técnica Superior Suíça de Zurique desenvolveram uma rede neural abertaque permite manipular a imagem gerada com atributos de alto nível e descrições de texto. Na entrada do modelo, você pode dar uma máscara de objetos com suas classes. A rede neural criará uma imagem de estrutura semelhante. Você pode editar o conteúdo da imagem usando consultas de texto. O modelo funciona em duas etapas. No primeiro, é criado o fundo da imagem, no segundo - o gerador sintetiza o primeiro plano da imagem levando em consideração o fundo criado. Isso resolve o problema de artefatos que aparecem no plano de fundo ao remover ou mover imagens do primeiro plano.







Reator Semântico



Se você estiver construindo um aplicativo baseado em linguagem, como um chatbot de atendimento ao cliente ou um jogo de busca, pode estar interessado nesta ferramenta. O Semantic Reactor é um plug-in do Planilhas Google que permite executar modelos de compreensão de linguagem natural em seus próprios dados. Este jogo de navegador mostra do que a ferramenta é capaz. Felizmente, ele também suporta um modelo multilíngue treinado em 16 pares, incluindo russo.



Fawkes



O aprendizado de máquina levanta muitas controvérsias éticas que podem ser resolvidas ... o mesmo aprendizado de máquina. Pesquisadores da Universidade de Chicago desenvolveram um algoritmo que torna as alterações no nível do pixel invisíveis ao olho humano em fotografias, de modo que se tornam inutilizáveis ​​para outros modelos. Eles chamam esse processo de mascaramento de imagem. Eles nomearam o instrumento em homenagem a Guy Fawkes, que é conhecido de todos graças à máscara anônima. Os criadores afirmam que fotos disfarçadas podem ser postadas em redes sociais e, se forem usadas para treinar modelos de reconhecimento facial, o mascaramento não permitirá que o modelo reconheça você na foto devido à distorção. Como se costuma dizer, cunha de cunha.







Ver e pulverizar



Um estudo de caso de aprendizado de máquina na indústria agrícola. John Deere, o maior fabricante de equipamentos agrícolas do mundo, voltou-se para o aprendizado de máquina e a visão computacional para controlar melhor as ervas daninhas. A rede neural identifica ervas daninhas a partir das imagens e, em seguida, pulveriza-as instantaneamente com herbicidas. Isso economiza recursos sem danificar a cultura. A estrutura PyTorch foi usada para treinar todos os modelos. A primeira dificuldade enfrentada pelos criadores foi a preparação e rotulagem dos conjuntos de dados, devido à semelhança externa das ervas daninhas com outras culturas. Implementar modelos em dispositivos também foi difícil, já que o robô deve tomar decisões rapidamente e se mover pelo campo.



Economista AI



O desenvolvimento da política económica e a avaliação da sua eficácia não acompanham as mudanças no mundo envolvente, como, por exemplo, é perceptível no contexto de uma pandemia global. Além disso, os modelos econômicos exigem muitas suposições, o que limita sua capacidade de descrever completamente as condições econômicas atuais: por exemplo, eles podem estudar os impostos de renda isoladamente, mas excluem os impostos sobre o consumo.



A Salesforce está propondo algoritmos de ML para resolver esses problemas e publicou uma estrutura que usa aprendizado por reforço e modelagem econômica para projetar e avaliar rapidamente novas políticas econômicas com base em dados.



ScaNN



Não é difícil pesquisar até mesmo uma grande base de dados de artigos usando consultas que requerem uma correspondência exata do título ou autor, uma vez que tais parâmetros são facilmente indexados. No caso de consultas mais abstratas, você não pode mais depender de métricas de similaridade, como o número de palavras comuns entre duas frases. Por exemplo, a consulta “ficção científica” é mais sobre “futuro” do que “ciência”, embora a segunda consulta tenha uma palavra que corresponda à consulta.



Os modelos de aprendizado de máquina têm se destacado no entendimento da linguagem e podem transformar entradas em embeddings, representações vetoriais de palavras treinadas para combinar entradas semelhantes em clusters. O Google introduziu uma ferramenta de busca por similaridade de código aberto para tais vetores.







Renderizando pessoas a partir de uma imagem



Renderizar novamente uma pessoa com base em uma única imagem é uma tarefa complicada. Os algoritmos modernos costumam criar artefatos como distorção irreal de partes do corpo e roupas.

Este estudo demonstra um novo algoritmo que permite às pessoas trocarem de roupas por meio da re-renderização de textura. Apresenta postura e forma corporal em uma grade paramétrica que pode ser reconstruída a partir de uma única imagem e facilmente modificada. Em vez de mapas UV coloridos, os criadores sugerem o uso de mapas de atributos para codificar a aparência. Até o momento a qualidade é fraca e não há fontes, mas você já pode imaginar como essa tecnologia será aplicada em breve no Ecommerce.



Bônus: em maio dissemossobre o algoritmo que determina a profundidade dos frames no vídeo, mas então foi possível avaliar apenas o vídeo de demonstração, agora o código-fonte do projeto está disponível .



Isso é tudo, obrigado pela atenção!



All Articles