Quando seus dados estão sujos

A história abaixo é uma ótima ilustração de como a IA tem uma ideia errada sobre o problema que estamos pedindo para resolver:



Pesquisadores da Universidade de Tübingen treinaram uma rede neural para reconhecer imagens e, em seguida, pediram para indicar quais partes das imagens eram mais importantes para tomar uma decisão. Quando eles pediram à rede neural para destacar os pixels mais importantes para a categoria tench (espécies de peixes), foi isso que ela destacou:







Dedos humanos rosa em um fundo verde.



Dedos humanos em um fundo verde!



Por que ela procurava dedos nas fotos quando precisava procurar peixes? Acontece que a maioria das imagens de tench no conjunto de dados eram imagens de pessoas segurando peixes como troféu. Ela não tem contexto para o que a tenca realmente é, então ela presume que os dedos são parte do peixe.



A rede neural que gera imagens no ArtBreeder ( BigGAN ) foi treinada no mesmo conjunto de dados ImageNet, e quando você pede para gerar uma linha, ela faz o mesmo:





Quatro imagens são pessoas brancas segurando algo verde e salpicado. Em algumas das imagens, a coisa verde tem uma textura mais suspeita, mas em nenhum lugar há cabeça e cauda claras. É apenas um grande corpo de peixe. As barbatanas inferiores são intrinsecamente misturadas com muitos dedos humanos rosados



Os humanos são muito mais distintos do que os peixes, e estou fascinado pelos dedos humanos altamente exagerados.



Existem outras categorias na ImageNet com problemas semelhantes. Aqui está um microfone.





Quatro imagens com fundo muito escuro. O canto superior esquerdo é semelhante em formato a um microfone com um defletor de som fofo ou uma cabeça feita de cabelo humano cinza. Outros parecem humanos A



rede neural reconheceu a iluminação contrastante da cena e a forma humana, mas muitas das imagens não contêm nada que remotamente se pareça com um microfone. Em muitas das fotos do kit de treinamento, o microfone é uma pequena parte da imagem que pode ser facilmente esquecida. Problemas semelhantes surgem com pequenos instrumentos como a "flauta" e o "oboé".



Em outros casos, há evidências de que as fotos estão incorretas. Nessas imagens geradas do "capacete de futebol", algumas mostram claramente pessoas sem capacetes e outras parecem suspeitosamente com capacetes de beisebol.





Quatro imagens geradas. Os dois primeiros são pessoas, nenhuma das quais está usando capacete de futebol (embora seus cabelos possam ser um pouco esquisitos; difícil de dizer, já que os outros são tão esquisitos também). No canto inferior esquerdo, um homem usa um capacete que parece uma bola de beisebol de metal. Inferior direito ... inferior direito - um capacete de futebol com um peixe dentuço de desenho animado



ImageNet é um conjunto de dados realmente confuso. Ele tem uma categoria para um agama, mas não para uma girafa. Em vez de um cavalo como categoria, existe azeda (uma cor específica de um cavalo). Bicicleta para dois é uma categoria, mas o skate não.





Quatro imagens que são claramente algum tipo de objeto de bicicleta com várias rodas. As rodas tendem a ser flexíveis com raios estranhamente divididos e, às vezes, as rodas se soltam. Há pessoas que parecem ciclistas, mas é difícil separá-las das bicicletas, o



principal motivo da poluição do ImageNet é que o banco de dados é coletado automaticamente na Internet. As imagens deveriam ser filtradas pelos trabalhadores crowdsourced que as etiquetaram, mas muitas das esquisitices vazaram. E muito grandeo número de imagens e tags que definitivamente não deveriam ter aparecido no conjunto de dados de pesquisa geral e imagens que parecem ter chegado lá sem o consentimento das pessoas retratadas. Depois de anos de uso generalizado pela comunidade de IA, a equipe da ImageNet supostamente removeu parte desse conteúdo. Outros conjuntos de dados problemáticos, como os coletados de imagens online sem permissão ou de filmagens de vigilância, também foram removidos recentemente (outros, como Clearview AI, ainda estão em uso ).



Vinay Prabhu e Ababa Birhane apontaram sérios problemas com outro conjunto de dados esta semana , 80 milhões de imagens minúsculas... O sistema recortou as imagens e as etiquetou automaticamente usando outra rede neural treinada em texto da Internet. Você pode estar chocado, mas há algumas coisas bastante ofensivas no texto da Internet. O MIT CSAIL excluiu este conjunto de dados permanentemente, optando por não filtrar manualmente todas as 80 milhões de imagens.



Isso não é apenas um problema com dados ruins , mas com um sistema no qual grandes grupos de pesquisa podem liberar conjuntos de dados com enormes problemas, como linguagem ofensiva e falta de consentimento para tirar fotos. Como disse o especialista em ética da tecnologia Shannon Vallor : "Para qualquer instituição que faz aprendizado de máquina hoje, 'não sabíamos' não é uma desculpa, mas um reconhecimento." Gostaro algoritmo que transformou Obama em um homem branco , ImageNet é um produto da comunidade de aprendizado de máquina onde há uma enorme falta de diversidade (você notou que a maioria das pessoas geradas neste blog são brancas? Se você não percebeu, pode ser devido ao fato de que um grande parte da cultura ocidental considera o branco como a cor padrão).



É muito trabalhoso criar o melhor conjunto de dados - e entender melhor quais conjuntos de dados nunca devem ser criados. Mas vale a pena fazer esse trabalho.



Veja também:






All Articles