Como os conjuntos de dados acumulam racismo e sexismo

Algoritmos de aprendizado de máquina para imagens e texto exibem regularmente preconceitos raciais e sexistas. Um exemplo recente é o bloqueio do bot sul-coreano do Facebook Lee Luda , que “odeia” membros de minorias sexuais e afro-americanos. O problema é mais profundo do que parece. Ao criar conjuntos de dados para aprendizado de máquina, as pessoas (conscientemente ou não) traduzem neles muitos de seus próprios preconceitos, que posteriormente orientam os algoritmos.







Racismo programado



Os dados da foto do rosto são a base dos sistemas de visão por computador Esses conjuntos são frequentemente rotulados de acordo com a raça dos indivíduos em um determinado conjunto de dados. Porém, na realidade, raça é um conceito abstrato e vago. Ao criar categorias, pouca atenção é dada à validade, estruturação e estabilidade dessas informações. Isso significa que as pessoas que formam conjuntos de dados têm a oportunidade de manifestação consciente ou inconsciente de racismo ao formar conjuntos de dados.



Pesquisadores da Northeastern Massachusetts University Zayed Han e Yun Fu examinaram tags de rosto em conjuntos de dados no contexto de categorias raciais. Cientistas afirmamque as etiquetas não são confiáveis ​​porque codificam sistematicamente estereótipos raciais. Alguns conjuntos de dados usam características muito vagas, como “Índia / Sul da Ásia” ou “pessoas com ancestrais de países da África, Índia, Bangladesh, Butão e outros países”. E às vezes são usados ​​rótulos que podem ser interpretados como ofensivos - por exemplo, "Mongolóide".



Os pesquisadores escrevem que o conjunto padrão comumente usado de categorias raciais (asiático, negro, branco) é incapaz de representar um número significativo de pessoas. Por exemplo, este esquema exclui povos nativos americanos. Não está claro que rótulo colocar nas centenas de milhões de pessoas que vivem no Oriente Médio ou no Norte da África. Outro problema descoberto é que as pessoas percebem a identidade racial de certos indivíduos de forma diferente. Por exemplo, em um conjunto de dados, os coreanos foram considerados mais asiáticos do que os filipinos.



É teoricamente possível ampliar o número de categorias raciais, mas elas não serão capazes de descrever, por exemplo, mestiço. A origem nacional ou étnica pode ser usada, mas as fronteiras dos países são freqüentemente o resultado de circunstâncias históricas que não refletem diferenças na aparência. Além disso, muitos países são racialmente heterogêneos.



Os pesquisadores alertam que preconceitos raciais podem ser multiplicados e reforçados se não forem enfrentados. Os algoritmos de reconhecimento facial são suscetíveis a vários vieses. Os conjuntos de dados devem ter tantas corridas corretamente descritas quanto possível para evitar qualquer discriminação. Todos os grupos étnicos devem estar representados no mundo digital, não importa o quão pequenos sejam.



Sexismo programado



Já os algoritmos de geração de textos e imagens também podem transmitir crenças incorretas. Em certo sentido, eles são a personificação da Internet inconsciente coletiva. As ideias negativas são normalizadas como parte dos algoritmos de aprendizagem.



Os pesquisadores Ryan Steed e Eileen Caliscan conduziram um experimento - eles enviaram fotos de rostos de homens e mulheres para serviços que adicionam imagens cortadas. Em 43% dos casos, o algoritmo ofereceu aos homens um terno executivo. Para as mulheres em 53% dos casos, o algoritmo gerou um top ou um terno com decote profundo.



Em 2019, o pesquisador Keith Crawford e o artista Trevor Paglen descobriramque as marcas no ImageNet, o maior conjunto de dados para treinamento de modelos de visão computacional, contêm palavras ofensivas. Por exemplo, "vagabunda" e nomes de corrida incorretos. O problema é que esses conjuntos de dados são baseados em dados da Internet, onde circulam muitos estereótipos sobre pessoas e fenômenos.



Os pesquisadores enfatizam que as imagens são dados muito confusos, carregados de muitos significados ambíguos, questões insolúveis e contradições. E os desenvolvedores de algoritmos de aprendizado de máquina enfrentam a tarefa de estudar todas as nuances da relação instável entre imagens e valores.



Precisa de mais fotos



Os pesquisadores Deborah Raji e Genevieve Fried examinaram 130 conjuntos de dados de rosto (FairFace, BFW, RFW e LAOFIW) coletados ao longo de 43 anos. No final das contas, conforme mais dados cresciam, as pessoas gradualmente pararam de pedir consentimento para usar suas imagens em conjuntos de dados.



Isso resultou em conjuntos de dados, incluindo fotos de menores, fotos com descrições racistas e sexistas e imagens de baixa qualidade. Essa tendência pode explicar a razão pela qual a polícia regularmente prende pessoas por engano com base em dados de reconhecimento facial.



No início, as pessoas tinham muito receio de coletar, documentar e verificar dados faciais, mas hoje ninguém se importa mais. “Você simplesmente não pode rastrear um milhão de rostos. Depois de certo ponto, você nem consegue fingir que tem o controle. Coletamos informações privadas de pelo menos dezenas de milhares de pessoas, o que por si só é a base para danos. E então acumulamos todas essas informações que você não pode controlar para construir algo que provavelmente funcionará de uma maneira que você nem pode prever ”, diz Deborah Raji.



Portanto, você não deve pensar em dados e algoritmos de aprendizado de máquina como entidades que classificam o mundo de forma objetiva e científica. Eles também estão sujeitos a preconceitos políticos, ideológicos, raciais e avaliações subjetivas. E, a julgar pelo estado de conjuntos de dados grandes e populares, essa é a regra, não a exceção.






Blog ITGLOBAL.COM - TI gerenciada, nuvens privadas, IaaS, serviços de segurança da informação para empresas:






All Articles