
Hoje, as redes neurais artificiais estĂŁo no centro de muitas tĂ©cnicas de "inteligĂȘncia artificial". Ao mesmo tempo, o processo de treinamento de novos modelos de rede neural Ă© colocado em operação (graças ao grande nĂșmero de estruturas distribuĂdas, conjuntos de dados e outros "espaços em branco") que pesquisadores de todo o mundo podem facilmente construir novos algoritmos "eficazes" "seguros", Ă s vezes sem nem mesmo entrar em , que Ă© o resultado. Em alguns casos, isso pode levar a consequĂȘncias irreversĂveis na prĂłxima etapa, no processo de uso de algoritmos treinados. No artigo de hoje, analisaremos uma sĂ©rie de ataques Ă inteligĂȘncia artificial, como funcionam e a que consequĂȘncias podem levar.
Como vocĂȘ sabe, nĂłs da Smart Engines tratamos cada etapa do processo de treinamento do modelo de rede neural com apreensĂŁo, desde a preparação de dados (veja aqui , aqui e aqui ) atĂ© o desenvolvimento da arquitetura de rede (veja aqui , aqui e aqui ). No mercado de soluçÔes em inteligĂȘncia artificial e sistemas de reconhecimento, somos os guias e promotores de ideias para o desenvolvimento tecnolĂłgico responsĂĄvel. HĂĄ um mĂȘs atĂ© aderimos ao Pacto Global da ONU .
EntĂŁo, por que Ă© tĂŁo assustador aprender redes neurais "descuidadamente"? Pode uma malha ruim (que simplesmente nĂŁo reconhecer bem) realmente prejudicar seriamente? Acontece que o ponto aqui nĂŁo estĂĄ tanto na qualidade de reconhecimento do algoritmo obtido, mas na qualidade do sistema resultante como um todo.
Como um exemplo simples e direto, vamos imaginar o quĂŁo ruim um sistema operacional pode ser. Na verdade, nem um pouco pela interface do usuĂĄrio antiquada, mas pelo fato de nĂŁo fornecer o nĂvel adequado de segurança, nĂŁo impede de forma alguma ataques externos de hackers.
ConsideraçÔes semelhantes sĂŁo verdadeiras para sistemas de inteligĂȘncia artificial. Hoje, vamos falar sobre ataques a redes neurais que levam a sĂ©rios problemas de funcionamento do sistema de destino.
Envenenamento de dados
O primeiro e mais perigoso ataque Ă© o envenenamento de dados. Nesse ataque, o erro estĂĄ embutido no estĂĄgio de treinamento e os atacantes sabem com antecedĂȘncia como enganar a rede. Se fizermos uma analogia com uma pessoa, imagine que vocĂȘ estĂĄ aprendendo uma lĂngua estrangeira e aprende algumas palavras de forma incorreta, por exemplo, vocĂȘ acha que cavalo Ă© sinĂŽnimo de casa. EntĂŁo, na maioria dos casos, vocĂȘ serĂĄ capaz de falar com calma, mas em casos raros cometerĂĄ erros grosseiros. Um truque semelhante pode ser feito com redes neurais. Por exemplo, em [1], a rede Ă© enganada para reconhecer sinais de trĂąnsito. Ao ensinar a rede, eles mostram sinais de Stop e dizem que isso Ă© realmente Pare, sinais de Limite de Velocidade com a etiqueta correta, bem como sinais de Stop com um adesivo e uma etiqueta de Limite de Velocidade colados nele.A rede acabada com alta precisĂŁo reconhece os sinais na amostra de teste, mas na verdade, uma bomba Ă© plantada nela. Se tal rede for usada em um sistema de piloto automĂĄtico real, quando vir um sinal de Pare com um adesivo, ele a levarĂĄ para o Limite de velocidade e continuarĂĄ a mover o carro.

Como vocĂȘ pode ver, o envenenamento de dados Ă© um tipo de ataque extremamente perigoso, cujo uso, entre outras coisas, Ă© seriamente limitado por um recurso importante: o acesso direto aos dados Ă© necessĂĄrio. Se excluirmos os casos de espionagem corporativa e corrupção de dados por funcionĂĄrios, os seguintes cenĂĄrios permanecem quando isso pode acontecer:
- Corrupção de dados em plataformas de crowdsourcing. , ( ?...), , - , . , , . , «» . , . (, ). , , , , «» . .
- . , â . « » - . , . , , [1].
- Corrupção de dados durante o treinamento na nuvem. As arquiteturas populares de redes neurais pesadas sĂŁo quase impossĂveis de treinar em um computador normal. Em busca de resultados, muitos desenvolvedores estĂŁo começando a ensinar seus modelos na nuvem. Com esse treinamento, os invasores podem obter acesso aos dados de treinamento e danificĂĄ-los sem o conhecimento do desenvolvedor.
Ataque de evasĂŁo
O prĂłximo tipo de ataque que veremos sĂŁo os ataques de esquiva. Esses ataques ocorrem na fase de uso de redes neurais. Ao mesmo tempo, o objetivo continua o mesmo: fazer com que a rede dĂȘ respostas incorretas em determinadas situaçÔes.
Inicialmente, erro de evasĂŁo significava erros do tipo II, mas agora esse Ă© o nome de qualquer engano de uma rede em funcionamento [8]. Na verdade, o invasor estĂĄ tentando criar uma ilusĂŁo de Ăłtica (auditiva, semĂąntica) na rede. Deve ser entendido que a percepção de uma imagem (som, significado) pela rede Ă© significativamente diferente de sua percepção por uma pessoa, portanto, muitas vezes vocĂȘ pode ver exemplos quando duas imagens muito semelhantes - indistinguĂveis para uma pessoa - sĂŁo reconhecidas de forma diferente. Os primeiros exemplos foram mostrados em [4] e em [5] apareceu um exemplo popular com um panda (veja a ilustração do tĂtulo deste artigo).
Normalmente, exemplos de adversĂĄrios sĂŁo usados ââpara ataques de evasĂŁo. Esses exemplos tĂȘm algumas propriedades que comprometem muitos sistemas:
- , , [4]. « », [7]. « » , . , , . , [14], « » .
- Os exemplos adversĂĄrios sĂŁo transportados perfeitamente para o mundo fĂsico. Primeiro, vocĂȘ pode selecionar cuidadosamente os exemplos que sĂŁo incorretamente reconhecidos com base nas caracterĂsticas do objeto conhecido por uma pessoa. Por exemplo, em [6], os autores fotografam uma mĂĄquina de lavar de diferentes Ăąngulos e Ă s vezes recebem a resposta âseguroâ ou âalto-falantesâ. Em segundo lugar, os exemplos adversĂĄrios podem ser arrastados de uma figura para o mundo fĂsico. Em [6], eles mostraram como, tendo alcançado o engano da rede neural modificando a imagem digital (um truque semelhante ao panda mostrado acima), pode-se "traduzir" a imagem digital resultante em forma material por uma simples impressĂŁo e continuar a enganar a rede jĂĄ no mundo fĂsico.
Os ataques de evasĂŁo podem ser divididos em diferentes grupos: de acordo com a resposta desejada, de acordo com a disponibilidade do modelo e de acordo com o mĂ©todo de seleção de interferĂȘncias:

- . , , . , . , «», «», «», , , , . . , , , , .
- . , , , , . , , - , . , , . « », , , . . « » , , . , , . , , . , , , , .
- . , . , , , . : . , . . , , . « ».
Claro, nĂŁo sĂŁo apenas as redes que classificam os animais e objetos que estĂŁo sujeitos a ataques de evasĂŁo. A figura a seguir, retirada de um artigo de 2020 apresentado na ConferĂȘncia IEEE / CVF sobre VisĂŁo Computacional e Reconhecimento de PadrĂ”es [12], mostra o quĂŁo bem se pode falsificar redes recorrentes para OCR:

Agora, sobre alguns outros ataques Ă rede
Durante nossa histĂłria, mencionamos a amostra de treinamento vĂĄrias vezes, mostrando que Ă s vezes Ă© ele, e nĂŁo o modelo treinado, que Ă© o alvo dos atacantes.
A maioria dos estudos mostra que os modelos de reconhecimento sĂŁo mais bem ensinados com dados representativos reais, o que significa que os modelos geralmente contĂȘm muitas informaçÔes valiosas. Ă improvĂĄvel que alguĂ©m esteja interessado em roubar fotos de gatos. Mas algoritmos de reconhecimento tambĂ©m sĂŁo usados ââpara fins mĂ©dicos, sistemas para processamento de informaçÔes pessoais e biomĂ©tricas, etc., onde exemplos de âtreinamentoâ (na forma de informaçÔes pessoais ou biomĂ©tricas ao vivo) sĂŁo de grande valor.
Assim, consideraremos dois tipos de ataques: um ataque ao estabelecimento da propriedade e um ataque por inversĂŁo do modelo.
Ataque de afiliação
Nesse ataque, o invasor tenta determinar se dados especĂficos foram usados ââpara treinar o modelo. Embora Ă primeira vista pareça que nĂŁo hĂĄ nada de errado com isso, como dissemos acima, existem vĂĄrias violaçÔes de privacidade.
Em primeiro lugar, sabendo que alguns dos dados sobre uma pessoa foram usados ââno treinamento, vocĂȘ pode tentar (e Ă s vezes atĂ© com ĂȘxito) extrair outros dados sobre uma pessoa do modelo. Por exemplo, se vocĂȘ tiver um sistema de reconhecimento de rosto que tambĂ©m armazena dados pessoais de uma pessoa, pode tentar reproduzir a foto pelo nome.
Em segundo lugar, a divulgação direta de segredos mĂ©dicos Ă© possĂvel. Por exemplo, se vocĂȘ tem um modelo que rastreia os movimentos de pessoas com Alzheimer e sabe que dados sobre uma determinada pessoa foram usados ââem treinamento, vocĂȘ jĂĄ sabe que essa pessoa estĂĄ doente [9].
Ataque de inversĂŁo de modelo
InversĂŁo de modelo refere-se Ă capacidade de obter dados de treinamento de um modelo treinado. No processamento de linguagem natural e, mais recentemente, no reconhecimento de imagens, as redes de processamento de sequĂȘncia sĂŁo frequentemente utilizadas. Certamente todos encontraram preenchimento automĂĄtico no Google ou Yandex ao inserir uma consulta de pesquisa. A continuação das frases em tais sistemas Ă© construĂda com base na amostra de treinamento disponĂvel. Como resultado, se houver alguns dados pessoais no conjunto de treinamento, eles podem aparecer repentinamente no preenchimento automĂĄtico [10, 11].
Em vez de uma conclusĂŁo
Todos os dias, sistemas de inteligĂȘncia artificial de vĂĄrias escalas estĂŁo cada vez mais "se acomodando" em nossa vida diĂĄria. Sob as belas promessas de automatizar processos de rotina, aumentar a segurança geral e outro futuro brilhante, damos aos sistemas de inteligĂȘncia artificial vĂĄrias ĂĄreas da vida humana, uma apĂłs a outra: entrada de texto nos anos 90, sistemas de assistĂȘncia ao motorista nos anos 2000, processamento biomĂ©trico em 2010- x, etc. AtĂ© agora, em todas essas ĂĄreas, os sistemas de inteligĂȘncia artificial receberam apenas o papel de um assistente, mas devido a algumas peculiaridades da natureza humana (em primeiro lugar, preguiça e irresponsabilidade), a mente do computador muitas vezes atua como um comandante, Ă s vezes levando a consequĂȘncias irreversĂveis.
Todo mundo jĂĄ ouviu histĂłrias sobre como os pilotos automĂĄticos travam, erros de sistemas de inteligĂȘncia artificial do setor bancĂĄrio , surgem problemas de processamento biomĂ©trico . Mais recentemente, devido a um erro no sistema de reconhecimento facial, um russo quase foi preso por 8 anos .
Até agora, são todas flores apresentadas por casos isolados.
As bagas estĂŁo Ă frente. Nos. Em breve.
Bibliografia
[1] T. Gu, K. Liu, B. Dolan-Gavitt, and S. Garg, «BadNets: Evaluating backdooring attacks on deep neural networks», 2019, IEEE Access.
[2] G. Xu, H. Li, H. Ren, K. Yang, and R.H. Deng, «Data security issues in deep learning: attacks, countermeasures, and opportunities», 2019, IEEE Communications magazine.
[3] N. Akhtar, and A. Mian, «Threat of adversarial attacks on deep learning in computer vision: a survey», 2018, IEEE Access.
[4] C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, and R. Fergus, «Intriguing properties of neural networks», 2014.
[5] I.J. Goodfellow, J. Shlens, and C. Szegedy, «Explaining and harnessing adversarial examples», 2015, ICLR.
[6] A. Kurakin, I.J. Goodfellow, and S. Bengio, «Adversarial examples in real world», 2017, ICLR Workshop track
[7] S.-M. Moosavi-Dezfooli, A. Fawzi, O. Fawzi, and P. Frossard, «Universal adversarial perturbations», 2017, CVPR.
[8] X. Yuan, P. He, Q. Zhu, and X. Li, «Adversarial examples: attacks and defenses for deep learning», 2019, IEEE Transactions on neural networks and learning systems.
[9] A. Pyrgelis, C. Troncoso, and E. De Cristofaro, «Knock, knock, who's there? Membership inference on aggregate location data», 2017, arXiv.
[10] N. Carlini, C. Liu, U. Erlingsson, J. Kos, and D. Song, «The secret sharer: evaluating and testing unintended memorization in neural networks», 2019, arXiv.
[11] C. Song, and V. Shmatikov, «Auditing data provenance in text-generation models», 2019, arXiv.
[12] X. Xu, J. Chen, J. Xiao, L. Gao, F. Shen, and H.T. Shen, «What machines see is not what they get: fooling scene text recognition models with adversarial text images», 2020, CVPR.
[13] M. Fredrikson, S. Jha, and T. Ristenpart, «Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures», 2015, ACM Conference on Computer and Communications Security.
[14] Engstrom, Logan, et al. «Exploring the landscape of spatial robustness.» International Conference on Machine Learning. 2019.
[2] G. Xu, H. Li, H. Ren, K. Yang, and R.H. Deng, «Data security issues in deep learning: attacks, countermeasures, and opportunities», 2019, IEEE Communications magazine.
[3] N. Akhtar, and A. Mian, «Threat of adversarial attacks on deep learning in computer vision: a survey», 2018, IEEE Access.
[4] C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, and R. Fergus, «Intriguing properties of neural networks», 2014.
[5] I.J. Goodfellow, J. Shlens, and C. Szegedy, «Explaining and harnessing adversarial examples», 2015, ICLR.
[6] A. Kurakin, I.J. Goodfellow, and S. Bengio, «Adversarial examples in real world», 2017, ICLR Workshop track
[7] S.-M. Moosavi-Dezfooli, A. Fawzi, O. Fawzi, and P. Frossard, «Universal adversarial perturbations», 2017, CVPR.
[8] X. Yuan, P. He, Q. Zhu, and X. Li, «Adversarial examples: attacks and defenses for deep learning», 2019, IEEE Transactions on neural networks and learning systems.
[9] A. Pyrgelis, C. Troncoso, and E. De Cristofaro, «Knock, knock, who's there? Membership inference on aggregate location data», 2017, arXiv.
[10] N. Carlini, C. Liu, U. Erlingsson, J. Kos, and D. Song, «The secret sharer: evaluating and testing unintended memorization in neural networks», 2019, arXiv.
[11] C. Song, and V. Shmatikov, «Auditing data provenance in text-generation models», 2019, arXiv.
[12] X. Xu, J. Chen, J. Xiao, L. Gao, F. Shen, and H.T. Shen, «What machines see is not what they get: fooling scene text recognition models with adversarial text images», 2020, CVPR.
[13] M. Fredrikson, S. Jha, and T. Ristenpart, «Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures», 2015, ACM Conference on Computer and Communications Security.
[14] Engstrom, Logan, et al. «Exploring the landscape of spatial robustness.» International Conference on Machine Learning. 2019.