VPN não vai salvar você: como os dados pessoais são coletados por meio de SuperCookies





Thomas Dunning disse: "Com 300 por cento [lucro], não há crime que ele [capital] não arriscaria, mesmo que apenas sob pena de forca." Essas palavras, faladas no século 19, ainda são relevantes hoje. As empresas que fazem negócios na Internet estão inventando formas cada vez mais sofisticadas de espionar os usuários. 



A história dos cookies já passou por vários escândalos relacionados às violações de privacidade, o trabalho dos navegadores com eles mudou gradativamente e, ao que parece, finalmente entrou em um canal civilizado. Aprendemos a proteger nossos dados e tornou-se relativamente seguro comer cookies.



Mas então apareceram os Supercookies - uma coisa bem pegajosa que literalmente não pode ser contornada. 



Na verdade, supercookiesnão uma tecnologia específica, mas um nome geral para vários meios de coleta e armazenamento de informações privadas, que funcionam secretamente contornando restrições conhecidas. Vamos ver o que são supercookies, como exatamente eles coletam nossos dados e como nos proteger deles.



Como a ingenuidade do desenvolvedor criou as bases para a coleta de dados pessoais 



A ideia de armazenar dados de sites localmente surgiu no início da Internet. Inicialmente, as tecnologias de cookies perseguiam objetivos extremamente bons, mas, como a maioria dos protocolos e tecnologias, foram criadas por idealistas que não se importavam realmente com a segurança, que simplesmente não podiam imaginar a escala real do desenvolvimento da rede no futuro. 



Esses problemas começaram quando os computadores eram grandes e os programadores um tanto ingênuos. Por exemplo, uma das vulnerabilidades das redes celulares surgiu da mesma ingenuidade: Medo e Terror do SS7



Também com biscoitos. A ideia de lembrar os produtos que o usuário adicionou ao carrinho, não obrigando-o a digitar uma senha toda vez que visitar a página, lembrar a aparência do site e similares, é ótima. O que poderia dar errado?



As estatísticas são um boato para a publicidade. Informações sobre os usuários, seu comportamento nos sites, preferências na escolha dos produtos, tempo de permanência na página. Os empresários estão prontos para fazer qualquer coisa por isso, e a estratégia de publicidade é construída de acordo com isso. 



O primeiro alarme foi dado em 1996. Alguns anos após o lançamento do cookie, o Financial Times publicou um artigo em seu jornal sobre a ameaça à privacidade:





As investigações conduzidas em 1996 e 1997 pela Comissão Federal de Comércio dos Estados Unidos resultaram em uma especificação de cookie. Uma de suas disposições era que os cookies de terceiros deveriam ser completamente bloqueados ou, pelo menos, não funcionar por padrão.



 Além da capacidade de monitorar secretamente as ações do usuário, as primeiras versões tinham outras desvantagens. Por exemplo, eles podem ser interceptados e substituídos e, em seguida, usados ​​para entrar no site com a senha de outro usuário. No decurso da evolução do trabalho com cookies, várias directivas foram emitidas que tornam a política de utilização de cookies mais rígida, por exemplo: limitar a duração do seu funcionamento. 



Posteriormente, os cookies foram considerados dados pessoais e foram gradualmente restringindo os requisitos de coleta de informações sobre os usuários, até a decisão mais ridícula e irritante: uma notificação pop-up de que cookies são usados ​​no site e uma oferta para concordar com esse fato. Isso deixou todo mundo tão mal que alguns navegadores incluíram a capacidade de remover esses banners em suas configurações, e várias extensões foram escritas para bloquear avisos irritantes.



Como Flash-Supercookie coletou dados pessoais



Os supercookies eram inicialmente desagradáveis ​​e potencialmente perigosos. Ao contrário dos cookies regulares, sua origem não era de um endereço de site específico, mas de um domínio de nível superior. Por exemplo, em vez de se vincular ao site habr.com, um arquivo de cookie foi atribuído ao nome de domínio com e poderia controlar o trabalho do usuário com qualquer site nesta zona de domínio. Essa possibilidade era tão óbvia que foi bloqueada pelos navegadores desde o início. Mas, quando havia maneiras de armazenar informações privadas de outras maneiras, esse nome foi lembrado e pegou.



Por muito tempo, a capacidade de fornecer interação sofisticada em um site da Internet (exibindo vídeos, banners animados e jogos de navegador) foi quase exclusivamente possível com a ajuda da tecnologia Flash. O notório Adobe Flash Player carregava pesadamente o processador, não permitia detectar adequadamente os erros ocorridos, que faziam o navegador travar e ficar lento. Além disso, o mecanismo continha muitas vulnerabilidades que foram exploradas impiedosamente por atacantes de todos os tipos. 



Como as empresas comerciais não são muito diferentes dos canalhas na escolha dos meios, elas não hesitaram em usar os recursos do flash para coletar informações sobre os usuários. Para isso, uma tecnologia chamada " Objetos Compartilhados Locais"(LSO, Objetos Compartilhados Locais). A intenção original era, por exemplo, salvar o progresso em um jogo flash do navegador ou ajustar o volume em um reprodutor de áudio. Os LSOs estão disponíveis em diferentes navegadores porque se referem a um flash player. Com a ajuda deles, os cookies http comuns podem ser restaurados se o usuário os excluiu e, dentro dos próprios LSOs, você pode armazenar muitas informações coletadas sobre o usuário do computador. 



Por muito tempo, essa tecnologia não chamou a atenção dos profissionais de segurança, mas em 2009 Jeremy Kirk publicou seu estudo sobre questões de privacidade: Estudo: Cookies Adobe Flash apresentam questões de privacidade incômodas... Gradualmente, as extensões de terceiros começaram a aparecer para controlar e excluir os cookies do Flash, mas os desajeitados fabricantes de navegadores e a Adobe não tinham pressa em notar esse problema. Não foi até 2011 que os navegadores convencionais aprenderam a trabalhar com esses cookies da mesma forma que fazem com os normais. 



Mas, no final, o Flash-player com vazamentos e movimentos lentos finalmente conquistou a todos, e o HTML5 se tornou bastante difundido, o que tornou possível se livrar completamente da tecnologia Flash. Eles o mataram por um longo tempo e dolorosamente, a empresa de manufatura lentamente abandonou sua criação. Em 2012, a Adobe prometeu que encerraria o suporte para a tecnologia em cerca de uma década. Em 2017, foi anunciado o prazo para a retirada do flash player do site - dezembro de 2020. Esses três anos, segundo a empresa, foram necessários para que os desenvolvedores adaptassem seus sites ao HTML5. Um mês atrás, esse período chegou ao fim, e avisos irritantes de que o plug-in, finalmente e irrevogavelmente, está sendo removido de todos os lugares, começaram a aparecer em todos os navegadores, embora não esteja claro por que notificar os usuários sobre isso.que não estão particularmente interessados ​​nas complexidades da estrutura interna dos sites.



Sobre isso, o tópico de cookies flash pode ser considerado completamente esgotado.



Super cookies baseados em ETag , um dos identificadores do cabeçalho HTTP que responde à solicitação, independentemente de a versão atual do recurso ser diferente da carregada, funcionavam aproximadamente da mesma maneira . Esses cookies foram descobertos na mesma época que o Flash-Supercookie e, após um processo em 2011, eram relativamente raros. 



HTTP Supercookie: como a Verizon e a Access vendem dados silenciosamente



O Flash não é a única maneira de espionar os usuários por meio de cookies. 



Ambas as histórias de coleta e negociação de dados foram possíveis devido ao fato de que os usuários comuns não entendiam realmente as complexidades da tecnologia. Especialistas em segurança soaram o alarme diligentemente, mas não foram ouvidos e por muito tempo pouca atenção foi dada à privacidade da conexão HTTP. 



O protocolo HTTP sem criptografia SSL viveu por muito tempo: os certificados SSL foram pagos, às vezes não baratos (algumas empresas os venderam por mais de US $ 100). A segunda razão é a complexidade de uso. Este é agora o certificado é instalado e atualizado executando um script, e antes do Mozilla lançar sua iniciativa Let's Encrypt, nem todo administrador achou necessário aprender como instalar SSL.



Mas, enquanto isso, os ISPs exploravam e vendiam aos anunciantes a capacidade de rastrear usuários via HTTP. 



Funcionou de uma forma bastante sofisticada. Quando um usuário visitava o site, seu provedor inseria informações especiais no cabeçalho HTTP: UIDH (Unique Identifier Headers), exclusivo para cada usuário, que possibilitava identificar de forma totalmente única o computador ou smartphone a partir do qual a página foi aberta. Para tal operação, foi utilizada a sensacional tecnologia DPI



O problema é que o usuário praticamente não tem influência nesse processo, pois tudo acontece do lado do provedor de acesso à Internet. O ID é incorporado depois que a solicitação sai do navegador no caminho para o site. 



As informações deste super cookie não são armazenadas localmente e, portanto, não podem ser excluídas. Os bloqueadores de anúncios também não podem fazer nada. Além do endereço do site para o qual o navegador vai e do horário da solicitação, o UIDH pode transmitir informações sobre o número do celular a partir do qual o usuário está navegando na Internet, o horário da solicitação e outros dados.



O escândalo mais famoso envolvendo esse método de rastreamento de usuários envolve a Verizon, uma provedora de celular dos Estados Unidos. A Verizon começou a usar o UIDH em 2012 para veicular anúncios personalizados, negociando ativamente os dados pessoais de seus clientes. Somente em 2014 a empresa admitiu publicamente esse fato, enterrando a menção no fundo de perguntas e respostas de seu site. No entanto, isso foi notado, e uma enxurrada de críticas caiu sobre a Verizon por uma atitude tão desavergonhada para com seus usuários. Em 2015, a empresa foi obrigada a adicionar uma configuração à conta pessoal do usuário para desabilitar o uso do UIDH para seus dispositivos, e em 2016 foi finalmente finalizado. A FCC multou a empresa em US $ 1,35 milhão. 



Infelizmente, a Verizon não está sozinha. 



A empresa Access criou um site especial Amibeingtracked.com (endereço atual: www.accessnow.org/aibt/ ) e começou a analisar os cabeçalhos HTTP de usuários de telefones celulares que concordaram em testar. Descobriu-se que 15,3% das solicitações continham super cookies. Participaram da participação usuários de todo o mundo. Descobriu-se que quase todas as principais operadoras de celular seguiram seus usuários dessa maneira. 



Suspeita-se que a Verizon desistiu apenas porque esse método deixou de ser relevante devido à ampla adoção do SSL, que mencionei acima. E o valor não parece impressionante em comparação com as recentes multas antitruste, onde a conta chega a centenas de milhões de dólares. É provável que a Verizon tenha lucrado muito mais com as vendas de PD. 



Além disso, deve-se observar que não apenas os sites que operam com o protocolo HTTPS são capazes de se proteger contra tal vigilância, mas também a navegação por meio de uma VPN. Nesse caso, o provedor também não pode substituir o UIDH. Ambos os métodos de proteção são relevantes, e os bloqueios de carpete recentes ensinaram a muitos conhecimentos de informática e muitas pessoas aprenderam sobre VPN.



HSTS-Supercookie: Por que o SSL não nos salva



Parece que a criptografia deve fornecer proteção contra espionagem, mas descobriu-se que isso não é uma garantia de privacidade. O próximo método é puramente acadêmico, dificilmente prático e é uma demonstração da sofisticação de Sam Greenhalgh da Radical Research, que demonstrou esse mecanismo em 2015.



Baseia-se no fato de que para cada site do navegador existe uma variável booleana especial que armazena o estado de como o usuário entrou no site: via HTTPS ou HTTP. Por exemplo, a última vez que um usuário visitou o site habr.com via HTTPS e o site flibusta.is - via HTTP (infelizmente isso agora é relevante devido à lentidão dos administradores da biblioteca). O navegador terá dados parecidos com estes:



habr.com: 1;
      
      





E flibusta.is não será mencionado no banco de dados HSTS. 



Assim, você pode registrar vários domínios do formulário: 00-hsts-supercookie.net, 01-hsts-supercookie.net, 02-hsts-supercookie.net, 03-hsts-supercookie.net. 



Em seguida, escreva um script que, ao entrar no seu site, irá gerar chamadas a "cookies" de acordo com um template que é único para cada usuário, formando uma tabela com os valores do formulário na base de dados HSTS de seu navegador:



00-hsts-supercookie.net: 1;

02-hsts-supercookie.net: 1;
      
      





E então leia os dados para "cookies", substituindo 0 para sites que não estão no banco de dados. Neste exemplo, será formado o número 1010. Se você cadastrar duas ou três dezenas de sites, então identificadores únicos serão suficientes para disponibilizá-los em geral a todos os assinantes que, teoricamente, podem entrar no site. 



Para ser justo, deve-se notar que os desenvolvedores do navegador reagiram a essas informações, e os cookies agora são apagados junto com os dados nesta tabela. Mas, além dessa sinalização, os navegadores modernos armazenam muitas outras informações, que serão discutidas a seguir. 



HTML5-Supercookie



O progresso está avançando, o HTML5 conquistou a Internet com segurança, o Flash foi morto, os recursos do novo padrão permitem que você crie milagres em páginas que antes eram inacessíveis. Mas a Internet se tornou mais segura? Infelizmente não.



Todas essas tecnologias fornecem muitas informações por meio das quais uma "impressão digital" exclusiva do navegador pode ser formada. 



Se você visitar sites modernos, usará os recursos do HTML5, o que significa que informações sobre: ​​agente do usuário, tamanho da tela, resolução da tela e profundidade de cor, fontes do sistema e muito mais, serão transmitidas ao site para renderizá-lo adequadamente no navegador ... Além disso, o padrão HTML5 permite salvar dados no Localstorage, um armazenamento especial que não está disponível para o usuário através do menu usual para limpeza de cookies, histórico de visitas ou cache do navegador.



Você pode ver tudo o que o navegador envia para o site em www.deviceinfo.me . Tente entrar - a quantidade de informações impressiona! 



Existem também sites que comparam todas as informações transmitidas e calculam o quão único é seu dispositivo entre tantos outros. Por exemplo, fui para coveryourtracks.eff.org , o site promovido por uma organização de direitos humanos sem fins lucrativos Foundation Electronic Frontier (Electronic Frontier Foundation, EFF) e descobri que:



Seus resultados



A impressão digital do seu navegador parece ser única entre as 300.802 testadas nos últimos 45 dias.



Atualmente, estimamos que seu navegador tenha uma impressão digital que transmite pelo menos 18,2 bits de informações de identificação.



As medidas que usamos para obter este resultado estão listadas abaixo. Você pode ler mais sobre nossa metodologia, resultados estatísticos e algumas defesas contra impressão digital aqui.


Em teoria, acredita-se que você pode reduzir ligeiramente a exclusividade do navegador usando um proxy ou VPN e o modo de navegador privado. Infelizmente, isso não me ajudou muito, os resultados obtidos na guia privada por meio da VPN embutida no Opera deram quase os mesmos resultados: 



Seus resultados



A impressão digital do seu navegador parece ser única entre os 300.854 testados nos últimos 45 dias.



Atualmente, estimamos que seu navegador tenha uma impressão digital que transmite pelo menos 18,2 bits de informações de identificação.



As medidas que usamos para obter este resultado estão listadas abaixo. Você pode ler mais sobre nossa metodologia, resultados estatísticos e algumas defesas contra impressão digital aqui.


Embora um dispositivo em 300 mil esteja no mar, onde centenas de milhões de smartphones e desktops flutuam, há um lugar para se esconder.



Cache-Supercookie: Uma maneira sofisticada de autenticar um usuário por meio de um cache



Outra forma de espionar um usuário é o uso sofisticado de informações armazenadas em cache. Alguns sites usam as mesmas imagens em suas páginas, os navegadores economizam espaço em disco e largura de banda armazenando dados em cache. Uma imagem ou fonte é baixada uma vez e, em seguida, carregada do armazenamento local. A tecnologia é tão antiga quanto a Internet, mas mesmo assim havia uma maneira de distinguir um usuário de outro.



Por exemplo, um rastreador codifica um ID exclusivo em uma imagem em cache de um único site. O outro usa a mesma imagem, e o rastreador extrai o ID da imagem em cache quando o usuário visita o segundo site.



Você pode combater esses supercookies separando caches para diferentes sites. Uma semana atrás, a equipe do Firefox relatouque incluíram este mecanismo na versão 85 do navegador. A quantidade de dados em cache aumenta, mas fica mais difícil rastrear o usuário.



Com que tipo de biscoitos comeremos no futuro?



Toda essa luta parece certa, a privacidade é algo que no mundo moderno eles estão tentando arrancar de nós de qualquer maneira. Câmeras conectadas a serviços de reconhecimento facial e de placas de veículos há muito se tornaram uma realidade, elas pegam criminosos e emitem multas por excesso de velocidade. O DPI para operadoras móveis molda o tráfego dos poucos clientes de torrent restantes e reduz sua largura de banda para que não interfiram com os outros que assistem aos vídeos do YouTube. Sites "proibidos" bloqueados.



Recentemente, ouvi uma história sobre como em uma pequena cidade russa, com a ajuda de câmeras de vigilância, eles pegaram um grupo de gopniks que se divertiam espancando os transeuntes solitários e os intimidaram para que não contassem à polícia. Quando os patrulheiros dirigiram para o local, os gopniks permaneceram quietos, sem se preocupar com sua segurança, mas os policiais que desceram dos carros nem mesmo fizeram perguntas, eles simplesmente distorceram todos os envolvidos. Porque as câmeras que filmaram o espancamento os reconheceram pelos rostos, e nenhum testemunho adicional foi necessário.



Portanto, é tão assustador para as empresas de publicidade rastrear nossas ações na Internet?



Difícil dizer. Não se trata apenas de vigilância, mas de negociações "personalizadas" irritantes. Por outro lado, na minha memória, usei apenas uma vez uma oferta publicitária dos resultados da pesquisa, que foi marcada como "Publicidade". Com o passar dos anos, as pessoas desenvolveram "cegueira de banner" e, mesmo sem um bloqueador de anúncios, esse método não funciona mais muito bem. Por outro lado, a alta relevância de pesquisa no Google, Amazon ou AliExpress funciona graças a rastreadores inteligentes que rastreiam nossa atividade.



Mas quase todos se lembram de uma história misteriosa, quando em uma conversa real ou em um chat do Telegram mencionavam uma categoria de produtos, e depois de alguns minutos o smartphone exibia sites com banners dos assuntos discutidos. E a inovação mais irritante são os avisos de rastreamento sobre o uso de cookies que não desaparecem até que você pressione o botão para concordar com eles. 



Isso é bom ou ruim? Provavelmente nem um nem outro. Tornou-se lugar-comum e a privacidade é uma ilusão.






All Articles