
Blacklight é um inspetor de privacidade de sites em tempo real.
Esta ferramenta emula formas de observar um usuário navegando na web. Os usuários inserem a URL desejada no Blacklight, o inspetor navega até o site, verifica os tipos conhecidos de violações de privacidade e retorna imediatamente uma análise de privacidade do site pesquisado.
A maneira como o Blacklight funciona é visitar cada site da Web com um navegador sem interface (navegador sem interface gráfica) executando software especializado criado pela The Markup. O software monitora quais scripts no site podem potencialmente observar o usuário executando sete testes, cada um examinando um método de observação conhecido diferente.
Blacklight monitora os seguintes tipos de vigilância:
- Cookies de terceiros
- Rastreadores de publicidade
- Keyloggers
- Gravação de sessão
- Impressão digital com tela
- Facebook Tracking
- "Públicos de remarketing" do Google Analytics
Mais detalhes sobre eles e suas limitações são descritos a seguir.
O Blacklight é construído sobre o ambiente NodeJS Javascript, a biblioteca Puppeteer Node , que fornece um alto nível de controle sobre o navegador Chromium (Chrome de código aberto). Quando um usuário insere um URL no Blacklight, a ferramenta inicia um navegador sem cabeçalho com um novo perfil e visita a página inicial do site, bem como uma página selecionada aleatoriamente mais profundamente no mesmo site.
Quem está te espionando enquanto você trabalha, estuda ou navega na Internet?
Enquanto o navegador visita um site, ele executa um software especializado em segundo plano que monitora scripts e solicitações de rede para entender quando e como os dados do usuário são coletados. Para monitorar scripts, o Blacklight modifica várias propriedades da API da janela do navegador que podem ser usadas para impressão digital. Isso permite que o Blacklight monitore qual script fez uma chamada para uma função específica usando o pacote Stacktrace-js . As solicitações de rede são coletadas usando a ferramenta de monitoramento contida na API Puppeteer .
O Blacklight usa dados de script e solicitações de rede para executar os sete testes listados acima. Depois disso, fecha o navegador e gera um relatório para o usuário.
Ele registra uma lista de todos os URLs que o site pesquisado solicitou. Além disso, ele cria uma lista de todos os domínios e subdomínios solicitados. Uma ferramenta publicamente disponível não salva essas listas, a menos que o usuário opte por compartilhar os resultados conosco usando a opção apropriada.
Definimos nomes de domínio usando o método Sufixo público + 1 . Pelo conceito de domínio próprio (domínio primário), entende-se qualquer domínio correspondente ao site visitado, incluindo subdomínios. Por terceiro , entendemos qualquer domínio que não corresponda ao site que você está visitando. A ferramenta compara uma lista de domínios de terceiros de solicitações de sites com o conjunto de dados Tracker RadarSite do DuckDuckGo.
Essa fusão de dados permite que o Blacklight adicione as seguintes informações sobre domínios de terceiros encontrados no site sob investigação:
- Nome do proprietário do domínio.
- Categorias atribuídas por DuckDuckGo a cada domínio, descrevendo seus objetivos observáveis e intenção.
Essas informações adicionais sobre domínios de terceiros são fornecidas aos usuários como contexto para os resultados do teste Blacklight. Entre outras coisas, essas informações são usadas para calcular o número de rastreadores relacionados a anúncios presentes no site.
O Blacklight executa testes com base no URL da raiz da página inserido na interface da ferramenta. Por exemplo, se o usuário inserir example.com/sports , o Blacklight começará a exploração de example.com , descartando o caminho / sports . Se o usuário inserir sports.example.com , o Blacklight começará sua exploração em sports.example.com .
Os resultados das verificações do Blacklight para cada domínio solicitado são armazenados em cache por 24 horas; tais relatórios em cache são retornados em resposta a solicitações subsequentes de usuários do mesmo site feitas dentro dessas 24 horas. Isso evita o uso malicioso da ferramenta, tentando sobrecarregar o site com milhares de visitas automatizadas.
O Blacklight também informa aos usuários se suas pontuações são mais altas, mais baixas ou quase iguais às dos 100.000 principais sites da Lista Tranco . Mais sobre isso abaixo.
A base de código Blacklight é open source e está disponível no Github ; ele também pode ser baixado como um módulo NPM .
Nossa análise é limitada. O Blacklight emula um usuário que visita um site, mas seu comportamento automatizado é diferente do de um humano e esse comportamento pode acionar vários tipos de vigilância. Por exemplo, uma solicitação automatizada pode acionar mais verificações de fraude, mas menos anúncios.
Dada a natureza dinâmica das tecnologias da web, também existe a possibilidade de que alguns desses testes se tornem obsoletos com o tempo. Além disso, pode haver novos usos aceitáveis de tecnologia que a Blacklight considera violações.
Por esse motivo, os resultados do Blacklight não devem ser considerados uma decisão final sobre possíveis violações de privacidade do site. Em vez disso, eles devem ser considerados como um estudo inicial automatizado que requer um estudo adicional para uma decisão final.
Trabalho prévio
O Blacklight se baseia em várias ferramentas de controle de privacidade criadas na última década.
Ele executa recursos de Javascript, o que permite rastrear chamadas de API Javascript do navegador. Este aspecto do trabalho é baseado no OpenWPM , uma ferramenta de medição de privacidade na web de código aberto criada por Steven Englehard, Gunes Akar, Dillon Reisman e Arvind Narayanan da Universidade de Princeton. Esta ferramenta é atualmente suportada pela Mozilla.
O OpenWPM foi usado pelo Projeto de Transparência e Responsabilidade da Web de Princeton , que monitorou sites e serviços para estudar como as empresas coletam e usam dados e enganam os usuários.
Por meio de uma variedade de estudos conduzidos entre 2015 e 2019, os pesquisadores de Princeton identificaram uma variedade de tecnologias de violação de privacidade. Isso inclui impressão digital do navegador e sincronização de cookies , bem como scripts de recriação de sessão que coletam senhas e dados confidenciais do usuário . Um exemplo notável é o vazamento de dados de receita e saúde do walgreens.com.
Cinco dos sete testes que o Blacklight realiza são baseados nas técnicas descritas no estudo de Princeton mencionado anteriormente. Eles são impressão digital da tela, keylogging, gravação de sessão e cookies de domínio de terceiros.
OpenWPM contém código e técnicas de outras ferramentas de pesquisa de privacidade, incluindo FourthParty , Privacy Badger e FP Detective :
- FourthParty era uma plataforma de código aberto para medir o conteúdo dinâmico da web, lançada em agosto de 2011 e mantida até 2014. Ele foi usado em vários estudos, principalmente em um estudo que descreve a maneira como sites como o Home Depot vazam seus nomes de usuário para terceiros. A Blacklight usa a metodologia da FourthParty para monitorar a transmissão de informações do usuário pela rede para terceiros.
- Privacy Badger — , Electronic Frontier Foundation 2014 . .
- FP Detective . 2013 .
Os desenvolvedores da análise de dados Blacklight foram inspirados em parte pelo Website Evidence Collector , desenvolvido pela Electronic Data Protection Supervisor (EDPS) da União Europeia. Website Evidence Collector é um pacote NodeJS que usa a biblioteca Puppeteer para estudar como um site coleta dados pessoais do usuário. Algumas das categorias de dados recolhidos foram selecionadas pela AEPD.
Outros projetos que influenciaram o desenvolvimento do Blacklight incluíram o Censo de Privacidade da Web da UC Berkeley em 2012 e a série "What They Know" do Wall Street Journal.
Como analisamos cada tipo de rastreamento
Cookies de terceiros
Cookies de domínio de terceiros são pequenos pedaços de dados que as empresas de rastreamento armazenam no navegador da web do usuário quando ele visita um site. Este é um trecho de texto, geralmente um número único ou sequência de caracteres, que identifica um visitante ao visitar outros sites que contêm um código de rastreamento pertencente à mesma empresa. Cookies de domínio de terceiros são usados por centenas de empresas para coletar perfis de usuários e exibir anúncios personalizados com base em seu comportamento.
Navegadores populares - Edge, Brave, Firefox e Safari - bloqueiam cookies de rastreamento de domínio de terceiros por padrão , e os desenvolvedores do Chrome anunciaram que os rejeitarão .
O que o Blacklight está testando
O Blacklight monitora solicitações de rede para o cabeçalho "Set-Cookie" e monitora todos os domínios de configuração de cookies usando a propriedade document.cookie javascript . O Blacklight identifica cookies de domínio de terceiros como cookies cujo domínio não corresponde ao site que você está visitando. Nós pesquisamos o DuckDuckGo Tracker Radar para esses domínios de terceiros para ver quem os possui, com que frequência são usados e que tipos de serviços eles fornecem.
Keylogging
Keylogging é o processo de rastreamento por terceiros do texto que um usuário insere em uma página da web antes de clicar no botão enviar. Essa técnica é usada para uma variedade de propósitos, incluindo a identificação de usuários anônimos , combinando-os com endereços postais e nomes reais.
Existem outras razões para o keylogging também, como fornecer um recurso de preenchimento automático. A Blacklight não tem como reconhecer a intenção com que o site de destino está usando essa técnica.
O que o Blacklight está testando
Para testar se o site é keylogging, o Blacklight insere texto predefinido (consulte o Apêndice) em todos os campos de entrada, mas nunca clica no botão enviar. Ele monitora as solicitações de rede para verificar se os dados inseridos estão sendo repassados a algum servidor.
Gravação de sessão
A gravação de sessão é uma tecnologia que permite que terceiros rastreiem e registrem todo o comportamento do usuário em uma página da web, incluindo movimentos do mouse, cliques, rolagem de página e todas as entradas de formulário, mesmo sem pressionar o botão de envio.
Em um estudo de 2017Pesquisadores da Universidade de Princeton descobriram que gravadores de sessão coletam informações confidenciais, como senhas e números de cartão de crédito. Quando os pesquisadores contataram as empresas relevantes, a maioria delas respondeu rapidamente e eliminou a causa das violações de dados. No entanto, o estudo enfatiza que não se trata apenas de bugs, mas de práticas inseguras que, segundo os pesquisadores, deveriam ser totalmente eliminadas. A maioria das empresas que fornecem o recurso de gravação de sessão relatam que usam os dados para fornecer aos clientes (os sites que instalam a tecnologia) informações úteis sobre como melhorar a experiência do usuário no site. Uma empresa, a Inspectlet, descreve seu serviço como rastreando "o comportamento de usuários individuais em um site como se estivéssemos por trás deles".(Inspectlet não respondeu a um e-mail pedindo comentários.)

Captura de tela do Inspectlet, um conhecido provedor de serviços de gravação de sessão.
O que o Blacklight testa
Por gravação de sessão, queremos dizer o carregamento de um tipo especial de script por uma empresa conhecida por fornecer serviços de gravação de sessão.
O Blacklight monitora solicitações de rede para substrings de URL específicas, que, de acordo com uma lista compilada por pesquisadores da Universidade de Princeton em 2017, só são encontradas durante a gravação de sessões.
Às vezes, o keylogging é executado como parte das sessões de gravação. Nesses casos, o Blacklight relata corretamente a gravação da sessão como keylogging e gravação da sessão, uma vez que ambos os comportamentos são observados, embora ambos os testes reconheçam o mesmo script.
O Blacklight reconhece com precisão as situações em que um site carrega esses scripts; no entanto, as empresas geralmente registram apenas uma amostra das visitas ao site, portanto, nem todos os usuários são registrados e nem todas as visitas.
Impressão digital com tela
Impressão digital refere-se a um grupo de técnicas que tentam identificar um navegador sem criar um cookie. Eles podem identificar o usuário mesmo que ele tenha bloqueado todos os cookies.
Impressão digital em tela é um tipo de impressão digital que identifica um usuário desenhando formas e texto em uma página da web do usuário, notando a menor diferença na forma como são renderizados.

Quatro exemplos de impressão digital de telas encontrados pela Blacklight.
Essas diferenças na renderização de fontes, anti-aliasing, anti-aliasing e outros aspectos são usadas por comerciantes e outros profissionais para identificar dispositivos individuais. Todos os principais navegadores da Internet, com exceção do Chrome, tentam desencorajar a impressão digital da tela, seja não executando consultas de dados para scripts vistos em tais práticas, ou se esforçando para padronizar as impressões digitais do usuário.
A imagem acima mostra exemplos de tipos de tela usados por scripts de impressão digital. Essas telas geralmente são invisíveis para o usuário.
Quais testes Blacklight
Estamos seguindo a metodologia descrita neste artigopesquisadores da Universidade de Princeton para reconhecer quando o elemento canvas HTML está sendo usado para rastreamento. Usamos os seguintes parâmetros para identificar as telas a serem renderizadas por impressão digital:
- As propriedades de altura e largura do elemento de tela não devem ser menores que 16 px.
- O teste deve ser escrito na tela com pelo menos dez caracteres.
- O script não deve chamar os métodos save , restore ou addEventListener do contexto de renderização.
- O script recupera a imagem usando toDataURL ou uma única chamada para getImageData especificando uma área de pelo menos 16px × 16px.
Não vimos isso na prática, mas é possível que o Blacklight possa rotular erroneamente o uso criterioso da tela para corresponder a essas heurísticas. Para acomodar isso, a ferramenta captura a imagem renderizada pelo script e a renderiza. Os usuários podem determinar como a tela é usada simplesmente olhando para a imagem. Os resultados de um script de impressão digital típico são mostrados acima.
Rastreadores de publicidade
Rastreadores de publicidade (rastreadores de anúncios) são tecnologias que identificam e coletam informações sobre os usuários. Essas tecnologias são geralmente (mas nem sempre) usadas até certo ponto com o consentimento dos proprietários do site. Eles são usados para coletar análises sobre os usuários do site, para direcionar anúncios e corretores de dados e outros coletores de dados para criar seus perfis de usuário. Eles geralmente assumem a forma de scripts Javascript e web beacon.
Web beacons são pequenas imagens de 1px x 1px postadas em sites por terceiros para fins de rastreamento. Com esta técnica, terceiros podem determinar o comportamento do usuário: quando um determinado usuário entrou no site, o tipo de seu navegador e o endereço IP utilizado.
O que o Blacklight está testando
O Blacklight verifica todas as solicitações de rede em uma lista EasyPrivacy de URLs e substrings de URL conhecidos por serem rastreados. O Blacklight monitora a atividade da rede para solicitações feitas a esses URLs e substrings.
O Blacklight registra solicitações feitas apenas para domínios de terceiros. Ele ignora qualquer padrão de URL na lista EasyPrivacy que corresponda ao seu próprio domínio de URL. Por exemplo, a EFF armazena suas próprias análises, e é por isso que faz solicitações ao seu subdomínio de análise https://anon-stats.eff.org . Se o usuário inserir eff.org , o Blacklight não considera as chamadas para anon-stats.eff.org como solicitações para domínios de terceiros.
Encontramos esses domínios de terceiros no conjunto de dados DuckDuckGo Tracker Radar para ver quem os possui, quão comuns são e quais tipos de serviços eles fornecem. Incluímos na lista apenas os domínios de terceiros que estão nas categorias de rastreamento motivado por anúncios do conjunto de dados Tracker Radar .
Pixel Facebook
O Facebook Pixel é um código criado pelo Facebook que permite que outros sites direcionem seus visitantes usando anúncios do Facebook. Algumas das ações mais comuns rastreadas por um pixel são navegar em uma página ou determinado conteúdo, adicionar informações de faturamento ou fazer uma compra.
O que o Blacklight testa O
Blacklight procura por solicitações de rede do site que leva ao Facebook e examina os parâmetros de solicitação de dados de URL que correspondem ao padrão descrito na documentação de pixel do Facebook. Procuramos três tipos de dados diferentes: " eventos padrão ", "eventos personalizados" e " correspondência avançada ".
"Públicos de remarketing" do Google Analytics
O Google Analytics é a plataforma de análise de site mais popular hoje. De acordo com whotracks.me , 41,7% do tráfego da web é analisado pelo Google Analytics. Embora a maior parte da funcionalidade desse serviço seja fornecer aos desenvolvedores e proprietários de sites informações sobre como o público de um site interage com ele, essa ferramenta também permite que um site crie listas de público-alvo personalizadas com base no comportamento do usuário e, em seguida, direcione anúncios para os visitantes em Web usando o Google Ads e o Display & Video 360. O Blacklight examina os sites que pesquisa para essa ferramenta, mas não como ela é usada.
O que o Blacklight está testando
O Blacklight procura por solicitações de rede do site sob investigação que vão para um URL começando com "stats.g.doubleclick", que também prefixa o ID da conta do Google com "UA-". Isso é descrito com mais detalhes na documentação do desenvolvedor do Google Analytics .
Pesquisa
Para determinar a prevalência de tecnologias de rastreamento na Internet, testamos 100.000 dos sites mais populares da Lista Tranco usando o Blacklight . Os dados e o código de análise podem ser encontrados no Github . Blacklight confirmou com sucesso os dados para 81.593 desses URLs. Quanto ao resto, a resolução falhou ou o tempo limite ocorreu após várias tentativas ou a página da web não pôde ser carregada. As porcentagens mostradas abaixo são baseadas em 81.617 resultados bem-sucedidos.
As principais descobertas feitas em nossa análise:
- 6% dos sites usaram impressão digital de tela.
- 15% dos sites baixaram scripts de serviços de gravação de sessão bem conhecidos.
- 4% dos sites realizaram registro de pressionamento de tecla.
- 13% dos sites não carregaram cookies de domínio de terceiros nem rastrearam solicitações de rede.
- O número médio de cookies de domínio de terceiros é três.
- O número médio de rastreadores de anúncios baixados é sete.
- 74% dos sites carregados com a tecnologia de rastreamento do Google.
- 33% dos sites carregados com a tecnologia de rastreamento do Facebook.
- 50% dos sites usaram o recurso de remarketing do Google Analytics.
- 30% dos sites usaram o pixel do Facebook.
Classificamos como tecnologia de rastreamento do Google quaisquer solicitações de rede feitas a qualquer um dos seguintes domínios:
- google-analytics.com
- Doubleclick.net
- Googletagmanager.com
- Googletagservices
- Googlesyndication.com
- Googleadservices
- 2mdn.net
Classificamos como tecnologia de rastreamento do Facebook quaisquer solicitações de rede feitas a qualquer um dos seguintes domínios do Facebook:
- facebook.com
- Facebook.net
- atdmt.com
Limitações
A análise da Blacklight é limitada por quatro fatores principais:
- Esta é uma simulação do comportamento do usuário, não seu comportamento verdadeiro, que pode acionar outras respostas do sistema de rastreamento.
- O site monitorado pode rastrear as ações do usuário para bons propósitos.
- Falsos positivos (possíveis com impressão digital da tela): muito raramente, o uso razoável do elemento HTML canvas corresponde às heurísticas que o Blacklight usa para identificar a impressão digital da tela.
- : Javascript- Blacklight window API . , jQuery, jQuery , Blacklight , . , ; , 100 000 .
Em termos de falsos positivos, quando o Blacklight visita um site, esse site pode ver que a solicitação está vindo de computadores hospedados na infraestrutura de nuvem Amazon AWS. Como os botnets são frequentemente usados na infraestrutura de nuvem, nossa ferramenta pode acionar o software de reconhecimento de bot no site, incluindo impressão digital da tela. Isso pode levar a falsos positivos para o teste de impressão digital da tela, embora o teste não seja usado para rastrear usuários, mas para reconhecer botnets.
Para testar isso, pegamos uma amostra aleatória de 1.000 sites do topo da Lista Tranco que já executamos por meio do Blacklight no AWS. Executamos essa amostra por meio do software Blacklight em nosso computador local com um endereço IP em Nova York e descobrimos que os resultados da verificação do Blacklight local eram muito semelhantes, mas não exatamente iguais aos resultados da execução na infraestrutura em nuvem.
Resultados de amostra: máquina local e AWS
Local | AWS | |
---|---|---|
Impressão digital com tela | 8% | dez% |
Gravação de sessão | dezoito% | 19% |
Keylogging | 4% | 6% |
Cookies medianos de terceiros | 4 | cinco |
Número médio de rastreadores de terceiros | 7 | 8 |
Nem todas as atividades de rastreamento invisíveis para o usuário são necessariamente maliciosas. Por exemplo, a impressão digital da tela é usada para prevenção de fraudes porque permite a identificação do dispositivo. E o keylogging pode ser usado para implementar a funcionalidade de preenchimento automático.
O Blacklight não tenta inferir os motivos do uso de tecnologias de rastreamento específicas que detecta.
O Blacklight não pode determinar com precisão como um site está usando os dados do usuário que coleta ao carregar scripts para registrar sessões e monitorar o comportamento do usuário, como movimentos do mouse e pressionamentos de tecla.
A Blacklight não revisará os termos de serviço e as políticas de privacidade do site para qualquer divulgação de sua atividade de rastreamento.
inscrição
Valores de campo de entrada A
tabela abaixo lista os valores que escrevemos no Blacklight para inserir campos de entrada em sites. Usamos o artigo da Mozilla sobre o atributo autocomplete para referência. O Blacklight também verifica as versões base64, md5, sha256 e sha512 desses valores.
Atributo de preenchimento automático | Significado da luz negra |
---|---|
Encontro | 01/01/2026 |
O email | blacklight-headless@themarkup.org |
Senha | SUPERS3CR3T_PASSWORD |
Pesquisa | TheMarkup |
Texto | IdaaaaTarbell |
Url | themarkup.org |
Organização | A marcação |
Título da Organização | Redação sem fins lucrativos |
senha atual | S3CR3T_CURRENT_PASSWORD |
Nova senha | S3CR3T_NEW_PASSWORD |
Nome do usuário | idaaaa_tarbell |
Sobrenome | Tarbell |
Nome dado | Idaaaa |
Nome | IdaaaaTarbell |
Endereço | PO Box # 1103 |
Endereço Linha 1 | PO Box # 1103 |
Código postal | 10159 |
Nome CC | IDAAAATARBELL |
CC-Dado-Nome | IDAAAA |
CC-Family-Name | TARBELL |
Número CC | 4479846060020724 |
CC-Exp | 01/2026 |
Tipo CC | Visto |
Valor da transação | 13371337 |
Agradecimentos
Agradecemos a Gunes Akar (Universidade de Leuven), Stephen Englehard (Mozilla), Arvind Narayanan e Jonathan Mayer (Princeton Princeton, CITP) pelos comentários e sugestões sobre o artigo preliminar.
Publicidade
Os servidores de hospedagem de sites são épicos da Vdsina.
Usamos drives NVMe extremamente rápidos da Intel e não economizamos em hardware - apenas equipamentos de marca e as soluções mais modernas do mercado!
