O que é impressão digital de fonte?

Senior Web Scraping Engineer
A impressão digital de fonte é uma técnica avançada usada para rastreamento online, utilizando o conjunto exclusivo de fontes instaladas no dispositivo de um usuário. É um tipo de impressão digital de dispositivo, semelhante à impressão digital WebGL ou Canvas, mas em vez de depender da renderização de gráficos ou elementos da web, a impressão digital de fonte se concentra nas fontes disponíveis e em como elas são renderizadas pelo navegador. Essa técnica é empregada por sites para coletar informações sobre os dispositivos e, por sua vez, os usuários, sem exigir consentimento explícito ou o uso de métodos de rastreamento tradicionais como cookies.
Neste artigo, exploraremos o que é a impressão digital de fonte, como ela funciona, suas aplicações e os riscos potenciais de privacidade associados a ela. Também discutiremos como impedir o vazamento de impressões digitais de fonte e como os raspadores da web podem gerenciar as configurações de fonte para evitar a detecção.
Como funciona a impressão digital de fonte?
A impressão digital de fonte funciona aproveitando o fato de que cada dispositivo possui uma combinação exclusiva de fontes instaladas. Essas fontes são usadas pelo sistema operacional e pelo navegador para renderizar texto em sites. No entanto, nem todos os dispositivos têm as mesmas fontes instaladas. Sistemas operacionais, preferências regionais e até mesmo preferências do usuário contribuem para a variação nas fontes. Os sites podem detectar essa variação consultando o navegador e comparando as fontes usadas em uma página da web.
Aqui está um passo a passo de como a impressão digital de fonte funciona:
-
Detecção de fonte: Quando um usuário visita um site, o JavaScript embutido na página executa um script que verifica quais fontes estão disponíveis no dispositivo do usuário. O site normalmente criará um elemento oculto (como um div ou canvas) e tentará renderizar texto usando fontes diferentes. Ele verificará se fontes específicas estão instaladas comparando a largura e o estilo de renderização do texto.
-
Coleta de dados: O script verifica as fontes comuns (como Arial, Times New Roman ou Courier) e também as fontes menos usadas. Ele pode tentar detectar fontes mais obscuras que são instaladas com base em sistemas operacionais específicos ou configurações de idioma regional. O site pode usar esses resultados para criar um perfil do dispositivo do usuário.
-
Criando a impressão digital: Com base nas fontes detectadas, um identificador exclusivo, ou "impressão digital", é gerado. Esse identificador pode ser persistente e usado para rastrear o usuário em várias visitas e sites. A impressão digital é frequentemente uma combinação de fatores, como as fontes detectadas e como o texto é renderizado.
-
Rastreando usuários: Depois que a impressão digital é criada, ela pode ser armazenada em um banco de dados ou em um cookie e usada para rastrear o usuário ao longo do tempo. Mesmo que o usuário limpe seus cookies ou altere o navegador, sua impressão digital de fonte ainda pode ser identificável, permitindo que os sites continuem rastreando sua atividade.
Aplicações de impressão digital de fonte
A impressão digital de fonte possui uma ampla gama de aplicações, tanto para fins legítimos quanto para atividades potencialmente intrusivas, como rastreamento de usuários. Aqui estão algumas das principais áreas onde a impressão digital de fonte é usada:
Aplicação | Descrição | Exemplo de caso de uso |
---|---|---|
Segmentação de anúncios | A impressão digital de fonte ajuda os anunciantes a criar perfis de usuários mais detalhados para anúncios direcionados. | Os anunciantes rastreiam os usuários em diferentes sites para exibir anúncios personalizados com base em sua impressão digital de fonte. |
Análise | Usado por proprietários de sites para analisar o tráfego e melhorar a experiência do usuário, compreendendo as características do dispositivo. | Os proprietários de sites rastreiam os usuários com base na impressão digital de fonte do dispositivo para melhor direcionamento e otimização da experiência do usuário. |
Rastreamento entre sites | Rastreia usuários em diferentes sites coletando dados de fonte e vinculando-os a um identificador persistente. | Corretoras de dados e anunciantes rastreiam a atividade dos usuários em diferentes sites sem cookies, usando impressões digitais de fonte. |
Prevenção de fraudes | Identifica atividades suspeitas comparando as características do dispositivo e sinalizando anomalias. | Os sistemas de bancos online detectam atividades fraudulentas com base em impressões digitais de fonte incomuns ligadas a atores maliciosos. |
Criação de perfil de dispositivo | Ajuda a identificar usuários criando perfis de suas configurações de hardware e software com base em fontes instaladas. | As empresas usam impressões digitais de fonte para rastrear dispositivos usados por clientes para campanhas direcionadas ou prevenção de fraudes. |
Análise de comportamento do usuário | Compreende o comportamento do usuário analisando recursos e fontes do dispositivo. | Os desenvolvedores da web rastreiam as preferências dos usuários para melhor personalização de conteúdo com base em sua impressão digital de fonte. |
Técnicas de impressão digital de fonte
A impressão digital de fonte é uma técnica empregada por sites para coletar informações sobre as fontes instaladas em seu dispositivo. Esse processo envolve a execução de scripts em segundo plano que coletam dados sobre quais fontes o navegador pode exibir. Vamos mergulhar mais fundo nos métodos específicos que os sites usam para impressão digital de fonte.
1. Enumeração de fonte
A enumeração de fonte é um dos métodos mais simples e mais usados de impressão digital de fonte. Essa técnica envolve o uso de JavaScript para verificar as fontes que estão disponíveis no sistema do usuário.
Veja como funciona:
-
Quando um usuário visita um site, o código do site é executado no navegador e aciona o processo de enumeração de fonte. Isso geralmente é feito chamando funções JavaScript que acessam a interface FontFaceSet ou métodos semelhantes disponíveis em navegadores modernos.
-
Uma vez iniciado, o navegador responde fornecendo uma lista de fontes que ele pode renderizar. Essa informação é crucial para criar a impressão digital.
-
O site coleta e processa os dados da fonte, muitas vezes combinando-os com outras técnicas de impressão digital, como impressão digital do canvas ou impressão digital TLS. Os tipos de dados coletados podem incluir:
- Família de fontes, como "Helvetica"
- Nome da fonte, como "Helvetica Oblique"
- Nome PostScript, por exemplo, "HelveticaOblique"
- Estilo, como "Regular"
- Tamanhos de fonte
-
Depois de coletar esses dados, o site os analisa para gerar uma impressão digital exclusiva. Essa impressão digital pode ser baseada na combinação específica de fontes instaladas no sistema, na ordem delas e, às vezes, nas maneiras sutis como as fontes são renderizadas.
Saiba mais sobre FontFaceSet para entender as APIs subjacentes envolvidas.
2. Detecção de fonte
A detecção de fonte é uma técnica mais avançada usada na impressão digital de fonte. Ao contrário da enumeração de fonte, que pergunta diretamente ao navegador por uma lista de fontes instaladas, a detecção de fonte testa se fontes específicas estão instaladas renderizando texto com fontes diferentes.
Veja como funciona:
-
O site aciona a detecção de fonte instruindo o navegador a exibir um parágrafo de texto usando uma fonte específica.
-
Depois que o texto é renderizado, o site mede o tamanho do texto, calculando a largura e a altura do elemento de texto.
-
O tamanho do texto renderizado é então comparado com um tamanho de referência. Se os tamanhos corresponderem, isso sugere que a fonte está instalada no sistema do usuário.
-
Esse método pode envolver o teste de várias fontes ou versões diferentes da mesma fonte, fornecendo dados valiosos sobre as fontes presentes no sistema.
A detecção de fonte é frequentemente usada em conjunto com outras técnicas de impressão digital para coletar informações mais abrangentes sobre o sistema do usuário.
3. Impressão digital de fonte do canvas
A impressão digital de fonte do canvas é uma técnica mais sofisticada e um dos métodos mais usados para rastrear usuários online. Esse método gera um identificador altamente exclusivo com base na forma como as fontes são renderizadas em um elemento oculto do canvas HTML.
Veja como funciona:
-
O site instrui o navegador a desenhar texto em um elemento canvas oculto usando uma fonte específica. Isso é feito nos bastidores e não afeta o que o usuário vê.
-
Depois que o texto é renderizado, o site extrai os dados de pixel do canvas, que representa como o texto fica na tela.
-
Os dados de pixel são então hash usando um algoritmo como SHA-256, produzindo uma impressão digital exclusiva para essa renderização de fonte.
-
Essa impressão digital é usada para rastrear e identificar o usuário em diferentes sessões e sites. O hash gerado serve como um identificador persistente, mesmo que o usuário limpe seus cookies.
O texto usado para renderização normalmente inclui todas as letras do alfabeto, chamado de pangrama. Por exemplo, a frase "Cwm fjordbank glyphs vext quiz" inclui todas as letras do alfabeto. No entanto, o texto exato pode variar dependendo dos scripts do site.
Explore como a impressão digital do canvas funciona para aprender sobre seu amplo uso e implicações no rastreamento.
A impressão digital de fonte do canvas é especialmente eficaz porque o comportamento de renderização varia com base em fatores como o sistema operacional do usuário, o navegador e o hardware de gráficos, tornando-se extremamente difícil de bloquear ou falsificar.
Resumo dos métodos de impressão digital de fonte
Técnica | Descrição | Objetivo |
---|---|---|
Enumeração de fonte | Consulta diretamente o navegador para obter uma lista de fontes instaladas usando JavaScript. | Para coletar um conjunto exclusivo de fontes disponíveis no dispositivo do usuário. |
Detecção de fonte | Renderiza texto com uma fonte específica e mede o tamanho do texto renderizado para verificar se a fonte está instalada. | Para detectar fontes indiretamente, testando como elas renderizam texto. |
Impressão digital de fonte do canvas | Usa elementos de canvas ocultos para renderizar texto e hashes os dados de pixel em um identificador exclusivo. | Para gerar uma impressão digital altamente exclusiva com base na renderização de fonte. |
Os riscos de segurança da impressão digital de fonte
A impressão digital de fonte levanta sérias preocupações de privacidade e segurança. Alguns dos riscos incluem:
-
Rastreamento persistente: As impressões digitais de fonte, ao contrário dos cookies, não são facilmente excluídas. Uma vez que uma impressão digital é gerada, ela pode ser usada para rastrear o usuário em várias sessões e sites, mesmo que eles limpem seus cookies ou usem o modo anônimo. Isso torna difícil para os usuários manterem o anonimato online.
-
Rastreamento entre sites: Como a impressão digital de fonte funciona em diferentes sites, ela pode criar um perfil mais detalhado e abrangente de um usuário. Corretoras de dados e anunciantes podem combinar a impressão digital de fonte com outros métodos de rastreamento para monitorar a atividade online de um usuário em vários domínios.
-
Criação de perfil de dispositivo: As impressões digitais de fonte podem revelar detalhes específicos sobre o dispositivo de um usuário, incluindo o sistema operacional, as configurações de idioma e as fontes instaladas. Essas informações podem ser usadas para criar perfis de usuários para publicidade direcionada e potencialmente exploradas para fins maliciosos, como phishing ou ataques cibernéticos direcionados.
-
Evasão de ferramentas de privacidade: A impressão digital de fonte pode contornar ferramentas de privacidade como VPNs, bloqueadores de cookies e modos anônimos, pois depende de dados específicos do dispositivo que não são afetados por essas ferramentas. Mesmo que um usuário esteja tomando medidas para proteger sua privacidade, a impressão digital de fonte ainda pode rastreá-lo.
-
Questões de conformidade: Em regiões com regulamentos de privacidade rigorosos (por exemplo, o GDPR da União Europeia), a impressão digital de fonte pode violar os requisitos de consentimento do usuário. Os usuários podem não estar cientes de que seus dispositivos estão sendo impressos digitalmente, tornando difícil para as organizações cumprir as leis de proteção de dados.
Como impedir o vazamento de impressões digitais de fonte
Aqui estão algumas maneiras de mitigar os riscos de impressão digital de fonte:
1. Desabilite ou randomize as fontes
Alguns navegadores permitem que os usuários desabilitem certos scripts de impressão digital de fonte ou randomize as fontes que os sites podem acessar. Isso reduz a probabilidade de que uma impressão digital de fonte exclusiva possa ser criada.
2. Use navegadores com foco na privacidade
Navegadores como Tor e Brave fornecem recursos de privacidade que ajudam a bloquear ou randomizar tentativas de impressão digital de fonte. Esses navegadores normalmente bloqueiam scripts de rastreamento de terceiros, incluindo impressão digital de fonte, garantindo que os usuários permaneçam anônimos.
3. Use extensões do navegador
Várias extensões estão disponíveis que ajudam a bloquear ou falsificar tentativas de impressão digital de fonte. Extensões como Privacy Badger ou CanvasBlocker podem impedir que scripts detectem detalhes de fonte e ajudar a mitigar o rastreamento.
4. Falsificação de impressão digital de fonte
Assim como com outros tipos de impressão digital, falsificar ou randomizar impressões digitais de fonte pode ser uma forma eficaz de proteger a privacidade. Algumas extensões de navegador ou ferramentas de privacidade oferecem recursos de falsificação de fonte, dificultando a detecção pelos sites de quais fontes estão instaladas em seu dispositivo.
5. Monitore e gerencie as configurações de fonte na raspagem da web
Para raspadores da web, gerenciar as configurações de fonte torna-se fundamental para evitar a detecção. Muitos sites usam impressão digital de fonte para detectar bots, portanto as ferramentas de raspagem devem configurar os navegadores para randomizar ou imitar as configurações reais do usuário. Ferramentas como Scrapeless oferecem tecnologia de navegador headless que pode ajustar automaticamente as configurações do navegador, incluindo fontes, para garantir que o processo de raspagem permaneça indetectável.
Conclusão
A impressão digital de fonte é uma técnica poderosa para rastrear usuários online, utilizando as fontes exclusivas instaladas em seus dispositivos. Embora possa ser usada para fins legítimos, como segmentação de anúncios e análise, ela levanta sérias preocupações de privacidade. Os usuários podem mitigar os riscos de impressão digital de fonte usando navegadores com foco na privacidade, falsificando impressões digitais de fonte e empregando ferramentas como Scrapeless para gerenciar as configurações do navegador.
À medida que as preocupações com a privacidade continuam crescendo, é essencial que os usuários e desenvolvedores estejam cientes dos riscos associados à impressão digital de fonte e tomem medidas proativas para proteger suas identidades online.
Na Scrapeless, acessamos apenas dados disponíveis publicamente, cumprindo rigorosamente as leis, regulamentos e políticas de privacidade do site aplicáveis. O conteúdo deste blog é apenas para fins de demonstração e não envolve quaisquer atividades ilegais ou infratoras. Não oferecemos garantias e nos isentamos de qualquer responsabilidade pelo uso de informações deste blog ou de links de terceiros. Antes de se envolver em qualquer atividade de scraping, consulte seu consultor jurídico e revise os termos de serviço do site de destino ou obtenha as permissões necessárias.