🥳Junte-se à Comunidade Scrapeless e Solicite sua avaliação gratuita para acessar nosso poderoso kit de ferramentas de Web Scraping!
Voltar ao blog

Como o CAPTCHA funciona?

Ethan Brown
Ethan Brown

Advanced Bot Mitigation Engineer

25-Sep-2024

Encontrar alguém que nunca tenha tido que demonstrar a uma máquina que é humano seria difícil. Pode parecer estranho usar hidrantes para resolver enigmas estranhos como prova de consciência. Depois de ler este ensaio, não parecerá tão estranho. Você vai aprender em breve como os CAPTCHAs funcionam e como você contribui significativamente para o treinamento de IA resolvendo-os. Além disso, você aprenderá como os reCAPTCHAs funcionam.

Por que o CAPTCHA é necessário?

O Teste de Turing Público Totalmente Automatizado para Diferenciar Computadores e Humanos é conhecido por sua sigla, CAPTCHA. Também é conhecido como Prova de Interação Humana (HIP) às vezes. O objetivo do teste CAPTCHA é distinguir entre humanos e bots. Os CAPTCHAs tradicionais desafiam os usuários a reconhecer o texto esticando e distorcendo letras, números e outros caracteres. Embora essa tarefa possa parecer simples para os humanos, pode ser difícil para os robôs concluírem.

Alan Turing, que às vezes é considerado o fundador dos computadores modernos, revelou o Teste de Turing em 1950. O objetivo dessa avaliação era demonstrar se os robôs poderiam ou não imitar os processos de pensamento humano. Um interrogador faz uma série de perguntas aos dois participantes durante o teste. Existem dois participantes: uma pessoa e uma máquina. O interrogador deve fazer suposições com base apenas em suas respostas, já que não sabe quem é quem. O sistema passa no teste se o interrogador não conseguir identificar os participantes.

O CAPTCHA tradicional é baseado no teste de Turing, como o nome sugere.

Como os CAPTCHAs funcionam?

Identificar pessoas de bots é o objetivo de um CAPTCHA. O teste CAPTCHA faz isso mostrando gráficos distintos para diferentes usuários. Para fornecer o máximo de versões distintas possível, é mantido um vasto banco de dados de CAPTCHAs. Uma máquina poderia decifrar o código CAPTCHA em nenhum momento se a solução fosse sempre a mesma ou se estivesse oculta nas informações da imagem.

Embora os CAPTCHAs sejam feitos para serem concluídos apenas por humanos, nem todos conseguem concluir um em sua primeira tentativa. Os especialistas estimam que 80% dos CAPTCHAs podem ser resolvidos por humanos, enquanto 0,01% podem ser concluídos por computadores.

Como os computadores não são tão hábeis na análise de dados visuais quanto os humanos, a maioria dos testes tradicionais de CAPTCHA depende da percepção visual. A maioria das pessoas é bastante boa em ver padrões e fazer conexões entre tópicos não relacionados. Pareidolia é a capacidade de reconhecer padrões que foram identificados anteriormente quando eles não ocorrem. Por exemplo, quando nosso cérebro tenta vincular informações a padrões, podemos reconhecer formas reconhecíveis nas nuvens.

Para pessoas com visão deficiente, os CAPTCHAs são fornecidos em formato de áudio. Para evitar que os bots passem nesses testes, normalmente há algum ruído de fundo no áudio.

Tipos de CAPTCHA

Dependendo do tipo de material, existem três tipos de CAPTCHAs: baseados em texto, baseados em imagem e baseados em som.

CAPTCHAs baseados em texto

O tipo mais popular combina várias justificativas ou expressões, caracteres e números.

Os caracteres podem ter fundos texturizados e formas de apresentação estranhas e distorcidas, tornando mais difícil para os não humanos lerem.

CAPTCHAs de texto

CAPTCHAs baseados em imagem

Geralmente uma grade de fotos quadradas representando objetos comuns. As fotos com os elementos necessários devem ser selecionadas pelo usuário. O Google frequentemente solicita que o Street View reconheça coisas comuns, como faixas de pedestres e certos tipos de veículos. A maioria dos visitantes conclui os CAPTCHAs de imagem bastante rapidamente. Para identificar um objeto, no entanto, um bot teria que executar um método de comparação ainda mais longo, o que impediria seu progresso em relação ao objetivo desejado. Em comparação com os CAPTCHAs de texto, os CAPTCHAs de imagem são uma tática anti-bot mais favorecida devido à complexidade do exame baseado em imagens.

CAPTCHAs de imagem

CAPTCHAs de áudio

CAPTCHAs baseados em texto e imagem são frequentemente usados em conjunto com CAPTCHAs de áudio. A trilha sonora inclui ruído de fundo e uma gravação de voz soletrando símbolos. O ruído, que normalmente é uma variedade de ruídos técnicos como estática, atua como uma barreira. Os bots são incapazes de discernir símbolos destacados do ruído de fundo no CAPTCHA de áudio.

CAPTCHAs de áudio

reCAPTCHA: o que é?

O Google oferece uma ferramenta chamada ReCAPTCHA que serve para o mesmo propósito que um CAPTCHA padrão. Esta é uma solução comum de proteção web gratuita para sites. Você pode ter visto ReCAPTCHAs onde os usuários são solicitados a marcar uma caixa em vez de resolver um problema. Nós nos referimos a esses como "noCAPTCHA reCAPTCHA". Se o usuário marcar a caixa e o sistema ainda não estiver convencido, ele será solicitado a fornecer identificação como humano.

reCAPTCHA

Como usamos ReCAPTCHAs?

Inicialmente, livros eram digitalizados, fotos de nomes de ruas eram usadas, fragmentos de texto de jornais eram retirados e os usuários eram solicitados a decodificar palavras ou combinações de palavras. Uma pessoa pode facilmente interpretar palavras de uma imagem, mas um bot tem dificuldade em fazer o mesmo.

À medida que os computadores se tornam mais avançados, os ReCAPTCHAs também se tornam mais complexos. Com o tempo, outros tipos de reCAPTCHA foram criados; eles incluem caixas de seleção, reconhecimento de imagens e avaliações gerais do comportamento do usuário que não exigem entrada do usuário.

Comparando reCAPTCHA V2 e V3

O reCAPTCHA v3 não é simplesmente uma versão mais avançada do reCAPTCHA v2, apesar do que parece ser o caso. As duas soluções realmente atendem a várias necessidades e são muito diferentes uma da outra.

O reCAPTCHA v2 é definido como marcar uma caixa com a etiqueta "Eu não sou um robô". Na maioria dos casos, isso marca a conclusão do exame; mas, em raras ocasiões, um usuário pode ser solicitado a fazer um teste adicional para verificar sua identidade.

Como o reCAPTCHA v3 opera em segundo plano utilizando análise de risco avançada e aprendizado de máquina, você pode nem perceber que ele existe. Um webmaster recebe uma pontuação do reCAPTCHA v3 com base no comportamento dos usuários. Você é classificado como um bot ou um humano com base na sua pontuação. A probabilidade de ser humano aumenta com a pontuação. Um webmaster toma a decisão final sobre se bloquear, continuar testando ou permitir a passagem.

V3 e V2 são usados ​​apenas em situações específicas. O reCAPTCHA v2 é apropriado para sites menores que desejam restringir visitantes automatizados. Um site pode ter v2 adicionado com apenas duas linhas de código HTML.

Inteligência artificial e captchas

O treinamento de inteligência artificial (IA) é perfeitamente exemplificado por CAPTCHAs e ReCAPTCHAs. Como dito anteriormente, o algoritmo determina se uma resposta está correta com base nas respostas de outros usuários quando pede, por exemplo, para clicar em cada gato nas fotografias.

Além disso, esses dados alimentam a IA, permitindo que os computadores reconheçam fotos com mais precisão.

Os computadores têm dificuldade em reconhecer imagens. Por exemplo, quando uma fotografia é capturada de uma perspectiva diferente, os robôs não conseguem criar as mesmas associações que o olho humano. Mas com a tecnologia mais avançada de hoje, os computadores estão se tornando mais complexos e os robôs estão se tornando cada vez mais inteligentes graças ao aprendizado de máquina.

Alguém pode contornar o CAPTCHA?

Contornando os CAPTCHAs, esses testes podem ser aprimorados, e a primeira etapa para melhorar uma solução é descobrir onde ela está faltando. Cada vez que um bot completa um CAPTCHA, ele está um passo mais perto de desenvolver melhores exames. No entanto, contornar os CAPTCHAs é um desafio difícil.

Ser listado na lista negra ou receber CAPTCHAs são dois dos problemas mais frequentes encontrados com a coleta de dados online. Essas dificuldades podem interromper esforços de coleta de dados públicos em grande escala. Algumas empresas como a Scrapeless já descobriram maneiras de contornar os CAPTCHAs.

Você está cansado de CAPTCHAs e blocos de raspadores de tela contínuos?

Scrapeless: a melhor solução de raspagem online tudo em um disponível!

Utilize nosso formidável kit de ferramentas para liberar todo o potencial de sua extração de dados:

Melhor solucionador de CAPTCHA

Resolução automatizada de CAPTCHAs complexos para garantir raspagem contínua e suave.

Experimente grátis!

Em resumo

Os sites são protegidos contra spam e uso indevido por meio de CAPTCHAs. Ao propor um teste que só deve ser concluído por pessoas, um CAPTCHA busca distinguir entre usuários humanos e programas automatizados. O Teste de Turing serviu como inspiração para o CAPTCHA.

O Google oferece uma solução CAPTCHA chamada ReCAPTCHAs. O reCAPTCHA existe em várias formas, e algumas delas nem precisam de participação humana. A causa precisa dos ReCAPTCHAs é desconhecida, embora as causas potenciais incluam histórico do navegador, rastreamento de cookies e envolvimento de sites em tempo real.

Como o objetivo principal do CAPTCHA é ser difícil para os bots resolverem, contorná-lo em um computador é difícil. Por outro lado, certas soluções — como a Web Scraper API — permitem a raspagem da web sem restrições de IP ou CAPTCHAs.

Na Scrapeless, acessamos apenas dados disponíveis publicamente, cumprindo rigorosamente as leis, regulamentos e políticas de privacidade do site aplicáveis. O conteúdo deste blog é apenas para fins de demonstração e não envolve quaisquer atividades ilegais ou infratoras. Não oferecemos garantias e nos isentamos de qualquer responsabilidade pelo uso de informações deste blog ou de links de terceiros. Antes de se envolver em qualquer atividade de scraping, consulte seu consultor jurídico e revise os termos de serviço do site de destino ou obtenha as permissões necessárias.

Artigos mais populares

Catálogo