🥳Únase a la Comunidad Scrapeless y Solicite su prueba gratuita para acceder a nuestro potente kit de herramientas de Web Scraping.
Volver al blog

¿Cómo funciona el CAPTCHA?

Ethan Brown
Ethan Brown

Advanced Bot Mitigation Engineer

25-Sep-2024

Encontrar a alguien que nunca haya tenido que demostrar a una máquina que es un humano sería difícil. Puede parecer extraño usar bocas de incendio para resolver acertijos extraños como prueba de conciencia. Después de leer este ensayo, no te parecerá tan extraño. Pronto aprenderás cómo funcionan los CAPTCHA y cómo contribuyes significativamente al entrenamiento de IA al resolverlos. Además, aprenderás cómo funcionan los reCAPTCHA.

¿Por qué se requiere CAPTCHA?

La Prueba de Turing Pública Completamente Automatizada para Distinguir entre Computadoras y Humanos es conocida por su acrónimo, CAPTCHA. A veces también se conoce como Prueba de Interacción Humana (HIP). El propósito de la prueba CAPTCHA es distinguir entre humanos y bots. Los CAPTCHA tradicionales desafían a los usuarios a reconocer texto estirando y distorsionando letras, números y otros caracteres. Si bien esta tarea puede parecer simple para los humanos, puede ser difícil de completar para los robots.

Alan Turing, a quien a veces se le considera el fundador de las computadoras modernas, dio a conocer la Prueba de Turing en 1950. El propósito de esta evaluación era demostrar si los robots podían o no imitar los procesos de pensamiento humano. Un interrogador plantea una serie de preguntas a los dos participantes durante la prueba. Hay dos participantes: una persona y una máquina. El interrogador debe hacer suposiciones basadas solo en sus respuestas, ya que no está seguro de quién es quién. El sistema pasa la prueba si el interrogador no puede identificar a los participantes.

El CAPTCHA tradicional se basa en la prueba de Turing, como su nombre lo indica.

¿Cómo funcionan los CAPTCHA?

Identificar a las personas de los bots es el objetivo de un CAPTCHA. La prueba CAPTCHA hace esto mostrando gráficos distintos a diferentes usuarios. Para proporcionar tantas versiones distintas como sea posible, se mantiene una base de datos enorme de CAPTCHA. Una máquina podría descifrar el código CAPTCHA en muy poco tiempo si la solución siempre fuera la misma o si estuviera oculta en la información de la imagen.

Aunque los CAPTCHA están destinados a ser completados solo por humanos, no todos pueden completar uno en su primer intento. Los expertos estiman que los humanos pueden resolver el 80% de los CAPTCHA, mientras que las computadoras pueden completar el 0.01%.

Dado que las computadoras no son tan hábiles para analizar datos visuales como los humanos, la mayoría de las pruebas tradicionales de CAPTCHA se basan en la percepción visual. La mayoría de las personas son bastante buenas para ver patrones y establecer conexiones entre temas no relacionados. La pareidolia es la capacidad de reconocer patrones que se han identificado previamente cuando no ocurren. Por ejemplo, cuando nuestro cerebro intenta vincular información con patrones, podemos reconocer formas reconocibles en las nubes.

Para las personas con problemas de visión, los CAPTCHA se proporcionan en formato de audio. Para evitar que los bots pasen estas pruebas, normalmente hay algo de ruido de fondo en el audio.

Tipos de CAPTCHA

Según el tipo de material, existen tres tipos de CAPTCHA: basados en texto, basados en imágenes y basados en sonido.

CAPTCHA basados en texto

El tipo más popular combina varias justificaciones o expresiones, caracteres y números.

Los caracteres pueden tener fondos texturizados y formas de presentación extrañas y distorsionadas, lo que dificulta aún más la lectura para los no humanos.

CAPTCHA de texto

CAPTCHA basados en imágenes

Por lo general, una cuadrícula de fotos cuadradas que representan objetos comunes. El usuario debe seleccionar las fotos con los elementos necesarios. Google a menudo solicita a Street View que reconozca objetos comunes como pasos de peatones y ciertos tipos de vehículos. La mayoría de los visitantes completan los CAPTCHA de imágenes con bastante rapidez. Sin embargo, para identificar un objeto, un bot tendría que realizar un método de comparación cada vez más largo, lo que obstaculizaría su progreso hacia el objetivo previsto. En comparación con los CAPTCHA de texto, los CAPTCHA de imágenes son una táctica anti-bot más favorecida debido a la complejidad del examen basado en imágenes.

CAPTCHA de imágenes

CAPTCHA basados en audio

Los CAPTCHA basados en texto e imágenes se utilizan con frecuencia junto con los CAPTCHA de audio. La banda sonora incluye ruido de fondo y una grabación de voz que deletrea símbolos. El ruido, que suele ser una variedad de ruidos técnicos como estática, actúa como una barrera. Los bots no pueden discernir los símbolos resaltados del ruido de fondo en el CAPTCHA de audio.

CAPTCHA de audio

reCAPTCHA: ¿qué es?

Google ofrece una herramienta llamada ReCAPTCHA que cumple la misma función que un CAPTCHA estándar. Esta es una solución de protección web gratuita común para sitios web. Es posible que hayas visto reCAPTCHAs donde se pide a los usuarios que marquen una casilla en lugar de resolver un problema. Nos referimos a estos como "reCAPTCHA sin CAPTCHA". Si el usuario marca la casilla y el sistema aún no está convencido, se le pedirá que proporcione identificación como humano.

reCAPTCHA

¿Cómo usamos los reCAPTCHAs?

Inicialmente, se digitalizaron libros, se utilizaron fotos de nombres de calles, se tomaron fragmentos de texto de periódicos y se pidió a los usuarios que decodificaran palabras o combinaciones de palabras. Una persona puede interpretar fácilmente palabras de una imagen, pero a un bot le resulta difícil hacer lo mismo.

A medida que las computadoras se vuelven más avanzadas, los reCAPTCHAs también se vuelven más complejos. Con el tiempo, se han creado otros tipos de reCAPTCHA; incluyen casillas de verificación, reconocimiento de imágenes y evaluaciones generales del comportamiento del usuario que no requieren la entrada del usuario.

Comparación de reCAPTCHA V2 y V3

ReCAPTCHA v3 no es simplemente una versión más avanzada de reCAPTCHA v2, a pesar de lo que parecería ser el caso. Las dos soluciones realmente satisfacen diversas necesidades y son muy diferentes entre sí.

ReCAPTCHA v2 se define como marcar una casilla etiquetada como "No soy un robot". En la mayoría de los casos, esto marca el final del examen; pero, en raras ocasiones, se puede pedir a un usuario que realice una prueba adicional para verificar su identidad.

Debido a que reCAPTCHA v3 opera en segundo plano utilizando análisis de riesgos avanzados y aprendizaje automático, es posible que ni siquiera seas consciente de su existencia. Un administrador de sitios web recibe una puntuación de ReCAPTCHA v3 en función del comportamiento de los usuarios. Se te clasifica como bot o humano según tu puntuación. La probabilidad de ser humano aumenta con la puntuación. Un administrador de sitios web toma la decisión final sobre si bloquear, continuar la prueba o permitir el paso.

V3 y V2 solo se utilizan en situaciones específicas. ReCAPTCHA v2 es apropiado para sitios web más pequeños que desean restringir a los visitantes automatizados. Un sitio web puede tener v2 agregado con solo dos líneas de código HTML.

Inteligencia artificial y Captchas

El entrenamiento de inteligencia artificial (IA) está perfectamente ejemplificado por CAPTCHAs y reCAPTCHAs. Como se mencionó anteriormente, el algoritmo determina si una respuesta es correcta en función de las respuestas de otros usuarios cuando solicita, por ejemplo, hacer clic en cada gato de las fotografías.
Además, estos datos alimentan la IA, lo que permite a las computadoras reconocer fotos con mayor precisión.

Las computadoras tienen dificultades para reconocer imágenes. Por ejemplo, cuando se captura una fotografía desde una perspectiva diferente, los robots no pueden crear las mismas asociaciones que el ojo humano. Pero con la tecnología más avanzada de hoy en día, las computadoras se están volviendo más complejas y los robots cada vez más inteligentes gracias al aprendizaje automático.

¿Se puede eludir CAPTCHA?

Al eludir los CAPTCHAs, estas pruebas pueden mejorarse y el primer paso para mejorar una solución es averiguar dónde falla. Cada vez que un bot completa un CAPTCHA, está un paso más cerca de desarrollar mejores exámenes. Sin embargo, eludir los CAPTCHAs es un desafío difícil.

Ser incluido en la lista negra o recibir CAPTCHAs son dos de los problemas más frecuentes que se encuentran con el raspado web. Estas dificultades pueden interrumpir los esfuerzos de recopilación de datos públicos a gran escala. Algunas empresas como Scrapeless ya han descubierto formas de eludir los CAPTCHAs.

¿Estás cansado de los CAPTCHAs y los bloqueos continuos de raspado web?

Scrapeless: ¡la mejor solución integral de raspado web disponible!

Utiliza nuestro formidable conjunto de herramientas para liberar todo el potencial de tu extracción de datos:

Mejor solucionador de CAPTCHA

Resolución automatizada de CAPTCHAs complejos para garantizar un raspado continuo y sin problemas.

¡Pruébalo gratis!

En resumen

Los sitios web están protegidos contra el spam y el uso indebido mediante CAPTCHAs. Al plantear una prueba que solo deberían completar las personas, un CAPTCHA busca distinguir entre usuarios humanos y programas automatizados. La prueba de Turing sirvió como inspiración para CAPTCHA.

Google ofrece una solución CAPTCHA llamada ReCAPTCHAs. reCAPTCHA viene en una variedad de formas y algunas de ellas ni siquiera requieren participación humana. Se desconoce la causa precisa de los reCAPTCHAs, aunque las causas potenciales incluyen el historial del navegador, el seguimiento de cookies y la participación en el sitio web en tiempo real.

Dado que el objetivo principal de CAPTCHA es ser difícil de resolver para los bots, eludirlo en una computadora es difícil. Por otro lado, ciertas soluciones, como Web Scraper API, permiten el raspado web sin restricciones de IP o CAPTCHAs.

En Scrapeless, solo accedemos a datos disponibles públicamente y cumplimos estrictamente con las leyes, regulaciones y políticas de privacidad del sitio web aplicables. El contenido de este blog es sólo para fines de demostración y no implica ninguna actividad ilegal o infractora. No ofrecemos garantías y renunciamos a toda responsabilidad por el uso de la información de este blog o enlaces de terceros. Antes de realizar cualquier actividad de scraping, consulte a su asesor legal y revise los términos de servicio del sitio web de destino u obtenga los permisos necesarios.

Artículos más populares

Catalogar