👅 🐝 👌🏽 Migración de reCAPTCHA a hCaptcha en Cloudflare 👩🏾‍🔬 🖋️ 🔱

Cloudflare anunció que recientemente cambió de usar el servicio reCAPTCHA proporcionado por Google a hCaptcha, que es compatible con Intuition Machines. Cloudflare está muy contento de haber podido hacer esta transición, ya que ayuda a resolver problemas con la recopilación de información confidencial relevante en un momento en que la empresa confiaba en los servicios de Google. Esto, además, contribuye a una configuración más flexible de las tareas CAPTCHA que se ofrecen a los visitantes del sitio. Este cambio, en principio, afecta a todos los usuarios de Cloudflare. Por lo tanto, la compañía decidió compartir detalles sobre la transición a reCaptcha y preparó un material, cuya traducción publicamos hoy.

Usando la tecnología CAPTCHA en Cloudflare

Uno de los servicios proporcionados por Cloudflare es que los clientes de la compañía tienen la oportunidad de bloquear el tráfico automático malicioso (tráfico de bots). Utilizamos muchos mecanismos destinados a resolver este problema. Si estamos absolutamente seguros de que parte del tráfico es dañino, lo bloqueamos por completo. Si sabemos con certeza que parte del tráfico es el resultado de la actividad humana normal, lo omitiremos. Lo mismo se aplica al tráfico normal generado por los robots, como los robots de los motores de búsqueda. Pero a veces, en los casos en que no tenemos plena confianza en la naturaleza del tráfico, sometemos este tráfico a una "prueba".

Tenemos diferentes pruebas. Algunos de ellos son completamente automáticos, pero una de estas pruebas requiere intervención humana. Pruebas similares se conocen como CAPTCHA (en ruso se llaman "captcha"). Esta abreviatura significa Prueba de Turing pública completamente automatizada para distinguir computadoras y seres humanos, una prueba pública de Turing totalmente automatizada para distinguir entre computadoras y personas. Como puede ver, se omiten algunas letras T en la palabra CAPTCHA; de lo contrario, se vería como CAPTTTCHA. Las pruebas CAPTCHA generalmente consisten en el hecho de que se le pide al usuario que lea el texto distorsionado y lo ingrese en el campo, o seleccione del conjunto de imágenes aquellos que tengan semáforos o pasos de peatones. La esencia de las tareas de captcha es hacerlas fáciles de resolver para una persona, pero no para una computadora.

Cloudflare, desde el comienzo de la existencia de la empresa, utilizó el servicio de Google reCAPTCHA. Este servicio apareció en 2007 como un proyecto de investigación en la Universidad Carnegie Mellon. Google compró este proyecto en 2009. Casi al mismo tiempo, apareció Cloudflare. Google dio acceso gratuito a reCaptcha a cambio del hecho de que los datos del servicio se utilizaron para entrenar los sistemas de identificación visual de la compañía. Cuando buscábamos una solución CAPTCHA para Cloudflare, elegimos reCATPCHA porque este servicio era eficiente, escalable y gratuito. El último elemento de esta lista fue importante para nosotros debido al hecho de que muchos clientes de Cloudflare utilizan nuestros servicios gratuitos.

Sobre privacidad y cerraduras

Desde los primeros días de usar reCAPTCHA en Cloudflare, algunos de nuestros clientes han expresado su preocupación de que usemos el servicio de Google. El negocio de Google se centra en la publicidad dirigida. Cloudflare no hace esto. Tenemos una estricta política de privacidad. Nos sentimos cómodos con la política de privacidad asociada con reCAPTCHA, pero entendemos las razones por las cuales algunos de nuestros clientes están preocupados de tener que transferir más datos a Google de lo que desearían.

Además, estamos experimentando problemas en algunas regiones, como China, donde los servicios de Google se bloquean de vez en cuando. Pero solo China es el 25% de los usuarios de Internet. Como resultado, siempre nos preocupaba que algunos de estos usuarios no pudieran trabajar con sitios protegidos por Cloudflare, si se les pidiera que resolvieran el problema de captcha.

Ya había suficientes preguntas sobre privacidad y bloqueos acumulados a lo largo de los años para hacernos pensar en cambiar reCAPTCHA por otra cosa. Pero para nosotros, como la mayoría de las empresas de TI, es difícil concentrarse en abandonar una tecnología ampliamente utilizada y cambiarla por algo nuevo.

El modelo de negocio cambiante de Google

A principios de este año, Google nos informó que iban a comenzar a cobrar por usar el servicio reCaptcha. Este es su derecho completo. El servicio de captcha-necesidades de Cloudflare, dado nuestro tamaño, sin duda vale mucho dinero, lo que se nota incluso en una escala de Google.

Y nuevamente, cobrar por reCAPTCHA es un movimiento absolutamente razonable de Google. Si el beneficio de la compañía de los sistemas de clasificación de imágenes de capacitación es menor que el costo de mantener el servicio, está claro que Google desea cobrar por trabajar con este servicio. En nuestro caso, esto significaría un costo anual de millones de dólares, que sería necesario solo para permitir que nuestros usuarios gratuitos sigan usando reCAPTCHA. Esto, junto con otras razones, al final fue suficiente para comenzar a buscar una alternativa a reCAPTCHA.

El mejor captcha

Analizamos muchos proveedores de soluciones CAPTCHA y pensamos en desarrollar nuestro propio servicio de este tipo. Como resultado, resultó que la alternativa más exitosa para reCAPTCHA es hCaptcha . Nos gustó mucho este servicio:

No venden datos personales. Recopilan solo el mínimo necesario de dichos datos. La compañía describe claramente la información que recopila y cómo utiliza y divulga los datos. La compañía se adhiere a estas reglas al proporcionar el servicio hCaptcha Cloudflare.
El sistema hCaptcha tiene un buen nivel de rendimiento (tanto en términos de velocidad como en términos de rendimiento relacionados con la resolución de problemas de captcha). Este nivel corresponde a nuestras expectativas durante las pruebas A / B, o incluso excede el nivel de tales expectativas.
hCaptcha , - , .
Privacy Pass, -.
, Google .
hCaptcha , , .

El modelo de negocio estándar de hCaptcha es similar al utilizado al inicio del servicio reCAPTCHA. A saber, la compañía planeaba cobrar a los usuarios que necesitan datos de clasificación de imágenes. Y aquellos que usan hCaptcha en el sitio estaban planeando pagar una recompensa. Nos pareció atractivo, pero desafortunadamente, aunque este enfoque puede funcionar bien para la mayoría de los clientes de hCaptcha, no era adecuado para nuestra escala.

Cooperamos con el servicio hCaptcha en dos direcciones. En primer lugar, estamos en el proceso de asignar la capacidad de nuestra plataforma de Trabajadores, que asumirá la mayor parte de la carga cuando nuestros clientes usen hCaptcha. Gracias a esto, reduciremos los costos de las máquinas de intuición. En segundo lugar, sugerimos que la compañía le pagara, en lugar de lo que ella nos pagaría. Esto proporcionará a la empresa los recursos necesarios para escalar su servicio de modo que satisfaga nuestras necesidades. Aunque esto significa costos adicionales para nosotros, estos costos son solo una pequeña fracción de lo que reCAPTCHA podría pagar. A cambio, obtenemos una plataforma CAPTCHA, que es mucho más flexible que la que usamos antes. Además, tenemos la oportunidad de interactuar con el equipo de desarrollo,que responde muy rápidamente a nuestras solicitudes.

¿Cuándo muestran nuestros clientes captcha a sus usuarios?

Cuando comenzamos a trabajar en este proyecto, asumimos que los principales consumidores de CAPTCHA serían nuestras soluciones Cloudflare Bot Management y Cloudflare Firewall Rules. Esta suposición, hasta cierto punto, ha sido confirmada. Aunque las soluciones de Firewall / Bot resultaron ser los principales consumidores de CAPTCHA, su participación en el consumo total de este servicio fue solo un poco más del 50%.

Aquí hay un resumen de las de nuestras soluciones, en las cuales los usuarios solicitan una salida captcha.

Solución Cloudflare	Usando CAPTCHA
Reglas de firewall y gestión de bot	54,8%
Cortafuegos IP	18,6%
Nivel de seguridad	16,8%
DDoS	6.3%
Limitación de velocidad	1,7%
Reglas de WAF	1.5%
Otro	0.3%

Las soluciones de firewall / bot se encuentran en la parte superior de esta lista. Representan la mayor parte del captcha. Estas soluciones hacen cumplir las reglas escritas por nuestros usuarios. Cuando se cumplen las condiciones especificadas por estas reglas, se muestra captcha. Como ejemplo, aquí podemos citar una situación en la que se muestra captcha cuando la solicitud es evaluada por Cloudflare Bot ManagementResulta ser ambiguo. Por un lado, está por debajo de un valor umbral predeterminado, lo que puede indicar que estamos hablando de tráfico automatizado. Pero, por otro lado, está por encima de un valor umbral que indica la incertidumbre de la situación. Otro script común para usar captcha relacionado con la sección Firewall / Bot es mostrar las tareas de captcha para todas las solicitudes a un determinado sitio o a un determinado punto final de un sitio. Nuestros clientes pueden hacer esto para limitar la cantidad de conexiones a sus servidores o para ralentizar el funcionamiento de los sistemas automatizados que clasifican las credenciales en la página de inicio de sesión o crean cuentas falsas. Esto lleva al hecho de que algunos sitios que están protegidos por Cloudflare solicitan mostrar cientos de millones de captcha por día.

El segundo en esta lista es nuestra solución de firewall IP . En general, es similar a las soluciones de Firewall / Bot, pero le permite analizar el tráfico con mayor precisión, trabajando a nivel de dirección IP, ASN o país. El volumen principal de captchas que se muestra como parte del servicio de Firewall IP está relacionado con los niveles de ASN y países. Probablemente, nuestros clientes están protegidos de esta manera del tráfico asociado con un determinado ASN (por ejemplo, ¿puede el tráfico de un proveedor de la nube ser generado por usuarios comunes?), O están protegidos de ataques llevados a cabo desde algunos países.

Luego viene el servicio de niveles de seguridad . Este servicio se usa de dos maneras diferentes:

Puede desempeñar el papel de una herramienta para medir la reputación de una dirección IP.
Ella puede trabajar en el modo Estoy bajo ataque.

Aunque recomendamos que los clientes usen el modo Estoy bajo ataque solo cuando están bajo un ataque DDoS activo, algunos de nuestros clientes mantienen el sistema en este modo todo el tiempo, usándolo como un mecanismo primitivo para limitar la velocidad de las solicitudes al sitio y para filtrar tráfico.

La última área principal de uso de captcha pertenece a uno de nuestros sistemas automatizados. Por ejemplo, recientemente nuestros ingenieros de protección contra ataques DoS le enseñaron a Gatebot cómo usar captcha para solucionar pequeños problemas en algunas situaciones específicas. Ahora Gatebot puede escribir reglas temporales, cuya aplicación conduce a la visualización de captcha atacante.

Finalmente, algunos de nuestros clientes personalizan la pantalla de captcha creando conjuntos de reglas WAF de limitación de velocidad y administrados.

También nos interesó la cuestión de los tipos de nuestros clientes que usan captcha. Durante la semana, nuestros clientes que utilizan los servicios de forma gratuita solicitaron alrededor del 40-60% de todos los captcha mostrados por Cloudflare. Este indicador se obtuvo teniendo en cuenta el impacto en la visualización de los ataques de captcha en los sitios. Entre los dos grupos de nuestros clientes pagos: corporativos y aquellos que pagan por los servicios tras su prestación, el volumen restante de uso de captcha se divide aproximadamente en partes iguales. En general, descubrimos que Cloudflare muestra cada segundo varios millones de captcha durante un ataque a uno o más de nuestros clientes.

Sobre los problemas de transición a una nueva tecnología

Cuando cambiamos una parte del sistema Cloudflare, facilita la vida de algunos de nuestros clientes, pero otros clientes tienen problemas. Nosotros y el equipo de desarrollo de hCaptcha estamos listos para resolver cualquier dificultad que surja. Si usted o sus usuarios encuentran dificultades al usar hCaptcha, le pedimos que escriba sobre esto en el foro o abra un ticket de soporte , mientras brindamos una descripción lo más detallada posible de lo que sucedió.

Si es posible, incluya en el mensaje Ray ID: el identificador que generalmente aparece en la parte inferior de la página CAPTCHA. Esto nos ayudará a descubrir qué salió mal.

Identificación del rayo

Resumen

La experiencia nos dice que el captcha visual (y el sonido) está lejos de ser una solución ideal para muchos problemas complejos. Cloudflare continúa trabajando para minimizar la cantidad de captchas que se muestran a los usuarios y, al final, abandonar por completo esta tecnología. Planeamos escribir más sobre esto. Y, por cierto, ¿sabes cómo se llama nuestro chat interno en el que se comunica el equipo involucrado en la implementación de hCaptcha? Puede pensar que este chat se llama New CAPTCHA. Pero en realidad no lo es. Se llama (No) CAPTCHA.

¡Queridos lectores! ¿Ya te has encontrado con hCaptcha?

Migración de reCAPTCHA a hCaptcha en Cloudflare