Migration de reCAPTCHA vers hCaptcha dans Cloudflare



Cloudflare a annoncé qu'il était récemment passé de l'utilisation du service reCAPTCHA fourni par Google à hCaptcha, qui est pris en charge par Intuition Machines. Cloudflare est très heureux d'avoir pu effectuer cette transition, car cela aide à résoudre les problèmes de collecte d'informations confidentielles pertinentes à un moment où la société s'appuyait sur les services Google. De plus, cela contribue à une configuration plus flexible des tâches CAPTCHA proposées aux visiteurs du site. Ce changement, en principe, affecte tous les utilisateurs de Cloudflare. Par conséquent, la société a décidé de partager les détails de la transition vers reCaptcha et a préparé un document dont nous publions la traduction aujourd'hui.

Utilisation de la technologie CAPTCHA dans Cloudflare



L'un des services fournis par Cloudflare est que les clients de l'entreprise ont la possibilité de bloquer le trafic automatique malveillant (trafic de robots). Nous utilisons de nombreux mécanismes visant à résoudre ce problème. Si nous sommes absolument certains qu'un trafic est nuisible, nous le bloquons complètement. Si nous savons avec certitude qu'une partie du trafic est le résultat d'une activité humaine normale, nous la sautons. La même chose s'applique au trafic normal généré par les robots, comme les robots des moteurs de recherche. Mais parfois, dans les cas où nous n'avons pas pleinement confiance dans la nature du trafic, nous soumettons ce trafic à un «test».

Nous avons différents tests. Certains d'entre eux sont entièrement automatiques, mais l'un de ces tests nécessite une intervention humaine. Des tests similaires sont connus sous le nom de CAPTCHA (en russe, ils sont appelés "captcha"). Cette abréviation signifie Test de Turing public complètement automatisé pour distinguer les ordinateurs et les humains - un test public de Turing entièrement automatisé pour distinguer les ordinateurs des personnes. Comme vous pouvez le voir, quelques lettres T dans le mot CAPTCHA sont omises - sinon cela ressemblerait à CAPTTTCHA. Les tests Captcha consistent généralement dans le fait que l'utilisateur est invité à lire le texte déformé et à le saisir dans le champ, ou à sélectionner dans l'ensemble d'images celles qui ont des feux de circulation ou des passages pour piétons. L'essence des tâches captcha est de les rendre faciles à résoudre pour une personne, mais pas pour un ordinateur.


Cloudflare, depuis le tout début de l'existence de l'entreprise, a utilisé le service Google reCAPTCHA. Ce service est apparu en 2007 comme un projet de recherche à l'Université Carnegie Mellon. Google a acheté ce projet en 2009. Vers la même époque, Cloudflare est apparu. Google a donné un accès gratuit à reCaptcha en échange du fait que les données du service ont été utilisées pour former les systèmes d'identification visuelle de l'entreprise. Lorsque nous recherchions une solution CAPTCHA pour Cloudflare, nous avons choisi reCATPCHA car ce service était efficace, évolutif et gratuit. Le dernier élément de cette liste était important pour nous, car de nombreux clients Cloudflare utilisent nos services gratuits.

À propos de la confidentialité et des verrous


Depuis les premiers jours de l'utilisation de reCAPTCHA sur Cloudflare, certains de nos clients ont exprimé leur inquiétude quant à l'utilisation du service Google. Les activités de Google se concentrent sur la publicité ciblée. Cloudflare ne fait pas cela. Nous avons une politique de confidentialité stricte. Nous étions à l'aise avec la politique de confidentialité associée à reCAPTCHA, mais nous comprenons les raisons pour lesquelles certains de nos clients craignent de devoir transférer plus de données vers Google qu'ils ne le souhaiteraient.

De plus, nous rencontrons des problèmes dans certaines régions, comme la Chine, où les services Google se bloquent de temps en temps. Mais seule la Chine représente 25% des internautes. En conséquence, nous avons toujours craint que certains de ces utilisateurs ne puissent pas travailler avec des sites protégés par Cloudflare s'ils étaient invités à résoudre le problème du captcha.

Il y avait déjà suffisamment de questions concernant la confidentialité et les verrous accumulés au fil des ans pour nous faire penser à changer reCAPTCHA pour autre chose. Mais pour nous, comme la plupart des sociétés informatiques, il est difficile de se concentrer sur l'abandon de certaines technologies largement utilisées et de les changer en quelque chose de nouveau.

Le modèle commercial en évolution de Google


Plus tôt cette année, Google nous a informés qu'ils allaient commencer à facturer l'utilisation du service reCaptcha. C'est leur plein droit. Le service de capture de Cloudflare, compte tenu de notre taille, vaut sans aucun doute beaucoup d'argent, ce qui est perceptible même à l'échelle de Google.

Et encore une fois, facturer reCAPTCHA est une décision absolument raisonnable de Google. Si les avantages de la société pour la formation des systèmes de classification d'images sont inférieurs au coût de maintenance du service, il est clair que Google souhaite payer pour travailler avec ce service. Dans notre cas, cela signifierait des dépenses annuelles de millions de dollars, qui ne seraient nécessaires que pour permettre à nos utilisateurs gratuits de continuer à utiliser reCAPTCHA. Cela, ainsi que d'autres raisons, a finalement été suffisant pour que nous commencions à chercher une alternative à reCAPTCHA.

Le meilleur captcha


Nous avons analysé de nombreux fournisseurs de solutions CAPTCHA et pensé à développer notre propre service de ce type. En conséquence, il s'est avéré que l'alternative la plus réussie à reCAPTCHA est hCaptcha . Nous avons beaucoup aimé ce service:

  1. Ils ne vendent pas de données personnelles. Ils ne collectent que le minimum nécessaire de ces données. L'entreprise décrit clairement les informations qu'elle collecte et comment elle utilise et divulgue les données. La société adhère à ces règles en fournissant le service hCaptcha Cloudflare.
  2. Le système hCaptcha a un bon niveau de performances (à la fois en termes de vitesse et en termes de performances liées à la résolution des problèmes de captcha). Ce niveau correspond à nos attentes lors des tests A / B, voire dépasse le niveau de ces attentes.
  3. hCaptcha , - , .
  4.   Privacy Pass, -.
  5. , Google .
  6. hCaptcha , , .

Le modèle commercial standard hCaptcha est similaire à celui utilisé au début du service reCAPTCHA. À savoir, la société prévoyait de facturer les utilisateurs qui ont besoin de données de classification d'images. Et ceux qui utilisent hCaptcha sur le site prévoyaient de payer une récompense. Cela nous a semblé attrayant, mais malheureusement, bien que cette approche puisse bien fonctionner pour la plupart des clients hCaptcha ordinaires, elle n'était pas adaptée à notre échelle.

Nous coopérons avec le service hCaptcha dans deux directions. Premièrement, nous sommes en train d'allouer la capacité de notre plateforme Workers, qui prendra la majeure partie de la charge lorsque nos clients utiliseront hCaptcha. Grâce à cela, nous réduirons les coûts des machines à intuition. Deuxièmement, nous avons suggéré que l'entreprise la paie, au lieu de ce qu'elle nous paierait. Cela fournira à l'entreprise les ressources nécessaires pour étendre son service afin qu'il réponde à nos besoins. Bien que cela signifie des coûts supplémentaires pour nous, ces coûts ne représentent qu'une petite fraction de ce que reCAPTCHA pourrait payer. En retour, nous obtenons une plateforme CAPTCHA, qui est beaucoup plus flexible que celle que nous utilisions auparavant. De plus, nous avons la possibilité d'interagir avec l'équipe de développement,qui répond très rapidement à nos demandes.

Quand nos clients montrent-ils du captcha à leurs utilisateurs?


Lorsque nous avons commencé à travailler sur ce projet, nous pensions que les principaux consommateurs de CAPTCHA seraient nos solutions Cloudflare Bot Management et Cloudflare Firewall Rules. Cette hypothèse, dans une certaine mesure, a été confirmée. Bien que les solutions Firewall / Bot se soient avérées être les principaux consommateurs de CAPTCHA, leur part dans la consommation totale de ce service n'était que légèrement supérieure à 50%.

Voici un résumé de celles de nos solutions, dans lesquelles les utilisateurs demandent une sortie captcha.
Solution CloudflareUtilisation de CAPTCHA
Règles de pare-feu et gestion des bots54,8%
Pare-feu IP18,6%
Niveau de sécurité16,8%
DDoS6,3%
Limitation de débit1,7%
Règles WAF1,5%
Autre0,3%

Les solutions de pare-feu / bot sont en haut de cette liste. Ils représentent la majeure partie du captcha. Ces solutions appliquent les règles écrites par nos utilisateurs. Lorsque les conditions spécifiées par ces règles sont remplies, captcha s'affiche. À titre d'exemple, nous pouvons citer ici une situation dans laquelle le captcha est affiché lorsque la demande est évaluée par Cloudflare Bot ManagementCela s'avère ambigu. D'une part, elle est inférieure à une valeur seuil prédéterminée, ce qui peut indiquer que nous parlons de trafic automatisé. Mais elle est en revanche au-dessus d'une valeur seuil indiquant l'incertitude de la situation. Un autre script courant pour utiliser captcha lié à la section Pare-feu / Bot est d'afficher les tâches captcha pour toutes les demandes à un certain site ou à un certain point de terminaison d'un site. Nos clients peuvent le faire afin de limiter le nombre de connexions à leurs serveurs, ou pour ralentir le travail des systèmes automatisés qui trient les informations d'identification sur la page de connexion ou créent de faux comptes. Cela conduit au fait que certains sites protégés par Cloudflare demandent à afficher des centaines de millions de captcha par jour.

La deuxième solution sur cette liste est notre solution de pare-feu IP . En général, il est similaire aux solutions de pare-feu / bot, mais vous permet d'analyser le trafic plus précisément, en travaillant au niveau de l'adresse IP, de l'ASN ou du pays. Le volume principal de captchas affichés dans le cadre du service de pare-feu IP est lié aux niveaux de l'ASN et des pays. Probablement, nos clients sont protégés de cette manière contre le trafic associé à un certain ASN (par exemple, le trafic provenant d'un fournisseur de cloud peut-il être généré par des utilisateurs ordinaires?), Ou sont protégés contre les attaques menées dans certains pays.

Vient ensuite le service Niveaux de sécurité . Ce service est utilisé de deux manières différentes:

  1. Il peut jouer le rôle d'un outil pour mesurer la réputation d'une adresse IP.
  2. Elle peut travailler en mode I'm Under Attack.

Bien que nous recommandons aux clients d'utiliser le mode I'm Under Attack uniquement lorsqu'ils sont soumis à une attaque DDoS active, certains de nos clients gardent le système dans ce mode tout le temps, en l'utilisant comme un mécanisme primitif pour limiter la vitesse des demandes vers le site et filtrer trafic.

Le dernier domaine principal d'utilisation du captcha appartient à l'un de nos systèmes automatisés. Par exemple, récemment, nos ingénieurs de protection contre les attaques DoS ont appris à Gatebot comment utiliser captcha pour résoudre de petits problèmes dans certaines situations spécifiques. Gatebot peut désormais écrire des règles temporaires, dont l'application conduit à l'affichage du captcha attaquant.

Enfin, certains de nos clients personnalisent l'affichage du captcha en créant des ensembles de règles de limitation de débit et de WAF géré.

Nous nous sommes également intéressés à la question des types de nos clients utilisant le captcha. Au cours de la semaine, nos clients utilisant les services gratuitement ont demandé environ 40 à 60% de tous les captcha affichés par Cloudflare. Cet indicateur a été obtenu en tenant compte de l'impact sur l'affichage des attaques captcha sur les sites. Parmi les deux groupes de nos clients payants - les entreprises et ceux qui paient les services lors de leur fourniture, le volume restant d'utilisation du captcha est divisé à peu près également. En général, nous avons découvert que Cloudflare affiche chaque seconde plusieurs millions de captcha lors d'une attaque contre un ou plusieurs de nos clients.

A propos des problèmes de transition vers une nouvelle technologie


Lorsque nous changeons une partie du système Cloudflare, cela facilite la vie de certains de nos clients, mais d'autres clients rencontrent des problèmes. Nous et l'équipe de développement de hCaptcha sommes prêts à résoudre toutes les difficultés qui surviennent. Si vous ou vos utilisateurs rencontrez des difficultés lors de l'utilisation de hCaptcha - nous vous demandons d'écrire à ce sujet sur le forum ou d'ouvrir un ticket de support , tout en donnant une description aussi détaillée que possible de ce qui s'est passé.

Si possible, veuillez inclure dans le message Ray ID - l'identifiant qui apparaît généralement au bas de la page CAPTCHA. Cela nous aidera à comprendre ce qui n'a pas fonctionné.


Ray id

Sommaire


L'expérience nous apprend que le captcha visuel (et sonore) est loin d'être une solution idéale à de nombreux problèmes complexes. Cloudflare continue de travailler pour minimiser le nombre de captchas montrés aux utilisateurs et, finalement, abandonner complètement cette technologie. Nous prévoyons d'écrire plus à ce sujet. Et au fait, savez-vous comment s'appelle notre chat interne dans lequel l'équipe impliquée dans la mise en œuvre de hCaptcha communique? Vous pourriez penser que ce chat s'appelle New CAPTCHA. Mais ce n'est pas le cas. Il s'appelle (Non) CAPTCHA.

Chers lecteurs! Avez-vous déjà rencontré hCaptcha?


All Articles