CAPTCHA: tuer la conversion

image

CAPTCHA est considéré comme la norme internationale de protection contre les attaques DDoS, les enregistrements automatiques et le spam. À Variti, nous avons analysé l'efficacité de cette solution et sommes arrivés à la conclusion qu'il s'agit d'un moyen de protection contre les bots très gênant et inefficace qui a un mauvais effet sur la conversion, et les zones avec captcha sont en elles-mêmes des vulnérabilités pour les attaques.

Nous avons décidé de partager les raisons pour lesquelles le captcha devrait être abandonné au profit de solutions utilisateurs plus fiables et moins gênantes, dans des solutions marketing et techniques.

Commercialisation


Furieux!

Le captcha doit être soigneusement examiné et introduit périodiquement plusieurs fois. L'étude de Stanford suggère que leurs sujets ont passé en moyenne 9,8 secondes pour reconnaître et introduire le captcha visuel et 28,4 secondes pour la version audio, 50% des utilisateurs refusant de le résoudre. En 2018, le Baymard Institute, qui mène diverses études sur le thème de l'expérience utilisateur , a estimé que les utilisateurs ne pouvaient pas résoudre les CAPTCHA textuels dans environ 8% des cas. Ce chiffre augmente à 29% si le CAPTCHA est sensible à la casse.

Tout d'abord, c'est toujours un problème de convivialité, car cette fonctionnalité oblige l'utilisateur à effectuer une action inutile (et plus un captcha, ce n'est pas toujours approprié et est beau dans la conception de la page). Ce problème se manifeste particulièrement clairement si, si la solution n'est pas saisie correctement, la page entière se recharge: par exemple, si l'utilisateur a tapé un long commentaire pendant longtemps, puis il a disparu si la solution était incorrecte. Le pourcentage de probabilité qu'une personne recommence à zéro n'est pas très élevé.

De plus, il existe déjà plusieurs solutions pour créer du captcha sur le marché qui y placent des publicités (par exemple, elles suggèrent d'assembler un puzzle à partir du logo de l'entreprise). Cela ne peut qu'affecter le degré d'humeur de l'utilisateur.

Enfin, il est très gênant pour les personnes ayant des troubles de la coordination ou de la vision, et même pour celles qui ne distinguent pas les couleurs, car tous les propriétaires de ressources implémentant le captcha visuel n'y ajoutent pas de son. De plus, le captcha est particulièrement ennuyeux pour le public «d'âge» et celui où il y a un grand pourcentage de personnes ayant un faible niveau d'informatique ou un manque de connaissance de l'anglais.

Cela affecte gravement la conversion.

Comme vous le savez, en général, tout champ supplémentaire à remplir sur le site affecte la conversion. Voici une étude intéressante, qui a montré que le rejet du captcha entraîne une augmentation de la conversion de 3,2%. Chaque ressource peut tester les données exactes sur le changement de conversion en fonction du captcha indépendamment, car les résultats dépendent des spécificités et du public. Mais si vous abordez le problème du point de vue de la perte de profit, vous devez alors calculer les coûts et l'efficacité dans les deux cas - est-il beaucoup plus rentable d'inclure captcha que de se débarrasser du spam par d'autres moyens? De plus, ils le sont.

Les CAPTCHA sont devenus plus difficiles

image

Au fil des ans, CAPTCHA est devenu plus intelligent, mais les robots ont commencé à se développer plus rapidement et à devenir plus sophistiqués. Au début des années 2000, de simples images avec du texte suffisaient à arrêter la plupart des robots collecteurs de mails, mais chaque année, les textes doivent être de plus en plus déformés pour dépasser les programmes de reconnaissance de caractères. Vous remarquerez peut-être que dans captcha, où vous devez sélectionner plusieurs images, après plusieurs tentatives infructueuses, les objets à rechercher sont masqués ou déformés, de nouvelles classes d'objets sont ajoutées et le nombre de pages à passer augmente. En conséquence, avec complication, le nombre de défaillances d'utilisateurs réels augmente également. Bien sûr, Google résout ses tâches supplémentaires en utilisant ces algorithmes pour enseigner à ses robots comment reconnaître les objets dans les images et il est peu probable de les refuser,mais jusqu'à présent, tout semble que tout ce que fait le captcha élimine les robots moins intelligents et les gens inattentifs.

En 2014, Google a opposé à lui-même son meilleur algorithme pour résoudre les textes et les personnes les plus déformés: l'ordinateur a correctement reconnu le texte dans 99,8% des cas, et les personnes dans seulement 33%.

Technique




Captcha est facile à contourner Captcha ne remplit pas sa fonction principale - il ne libère pas les propriétaires de ressources des bots. Il existe même plus d'une option pour le «combat» des spammeurs avec captcha.

Les systèmes de reconnaissance et les réseaux de neurones

Les systèmes OCR (reconnaissance optique de caractères) fonctionnent désormais de manière assez précise et reconnaissent facilement le texte imprimé et les images. La décision d'ajouter un fond «bruit», des couleurs et des lignes supplémentaires, pour déformer ou dupliquer le texte n'aide pas particulièrement à éviter cela, mais complique le passage pour une personne réelle.

Avec le développement des technologies d'apprentissage automatique et des réseaux de neurones d'apprentissage en profondeur, le processus supplémentaire de complication visuelle des captchas semble futile. Un réseau neuronal à convolution complète dans lequel une image est entrée et une image souhaitée est sortie ou plusieurs images (cartes centrales) reconnaissent le texte captcha dans la plupart des cas. Cependant, pour cela, le captcha est également résolu avec le choix des bonnes images pour la détection et la classification des objets - après tout, c'est exactement ce que fait le réseau neuronal (y compris le réseau neuronal très reCAPCHA de Google). Oui, et certaines bibliothèques qui vous permettent de travailler avec des réseaux de neurones sont également développées par Google (par exemple, Tensorflow ).

Il services de piratageà laquelle la version audio du captcha est prise et transcrite. Avec le développement réussi des systèmes de reconnaissance vocale, cela cesse également d'être un problème pour les spammeurs expérimentés. Il existe des algorithmes et des scripts, tels que, par exemple, l'algorithme Kok-Yanger-Kasami pour reconnaître une grammaire bidimensionnelle, qui peut reconnaître plus de 50% de captcha. Il existe d'autres façons de contourner la validation:

  • Générateurs de nombres et autres systèmes de dénombrement. Par exemple, s'il y a le même ensemble de 10 images qui sont simplement réorganisées au hasard, et que vous devez trouver quelque chose de spécifique sur elles, c'est-à-dire seulement 1024 variations possibles
  • Récupération de caractères à partir des données du journal
  • "Peeping" scripts pour appeler captcha, par exemple, <img scr = "/ captcha.php? Code = 1234" />
  • Réappliquez les identifiants de session utilisateur
  • Enfin, les spammeurs connectent les derniers logiciels de reconnaissance de type FineReader à leurs robots de spam à apprentissage automatique.

Une affaire de devinettes

Il existe tout un marché de services proposant de contourner le captcha, et c'est très bon marché. Des milliers de personnes réelles sont employées dans cette industrie - des résidents de l'Inde ou de la Chine, qui passent des tests pour une somme modique. Des échanges spéciaux tels qu'Amazon Mechanical Turk proposent d'acheter des dizaines de captchas non démêlés pour quelques centimes, et de nombreux services font également baisser constamment ce prix. Ils créent constamment des milliers de nouveaux comptes «propres» par milliers, qui sont les plus simples et les plus rapides pour vérifier les systèmes de spam sur les sites.

Enfin, il existe des ressources en ligne avec un contenu «intéressant» comme des jeux ou du contenu pour adultes. Avant que les utilisateurs puissent voir le prochain lot de contenu, le système fera une demande de backend à Yahoo ou Google, récupérera le captcha à partir de là et le glissera dans l'utilisateur. Et dès que l'utilisateur répond à la question, le pirate enverra le captcha effiloché au site cible. Il n'est pas difficile de créer un site Web populaire avec un contenu populaire si vous analysez (ou volez simplement) du contenu intéressant à partir d'un certain nombre de portails «légaux» (nous rencontrons souvent de tels «copier-coller» dans notre travail). Et le pirate obtient en conséquence un large public qui dénoue le captcha des autres, sans le soupçonner.

Ne fait pas de distinction entre les bons et les mauvais robots

En plus des mauvais robots, il y en a de bons - ce sont des robots de moteur de recherche et de navigateur, des robots d'entreprise utiles de divers services qui recherchent ou publient des informations ou offrent de l'aide à un utilisateur en automatisant le support technique d'une entreprise ou en vendant ses services. Par exemple, selon GlobalDots , le trafic humain est actuellement de 62,1%, les mauvais bots de 20,4% et les bons bots de 17,5% (c'est-à-dire que le retard par rapport aux mauvais n'est pas si critique). Malheureusement, la méthode CAPTCHA ne fait pas de distinction entre les bons et les mauvais robots, ne sautant pas tout le monde de la même manière, bien que de «bons» robots puissent être utiles.

Ressource pour les attaques

La plupart des captchas sont des tiers - fournis par le même Google ou les développeurs de solutions captcha. Mais dans de nombreux cas, ils sont générés par le même serveur sur lequel se trouve le site, et cela devient alors un endroit vulnérable aux attaques.

La génération de certains types de captcha est une opération plutôt consommatrice de ressources et elle ne va pas vite, car elle nécessite des requêtes vers des bibliothèques tierces et fonctionne généralement avec des images. Si la mise en cache par défaut n'est pas fournie ou est désactivée pour une raison quelconque, cela pose encore plus de problèmes. Si l'attaquant définit la tâche pour créer un nombre excessif de demandes de génération de captcha, le serveur peut ne pas avoir le temps de le faire.

Cependant, ce problème est résolu:

  1. Vous devez choisir un certain type de captcha qui est privé de ce problème.
  2. Placer le captcha sur une ressource distincte

La seule question est de savoir si le propriétaire du site a les ressources pour embaucher un développeur qui le fera de manière qualitative.

Ralentit le site

image

Un léger ralentissement peut ne pas sembler important, mais vous vous tromperez si vous n'y prêtez pas attention. Regardez cette étude : alors qu'un cinquième des spécialistes du marketing ne pense pas que le temps de chargement affecte les taux de conversion, près de 70% des gens admettent que la vitesse de la page affecte la probabilité d'un achat.

Comment le captcha peut-il affecter la vitesse?

  • La génération d'images complexes est une opération assez gourmande en ressources, étant donné que tous les codes affichés ne sont pas utilisés. Par conséquent, les services captcha et les journaux et cookies associés peuvent ralentir la ressource en ligne.
  • , . , . backend .
  • , - API , , .

C'est tout?

Malheureusement non. Il y a encore quelques points.

Tout d'abord, captcha peut briser la logique du site - en particulier dans les cas où le remplissage du formulaire se termine par captcha, et l'utilisateur n'est pas toujours averti à ce sujet. Cependant, l'option «afficher le captcha uniquement à l'entrée» ne résout pas le problème de la protection contre les spammeurs, car il s'avère qu'après un passage unique, ils peuvent faire ce qu'ils veulent plus loin.

Deuxièmement, réfléchissons aux moteurs de recherche. Si les moteurs de recherche "blanchissent" par user-agent, alors captcha est inefficace. Si captcha est montré à tout le monde, cela peut sembler aux moteurs de recherche et le site aura des problèmes d'indexation.

Pas un seul captcha

Il existe de nombreuses autres formes de protection, parfois encore plus efficaces contre les robots. Par exemple, sur un frontal, cela peut être le temps minimum pour remplir un formulaire, moins que seul un bot peut remplir, ou un champ caché (affichage: aucun) qu'une personne ne verra pas mais remplira le bot.

Au niveau du réseau, cela peut être de l'obscurcissement ou du chiffrement HTML, le blocage de certains agents utilisateurs et divers pièges du côté du serveur Web: par exemple, créer des sections invisibles du site, où seuls les robots tombent et sont ensuite interdits par IP, ou filtrer les procurations anonymes.

Et enfin, il y a une méthode que nous appliquons à Variti- Il s'agit d'un filtrage complet du trafic, que nous considérons comme la seule approche à part entière de la protection contre les bots et les attaques DDoS. Nous transmettons tout le trafic qui va vers le site Web ou l'application du client via nos clusters, et des algorithmes spécialement adaptés et d'auto-apprentissage déterminent et transmettent davantage de trafic légitime d'utilisateurs en direct et de «bons» robots, et le blocage IP n'est également pas requis dans ce processus. Cependant, nous expliquerons pourquoi nous considérons également la méthode de blocage IP comme malveillante dans les articles suivants.

All Articles