Migrando do reCAPTCHA para o hCaptcha no Cloudflare



A Cloudflare anunciou que recentemente deixou de usar o serviço reCAPTCHA fornecido pelo Google para o hCaptcha, que é suportado pela Intuition Machines. O Cloudflare está muito satisfeito por eles terem conseguido fazer essa transição, pois ajuda a resolver problemas com a coleta de informações confidenciais relevantes no momento em que a empresa contava com os serviços do Google. Além disso, isso contribui para uma configuração mais flexível das tarefas CAPTCHA oferecidas aos visitantes do site. Essa alteração, em princípio, afeta todos os usuários do Cloudflare. Portanto, a empresa decidiu compartilhar detalhes sobre a transição para o reCaptcha e preparou um material, cuja tradução publicamos hoje.

Usando a tecnologia CAPTCHA no Cloudflare



Um dos serviços fornecidos pelo Cloudflare é que os clientes da empresa têm a oportunidade de bloquear o tráfego automático malicioso (tráfego de bot). Utilizamos muitos mecanismos destinados a resolver esse problema. Se tivermos certeza absoluta de que algum tráfego é prejudicial, o bloquearemos completamente. Se tivermos certeza de que algum tráfego é o resultado da atividade humana normal, ignoramos. O mesmo se aplica ao tráfego normal gerado por bots - como os bots de mecanismo de pesquisa. Mas, às vezes, nos casos em que não temos total confiança na natureza do tráfego, sujeitamos esse tráfego a um "teste".

Temos testes diferentes. Alguns deles são totalmente automáticos, mas um desses testes requer intervenção humana. Testes similares são conhecidos como CAPTCHA (em russo, são chamados de "captcha"). Essa abreviação significa Teste de Turing público completamente automatizado para diferenciar computadores e humanos - um teste público de Turing totalmente automatizado para distinguir entre computadores e pessoas. Como você pode ver, algumas letras T na palavra CAPTCHA são omitidas - caso contrário, seria semelhante a CAPTTTCHA. Os testes CAPTCHA geralmente consistem no fato de o usuário ser solicitado a ler o texto distorcido e inseri-lo no campo, ou selecionar no conjunto de imagens as que possuem semáforos ou passagens para pedestres. A essência das tarefas captcha é facilitar a resolução de uma pessoa, mas não de um computador.


O Cloudflare, desde o início da existência da empresa, usou o serviço Google reCAPTCHA. Este serviço apareceu em 2007 como um projeto de pesquisa na Universidade Carnegie Mellon. O Google comprou este projeto em 2009. Na mesma época, o Cloudflare apareceu. O Google deu livre acesso ao reCaptcha em troca do fato de os dados do serviço serem usados ​​para treinar os sistemas de identificação visual da empresa. Quando estávamos procurando uma solução CAPTCHA para Cloudflare, escolhemos o reCATPCHA porque esse serviço era eficiente, escalável e gratuito. O último item desta lista foi importante para nós devido ao fato de tantos clientes do Cloudflare usarem nossos serviços gratuitos.

Sobre privacidade e bloqueios


Desde os primeiros dias de uso do reCAPTCHA no Cloudflare, alguns de nossos clientes expressaram preocupação pelo uso do serviço do Google. Os negócios do Google estão focados em publicidade direcionada. Cloudflare não faz isso. Temos uma política de privacidade rigorosa. Estávamos confortáveis ​​com a política de privacidade associada ao reCAPTCHA, mas entendemos os motivos pelos quais alguns de nossos clientes estão preocupados com o fato de terem que transferir mais dados para o Google do que gostariam.

Além disso, estamos enfrentando problemas em algumas regiões, como na China, onde os serviços do Google são bloqueados periodicamente. Mas apenas a China representa 25% dos usuários da Internet. Como resultado, estávamos sempre preocupados que alguns desses usuários não pudessem trabalhar com sites protegidos pelo Cloudflare, se fossem solicitados a resolver o problema do captcha.

Já havia perguntas suficientes sobre privacidade e bloqueios acumulados ao longo dos anos para nos fazer pensar em mudar o reCAPTCHA para outra coisa. Mas para nós, como a maioria das empresas de TI, é difícil se concentrar em abandonar alguma tecnologia amplamente usada e em mudar para algo novo.

O modelo de negócios em mudança do Google


No início deste ano, o Google nos informou que começariam a cobrar pelo uso do serviço reCaptcha. Este é o seu direito total. O serviço de captura de necessidades do Cloudflare, dado o nosso tamanho, sem dúvida vale muito dinheiro, o que é perceptível até na escala do Google.

E, novamente, cobrar pelo reCAPTCHA é uma decisão absolutamente razoável do Google. Se o benefício da empresa em treinar os sistemas de classificação de imagens for menor que o custo de manutenção do serviço, é evidente que o Google deseja cobrar pelo trabalho com esse serviço. No nosso caso, isso significaria despesas anuais de milhões de dólares, o que seria necessário apenas para permitir que nossos usuários gratuitos continuassem a usar o reCAPTCHA. Isso, juntamente com outros motivos, acabou sendo suficiente para começarmos a procurar uma alternativa ao reCAPTCHA.

O melhor captcha


Analisamos muitos fornecedores de soluções CAPTCHA e pensamos em desenvolver nosso próprio serviço desse tipo. Como resultado, verificou-se que a alternativa mais bem-sucedida ao reCAPTCHA é o hCaptcha . Gostamos muito neste serviço:

  1. Eles não vendem dados pessoais. Eles coletam apenas o mínimo necessário desses dados. A empresa descreve claramente as informações que coleta e como usa e divulga os dados. A empresa cumpre essas regras fornecendo o serviço hCaptcha Cloudflare.
  2. O sistema hCaptcha tem um bom nível de desempenho (em termos de velocidade e em termos de desempenho relacionados à solução de problemas de captcha). Esse nível corresponde às nossas expectativas durante o teste A / B, ou até excede o nível dessas expectativas.
  3. hCaptcha , - , .
  4.   Privacy Pass, -.
  5. , Google .
  6. hCaptcha , , .

O modelo de negócios padrão do hCaptcha é semelhante ao usado no início do serviço reCAPTCHA. Ou seja, a empresa planejava cobrar usuários que precisam de dados de classificação de imagens. E aqueles que usam o hCaptcha no site planejavam pagar uma recompensa. Pareceu-nos atraente, mas, infelizmente, embora essa abordagem possa funcionar bem para a maioria dos clientes comuns do hCaptcha, não era adequada para a nossa escala.

Cooperamos com o serviço hCaptcha em duas direções. Em primeiro lugar, estamos alocando a capacidade de nossa plataforma Workers, que assumirá a maior parte da carga quando nossos clientes usarem o hCaptcha. Graças a isso, reduziremos os custos das máquinas de intuição. Em segundo lugar, sugerimos que a empresa pagasse a ela, em vez do que ela nos pagaria. Isso fornecerá à empresa os recursos necessários para dimensionar seu serviço para que ele atenda às nossas necessidades. Embora isso signifique custos adicionais para nós, esses custos são apenas uma pequena fração do que a reCAPTCHA poderia pagar. Em troca, obtemos uma plataforma CAPTCHA, que é muito mais flexível do que a que usamos anteriormente. Além disso, temos a oportunidade de interagir com a equipe de desenvolvimento,que responde muito rapidamente aos nossos pedidos.

Quando nossos clientes mostram captcha para seus usuários?


Quando começamos a trabalhar neste projeto, assumimos que os principais consumidores do CAPTCHA seriam nossas soluções de Gerenciamento de Bot do Cloudflare e Regras de firewall do Cloudflare. Esta suposição, em certa medida, foi confirmada. Embora as soluções Firewall / Bot tenham se mostrado os principais consumidores do CAPTCHA, sua participação no consumo total desse serviço foi de pouco mais de 50%.

Aqui está um resumo das nossas soluções, nas quais os usuários solicitam uma saída captcha.
Solução CloudflareUsando CAPTCHA
Regras de firewall e gerenciamento de bot54,8%
Firewall IP18,6%
Nível de segurança16,8%
DDoS6,3%
Limitação de taxa1,7%
Regras WAF1,5%
De outros0,3%

As soluções de firewall / bot estão no topo desta lista. Eles representam a maior parte do captcha. Essas soluções aplicam as regras escritas por nossos usuários. Quando as condições especificadas por essas regras são atendidas, o captcha é exibido. Como exemplo, aqui podemos citar uma situação em que o captcha é exibido quando a solicitação é avaliada pelo Cloudflare Bot ManagementAcontece ambíguo. Por um lado, está abaixo de um valor limite predeterminado, o que pode indicar que estamos falando de tráfego automatizado. Mas, por outro lado, está acima de um valor limite, indicando a incerteza da situação. Outro script comum para usar o captcha relacionado à seção Firewall / Bot é mostrar as tarefas do captcha para todas as solicitações para um determinado site ou para um determinado ponto final de um site. Nossos clientes podem fazer isso para limitar o número de conexões com seus servidores ou para retardar o trabalho de sistemas automatizados que classificam credenciais na página de login ou criam contas falsas. Isso leva ao fato de que alguns sites protegidos pelo Cloudflare solicitam a exibição de centenas de milhões de captcha por dia.

O segundo da lista é a nossa solução de firewall IP . Em geral, é semelhante às soluções Firewall / Bot, mas permite analisar o tráfego com mais precisão, trabalhando no endereço IP, ASN ou país. O principal volume de captchas exibido como parte do serviço IP Firewall está relacionado aos níveis de ASN e países. Provavelmente, nossos clientes estão protegidos dessa maneira contra o tráfego associado a um determinado ASN (por exemplo, o tráfego de um provedor de nuvem pode ser gerado por usuários comuns?) Ou estão protegidos contra ataques realizados em alguns países.

Em seguida, vem o serviço Níveis de segurança . Este serviço é usado de duas maneiras diferentes:

  1. Pode desempenhar o papel de uma ferramenta para avaliar a reputação de um endereço IP.
  2. Ela pode trabalhar no modo Estou sob ataque.

Embora seja recomendável que os clientes usem o modo Estou sob ataque apenas quando estão sob um ataque DDoS ativo, alguns de nossos clientes mantêm o sistema nesse modo o tempo todo, usando-o como um mecanismo primitivo para limitar a velocidade das solicitações ao site e filtrar tráfego.

A última área principal de uso do captcha pertence a um de nossos sistemas automatizados. Por exemplo, recentemente nossos engenheiros de proteção contra ataques DoS ensinaram ao Gatebot como usar o captcha para corrigir pequenos problemas em algumas situações específicas. Agora, o Gatebot pode escrever regras temporárias, cuja aplicação leva à exibição de captcha de ataque.

Por fim, alguns de nossos clientes personalizam a exibição captcha criando conjuntos de regras de Limitação de taxa e WAF gerenciado.

Também estávamos interessados ​​na questão dos tipos de clientes que usam o captcha. Durante a semana, nossos clientes que usavam os serviços gratuitamente solicitavam de 40 a 60% de todos os captcha exibidos pelo Cloudflare. Este indicador foi obtido levando em consideração o impacto na exibição de ataques captcha nos sites. Entre os dois grupos de nossos clientes pagos - corporativos e aqueles que pagam pelos serviços mediante a prestação deles, o volume restante de uso do captcha é dividido aproximadamente igualmente. Em geral, descobrimos que o Cloudflare a cada segundo mostra vários milhões de captcha durante um ataque a um ou mais de nossos clientes.

Sobre os problemas da transição para uma nova tecnologia


Quando mudamos alguma parte do sistema Cloudflare, isso facilita a vida de alguns de nossos clientes, mas outros têm problemas. Nós e a equipe de desenvolvimento do hCaptcha estamos prontos para resolver quaisquer dificuldades que surjam. Se você ou seus usuários tiverem dificuldades ao usar o hCaptcha - solicitamos que você escreva sobre isso no fórum ou abra um ticket de suporte , enquanto fornece uma descrição detalhada do que aconteceu quanto possível.

Se possível, inclua na mensagem Ray ID - o identificador que geralmente aparece na parte inferior da página CAPTCHA. Isso nos ajudará a descobrir o que deu errado.


ID do raio

Sumário


A experiência nos diz que o captcha visual (e sonoro) está longe de ser uma solução ideal para muitos problemas complexos. O Cloudflare continua trabalhando para minimizar o número de captchas mostrados aos usuários e, no final, abandonar completamente essa tecnologia. Planejamos escrever mais sobre isso. E, a propósito, você sabe como é chamado nosso bate-papo interno no qual a equipe envolvida na implementação do hCaptcha se comunica? Você pode pensar que esse bate-papo se chama Novo CAPTCHA. Mas na verdade não é. É chamado (não) CAPTCHA.

Queridos leitores! Você já encontrou o hCaptcha?


All Articles