Eu gosto de solicitações por sessão por segundo, sessões por IP e solicito ritmo ao longo do tempo.
O primeiro - pedido por sessão por segundo - será quase invariavelmente diferente entre humanos e bots.
A segunda - sessões por IP - pode aparecer para ser fácil de fazer, mas você provavelmente não será capaz de dizer a diferença entre um grande número de usuários por trás de um NAT / firewall - e - um bot multithreaded. É provavelmente um bom "indicador adicional", no entanto.
O terceiro - solicitar ritmo ao longo do tempo - requer um pouco de explicação. Os robôs tendem a ter seu próprio ritmo de análise, o processamento de "atraso" e o tempo de retorno entre as solicitações de página. Dependendo do que eles estão fazendo, um bot pode recuperar e analisar dezenas de kilobytes de conteúdo de páginas da Web sem hesitar, e voltar e fazer outra solicitação. No entanto, isso não difere do que um ser humano pode fazer quando, por exemplo, vê imediatamente um link que deseja e clica nele antes que o restante da página seja carregado.
No entanto, um ser humano, mesmo um que acessa seu site com frequência, provavelmente só se lembrará de como navegar rapidamente nos primeiros níveis de seu site usando esse método. Depois de alguns níveis, o ser humano provavelmente "desacelerará" e lerá mais conteúdo / levará mais tempo para processar o que solicitou. Um bot, por outro lado, continuará no ritmo original durante toda a interação com o site.
Com base nisso, eu diria que qualquer sessão que processe rapidamente (mais do que humanamente possível?) o conteúdo recuperado deve inicialmente ser categorizado como um bot, mas não cortado. Se, depois de dois, talvez três níveis de navegação em seu site, a sessão ainda continuar fazendo solicitações "mais rápidas que o humano", definitivamente, chamá-lo de bot e cortá-lo.
Se um ser humano puder realmente alcançar uma interação tão alta e sustentada com seu site, você provavelmente precisará reformular seu site mesmo assim (lol) e fornecer atalhos para o usuário em partes profundas do site ou "achatar" seu site completamente.