Além de obedecer ao robots.txt, obedeça os elementos e links nofollow
e noindex
in <meta>
:
-
Existem muitos que acreditam que o robots.txt é o caminho certo para indexação de blocos e, por causa disso, instruímos muitos proprietários de sites a confiar na tag
<meta name="robots" content="noindex">
para informar aos rastreadores da Web que não indexem uma página. -
Se você estiver tentando fazer um gráfico das conexões entre os sites (qualquer coisa semelhante ao PageRank),
(e
<meta name="robots" content="nofollow">
) deve indicar que o site de origem não confia no site de destino o suficiente para dar um endosso apropriado. Então, enquanto você pode indexar o site de destino, você não deve armazenar a relação entre os dois sites.
O SEO é mais uma arte do que uma ciência real, e é praticado por muitas pessoas que sabem o que estão fazendo, e muitas pessoas que lêem os resumos executivos de pessoas que sabem o que estão fazendo. Você terá problemas com sites bloqueados para fazer coisas que outros sites acharam perfeitamente aceitáveis devido a alguma regra que alguém ouviu ou leu em uma postagem de blog no SEOmoz que pode ou não ser interpretada corretamente.
Por causa desse elemento humano, a menos que você seja Google, Microsoft ou Yahoo !, você é considerado malicioso, a menos que se prove o contrário. Você precisa ter cuidado extra para agir como se não fosse uma ameaça para o proprietário de um site, e agir de acordo com a forma como você gostaria que um rastreador potencialmente mal-intencionado (mas esperançosamente benigno) agisse:
- pare de rastrear um site depois que você detectar que está sendo bloqueado: 403 / 401s em páginas que você conhece como trabalho, limitação, tempo limite etc.
- evite rastreamentos detalhados em períodos de tempo relativamente curtos: rastreie uma parte do site e volte mais tarde (alguns dias depois) para rastrear outra parte. Não faça solicitações paralelas.
- evite rastrear áreas potencialmente sensíveis: URLs com
/admin/
, por exemplo.
Mesmo assim, será uma batalha de subida, a menos que você recorra a técnicas de black hat como spoofing de UA ou mascare seus padrões de rastreamento propositadamente: muitos proprietários de sites, pelas mesmas razões acima, bloquearão um rastreador desconhecido à vista em vez de correr o risco de alguém não tentar "hackear o site". Prepare-se para muito fracasso.
Uma coisa que você pode fazer para combater a imagem negativa que um rastreador desconhecido terá é deixar claro na sua string user-agent quem você é:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
Onde http://example.com/aarobot.html
explica o que você está tentando realizar e por que você não é uma ameaça. Essa página deve ter algumas coisas:
- Informações sobre como entrar em contato diretamente com você
- Informações sobre o que o rastreador coleta e por que ele está sendo coletado
- Informações sobre como recusar e ter dados coletados excluídos
Esse último é a chave: um bom opt-out é como uma garantia de devolução do dinheiro e ganha uma quantidade razoável de boa vontade. Deve ser humano: um passo simples (um endereço de e-mail ou, idealmente, um formulário) e abrangente (não deve haver nenhuma "gotcha": opt-out significa que você pára de rastrear sem exceção).