O download do conteúdo de um site pode causar uma grande variedade de problemas para os proprietários de sites.
- Afunde o servidor usando todos os recursos disponíveis para alimentar suas solicitações de script.
- Cometa um erro e faça solicitações que possam parecer um ataque.
- Fique preso no que é chamado de
robot trap
e continue baixando a mesma página porque o URL muda constantemente. - Você pode ignorar o arquivo
robotos.txt
e acessar partes do site. Os proprietários também não o querem.
É uma prática recomendada usar uma ferramenta adequada de rastreamento da web. Usar a ferramenta certa para o trabalho garantirá que você respeite o desempenho, a segurança e o uso do servidor da web. Esses scripts simples de Python / PHP para sites de scraping não fazem nada além de prejudicar os servidores que eles emboscam com milhares de solicitações da Web de maneira descontrolada.
Você deve usar um rastreador da web como o Heritrix para fazer o download do site em um arquivo morto. Uma vez criado o arquivo, você pode processá-lo usando Python / PHP o quanto quiser. Como ele está armazenado localmente em seu disco rígido, não há mal em quantas vezes você o lê.
As questões éticas e legais do uso de conteúdo de outro site são uma questão completamente diferente. Eu não vou nem ir lá, porque isso é entre você e o dono do site. O que eu não quero ver são pessoas martelando sites desnecessariamente enquanto tentam baixar o conteúdo. Seja respeitoso e rastreie a Web com as mesmas regras que empresas como Google, Bing e Yahoo seguem.