Qual é o caminho a percorrer para extrair dados de sites? [fechadas]

5

Eu estive pensando em um projeto paralelo que envolve a coleta de dados da Web.

Ok, eu leio o Obter dados de uma página da Web de uma maneira estável e eficiente questiona e a discussão me deu algumas ideias.

Na discussão, Joachim Sauer afirmou que você pode entrar em contato com os proprietários dos sites e arquiteto de alguma forma para fornecer os dados que eu quero. O problema que vejo é que os sites geralmente são mal criados e, aparentemente, raramente têm alterações no HTML (não acho que eles vão me ajudar), mas os dados são relevantes. Eu sofri muito usando esses sites, então gostaria de agregá-los e mostrá-los de uma maneira melhor.

Então, usar scraping, especificamente Scrapy (para python), é uma abordagem problemática? Eu li que parse.ly usa scraping (Python e Scrapy), mas em outro contexto.

Dado o meu contexto, existe uma abordagem melhor do que usar scraping? Se vai com scraping, como lidar com as mudanças na estrutura do site?

    
por salaniojr 23.05.2013 / 14:21
fonte

2 respostas

2

O download do conteúdo de um site pode causar uma grande variedade de problemas para os proprietários de sites.

  • Afunde o servidor usando todos os recursos disponíveis para alimentar suas solicitações de script.
  • Cometa um erro e faça solicitações que possam parecer um ataque.
  • Fique preso no que é chamado de robot trap e continue baixando a mesma página porque o URL muda constantemente.
  • Você pode ignorar o arquivo robotos.txt e acessar partes do site. Os proprietários também não o querem.

É uma prática recomendada usar uma ferramenta adequada de rastreamento da web. Usar a ferramenta certa para o trabalho garantirá que você respeite o desempenho, a segurança e o uso do servidor da web. Esses scripts simples de Python / PHP para sites de scraping não fazem nada além de prejudicar os servidores que eles emboscam com milhares de solicitações da Web de maneira descontrolada.

Você deve usar um rastreador da web como o Heritrix para fazer o download do site em um arquivo morto. Uma vez criado o arquivo, você pode processá-lo usando Python / PHP o quanto quiser. Como ele está armazenado localmente em seu disco rígido, não há mal em quantas vezes você o lê.

As questões éticas e legais do uso de conteúdo de outro site são uma questão completamente diferente. Eu não vou nem ir lá, porque isso é entre você e o dono do site. O que eu não quero ver são pessoas martelando sites desnecessariamente enquanto tentam baixar o conteúdo. Seja respeitoso e rastreie a Web com as mesmas regras que empresas como Google, Bing e Yahoo seguem.

    
por 23.05.2013 / 15:59
fonte
-2

Raspagem é mais como roubar. Está usando um conteúdo sem permissão. Caso contrário, seria uma API que fornece os dados que você procura. Então, se você sabe abrir a fechadura de uma porta, pode abri-la. Mas se ele mudar a fechadura da porta com outra marca, então você tem que descobrir como lidar com isso.

    
por 23.05.2013 / 15:01
fonte