quarta-feira, 25 de julho de 2012

#FISL 13: Web Crawlers de código aberto

Nesta palestra, o Heitor, do NIC.BR, mostrou como funcionam os buscadores, e focou na apresentação das principais características de alguns webcrawlers livres: wire, wget, heritrix e nutch.

  • O wire é um web crawler desenvolvido no Chile (http://cwr.cl), é bastante antigo e foi modificado pelo pessoal do NIC.BR para corrigir algumas de suas deficiências, criando o fork wire-nic, hospedado no sourceforge.net;
  • O wget é talvez o mais conhecido, e mais simples de usar, e ainda assim possui inúmeras opções muito úteis, com destaque para a substituição de links, que permite navegar localmente no site baixado;
  • O heritrix é o crawler usado pelo The Internet Archive, e possui recursos importantes no que se refere à análise de dados;
  • O nutch é desenvolvido pela Apache e também oferece recursos de análise de sites.

Pelo que pude avaliar, Heritrix e Nutch são as melhores opções, mais robustos e com recursos de análise de sites, enquanto o wget é mais simples de usar, porém mais limitado.

Siga-nos no Twitter!
Curta nossa página no facebook!
Receba os textos via e-mail ou RSS!
Confira outros textos sobre o tema!

Nenhum comentário:

Postar um comentário