Nesta palestra, o Heitor, do NIC.BR, mostrou como funcionam os buscadores, e focou na apresentação das principais características de alguns webcrawlers livres: wire, wget, heritrix e nutch.
- O wire é um web crawler desenvolvido no Chile (http://cwr.cl), é bastante antigo e foi modificado pelo pessoal do NIC.BR para corrigir algumas de suas deficiências, criando o fork wire-nic, hospedado no sourceforge.net;
- O wget é talvez o mais conhecido, e mais simples de usar, e ainda assim possui inúmeras opções muito úteis, com destaque para a substituição de links, que permite navegar localmente no site baixado;
- O heritrix é o crawler usado pelo The Internet Archive, e possui recursos importantes no que se refere à análise de dados;
- O nutch é desenvolvido pela Apache e também oferece recursos de análise de sites.
Pelo que pude avaliar, Heritrix e Nutch são as melhores opções, mais robustos e com recursos de análise de sites, enquanto o wget é mais simples de usar, porém mais limitado.
Siga-nos no Twitter!
Curta nossa página no facebook!
Receba os textos via e-mail ou RSS!
Confira outros textos sobre o tema!
Nenhum comentário:
Postar um comentário