Instalando e utilizando o Web Crawler OpenWebSpider

Este artigo ensina como instalar, configurar e utilizar o OpenWebSpider, um programa que tem por finalidade visitar sites, ler suas páginas e criar um índice de entradas para uma engine de busca.

[ Hits: 11.508 ]

Por: andre uebe em 30/09/2015


O que é o OpenWebSpider



O OpenWebSpider, um programa que tem por finalidade visitar sites, ler suas páginas e criar um índice de entradas para uma engine de busca.

Estes programas são chamados spiders (aranhas), pois visitam vários sites em paralelo, a partir de uma URL e vão expandindo a leitura através das sub-páginas e hiperlinks presentes na URL, criando um banco de dados que permite posterior busca de expressões existentes nos sites visitados.

É possível, por exemplo, indexando-se o site do VOL por meio do OpenWebSpider, saber quantas vezes e em quais locais o termo Computação em Nuvem aparece. Uma opção rudimentar a este mecanismo seria buscar manualmente, página a página, a expressão pesquisada.

Este mecanismo é muito interessante para, por exemplo, caçar trechos de plágio em trabalhos acadêmicos disponíveis na web.

Para saber mais sobre o assunto, acesse:

Instalações

Nota: os comandos utilizados para instalação de pacotes referem-se a distribuições Debian (DEB). Caso sua distribuição seja outra, busque os comandos equivalentes.

a. Instalações prévias

O OpenWebSpider requer a instalação prévia de alguns programas a qual veremos a seguir:

a.1. Java

O Java deve estar instalado. Verifique se o seu sistema Linux tem o Java instalado, digitando na linha de comando:

java -version

O resultado deve ser algo do tipo:

Java version "1.7.0_79"
OpenJDK Runtime Environment (IcedTea 2.5.6) (7u79-2.5.6-0ubuntu1.14.04.1)
OpenJDK 64-Bit Server VM (build 24.79-b02, mixed mode)


Em caso negativo, instale o Java. Para isto localize a última versão via linha de comando:

sudo apt-cache search java

No final da listagem, virá a opção das últimas versões Java:

openjdk-7-jre - OpenJDK Java runtime, using Hotspot JIT
openjdk-7-jre-headless - OpenJDK Java runtime, using Hotspot JIT (headless)
openjdk-6-jre - OpenJDK Java runtime, using Hotspot JIT
openjdk-6-jre-headless - OpenJDK Java runtime, using Hotspot JIT (headless)


Instalei a última disponível com o comando:

sudo apt-get install openjdk-7-jre

a.2. Node.js

O Node.js atua junto ao servidor, interpretando o código JavaScript de maneira a manipular dezenas de milhares de conexões simultâneas, numa única máquina física.

Para instalar, digite na linha de comando:

sudo apt-get install node.js

Para saber mais acesse:
a.3. MySQL Server

O OpenWebSpider possibilita a utilização de dois gerenciadores de banco de dados (DB): MySQL Server ou MongoDB. Para este artigo utilizaremos o primeiro.

Portanto, para instalar, digite na linha de comando:

sudo apt-get install mysql-server

Após finalizada a instalação, será pedida, automaticamente, uma senha de administrador no momento da configuração.

b. OpenWebSpider

Agora é a hora de instalar efetivamente o OpenWebSpider.

Na minha distribuição Linux o mesmo não estava disponível na lista de pacotes do repositório. Logo, fez-se necessário baixá-lo e instalá-lo manualmente.

Para fazer download da última versão do OpenWebSpider, acesse:
Após o download, descompacte o arquivo ZIP e, via linha de comando, localize o arquivo server.js na pasta openwebspider/src.

Em seguida, execute o comando:

nodejs server.js

Algo como mostrado na figura abaixo deverá aparecer:
Linux: Instalando e utilizando o Web Crawler OpenWebSpider
Uma vez executado o comando acima, abra seu navegador de internet e acesse a URL do servidor local:

http://127.0.0.1:9999/

Na janela do navegador deverá aparecer a tela como mostrada a seguir:
Linux: Instalando e utilizando o Web Crawler OpenWebSpider
Em seguida, faz-se necessário verificar se OpenWebSpider conecta-se corretamente ao servidor.

Para isto, na aba Database digite a senha do MySQL e clique em "Verify" para obter a resposta, "Connection: OK", conforme a figura a seguir:
Linux: Instalando e utilizando o Web Crawler OpenWebSpider
Agora, faz-se necessário criar a tabela a ser utilizada para pelo servidor. Para isto, clique no botão "Create DB", conforme mostra a figura a seguir:
Linux: Instalando e utilizando o Web Crawler OpenWebSpider
Em seguida, salve as configurações clicando no botão "Save".

Pronto! Instalação e configuração finalizada. Agora, vamos à utilização!

    Próxima página

Páginas do artigo
   1. O que é o OpenWebSpider
   2. Utilização
Outros artigos deste autor

Instalando a impressora HP D1460 (série D1400) no Linux

Como instalar driver da placa wireless no notebook Asus Eeepc com Ubuntu / KUbuntu

Declaração de IRPF 2006 pelo Linux

Executando (entre outras funcionalidades) qualquer vídeo no Mozilla a partir do add-on Media Player Connectivity

Extraindo na "marra" textos de um PDF bloqueado

Leitura recomendada

Criando um servidor de impressão para residências e pequenas empresas com Linux

tzwatch - Navegando pelo horário mundial no Debian

Automatix - Turbine seu Ubuntu com pacotes adicionais

Bind consultando zonas em base LDAP

DD-WRT no D-Link Dir-300 Rev A

  
Comentários

Nenhum comentário foi encontrado.


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts