O
OpenWebSpider, um programa que tem por finalidade visitar sites, ler suas páginas e criar um índice de entradas para uma engine de busca.
Estes programas são chamados spiders (aranhas), pois visitam vários sites em paralelo, a partir de uma URL e vão expandindo a leitura através das sub-páginas e hiperlinks presentes na URL, criando um banco de dados que permite posterior busca de expressões existentes nos sites visitados.
É possível, por exemplo, indexando-se o site do VOL por meio do OpenWebSpider, saber quantas vezes e em quais locais o termo Computação em Nuvem aparece. Uma opção rudimentar a este mecanismo seria buscar manualmente, página a página, a expressão pesquisada.
Este mecanismo é muito interessante para, por exemplo, caçar trechos de plágio em trabalhos acadêmicos disponíveis na web.
Para saber mais sobre o assunto, acesse:
Instalações
Nota: os comandos utilizados para instalação de pacotes referem-se a distribuições
Debian (DEB). Caso sua distribuição seja outra, busque os comandos equivalentes.
a. Instalações prévias
O OpenWebSpider requer a instalação prévia de alguns programas a qual veremos a seguir:
a.1. Java
O
Java deve estar instalado. Verifique se o seu sistema
Linux tem o Java instalado, digitando na linha de comando:
java -version
O resultado deve ser algo do tipo:
Java version "1.7.0_79"
OpenJDK Runtime Environment (IcedTea 2.5.6) (7u79-2.5.6-0ubuntu1.14.04.1)
OpenJDK 64-Bit Server VM (build 24.79-b02, mixed mode)
Em caso negativo, instale o Java. Para isto localize a última versão via linha de comando:
sudo apt-cache search java
No final da listagem, virá a opção das últimas versões Java:
openjdk-7-jre - OpenJDK Java runtime, using Hotspot JIT
openjdk-7-jre-headless - OpenJDK Java runtime, using Hotspot JIT (headless)
openjdk-6-jre - OpenJDK Java runtime, using Hotspot JIT
openjdk-6-jre-headless - OpenJDK Java runtime, using Hotspot JIT (headless)
Instalei a última disponível com o comando:
sudo apt-get install openjdk-7-jre
a.2. Node.js
O
Node.js atua junto ao servidor, interpretando o código JavaScript de maneira a manipular dezenas de milhares de conexões simultâneas, numa única máquina física.
Para instalar, digite na linha de comando:
sudo apt-get install node.js
Para saber mais acesse:
a.3. MySQL Server
O OpenWebSpider possibilita a utilização de dois gerenciadores de banco de dados (DB):
MySQL Server ou
MongoDB. Para este artigo utilizaremos o primeiro.
Portanto, para instalar, digite na linha de comando:
sudo apt-get install mysql-server
Após finalizada a instalação, será pedida, automaticamente, uma senha de administrador no momento da configuração.
b. OpenWebSpider
Agora é a hora de instalar efetivamente o OpenWebSpider.
Na minha distribuição Linux o mesmo não estava disponível na lista de pacotes do repositório. Logo, fez-se necessário baixá-lo e instalá-lo manualmente.
Para fazer download da última versão do OpenWebSpider, acesse:
Após o download, descompacte o arquivo ZIP e, via linha de comando, localize o arquivo server.js na pasta openwebspider/src.
Em seguida, execute o comando:
nodejs server.js
Algo como mostrado na figura abaixo deverá aparecer:
Uma vez executado o comando acima, abra seu navegador de internet e acesse a URL do servidor local:
http://127.0.0.1:9999/
Na janela do navegador deverá aparecer a tela como mostrada a seguir:
Em seguida, faz-se necessário verificar se OpenWebSpider conecta-se corretamente ao servidor.
Para isto, na aba Database digite a senha do MySQL e clique em "Verify" para obter a resposta, "Connection: OK", conforme a figura a seguir:
Agora, faz-se necessário criar a tabela a ser utilizada para pelo servidor. Para isto, clique no botão "Create DB", conforme mostra a figura a seguir:
Em seguida, salve as configurações clicando no botão "Save".
Pronto! Instalação e configuração finalizada. Agora, vamos à utilização!