Instalando e utilizando o Web Crawler OpenWebSpider

Este artigo ensina como instalar, configurar e utilizar o OpenWebSpider, um programa que tem por finalidade visitar sites, ler suas páginas e criar um índice de entradas para uma engine de busca.

[ Hits: 11.581 ]

Por: andre uebe em 30/09/2015


O que é o OpenWebSpider



O OpenWebSpider, um programa que tem por finalidade visitar sites, ler suas páginas e criar um índice de entradas para uma engine de busca.

Estes programas são chamados spiders (aranhas), pois visitam vários sites em paralelo, a partir de uma URL e vão expandindo a leitura através das sub-páginas e hiperlinks presentes na URL, criando um banco de dados que permite posterior busca de expressões existentes nos sites visitados.

É possível, por exemplo, indexando-se o site do VOL por meio do OpenWebSpider, saber quantas vezes e em quais locais o termo Computação em Nuvem aparece. Uma opção rudimentar a este mecanismo seria buscar manualmente, página a página, a expressão pesquisada.

Este mecanismo é muito interessante para, por exemplo, caçar trechos de plágio em trabalhos acadêmicos disponíveis na web.

Para saber mais sobre o assunto, acesse:

Instalações

Nota: os comandos utilizados para instalação de pacotes referem-se a distribuições Debian (DEB). Caso sua distribuição seja outra, busque os comandos equivalentes.

a. Instalações prévias

O OpenWebSpider requer a instalação prévia de alguns programas a qual veremos a seguir:

a.1. Java

O Java deve estar instalado. Verifique se o seu sistema Linux tem o Java instalado, digitando na linha de comando:

java -version

O resultado deve ser algo do tipo:

Java version "1.7.0_79"
OpenJDK Runtime Environment (IcedTea 2.5.6) (7u79-2.5.6-0ubuntu1.14.04.1)
OpenJDK 64-Bit Server VM (build 24.79-b02, mixed mode)


Em caso negativo, instale o Java. Para isto localize a última versão via linha de comando:

sudo apt-cache search java

No final da listagem, virá a opção das últimas versões Java:

openjdk-7-jre - OpenJDK Java runtime, using Hotspot JIT
openjdk-7-jre-headless - OpenJDK Java runtime, using Hotspot JIT (headless)
openjdk-6-jre - OpenJDK Java runtime, using Hotspot JIT
openjdk-6-jre-headless - OpenJDK Java runtime, using Hotspot JIT (headless)


Instalei a última disponível com o comando:

sudo apt-get install openjdk-7-jre

a.2. Node.js

O Node.js atua junto ao servidor, interpretando o código JavaScript de maneira a manipular dezenas de milhares de conexões simultâneas, numa única máquina física.

Para instalar, digite na linha de comando:

sudo apt-get install node.js

Para saber mais acesse:
a.3. MySQL Server

O OpenWebSpider possibilita a utilização de dois gerenciadores de banco de dados (DB): MySQL Server ou MongoDB. Para este artigo utilizaremos o primeiro.

Portanto, para instalar, digite na linha de comando:

sudo apt-get install mysql-server

Após finalizada a instalação, será pedida, automaticamente, uma senha de administrador no momento da configuração.

b. OpenWebSpider

Agora é a hora de instalar efetivamente o OpenWebSpider.

Na minha distribuição Linux o mesmo não estava disponível na lista de pacotes do repositório. Logo, fez-se necessário baixá-lo e instalá-lo manualmente.

Para fazer download da última versão do OpenWebSpider, acesse:
Após o download, descompacte o arquivo ZIP e, via linha de comando, localize o arquivo server.js na pasta openwebspider/src.

Em seguida, execute o comando:

nodejs server.js

Algo como mostrado na figura abaixo deverá aparecer:
Linux: Instalando e utilizando o Web Crawler OpenWebSpider
Uma vez executado o comando acima, abra seu navegador de internet e acesse a URL do servidor local:

http://127.0.0.1:9999/

Na janela do navegador deverá aparecer a tela como mostrada a seguir:
Linux: Instalando e utilizando o Web Crawler OpenWebSpider
Em seguida, faz-se necessário verificar se OpenWebSpider conecta-se corretamente ao servidor.

Para isto, na aba Database digite a senha do MySQL e clique em "Verify" para obter a resposta, "Connection: OK", conforme a figura a seguir:
Linux: Instalando e utilizando o Web Crawler OpenWebSpider
Agora, faz-se necessário criar a tabela a ser utilizada para pelo servidor. Para isto, clique no botão "Create DB", conforme mostra a figura a seguir:
Linux: Instalando e utilizando o Web Crawler OpenWebSpider
Em seguida, salve as configurações clicando no botão "Save".

Pronto! Instalação e configuração finalizada. Agora, vamos à utilização!

    Próxima página

Páginas do artigo
   1. O que é o OpenWebSpider
   2. Utilização
Outros artigos deste autor

Escrevendo em arquivos PDF

Facilitando o acesso a disquetes e memory keys (PenDrives) no Kurumin

Como submeter dados de CDDB de um CD de áudio ao Freedb

Configurando placa 3D nVidia 6200 com TV-out no Kurumin 7

Executando (entre outras funcionalidades) qualquer vídeo no Mozilla a partir do add-on Media Player Connectivity

Leitura recomendada

Software envelhece?

Visualizando Área de Trabalho Remota

KoverArtist: Criando capas de CDs e DVDs

Instalando o CACIC no Debian Linux

Mais CLI!

  
Comentários

Nenhum comentário foi encontrado.


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts