Web Crawler em Ruby com Open-URI e Nokogiri
Publicado por Daniel Vinciguerra (última atualização em 06/07/2016)
[ Hits: 4.834 ]
Homepage: http://bivee.com.br
Você já precisou acessar algum site na web para obter alguma informação usando Ruby?
Esse tipo de cenário é bem comum e não é difícil que tenhamos esse tipo de necessidade em um projeto, seja para servir a informação em questão ou para utiliza-la no desenvolvimento do projeto.
Para esse tipo de necessidade este script vai apresentar dois módulos Ruby, o primeiro é o "open-uri" que serve para acessar o conteúdo publicado na web (html, js, css, etc...), e o segundo é o "nokogiri" que nos permite acessar os elementos do html/xml, usando com seletores baseados em XPath ou CSS.
PRÉ-REQUISITOS
- ruby
- Módulo open-uri e nokoguiri instalado
REFERÊNCIAS
http://ruby-doc.org/stdlib-2.2.0/libdoc/open-uri/rdoc/OpenURI.html
https://rubygems.org/gems/nokogiri
EXECUTANDO
$ ruby web-crawler.rb
#!/usr/bin/env ruby # 2016 (c) Daniel Vinciguerra # importa os modulos require 'open-uri' require 'nokogiri' # obtém o html da pagina html = open 'https://www.vivaolinux.com.br' puts "LISTA DOS ULTIMOS SCRIPTS" puts '=' * 60 # efetua o parse do html doc = Nokogiri::HTML(html) id = 1 # seleciona os elementos usando css selector doc.css('div#scripts > .media').each do |d| # imprime as informações encontradas puts "\n#{id} - " + d.at_css('h3').content puts "Escrito por: " + d.at_css('em').content id += 1 end
Obtendo o IP público (Internet) usando o Ruby
Módulo DBI para acesso a dados no Ruby
Postmon - Consumindo uma API com Ruby
Como transformar um áudio em vídeo com efeito de forma de onda (wave form)
Como aprovar Pull Requests em seu repositório Github via linha de comando
Como gerar um podcast a partir de um livro em PDF
Organizando seus PDF com o Zotero
Erro no realm join [Resolvido]
Um programa para baixar vídeos: Parabolic
Como Definir o Painel Principal em Múltiplos Monitores no Linux Mint
Sempre que vou baixar algum pacote acontece o erro dpkg (7)
como instalo panfrost-dri e o driver panfrost fork , ou panfrost (12)