寝て起きて寝て

プログラミングが出来ない情報系のブログ

rubyでWeb scraping

はてな始めた
白基調の見にくさやばいから黒で

rubyの勉強で書いてる奴のメモ

tableのものを抜き出してarraylistにぶっこむ

tableの抜き出しにくさやばい

require 'open-uri'
require 'nokogiri'
require 'date'


class Main
ary = Array.new
url = '目的のurl'
charset =nil
html = open(url) do |f|
charset = f.charset # 文字種別を取得
f.read # htmlを読み込んで変数htmlに渡す
end

# htmlをパース(解析)してオブジェクトを作成
doc = Nokogiri::HTML.parse(html, nil, charset)
doc.xpath("//th[@data-col='1' or @data-col='0']|//tr/td[@data-col='1']").each do |td|
ary << td.inner_text
end
puts ary

end

絶対忘れる

参考サイト
酒と泪とRubyとRailsと

翻訳版助かる
http://www.engineyard.co.jp/blog/2012/getting-started-with-nokogiri/
http://www.engineyard.co.jp/blog/2012/getting-started-with-nokogiri/