2011年4月15日金曜日

Nokogiriでの の扱い

 というのは半角スペースのことだとずっと思っていたので、ハマってしまいました。
NokogiriではC2A0(\302\240)になるようです。
# UTF-8限定?どちらにせよ、NokogiriではSJISをうまくパースできません。

require 'rubygems'
require 'nokogiri'

nbsp = Nokogiri::HTML(' ').text
puts nbsp == " "
# => false
puts nbsp == "\302\240"
# => true