- くだすれPython(超初心者用) その22
230 :デフォルトの名無しさん[sage]:2014/03/22(土) 11:26:34.24 ID:5oW3ItWU - ヤフーのトップから以下の要素を取得したいんですが、htmlの要素に日本語がある場合どうやって取得できますか?
以下のソースだとNoneになります。。 <em><span title="動画" class="iconVideo">動画</span>Vimeo</em> import urllib from BeautifulSoup import BeautifulSoup source = urllib.urlopen('http://yahoo.co.jp/').read() soup = BeautifulSoup(source) print soup.find("span",{"title":u"動画"})
|
- くだすれPython(超初心者用) その22
234 :デフォルトの名無しさん[sage]:2014/03/22(土) 12:19:16.08 ID:5oW3ItWU - soup = soup.decode('utf-8', 'replace')
soup = BeautifulSoup(source, fromEncoding='utf-8') 色々試したんですけどうまくいかないので削ってました。 >>233 要素は間違いなくありました。 日本語要素でなければ取得できましたので、エンコードの関係だと思います。
|
- くだすれPython(超初心者用) その22
238 :デフォルトの名無しさん[sage]:2014/03/22(土) 13:03:57.87 ID:5oW3ItWU - >>236
本当ですね。 保存したら古い感じのYAHOOが表示されました。 UA指定してないからとかじゃなくてjavascriptですか・・ >>237 Selenium調べてみます!ありがとうございます。
|