【Python】 BeautifulSoupでHTML解析
PythonでHTMLを解析するにはBeautifulSoupが便利だ。前回紹介したhttpgetを用いて使い方を紹介する。BeautifulSoup.pyをダウンロード後、[python]/Lib/site-packagesにコピーする。
>>> from BeautifulSoup import BeautifulSoup
>>> from httpget import *
>>> doc = unicode(httpget('http://www.amazon.co.jp/'), 'cp932', 'ignore')
>>> soup = BeautifulSoup(doc)
で準備完了。
<a>を見つけるには
>>> a_tags = soup.findAll(name='a')
>>> print a_tags[0].contetns
<a>でかつid=abcを見つけるには
>>> a_tags = soup.findAll(name='a', attrs={'id':'abc'})
>>> print a_tags[0].contetns
ラベル: python

0 件のコメント:
コメントを投稿
登録 コメントの投稿 [Atom]
この投稿へのリンク:
リンクを作成
<< ホーム