2008年1月20日日曜日

【Python】 BeautifulSoupでHTML解析

PythonでHTMLを解析するにはBeautifulSoupが便利だ。前回紹介したhttpgetを用いて使い方を紹介する。BeautifulSoup.pyをダウンロード後、[python]/Lib/site-packagesにコピーする。
>>> from BeautifulSoup import BeautifulSoup
>>> from httpget import *
>>> doc = unicode(httpget('http://www.amazon.co.jp/'), 'cp932', 'ignore')
>>> soup = BeautifulSoup(doc)

で準備完了。

<a>を見つけるには
>>> a_tags = soup.findAll(name='a')
>>> print a_tags[0].contetns


<a>でかつid=abcを見つけるには
>>> a_tags = soup.findAll(name='a', attrs={'id':'abc'})
>>> print a_tags[0].contetns

ラベル:

0 件のコメント:

コメントを投稿

登録 コメントの投稿 [Atom]

この投稿へのリンク:

リンクを作成

<< ホーム