怎么用python爬數據 python如何讀取網頁中的數據?
python如何讀取網頁中的數據?用Beautiful Soup這類解析模塊: Beautiful Soup 是用Python寫的一個HTML/XML的解析器,它可以很好的處理不規(guī)范標記并生成剖析樹(
python如何讀取網頁中的數據?
用Beautiful Soup這類解析模塊: Beautiful Soup 是用Python寫的一個HTML/XML的解析器,它可以很好的處理不規(guī)范標記并生成剖析樹(parse tree); 它提供簡單又常用的導航(navigating),搜索以及修改剖析樹的操作; 用urllib或者urllib2(推薦)將頁面的html代碼下載后,用beautifulsoup解析該html; 然后用beautifulsoup的查找模塊或者正則匹配將你想獲得的內容找出來,就可以進行相關處理了,例如: from BeautifulSoup import BeautifulSoup html = "
test body
" soup = BeautifulSoup(html) soup.contents[0].name
# u"html" soup.comtents[0].contents[0].name
# u"head" head = soup.comtents[0].contents[0]head.parent.name
# u"html"head.next
# u"<title>test</title>