python函數(shù)模塊 如何使用urllib獲取URL?
如何使用urllib獲取URL?首先,我們可以得到要下載的圖像的整個(gè)頁(yè)面信息。getjpg.py#編碼=utf-8import urllibdef getHtml(url):頁(yè)面=urllib.url
如何使用urllib獲取URL?
首先,我們可以得到要下載的圖像的整個(gè)頁(yè)面信息。getjpg.py#編碼=utf-8import urllibdef getHtml(url):頁(yè)面=urllib.urlopen文件(url)html=第頁(yè)。閱讀()return htmlprint htmlurlib模塊提供了一個(gè)從網(wǎng)頁(yè)讀取數(shù)據(jù)的接口。我們可以從WWW和FTP讀取數(shù)據(jù),就像讀取本地文件一樣。首先,我們定義一個(gè)gethtml()函數(shù)urllib.urlopen文件()方法用于打開(kāi)URL地址。read()方法用于讀取URL上的數(shù)據(jù),將URL傳遞給gethtml()函數(shù),并下載整個(gè)頁(yè)面。執(zhí)行該程序?qū)⒋蛴〕稣麄€(gè)網(wǎng)頁(yè)。
urllib模塊和urllib2模塊的區(qū)別?
[python]view plain copy
req=urllib2.Request(
[python]view plain copy
url=url,
data=postdata,
headers=headers
)
result=urllib2.urlopen(req)
我們知道HTTP是一個(gè)無(wú)連接狀態(tài)協(xié)議,但是客戶端和服務(wù)器需要保留一些相互的信息,例如cookies。通過(guò)cookies,服務(wù)器可以知道用戶剛剛登錄到網(wǎng)站,然后允許客戶端訪問(wèn)某些頁(yè)面。因此,我們需要保存cookie,然后附加cookie訪問(wèn)網(wǎng)站,才能達(dá)到效果。在這里,我們需要Python的cookieib和urlib2的合作。如果我們將cookieib綁定到urlib2,我們可以在請(qǐng)求網(wǎng)頁(yè)時(shí)附加cookie。在構(gòu)造req請(qǐng)求之前,我們可以獲取一個(gè)保存cookies的對(duì)象,并將該對(duì)象與HTTP處理器、HTTP處理程序資源和urllib2對(duì)象綁定:
[Python]view plain copy
CJ=cookielib.LWPCookieJar文件()
cookie_u2;Support=urllib2。HTTP cookie processor(CJ)
#創(chuàng)建一個(gè)opener以將HTTP處理器與cookie一起存儲(chǔ),并設(shè)置一個(gè)處理程序來(lái)處理HTTP url的打開(kāi)
opener=urllib2。構(gòu)建開(kāi)放程序(cookie支持,urllib2.HTT)