如何用python編寫一個(gè)簡(jiǎn)單的爬蟲(chóng) 爬蟲(chóng)可以干什么?
爬蟲(chóng)可以干什么?呵呵呵,你說(shuō)呢?你是小白在問(wèn)這個(gè)問(wèn)題嗎?爬蟲(chóng)可以抓取互聯(lián)網(wǎng)上的數(shù)據(jù)。爬蟲(chóng)可以用很多編程語(yǔ)言實(shí)現(xiàn),python只是其中一種。所以你想知道的是網(wǎng)絡(luò)爬蟲(chóng)能做什么。他就像證券交易數(shù)據(jù),天氣數(shù)據(jù)
爬蟲(chóng)可以干什么?
呵呵呵,你說(shuō)呢?你是小白在問(wèn)這個(gè)問(wèn)題嗎?
爬蟲(chóng)可以抓取互聯(lián)網(wǎng)上的數(shù)據(jù)。爬蟲(chóng)可以用很多編程語(yǔ)言實(shí)現(xiàn),python只是其中一種。所以你想知道的是網(wǎng)絡(luò)爬蟲(chóng)能做什么。
他就像證券交易數(shù)據(jù),天氣數(shù)據(jù),網(wǎng)站用戶數(shù)據(jù),圖片。
你拿到這些數(shù)據(jù)后,就可以做下一步的工作了。
網(wǎng)絡(luò)爬蟲(chóng),即網(wǎng)絡(luò)蜘蛛,是一個(gè)很形象的名字。
把互聯(lián)網(wǎng)比作蜘蛛網(wǎng),那么Spid://主機(jī)名[:port]/path/[參數(shù)][?查詢]#片段
URL的格式由三部分組成:
第一部分是協(xié)議(或服務(wù)模式)。
②第二部分是存儲(chǔ)資源的主機(jī)IP地址(有時(shí)包括端口號(hào))。
第三部分是主機(jī)資源的具體地址,比如目錄和文件名。
第一部分和第二部分由符號(hào) "://",
第二部分和第三部分由一個(gè) "/ "符號(hào)。
第一、二部分缺一不可,第三部分有時(shí)可以省略。
動(dòng)詞 (v)。
讓 讓我們來(lái)看兩個(gè)URL的小例子。協(xié)議的URL示例:
使用超文本傳輸協(xié)議HTTP為超文本信息服務(wù)提供資源。
示例:
它的計(jì)算機(jī)域名是。
超文本文件(文件類型:。html)在目錄/頻道下。
這是的電腦。;每日一次。
示例:
它的計(jì)算機(jī)域名是。
超文本文件(文件類型:。html)在目錄/talk下。
這是萊德聊天室的地址,從這里可以進(jìn)入萊德聊天室的1號(hào)房間。
2.文件的URL
用URL表示文件時(shí),服務(wù)器模式用fil
怎么用python寫爬蟲(chóng)來(lái)抓數(shù)據(jù)?
站。;剛開(kāi)始不需要登錄,比較簡(jiǎn)單,掌握好http。如何模擬getpost和urllib?只要掌握l(shuí)xml、BeautifulSoup等解析器庫(kù),使用firefox s firebug或chrome 的調(diào)試工具來(lái)查看瀏覽器如何收縮。以上都可以不用登錄,不用下載文件。