想寫代碼，特別是爬蟲代碼，怎么學(xué)習(xí)？

2018-10-11

1380

網(wǎng)友解答: 不清楚你為什么想學(xué)習(xí)爬蟲代碼，可能是好奇或者是出于學(xué)習(xí)的目的吧。爬蟲說的明白、清楚一點(diǎn)，就是解析網(wǎng)頁，獲取數(shù)據(jù)，后續(xù)就是數(shù)據(jù)處理的過程。目前來說，網(wǎng)上也有現(xiàn)成的爬蟲軟件，像八

網(wǎng)友解答:

不清楚你為什么想學(xué)習(xí)爬蟲代碼，可能是好奇或者是出于學(xué)習(xí)的目的吧。爬蟲說的明白、清楚一點(diǎn)，就是解析網(wǎng)頁，獲取數(shù)據(jù)，后續(xù)就是數(shù)據(jù)處理的過程。目前來說，網(wǎng)上也有現(xiàn)成的爬蟲軟件，像八爪魚，F(xiàn)orespider等，如果你急著爬取數(shù)據(jù)，而又不懂編程的話，這些軟件你可以學(xué)學(xué)，官網(wǎng)都有詳細(xì)的教程和例子，花費(fèi)幾個(gè)小時(shí)就能掌握。至于你想學(xué)習(xí)代碼的話，目前主流的編程語言，像python，java，php，nodejs等都可以做爬蟲，也有現(xiàn)成的包或框架，你直接使用就行，要學(xué)的內(nèi)容主要如下：

1.熟悉基本的網(wǎng)頁知識(shí)。像前端的html，css，js等，我們要爬去的數(shù)據(jù)大部分都存儲(chǔ)在網(wǎng)頁中，你需要對(duì)網(wǎng)頁結(jié)構(gòu)和基本標(biāo)簽有個(gè)基本了解，沒必要熟練所掌握，大概看得明白就行，如果你還沒有一點(diǎn)基礎(chǔ)的話，建議花費(fèi)個(gè)一兩天時(shí)間學(xué)習(xí)一下，網(wǎng)上的教程很多，你可以學(xué)習(xí)一下，如菜鳥教程http://www.runoob.com/html/html-tutorial.html等：

2.再著就是要會(huì)使用瀏覽器的開發(fā)者工具，大部分情況下，網(wǎng)頁的數(shù)據(jù)都是靜態(tài)的，在網(wǎng)頁源碼中，但有些情況下，數(shù)據(jù)是異步加載的的，動(dòng)態(tài)的，可能是一個(gè)json文件，這個(gè)時(shí)候你就需要會(huì)抓包分析，找到真實(shí)數(shù)據(jù)的URL，獲取數(shù)據(jù)：

3.學(xué)一門編程語言。如果你沒有基礎(chǔ)的話，我建議學(xué)習(xí)python，簡(jiǎn)單易學(xué)，容易上手，開發(fā)效率高，生態(tài)環(huán)境良好，社區(qū)活躍，有大量的第三方包可以使用，像專門爬蟲的包urllib,urllib2,requests等，都很好學(xué)，花個(gè)個(gè)把小時(shí)，你就會(huì)基本使用：

4.基本入門后，你就可以試著學(xué)習(xí)爬蟲框架了，可以提高你的開發(fā)效率，不用重復(fù)造輪子，很快就能搭建一個(gè)爬蟲系統(tǒng)，像python的scrapy框架等，其他語言也都會(huì)提供爬蟲框架，你可以深入的學(xué)習(xí)一下，一定會(huì)對(duì)你有大的幫助：

我總結(jié)的就是這幾點(diǎn)，我也才入門爬蟲，學(xué)習(xí)的時(shí)間不長(zhǎng)，主要是需要網(wǎng)上的數(shù)據(jù)做分析才學(xué)的，至于后面如何分析和處理數(shù)據(jù)，也才開始慢慢接觸，只要你用心學(xué)習(xí)，多做個(gè)例子，多調(diào)試調(diào)試代碼，很快就能掌握爬蟲的，對(duì)于爬取網(wǎng)上大部分?jǐn)?shù)據(jù)來說，絕對(duì)沒有問題，希望以上分享的內(nèi)容能對(duì)你有所幫助吧，可以共同探討、學(xué)習(xí)。

網(wǎng)友解答:

想寫代碼，還是比較容易的，前提是學(xué)校學(xué)過編程，最好通過計(jì)算機(jī)二級(jí)，一般都沒有問題。寫代碼，需要先確定自己要學(xué)的語言，而做爬蟲相關(guān)的，幾乎所有的網(wǎng)絡(luò)編程語言都支持吧，就我接觸的幾種編程語言中，使用比較多的有Java、PHP、Python、Go等，而做爬蟲，我在Java和Python編程語言方面有所實(shí)踐，下面主要說說這兩種編程語言在爬蟲中的表現(xiàn)吧。

要做爬蟲，Web開發(fā)的一些必備技術(shù)是不可或缺的，如HTML、CSS以及一些JS等，如果不懂這些，寫爬蟲就是個(gè)笑話。這些也是做爬蟲的先決條件，要做爬蟲，這些必須要學(xué)，并且有自己的學(xué)習(xí)心得。寫爬蟲需要先讀懂目標(biāo)網(wǎng)站的相關(guān)html源碼，針對(duì)所爬取的內(nèi)容決策獲取的方式，常見的有正則表達(dá)式提取、Document元素獲取等。

網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)，大致可以分為以下幾種類型：通用網(wǎng)絡(luò)爬蟲（General Purpose Web Crawler）聚焦網(wǎng)絡(luò)爬蟲（Focused Web Crawler）增量式網(wǎng)絡(luò)爬蟲（Incremental Web Crawler）深層網(wǎng)絡(luò)爬蟲（Deep Web Crawler）。實(shí)際的網(wǎng)絡(luò)爬蟲系統(tǒng)通常是幾種爬蟲技術(shù)相結(jié)合實(shí)現(xiàn)的。

有了Web開發(fā)的基礎(chǔ)之后，我們?cè)賮砜纯磁老x的事。我們先聊聊Java做爬蟲的技術(shù)點(diǎn)，使用Java做爬蟲，主要是通過HttpClient來實(shí)現(xiàn)的。使用HttpClient發(fā)送請(qǐng)求、接收響應(yīng)很簡(jiǎn)單，一般需要如下幾步：

創(chuàng)建HttpClient對(duì)象。

創(chuàng)建請(qǐng)求方法的實(shí)例，并指定請(qǐng)求URL。如果需要發(fā)送GET請(qǐng)求，創(chuàng)建HttpGet對(duì)象；如果需要發(fā)送POST請(qǐng)求，創(chuàng)建HttpPost對(duì)象。如果需要發(fā)送請(qǐng)求參數(shù)，可調(diào)用HttpGet、HttpPost共同的setParams(HetpParams params)方法來添加請(qǐng)求參數(shù)；對(duì)于HttpPost對(duì)象而言，也可調(diào)用setEntity(HttpEntity entity)方法來設(shè)置請(qǐng)求參數(shù)。調(diào)用HttpClient對(duì)象的execute(HttpUriRequest request)發(fā)送請(qǐng)求，該方法返回一個(gè)HttpResponse。調(diào)用HttpResponse的getAllHeaders()、getHeaders(String name)等方法可獲取服務(wù)器的響應(yīng)頭；調(diào)用HttpResponse的getEntity()方法可獲取HttpEntity對(duì)象，該對(duì)象包裝了服務(wù)器的響應(yīng)內(nèi)容。程序可通過該對(duì)象獲取服務(wù)器的響應(yīng)內(nèi)容。釋放連接。無論執(zhí)行方法是否成功，都必須釋放連接。

Java除了使用HttpClient做爬蟲之外，還可以通過Jsoup，但是相對(duì)于HttpClient，在抓取上Jsoup比較弱，主要是使用擴(kuò)展htmlparser的功能吧，解析html。相關(guān)的示例代碼都可以在網(wǎng)上很容易找到，懂得一些Java基礎(chǔ)和Web基礎(chǔ)的讀者都可以試試。

下面來聊聊Python在爬蟲上的表現(xiàn)，Python標(biāo)準(zhǔn)庫中，用于網(wǎng)頁數(shù)據(jù)采集的有urllib庫，同樣，有很多優(yōu)秀的開源庫，像BeautifulSoup庫、Requests庫等。目前我學(xué)Python做爬蟲也處于初始階段，使用過的庫有標(biāo)準(zhǔn)庫中的urllib、re庫，非標(biāo)準(zhǔn)庫中的bs4、selenium。由于剛開始實(shí)踐，各方面認(rèn)識(shí)還不夠，在我的爬蟲代碼中urllib做網(wǎng)頁數(shù)據(jù)采集用的，re是正則驗(yàn)證的庫，使用bs4解析Document，比較簡(jiǎn)單的獲取數(shù)據(jù)，我使用selenium自動(dòng)打開瀏覽器，獲取懶加載的圖片之類的數(shù)據(jù)。除此之外，在網(wǎng)上還找到一些庫，這些都是以后Python學(xué)習(xí)的方法，也推薦給各位。

功能齊全的爬蟲grab – 網(wǎng)絡(luò)爬蟲框架（基于pycurl/multicur）。scrapy – 網(wǎng)絡(luò)爬蟲框架（基于twisted），不支持Python3。pyspider – 一個(gè)強(qiáng)大的爬蟲系統(tǒng)。cola – 一個(gè)分布式爬蟲框架。portia – 基于Scrapy的可視化爬蟲。restkit – Python的HTTP資源工具包。它可以讓你輕松地訪問HTTP資源，并圍繞它建立的對(duì)象。demiurge – 基于PyQuery的爬蟲微框架。

總體而言，寫爬蟲Python比較清爽，有優(yōu)勢(shì)，Java就比較笨重，用Java寫爬蟲，有大炮打蚊子之嫌。而關(guān)于PHP和GO寫爬蟲只是聽說過，本人沒有這方面的實(shí)踐，暫不多說。

作者：夕陽雨晴，歡迎關(guān)注我的酷米號(hào)：偶爾美文，主流Java，為你講述不一樣的碼農(nóng)生活。

成人AV在线无码|婷婷五月激情色,|伊人加勒比二三四区|国产一区激情都市|亚洲AV无码电影|日av韩av无码|天堂在线亚洲Av|无码一区二区影院|成人无码毛片AV|超碰在线看中文字幕

相關(guān)推薦