python爬蟲(chóng)有多可怕 python是爬蟲(chóng)嗎？

2023-09-20

2756

python是爬蟲(chóng)嗎？Python不是爬蟲(chóng)。Python只是因?yàn)槿齻€(gè)較常見(jiàn)的中級(jí)程序語(yǔ)言，你也可以在用它來(lái)開(kāi)發(fā)你是想的程序。在網(wǎng)上很多人說(shuō)是可以用python來(lái)開(kāi)發(fā)爬蟲(chóng)，只不過(guò)這不是python的主要

python是爬蟲(chóng)嗎？

Python不是爬蟲(chóng)。Python只是因?yàn)槿齻€(gè)較常見(jiàn)的中級(jí)程序語(yǔ)言，你也可以在用它來(lái)開(kāi)發(fā)你是想的程序。在網(wǎng)上很多人說(shuō)是可以用python來(lái)開(kāi)發(fā)爬蟲(chóng)，只不過(guò)這不是python的主要功能。

你這個(gè)可以用python來(lái)旗下圖形界面，也可以沒(méi)有圖形界面的軟件，它既也可以在linux上面啟動(dòng)，也是可以在WINDOWS上面正常運(yùn)行。

Python網(wǎng)絡(luò)爬蟲(chóng)會(huì)遇到哪些問(wèn)題？

第一個(gè)問(wèn)題：JS加密如何突破

(1)非常熟練手中掌握Chrome的開(kāi)發(fā)者工具的各個(gè)功能，Elements，Network，Source

(2)認(rèn)真觀察，喜歡思考。Network打開(kāi)系統(tǒng)程序加載流程，找可疑人的xhr各位，設(shè)置里xhr斷點(diǎn)，追朔js負(fù)責(zé)執(zhí)行過(guò)程，邊溯回邊一欄上下文代碼。能能讀懂js，明白js的相關(guān)知識(shí)，比如js里面的window變量。

(3)以上是按照debugjs不能找到j(luò)s加密加密文件的代碼，后再實(shí)際Python恢復(fù)實(shí)現(xiàn)程序，這個(gè)過(guò)程很長(zhǎng)，可能會(huì)承受你幾天的時(shí)間，一旦網(wǎng)站變化看看js算法你的Python基于就肯定不能我用。

(4)用Selenium可簡(jiǎn)單的晉階，而且網(wǎng)站只要該都無(wú)所謂。唯一遺憾的是，Selenium的運(yùn)行效率極差。但，以及一個(gè)能用js加密來(lái)保護(hù)數(shù)據(jù)的網(wǎng)站，單價(jià)的運(yùn)行效率估計(jì)足以滿(mǎn)足的條件網(wǎng)站的訪問(wèn)頻率限制。這時(shí)候，更多的思考是怎么減少資源（IP、賬號(hào)）來(lái)增強(qiáng)破霸體效率。

第二個(gè)問(wèn)題、多線程、協(xié)程，多進(jìn)程的選擇

（1）爬蟲(chóng)是IO密集型任務(wù)，大部分時(shí)間花在網(wǎng)絡(luò)訪問(wèn)網(wǎng)絡(luò)上，所以才多進(jìn)程不比較適合網(wǎng)絡(luò)爬蟲(chóng)，而多線程、異步協(xié)程更適合我，而異步IO是都行吧的，它相比多線程，協(xié)程間的直接切換代價(jià)更小，我們提倡科學(xué)不使用同步異步IO而非多線程。異步運(yùn)行IO的模塊要注意是：aysncio,aiohttp,aiomysql等。

（2）網(wǎng)頁(yè)爬過(guò)去后內(nèi)中提純是想的數(shù)據(jù)是CPU密集型的，這時(shí)候是可以用多進(jìn)程并發(fā)分離提取。

（3）我們推薦推薦的爬蟲(chóng)策略是，爬蟲(chóng)自有打算爬，把爬下去的html存放過(guò)來(lái)，存到數(shù)據(jù)庫(kù)。后再單獨(dú)寫(xiě)其他提取數(shù)據(jù)的提取器，分開(kāi)來(lái)運(yùn)行程序其他提取器。好處是，提取不會(huì)影響爬取，爬的效率更高，但是再提取程序可以時(shí)刻修改，有新的提取需求時(shí)不要恢復(fù)直接抓取。.例如，曾經(jīng)在寫(xiě)爬蟲(chóng)時(shí)只想提純網(wǎng)頁(yè)中的兩項(xiàng)數(shù)據(jù)，運(yùn)行一段時(shí)間后，才發(fā)現(xiàn)另外3項(xiàng)數(shù)據(jù)也很沒(méi)有用，如果沒(méi)有能保存了html，再改過(guò)來(lái)再提取器恢復(fù)跑一遍就那樣最好。

第三個(gè)問(wèn)題、假如打算剩余加粗或者圖片各種位置，沒(méi)有辦法實(shí)際開(kāi)掘規(guī)律再寫(xiě)正則表達(dá)式來(lái)針對(duì)性全面處理嗎？

網(wǎng)頁(yè)數(shù)據(jù)再提取主要注意兩種方法：正則表達(dá)式，xpath。是從xpath也可以獲得某個(gè)html標(biāo)簽節(jié)點(diǎn)。諸如，一篇blog網(wǎng)頁(yè)，它的主體內(nèi)容都在某個(gè)標(biāo)簽里面，很可能是某個(gè)div。用xpath能得到這個(gè)div，裝換為html，應(yīng)該是乾坤二卦了格式非盈利組織會(huì)計(jì)圖片的部分，你能保存這段html代碼而非純文本就行了。

第四個(gè)問(wèn)題、爬蟲(chóng)的增量爬取、斷點(diǎn)續(xù)爬、去重等

（1）實(shí)際網(wǎng)址池的概念去管理的管理所有的URL

（2）增量爬取那就是不重復(fù)一遍直接下載巳經(jīng)可以下載過(guò)的，讓網(wǎng)址池你只要記住那些巳經(jīng)去下載過(guò)的URL；

（3）斷點(diǎn)續(xù)爬，就是前段時(shí)間還沒(méi)有爬取的URL這次隨后爬，肯定讓網(wǎng)址池記住了那些才剛被爬取的URL

（4）爬蟲(chóng)的去重，讓網(wǎng)址池記錄URL的狀態(tài)以避免重復(fù)爬取。

第五個(gè)問(wèn)題、爬蟲(chóng)的部署問(wèn)題，在公司會(huì)不會(huì)分布式爬蟲(chóng)系統(tǒng)都很多會(huì)涉及防御部署問(wèn)題

爬蟲(chóng)的部署，不一定會(huì)是分布式的。小規(guī)模的爬蟲(chóng)，晉階了目標(biāo)網(wǎng)站限制的爬蟲(chóng)就會(huì)牽涉到分布式，分布式的好處是抓取速度想提高，但管理會(huì)比較古怪。

第六個(gè)問(wèn)題、網(wǎng)頁(yè)的手動(dòng)解析？這個(gè)話(huà)題就真包含很多子任務(wù)了：怎摸自動(dòng)啟動(dòng)吸納文章的內(nèi)容，該如何處理各種各樣的時(shí)間格式，怎么樣才能處理翻頁(yè)

（1）文章內(nèi)容的提取，基本是的是每種網(wǎng)頁(yè)建立一個(gè)再提取模板（正則表達(dá)式），好處是分離提取精準(zhǔn)，壞處是工作量大，若是有一點(diǎn)再改版就失敗的話(huà)。按照算法建立單一再提取程序，大部分都可以提純，不過(guò)很可能會(huì)有寫(xiě)雜質(zhì)，諸如文末的查找閱讀。好處是，畢其功于一役，不受再改版限制。

（2）時(shí)間的提取，除了正則表達(dá)式之外隱隱沒(méi)有而且快速有效的方法。

（3）翻頁(yè)的話(huà)，如果只是因?yàn)樽ト?，把該?yè)的url提純出來(lái)再繼續(xù)抓；該如何在提純內(nèi)容時(shí)要把多頁(yè)內(nèi)容合并成一個(gè)網(wǎng)頁(yè)，那現(xiàn)在就要尤其一次性處理。

第七個(gè)問(wèn)題、爬新聞?lì)惖木W(wǎng)站時(shí)，如何能做好同一新聞，各網(wǎng)站彼此轉(zhuǎn)載發(fā)布，爬取時(shí)文本去重

比較著名的算法是，Google的simhash，但具體實(shí)踐中比較比較古怪。網(wǎng)傳百度的做法是把文章的最長(zhǎng)一句話(huà)（或多句）做hash，這個(gè)hash值就是文章的唯一性代表（指紋），這個(gè)方法準(zhǔn)確率很高，但召回率都很低，若是這最長(zhǎng)的幾句話(huà)改一個(gè)字就又不能遣離；我加以改進(jìn)了該方法，對(duì)n句最長(zhǎng)的話(huà)分別做hash，一個(gè)文章由n個(gè)指紋（如圖人的是個(gè)指頭指紋都不一樣）確定唯一性。準(zhǔn)確率和召回率都還不錯(cuò)。

第八個(gè)問(wèn)題、異步運(yùn)行爬蟲(chóng)的設(shè)計(jì)

（1）三個(gè)好的URL管理策略，見(jiàn)猿人學(xué)上的網(wǎng)址池歷史文章；

網(wǎng)址池是一個(gè)“生產(chǎn)者-消費(fèi)者”模型，爬蟲(chóng)內(nèi)中接過(guò)url去可以下載，可以下載的html中再提取新的url放入池中，告知url池剛才一掏出的url是否需要下載成功了；再?gòu)某刂心贸鰑rl進(jìn)行下載。。。url池是核心部件，它資料記錄url的完全不同狀態(tài)：

（a）去下載完成

（b）直接下載失敗的可能n次

（c）也在去下載

你每次往池子直接添加url時(shí)都要檢查url在池中的狀態(tài)，避免重復(fù)上網(wǎng)下載。

成人AV在线无码|婷婷五月激情色,|伊人加勒比二三四区|国产一区激情都市|亚洲AV无码电影|日av韩av无码|天堂在线亚洲Av|无码一区二区影院|成人无码毛片AV|超碰在线看中文字幕

python是爬蟲(chóng)嗎？

Python網(wǎng)絡(luò)爬蟲(chóng)會(huì)遇到哪些問(wèn)題？

相關(guān)推薦

python是爬蟲(chóng)嗎？

Python網(wǎng)絡(luò)爬蟲(chóng)會(huì)遇到哪些問(wèn)題？