爬蟲(chóng)爬取某個(gè)網(wǎng)站進(jìn)行個(gè)股分析時(shí),源代碼關(guān)鍵數(shù)字被屏蔽,是因?yàn)镴avaScript的原因嗎?要怎么破解?
網(wǎng)友解答: 蠻有意思的,搞得我很想去看看。關(guān)鍵數(shù)字被屏蔽了,可以看看渲染后的html是否為數(shù)字,還是一串unicode編碼,也有可能是一串圖片(很少有公司有實(shí)力做到這一步)。基本是下面幾
蠻有意思的,搞得我很想去看看。關(guān)鍵數(shù)字被屏蔽了,可以看看渲染后的html是否為數(shù)字,還是一串unicode編碼,也有可能是一串圖片(很少有公司有實(shí)力做到這一步)?;臼窍旅鎺最悾?/p>
1:字體庫(kù)加密,在我的文章里有過(guò)一篇文章說(shuō)的字體庫(kù)加密的破解可以對(duì)照下。驗(yàn)證方式是點(diǎn)開(kāi)源代碼看看是不是一串unicode編碼。
2:圖片,使用圖片拼接數(shù)學(xué)在百度的指數(shù)上面有應(yīng)用,這個(gè)麻煩一點(diǎn)點(diǎn)。用f12看下樣式就好。
3:Js動(dòng)態(tài)控制css實(shí)現(xiàn)渲染。汽車之家的m站是這種,就是設(shè)置某個(gè)css樣式背景是某個(gè)字符,也可以通過(guò)f12看看css就可以確定了。
至于反爬,感覺(jué)沒(méi)點(diǎn)真功夫比較懸,我估計(jì)是第一種,畢竟簡(jiǎn)單。這里并不是不想教方法,因?yàn)閮?nèi)容有點(diǎn)多,我一下子說(shuō)不完,后面想看的可以關(guān)注我。第一種我的文章已經(jīng)寫了。