app編程入門教程 爬蟲怎么爬取js動(dòng)態(tài)生成的數(shù)據(jù)?
爬蟲怎么爬取js動(dòng)態(tài)生成的數(shù)據(jù)?當(dāng)我使用jsup編寫爬蟲程序時(shí),我通常會(huì)遇到HTML不返回的內(nèi)容。但是瀏覽器顯示了一些東西。所有這些都是分析頁(yè)的HTTP請(qǐng)求日志。分析頁(yè)面JS代碼來(lái)解決問(wèn)題。1. 某些
爬蟲怎么爬取js動(dòng)態(tài)生成的數(shù)據(jù)?
當(dāng)我使用jsup編寫爬蟲程序時(shí),我通常會(huì)遇到HTML不返回的內(nèi)容。但是瀏覽器顯示了一些東西。所有這些都是分析頁(yè)的HTTP請(qǐng)求日志。分析頁(yè)面JS代碼來(lái)解決問(wèn)題。
1. 某些頁(yè)面元素被隱藏->替換選擇器解決方案
2。一些數(shù)據(jù)保存在JS/JSON對(duì)象中->截取相應(yīng)的字符串,分析并求解
3。通過(guò)API接口調(diào)用-> forge請(qǐng)求獲取數(shù)據(jù)
有一個(gè)終極方法
4。使用無(wú)頭瀏覽器,如phantomjs或casperjs