html通過js渲染數(shù)據(jù) 用htmlunit怎么去獲取一個(gè)有JS加載的網(wǎng)頁信息?
用htmlunit怎么去獲取一個(gè)有JS加載的網(wǎng)頁信息?有兩種選擇。我推薦第一個(gè)。一種是在網(wǎng)頁請求后讀取相關(guān)網(wǎng)頁中的JS和標(biāo)題,通過處理程序了解獲取信息的接口。通過httpclient獲取所需信息。2:
用htmlunit怎么去獲取一個(gè)有JS加載的網(wǎng)頁信息?
有兩種選擇。我推薦第一個(gè)。一種是在網(wǎng)頁請求后讀取相關(guān)網(wǎng)頁中的JS和標(biāo)題,通過處理程序了解獲取信息的接口。通過httpclient獲取所需信息。2: htmlunit框架提供的方法:javascriptexecutor jsexecutor=(javascriptexecutor)driverjsExecutor.executeScript文件(“l(fā)oginsubmit()”,”)這里的loginsubmit是頁面中JS方法的名稱(頁面中應(yīng)該有這個(gè)JS方法,當(dāng)然你可以自己寫一些JS)。然后通過DOM操作獲取所需的信息。
如何抓取執(zhí)行js之后的網(wǎng)頁內(nèi)容?
如果您對爬網(wǎng)性能沒有任何要求,請嘗試selenium或Watir。Web自動(dòng)化測試腳本可以很好地使用它做很多事情。使用瀏覽器執(zhí)行JS,然后從dom獲取數(shù)據(jù)。另一方面,如果您知道JS是通過Ajax或API獲取數(shù)據(jù)的,那么直接轉(zhuǎn)到數(shù)據(jù)源,獲取JSON或XML,然后處理數(shù)據(jù)