如何采集各大招標(biāo)網(wǎng)站的招投標(biāo)信息
如何監(jiān)控并采集各大招標(biāo)網(wǎng)站的招標(biāo)信息在網(wǎng)上聽很多做招投標(biāo)網(wǎng)站的朋友說(shuō),每天都是有大量的招標(biāo)信息需要整理,工作量大到驚人,而且最重要效率還是不高,在這里,筆者準(zhǔn)備做一個(gè)關(guān)于采集招投標(biāo)網(wǎng)站信息的一個(gè)教程,
如何監(jiān)控并采集各大招標(biāo)網(wǎng)站的招標(biāo)信息
在網(wǎng)上聽很多做招投標(biāo)網(wǎng)站的朋友說(shuō),每天都是有大量的招標(biāo)信息需要整理,工作量大到驚人,而且最重要效率還是不高,在這里,筆者準(zhǔn)備做一個(gè)關(guān)于采集招投標(biāo)網(wǎng)站信息的一個(gè)教程,此教程里面的方法可以采集目前網(wǎng)絡(luò)上大部分招投標(biāo)網(wǎng)站。
此次的教程需要用到的是熊貓采集軟件,這是新一代的智能采集器,操作非常簡(jiǎn)單容易,不需要專業(yè)基礎(chǔ),新手首選。且功能特別強(qiáng)悍復(fù)雜,只要是瀏覽器能看到的內(nèi)容,都可以用熊貓批量的采集下來(lái)。如各種電話號(hào)碼郵箱,各種網(wǎng)站信息搬家,網(wǎng)絡(luò)信息監(jiān)控、網(wǎng)絡(luò)輿情監(jiān)測(cè)、股票資訊實(shí)時(shí)監(jiān)控等等。
熊貓采集器是唯一擁有正文自動(dòng)解析功能功能的采集軟件,對(duì)于本案例涉及到的招投標(biāo)的信息獲取,利用這個(gè)功能,會(huì)節(jié)省很大一部分的時(shí)間,從而我們的工作效率就會(huì)變的更高。這里我們首先以一個(gè)get 翻頁(yè)的招投標(biāo)網(wǎng)站作為例子,后面再講一個(gè)針對(duì)post 翻頁(yè)的招投網(wǎng)站的例子,基本上所有網(wǎng)站所使用的方式都是這兩種之一了,第一個(gè)例子用的是江蘇招標(biāo)網(wǎng),第二例子用的是四川省公共資源交易服務(wù)中心的里面的招標(biāo)信息。
有需要的看官可以去百度收索一個(gè)熊貓采集軟件下載即可。熊貓的免費(fèi)版就包含實(shí)現(xiàn)本演示示例的所需要的全部功能。
好了,下面進(jìn)入我們的采集環(huán)節(jié)吧!
首先,我們打開我們這次采集需要的工具, 也就是熊貓采集器,點(diǎn)擊新建項(xiàng)目(標(biāo)準(zhǔn))
這個(gè)時(shí)候是進(jìn)入我們的基礎(chǔ)設(shè)置,在這里,我們可以給我們創(chuàng)建的項(xiàng)目命名一個(gè)名稱已方便我們以后好區(qū)分我們之前設(shè)置過(guò)的項(xiàng)目,當(dāng)然,我們不設(shè)置也是可以的,因?yàn)槲疫@里是采集招投標(biāo)的信息,我就去了一個(gè)招標(biāo)采集的名稱。
點(diǎn)擊下一步設(shè)置,進(jìn)入標(biāo)題列表頁(yè)及其翻頁(yè)設(shè)置,列表頁(yè)是包含我們要采集內(nèi)容的鏈接網(wǎng)址的頁(yè)面,比如百度搜索一個(gè)關(guān)鍵詞,會(huì)列出來(lái)很多網(wǎng)頁(yè),這些網(wǎng)頁(yè)我們就可以認(rèn)為是標(biāo)題列表頁(yè)面。我們采集江蘇招標(biāo)網(wǎng)的時(shí)候進(jìn)入招標(biāo)信息,里面就是我們要的標(biāo)題列表頁(yè)。
下面我們將這個(gè)標(biāo)題列表頁(yè)的網(wǎng)址拷貝到我們的軟件中來(lái)
點(diǎn)擊開始進(jìn)行預(yù)分析的按鈕,會(huì)出現(xiàn)下圖的提示
如果我們需要翻頁(yè)采集,那么選擇是即可,不要?jiǎng)t選擇否即可。我這里并不是說(shuō)只采集一頁(yè),所以我選擇的是,這個(gè)主要根據(jù)你們的實(shí)際情況來(lái)決定。下面post 的翻頁(yè)的案例,我們會(huì)通過(guò)選擇否去進(jìn)行操作
點(diǎn)擊下一步設(shè)置,進(jìn)入選擇內(nèi)容頁(yè)的設(shè)置,隨便選擇一個(gè)我們要采集的鏈接,會(huì)發(fā)現(xiàn)右邊我們要采集的鏈接全部被紅框框選起來(lái)了。那么這里我們就不要進(jìn)行調(diào)整,直接再次下一步設(shè)置
來(lái)到內(nèi)容頁(yè)面模板管理,這里我會(huì)用到我剛剛說(shuō)的熊貓正文自動(dòng)解析功能,也就是方式2,由系統(tǒng)為我們自動(dòng)自動(dòng)分離出標(biāo)題和正文,如圖所示:
這樣,一個(gè)普通的get 翻頁(yè)的招標(biāo)網(wǎng)站就設(shè)置完成了。如果看官我們想通過(guò)方式1設(shè)置內(nèi)容的采集,那也是很簡(jiǎn)單的,這里我就不詳細(xì)說(shuō)了,下面的另一個(gè)例子我就用方式一來(lái)設(shè)置內(nèi)容的采集。這里我們點(diǎn)擊保存,確認(rèn)出來(lái)查看結(jié)果就可以了。
通過(guò)結(jié)果可以看出,改網(wǎng)站上面的招標(biāo)信息已經(jīng)被我們采集下來(lái)了。以后對(duì)改網(wǎng)站實(shí)行招標(biāo)監(jiān)控只需要將我們的軟件定個(gè)時(shí)間運(yùn)行即可,是不是感覺很好用而且設(shè)置還很簡(jiǎn)單?
好了,下面筆者再演示一個(gè)post 翻頁(yè)的招標(biāo)信息網(wǎng)站,希望可以幫助到大家
前面的兩步我們直接跳過(guò),直接進(jìn)入到標(biāo)題列表及翻頁(yè)設(shè)置的環(huán)節(jié)。普通的標(biāo)題列表頁(yè)我們?cè)诜?yè)的時(shí)候,網(wǎng)址是有會(huì)有翻頁(yè)參數(shù)在變化的,而我們的以post 提交的翻頁(yè)網(wǎng)址是不會(huì)有任何變化,如下圖的我們要演示招標(biāo)網(wǎng)站:
可以發(fā)現(xiàn),第二頁(yè)和第三頁(yè)網(wǎng)址是一模一樣的,后面的的頁(yè)數(shù)網(wǎng)址其實(shí)都是一樣的,
這種情況,在網(wǎng)站中實(shí)現(xiàn)這種效果可能有兩種可能,一直是框架頁(yè)面,它把真實(shí)的翻頁(yè)網(wǎng)址給隱藏了,只要我們找到真實(shí)的網(wǎng)址,利用真實(shí)網(wǎng)址采集即可。還有一種就是post 翻頁(yè)了,這個(gè)時(shí)候我們就需要用抓包工具來(lái)分析一下是post 的還是框架了,當(dāng)然,這里我們講的肯定是post 翻頁(yè)了,所以在進(jìn)入我們標(biāo)題列表的設(shè)置時(shí)候,需要進(jìn)行一個(gè)抓包工作, 現(xiàn)在的瀏覽器大部分都是自帶一個(gè)抓包工作的,你可以在你的瀏覽器空白處右擊一下,會(huì)出來(lái)一個(gè)小界面,點(diǎn)擊里面的審查元素,如下圖:
,點(diǎn)擊一下:
到這里,我們就來(lái)看看我們的列表頁(yè)是如何翻頁(yè)了,先點(diǎn)擊第二頁(yè),發(fā)現(xiàn)如下圖所示:
我們看到一個(gè)post ,說(shuō)明了這個(gè)網(wǎng)頁(yè)是post 的翻頁(yè)的,我們點(diǎn)擊打開看看里面的參數(shù)
將我們的響應(yīng)網(wǎng)址拷貝到熊貓中去,由于是post 的翻頁(yè),所以我們?cè)诜治龅臅r(shí)候要用
post
的方式:
,點(diǎn)擊開始分析:
如果選擇的是,系統(tǒng)會(huì)將post
提交的參數(shù)默認(rèn)提供給我們,但是有時(shí)候未必會(huì)準(zhǔn)備,
所以我們以抓包的參數(shù)以及參數(shù)值為準(zhǔn),只需將參數(shù)值粘貼復(fù)制到熊貓中即可,選擇否的話那么所有的參數(shù)我們就復(fù)制粘貼進(jìn)去即可
,仔細(xì)將上面的參數(shù)和你抓包的參數(shù)進(jìn)行對(duì)比,最好和抓包的一樣,不多不少。否則可能出現(xiàn)我們不想要的結(jié)果。下面我們?cè)趐ost 翻頁(yè)里面進(jìn)行翻頁(yè)處理。
在我們上圖翻頁(yè)參數(shù)框填寫一個(gè)3,點(diǎn)擊post 參數(shù)驗(yàn)證,看右側(cè)是什么效果,如下圖: