下一代互聯(lián)網(wǎng)技術(shù)-2015試卷李楚煌

2017-03-27

6728

深圳大學期末考試試卷開/閉卷命題人(簽字) 崔來中審題人(簽字) 年月日綜述報告下一代互聯(lián)網(wǎng)技術(shù)A/B卷學分 2.5

深圳大學期末考試試卷

開/閉卷命題人(簽字) 崔來中審題人(簽字) 年月日綜述報告

下一代互聯(lián)網(wǎng)技術(shù)

A/B卷學分 2.5

課程編號 1502320001 課程名稱

課程綜述報告由個人獨立完成。要求學生從教師的授課專題，包括：

（1）下一代互聯(lián)網(wǎng)過渡技術(shù)（翻譯技術(shù)和隧道技術(shù)）（2）云計算（資源調(diào)度、存儲、安全）（3）社交網(wǎng)絡（推薦、影響力分析、傳播模型）（4）物聯(lián)網(wǎng)（無線傳感器網(wǎng)絡、節(jié)能技術(shù)）（5）搜索技術(shù)（爬蟲技術(shù)、圖片搜索、語義搜索）（6） P 2P （文件下載、流媒體分發(fā)）

（7）大數(shù)據(jù)處理與分析技術(shù)（網(wǎng)絡與機器學習）

（8）多媒體網(wǎng)絡（多媒體網(wǎng)絡與SDN 、流媒體與機器學習）

（9）軟件定義網(wǎng)絡（SDN 與安全、SDN 與流量優(yōu)化、SDN 與網(wǎng)絡管理）選擇一個專題中的具體技術(shù)問題（上述括號內(nèi)為推薦的問題內(nèi)容）作為綜述報告主題，綜述報告名稱自擬，參照附件一“綜述報告格式模板”與附件二“綜述報告寫作指導完成綜述報告”；評分標準見附件三。提交的課程綜述報告要符合深圳大學相關(guān)的格式規(guī)范。

第17周提交課程綜述報告電子版到blackboard 系統(tǒng)，紙質(zhì)版交到任課老師處。

《下一代互聯(lián)網(wǎng)技術(shù) 》試卷卷第 1 頁共 15 頁

附件一綜述報告格式模板

深圳大學考試答題紙

(以論文、報告等形式考核專用)

二○一學年度第

課程編號 1502320

001 課程名稱下一代互聯(lián)網(wǎng)技術(shù) 主講教師崔來中評分 20131503

學號 83

姓名李楚煌專業(yè)年級大三網(wǎng)絡工程01

題目：

網(wǎng)頁搜索中爬蟲技術(shù)的若干研究

1. 前言

在21世紀互聯(lián)網(wǎng)高速發(fā)展的背景下，搜索引擎在人們生活中有著舉足輕重的作用，而網(wǎng)絡爬蟲是搜索引擎中的重要的信息采集器，是搜索引擎技術(shù)的核心部分。

本文是對爬蟲技術(shù)在現(xiàn)今網(wǎng)絡環(huán)境中出現(xiàn)不同的問題、漏洞提出一些針對性的探究方法，并對各種方法進行實驗分析，主要研究分析工作如下:

網(wǎng)絡爬蟲中的核心技術(shù)部分，即網(wǎng)絡爬蟲系統(tǒng)的多線程設計與實現(xiàn)，詳細介紹網(wǎng)絡爬蟲的概念及信息分類涉及到的算法，技術(shù)要點，并探討實現(xiàn)對漏洞平臺當中的爬蟲技術(shù)的聚焦。

網(wǎng)絡爬蟲的核心在于，以端口接通為設計基礎(chǔ)，依據(jù)HTTP 協(xié)議，使用SOCKET 套接字相關(guān)函數(shù)向服務器端發(fā)送HTTP 請求，得到目標URL 對應的網(wǎng)頁內(nèi)容，再從該網(wǎng)頁提取出未爬取過的URL ，將該URL 重新作為源URL 進行新的一輪向下爬取搜索工作，按照各種優(yōu)先算法向下爬行，從而完成網(wǎng)絡爬蟲系統(tǒng)的爬行工作。在互聯(lián)網(wǎng)中有著很多協(xié)議，它們彼此聯(lián)系著，支持著許多網(wǎng)絡程序的運行。網(wǎng)絡爬蟲系統(tǒng)是基于SOCKET 協(xié)議的，而SOCKET 協(xié)議的基礎(chǔ)建立在TCP/IP協(xié)議之上。由此，網(wǎng)絡爬蟲是基于最原始的協(xié)議，依靠算法技術(shù)，組織分布式系統(tǒng)，非常有潛力進行強有力的數(shù)據(jù)探索與挖掘。既然網(wǎng)絡爬蟲的優(yōu)勢潛能如此巨大，接下來我會詳細討論近期我對這個技術(shù)的若干研究。

2. 閱讀文獻概述

《下一代互聯(lián)網(wǎng)技術(shù) 》試卷卷第 2 頁共 15 頁

基于此次希望探討的研究方向：網(wǎng)絡爬蟲，在中文文獻方面，主要有以下閱讀：多線程進行網(wǎng)絡爬蟲的過程優(yōu)化, 基于網(wǎng)絡爬蟲的Web 信息采集技術(shù)，爬蟲對漏洞管理平臺核心幫助。在英文文獻方面主要有：《A Cloud-based Web Crawler Architecture 》 ,《A Spatial Web Crawler for Discovering 》, 《Design of improved focused web crawler》。這幾篇文獻探究的層次在于如何對信息進行有效地采集、采集的量如何夠快夠大、以漏洞管理平臺為切口，看爬蟲技術(shù)有哪方面的發(fā)展?jié)摿Α?/p>

多線程爬蟲又可以理解為分布式爬蟲，主要閱讀的部分有分布式網(wǎng)絡爬蟲結(jié)構(gòu)設計，其中又細分為爬行節(jié)點的結(jié)構(gòu)設計，控制節(jié)點的結(jié)構(gòu)設計。分布式網(wǎng)絡爬蟲的關(guān)鍵技術(shù)在于，種子集合的優(yōu)化選取，分布函數(shù)的選擇。有這些分布式策略來帶領(lǐng)多線程下載。而對網(wǎng)絡信息的閱讀，在于有效采集，需要對信息檢索引擎有所劃分：全文檢索、目錄索引型檢索、元檢索。再深入到網(wǎng)絡爬蟲的搜索策略，有深度優(yōu)先搜索策略、寬度優(yōu)先搜索策略、聚焦搜索策略。針對信息的實質(zhì)內(nèi)容，爬蟲有其特色性質(zhì)：布告欄的數(shù)據(jù)分類及并聯(lián)式關(guān)聯(lián)、視頻的可預覽及真實尋址、論壇的自動動態(tài)更新實現(xiàn)。對漏洞平臺的爬蟲聚焦技術(shù)的閱讀，首先了解的是在漏洞平臺這個領(lǐng)域，爬蟲子模塊的劃分：爬蟲接口模塊、配置文件解析模塊、網(wǎng)頁爬取模塊、網(wǎng)頁解析模塊、URL 過濾去重模塊、漏洞信息保存模塊。在漏洞平臺管理這個框架下，對爬蟲效率如何改進、URL 相關(guān)內(nèi)容如何改進有所閱讀了解。

此外，《A Cloud-based Web Crawler Architecture》主要論述的網(wǎng)絡爬蟲為代表的應用程序，如何在網(wǎng)絡上更好得進行有趣的信息的查找。因為網(wǎng)路上有巨量的索引的鏈接或非結(jié)構(gòu)化的數(shù)據(jù)，這需要網(wǎng)絡爬蟲去應對這些挑戰(zhàn)：鏈接和高密度計算的復雜性。在這種背景下，該文獻提供了云計算模式，支持彈性的資源化和非結(jié)構(gòu)化的數(shù)據(jù)，并提供讀寫加注功能。采用云計算的功能和MapReduce 編程技術(shù)，可以使我們能夠分布式抓取網(wǎng)頁和存儲在云計算中所發(fā)現(xiàn)的Azure 表?！禔 Spatial Web Crawler for Discovering》，這篇文獻其實與單純地談論爬蟲技術(shù)不一樣，一般地討論爬蟲技術(shù)，是如何在物理、軟件層面提高單體計算機的速度、分布式地進行搜索，又或者對URL 等算法策略的優(yōu)化。而這篇文獻談論的可以歸屬另一個學科，它圍繞地緣服務器提供的地理特征，進行空間信息的劃分，使用空間的數(shù)據(jù)源。核心來說，這是一個對地理領(lǐng)域信息系統(tǒng)的研究。地理空間數(shù)據(jù)在本質(zhì)上常常動態(tài)并在異構(gòu)的形式提供，網(wǎng)上空間數(shù)據(jù)是一個基于地理的形式進行發(fā)布的?？臻g網(wǎng)絡爬蟲專注于地理空間在地緣服務器上的功能?！禗esign of

《下一代互聯(lián)網(wǎng)技術(shù) 》試卷卷第 3 頁共 15 頁

improved focused web crawler》這篇文獻講述的東西比較細，是對URL 和錨文本的語義性質(zhì)的研究分析。它提出了一種技術(shù)，偏重于基于語義重點的網(wǎng)絡履帶的分析探討。

3. 課題研究方向的現(xiàn)狀與發(fā)展趨勢

研究方向主要有以下六個分支: 多線程（分布式）進行網(wǎng)絡爬蟲的過程優(yōu)化, 基于網(wǎng)絡爬蟲的Web 信息采集技術(shù)，爬蟲對漏洞管理平臺核心幫助，云計算模式這種支持彈性的資源化和非結(jié)構(gòu)化的數(shù)據(jù)的爬蟲技術(shù)，空間網(wǎng)絡爬蟲這樣專注于地理空間在地緣服務器上研究的新科技，錨文本的語義性質(zhì)的研究分析。

分布式網(wǎng)絡爬蟲的理論基礎(chǔ)：它由多臺PC 機組成，其中一臺是控制節(jié)點，其他為爬行節(jié)點，控制節(jié)點負責維護所有結(jié)點的信息，對所有結(jié)點的信息進行同步，同時在控制節(jié)點上進行結(jié)點的添加和刪除。它分為5個模塊：URL 分析模塊、下載模塊、網(wǎng)頁分析模塊、結(jié)點通信模塊、URL 分配模塊。

分布式網(wǎng)絡爬蟲的方法可以具體到5個模塊來分析探討。URL 分析模塊是接受來自分布式模塊分配的URL 任務，判斷該URL 是否被訪問過。訪問過，進隊列；沒訪問過，忽略。那在分布式網(wǎng)絡爬蟲中與單臺PC 有所不同的是：單臺PC 機只需要對URL 地址進行記錄，還有域名轉(zhuǎn)換，計算復雜度低；分布式網(wǎng)絡爬蟲中對需要IP 與域名轉(zhuǎn)換的計算量大，復雜度高。下面具體解釋：維護URL 隊列，在每個節(jié)點維護一個本節(jié)點將要訪問的URL 隊列模塊，可以參照Mercator 系統(tǒng)，每一道指向一個domain ，這樣可以避免多個線程同時訪問一個domain 。剛剛已經(jīng)談到計算量大的問題，是由于多道隊列的數(shù)據(jù)結(jié)構(gòu)在爬行進行到一定階段時，數(shù)據(jù)量一定分成龐大。如何解決？在內(nèi)存不能夠承載時，將隊列的中間部分放在硬盤上，在內(nèi)存中只保留隊列的頭和尾。還有就是，完整的URL 是沒必要記錄的，只需要判斷URL 是否已經(jīng)下載過了。因此，可以采用哈希表存儲URL 的checksums, 高位存儲hostname 的checksum ，這樣一來，來自同樣的domain 的URL 就會排列在一起。之前說過，把數(shù)據(jù)放在硬盤上。這樣實現(xiàn)：建立一個LRU cache 。明顯，網(wǎng)頁鏈接的聚簇性和高位存儲hostname 的數(shù)據(jù)結(jié)構(gòu)，使硬盤的讀寫概率非常小，提高了爬蟲分布式系統(tǒng)的運行速度。IP 與域名需要轉(zhuǎn)換，是因為URL 地址不同但可能指向同一物理網(wǎng)頁。譬如，多個域名共同擁有一個IP ，而各個域名下的內(nèi)容是不同的；DNS 轉(zhuǎn)換導致的同一域名對應的IP

《下一代互聯(lián)網(wǎng)技術(shù) 》試卷卷第 4 頁共 15 頁

是不一樣的；一個站點多個域名。面多這種情況如何解決呢？首先，積累一定數(shù)量的域名和IP ，下載一些網(wǎng)頁判斷分別屬于哪種情況，積累下來，然后針對性地取舍，避免重復收集使用。下載模塊的核心在于節(jié)點線程控制。主要解決的是本地節(jié)點與Web 端服務器的通信問題。在前言中提到，爬蟲技術(shù)也是基于TCP 協(xié)議的?？蛻粲袝r在同一次會話中希望從服務器端下載更多的HTML 頁面，由于HTTP1.0，該TCP 需要終止。這是可以這樣，為了節(jié)省時間和網(wǎng)絡帶寬，可以保留上次已經(jīng)建立好的鏈接。如果該鏈接沒有失效，本次可以繼續(xù)使用。詳細點說，就是服務器接收爬蟲客戶端發(fā)送的請求消息后，先返回一個HTTP 頭信息，包含文件類型，大小，最后修改時間等內(nèi)容，后續(xù)添加包含網(wǎng)頁的文本內(nèi)容。根據(jù)網(wǎng)頁體的大小，申請內(nèi)存空間準備接收，有兩種情況需要放棄接收：一、網(wǎng)頁類型不符合要求。

二、超出預定接收大小。畢竟我們現(xiàn)在討論的是多線程的網(wǎng)絡爬蟲技術(shù)，在下載模塊，重點在于結(jié)點線程模塊。結(jié)點線程：根據(jù)控制計算機硬件的運行情況，把并行開設的線程數(shù)控制在一個最佳的數(shù)量上，并監(jiān)控保證同時訪問同一個domain 的線程數(shù)不超過n ，這樣是為了保證web 服務器不會出現(xiàn)類似于拒絕服務攻擊DOS 反應使得一些URL 的漏取。最好建立一個DNS 緩沖區(qū)，即是緩存。這樣可以避免頻繁地查詢DNS 服務器。網(wǎng)頁分析模塊相對簡單，HTML 比較靈活，URL 出現(xiàn)的語境較多，我們應該參照HTML 的語法，給出相應的URL 出現(xiàn)的語境。URL 分配模塊工作是為了協(xié)調(diào)各個節(jié)點，將任務分配給不同的節(jié)點，并且能夠增刪節(jié)點。節(jié)點通信模塊負責節(jié)點間的相互通信，除了采集器采集網(wǎng)頁時直接與Internet 交互外，其他時候所有網(wǎng)絡通訊都通過通信器完成。上次模塊通過Send ，把它的數(shù)據(jù)包以單體為目標標識發(fā)布。接收上層的發(fā)送請求后，通信器先將數(shù)據(jù)包緩存起來，再通過目標標識維護每個節(jié)點的節(jié)點號和IP 對應的節(jié)點信息。有節(jié)點通信模塊，可以只關(guān)注本身的策略，并且和其他模塊松耦合，方便架構(gòu)在不同的對等網(wǎng)絡上。

分布式網(wǎng)絡爬蟲的方案，可以先講述一個中級規(guī)模的網(wǎng)頁搜集，當然，對于一些大型的網(wǎng)站如鳳凰網(wǎng)、騰訊首頁等網(wǎng)站的全站下載，分布式系統(tǒng)仍有用武之地。先了解下對中等規(guī)模的網(wǎng)站的爬蟲搜集，一個網(wǎng)站的host 是一樣的，因此需要在普通的任務分配基礎(chǔ)上做出一些改動，首先任務的粒度不能再選擇host ，因為這樣一來，同一網(wǎng)站的網(wǎng)頁的哈希函數(shù)的數(shù)值是唯一的，任務只能分配在節(jié)點上，對于分布式網(wǎng)絡爬蟲系統(tǒng)，顯然是不

《下一代互聯(lián)網(wǎng)技術(shù) 》試卷卷第 5 頁共 15 頁

行的。粒度如果按URL 分配，粒度又太小了，由此，可以對網(wǎng)站的URL 信息收集和分析，總結(jié)出網(wǎng)站全站下載多機協(xié)同任務分配算法。舉例說明，大型網(wǎng)站下有很多子網(wǎng)站，而同一子網(wǎng)站網(wǎng)頁的URL 有一些共同點，它們的URL 前一兩個字都相同，這些子網(wǎng)頁的互聯(lián)關(guān)系比較緊密，子網(wǎng)站與子網(wǎng)站網(wǎng)頁的引用頻繁度沒有那么高，差別較大，可以把任務分配的粒度定為子網(wǎng)站。由于粒度的合理分配，分布式對中大型網(wǎng)站進行全站下載是可實現(xiàn)的。

關(guān)于分布式網(wǎng)絡爬蟲技術(shù)的現(xiàn)狀，國內(nèi)外的一些大公司已經(jīng)有很成熟的解決方案，并已投入使用。其中以Google 研究的最早，也最先進。在Google 公開的網(wǎng)絡爬蟲設計中，Internet Archive Crawler是可以使用多臺機器進行爬行的，每個Crawler 進程可分配64個站點同時爬行，每個站點只分配一個Crawler 進行爬行。谷歌的分布式網(wǎng)絡爬蟲技術(shù)能夠在全球處于領(lǐng)先地方，也在于它的搜索引擎在全球處于領(lǐng)先地位。Google 每天都會對使用它搜索引擎的網(wǎng)站進行一定量的爬蟲，有了大量的數(shù)據(jù)分析，它對于網(wǎng)絡上的語義分析是領(lǐng)先的，而在全球大量分布的服務器，也促進了它在分布式網(wǎng)絡爬蟲的發(fā)展。其中它研發(fā)的Mercator 是一個非常出色的Crawler ，該技術(shù)完全用Java 實現(xiàn)，它才用的數(shù)據(jù)結(jié)構(gòu)可以不管爬行規(guī)模的大小，在內(nèi)存只占有限的空間。分布式網(wǎng)絡爬蟲現(xiàn)階段采用的技術(shù)主要是服務器集群技術(shù)，由中央控制軟件進行任務發(fā)布、負載平衡和運行監(jiān)控。

基于爬蟲的Web 信息采集技術(shù)的理論基礎(chǔ)：分析目標網(wǎng)站結(jié)構(gòu)，確定抓取規(guī)則，擴展Heritrix 爬蟲，對于網(wǎng)頁內(nèi)容，可以分析所得網(wǎng)頁的頁面結(jié)構(gòu)特點，利用Jsoup 過濾頁面噪聲信息，提取內(nèi)容，在內(nèi)容索引方面，運用Lucenne 對存儲在數(shù)據(jù)中的信息進行索引，實現(xiàn)對采集信息的全文索引，在內(nèi)存呈現(xiàn)方面，可以整合Struts2、Spring 、Hibernate 這三種技術(shù)框架，搭建三層J2EE 框架，利用Web 頁面展示所抓取過濾后的信息。

Web 信息采集的的方法可以分為三部分介紹，一是Heritrix 這類基于Java 程序語言的開源聚焦Web 網(wǎng)絡爬蟲工具，二是Jsoup 這類HTML 解析器，方便用戶進行內(nèi)容抽取操作。三是Lucene 這種可以完整地進行全文檢索和查詢的開源程序庫。Heritrix 是一個可以通過Web 操作界面，實現(xiàn)對網(wǎng)絡爬蟲的啟動、監(jiān)控和運行調(diào)整。用戶利用Heritrix 可以較完整地獲取目標站點的內(nèi)容，實現(xiàn)對站點內(nèi)容的深度復制，這里甚至可以包括對圖像、文檔在內(nèi)的非文本內(nèi)容。Heritirx 突出特點在于強大的可擴展性，允許用戶

《下一代互聯(lián)網(wǎng)技術(shù) 》試卷卷第 6 頁共 15 頁

靈活地選擇擴展組件。有五個組件是比較重要的。中央控制器（組件），是Heritrix 進行抓取任務的核心組件，它全程控制著整個抓取流程。它決定了哪些URL 入隊，控制當前抓取內(nèi)容的范圍。Frontier 組件，作用是為每一個線程不斷地提供URL 。ToePool ，負責抓取任務所創(chuàng)建的所有子線程。ServerCache 負責緩存所抓取的所有Host 名稱及Server 名稱。Crawl 組件，整個抓取工作的開始點。Processor 組件，是其他多種處理器的共同父類。上述基本讓我們了解了一個Heritrix 是如何工作的，那么Heritrix 又具備什么優(yōu)點呢？首先，它可在多個獨立的站點上持續(xù)進行內(nèi)容爬去。其次它是采用廣度優(yōu)先搜索策略進行頁面爬去，有利于對擴大頁面內(nèi)容的范圍。然后，它可以僅從提供的一個種子地址即可開始爬行，進行準確地站點URL 內(nèi)容的收集和主機信息的收集。而且它各項主要部件都是高效可擴展的，易于定制。最后它又全面良好的配置，如配置輸出日志、歸檔文件、帶寬上限設置。Jsoup 是一種HTML 解析器，它是基于MIT 許可協(xié)議發(fā)布的，可以用于商業(yè)項目。它的功能主要包括：(1)從某個URL 、字符串或文件中解析HTML 。（2) 利用DOM 遍歷或CSS 選擇器來查找、提取數(shù)據(jù)。(3)可操縱HTML 元素、屬性和文本(4)可依據(jù)一個安全的白名單過濾用戶提交的內(nèi)容，以防止XSS 攻擊。DOM 樹算法是Jsoup 的核心部分。DOM ，即文件對象模型，是處理可擴展標志語言的通用標準編程接口。DOM 常用于表示和處理HTML 或HTML 文檔。完整遍歷一棵DOM 樹既即可以訪問和處理頁面中的任何一個元素。Lucenet 提供了簡單而強大的接口，用戶可以輕松地實現(xiàn)對全文的索引和搜尋。需要提醒一點的是，Lucene 僅僅是一個信息檢索程序庫，而不是一個完整的搜索引擎。換言之，需要開發(fā)者對其構(gòu)建特定的全文搜索應用，普通用戶是很難直接使用它的。Lucene 具有以下優(yōu)點：(1)跨平臺適用性。Lucene 生成的索引文件以8位字節(jié)為基礎(chǔ)，明顯的，這是能夠在兼不同平臺下使用的，CPU 的起源是8位字節(jié)的，后期才逐漸擴展到16字節(jié)，但仍然能兼容8位字節(jié)。 (2)索引優(yōu)化。在對傳統(tǒng)倒排索引應用的基礎(chǔ)上，Lucene 實現(xiàn)了分塊索引機制，能夠面向新的文件構(gòu)建小文件索引，從而提升索引速度。另外Lucene 支持增量索引，即可以只為新插入的數(shù)據(jù)創(chuàng)建索引文件，然后與原有索引進行合并，同樣提升了索引速度。（3) 易學習。Lucene 是一款基于Java 的優(yōu)秀的面向?qū)ο蟮南到y(tǒng)架構(gòu)，因而對于Lucene 擴展的學習難度較低，開發(fā)人員可以十分方便地擴充新功能。（4) 獨立的文本分析接口。Lucene 內(nèi)置了一套獨立于語言和文件格式的文本分析接口。用戶只需要實

《下一代互聯(lián)網(wǎng)技術(shù) 》試卷卷第 7 頁共 15 頁

現(xiàn)對文本分析的接口，就能實現(xiàn)對特定語言和文件格式的文本分析。簡而言之，不同的語言都可以用Lucence 進行文本分析，只要相應地寫好接口

(5)提供檢索工具包。Lucene 本身提供了一套強大的查詢引擎，用戶可以直接方便地使用。Lucene 提供的查詢功能實現(xiàn)了布爾操作、模糊查詢(Fuzzy Search), 分組查詢等等。

基于網(wǎng)絡爬蟲的網(wǎng)站信息采集技術(shù)有個案例，針對百度百家網(wǎng)站，直接獲取某個作者的文章列表頁面。首先完成對WebClient 對象的初始化，這是訪問網(wǎng)頁的入口對象。接著選定Js 解析核心、禁用CSS 樣式、設置Ajax 控制器、設置超時時間、確定目標URL 。在觸發(fā)操作對象方面，采用DOM 技術(shù)，實現(xiàn)對事件觸發(fā)對象的定位。其次是明確觸發(fā)事件的類型。最后利用DOM 技術(shù)實現(xiàn)對目標結(jié)點的定位，實現(xiàn)對動態(tài)內(nèi)容的獲取。通過上述動作，即可完成對所有作者文章鏈接信息的采集。

基于爬蟲的Web 采集技術(shù)的研究現(xiàn)狀。目前，信息采集系統(tǒng)在國內(nèi)外已經(jīng)足夠多了，或開源，或商用，突出特點是面向整個Web 范圍來研究?？梢苑譃橐韵聨最悾夯谡麄€Web 的，它給定若干個種子URL 進行擴充，理論上可以到整個明網(wǎng)（相對于暗網(wǎng)而言）；面向主題的Web 信息采集；增量式采集，英文名是Incremental Web Crawling，特點是，在采集過后的一段時間，對這段內(nèi)容中發(fā)生變化的部分會再次采集，其他則不予理會；Customized Web Crawling，通過與用戶交互等手段，盡可能地滿足用戶多元化的信息需求。分布式信息采集，前文已敘述，在此不贅述。遷移的信息采集，將Web 采集器上傳至目標站點實現(xiàn)信息采集，再將采集結(jié)果回傳到本地。

基于漏洞管理平臺的聚焦爬蟲技術(shù)的理論基礎(chǔ)：漏洞管理平臺是按照當下用戶的需求，利用爬蟲功能從國內(nèi)外各大知名漏洞網(wǎng)站上爬取漏洞信息，并解析保存到本機，方便用戶的管理查看。那管理平臺的聚焦爬蟲技術(shù)，是由漏洞管理平臺項目根據(jù)項目的具體、特殊需求，借鑒當前國內(nèi)外前沿爬蟲技術(shù)，自主創(chuàng)新研發(fā)的一個新式爬蟲技術(shù)。

這個技術(shù)的方法可以從它的爬蟲接口窺探。它有爬蟲接口子模塊，提供調(diào)用爬蟲模塊的所有接口。它有以下三種功能：1. 設置更新爬蟲策略，設置信息存放路徑2. 啟動停止漏洞采集任務3. 查詢漏洞采集任務的狀態(tài)信息。配置文件解析子模塊，這是為了漏洞解析這一部分而服務的。它將每個網(wǎng)站的漏洞解析方式設置為一個XML 配置文件，簡化漏洞信息解析的編

《下一代互聯(lián)網(wǎng)技術(shù) 》試卷卷第 8 頁共 15 頁

碼量。這里的漏洞編碼是：CVEID ，即每一個漏洞信息的漏洞編碼，每一個CVEID 都和一條漏洞信息相對應，國內(nèi)外各大漏洞網(wǎng)站都采取了這種命名方式來發(fā)布每一條漏洞信息。網(wǎng)頁爬取子模塊，與普通的爬蟲技術(shù)并無二致。網(wǎng)頁解析子模塊，在對于漏洞信息，有一個特點，從NVD 和OSVDB 采樣，進行格式分析。URL 過濾去重子模塊，這與一般的過濾去重技術(shù)也大同小異。漏洞信息保存子模塊，以XML 格式保存，寫入文件時需要進行加密，畢竟這些信息比較敏感。

基于爬蟲技術(shù)的漏洞管理平臺，有一個案例。因為漏洞管理平臺是華為安全能力中心的涉密項目，對其中的具體技術(shù)暫不討論。這里提供一些測試結(jié)果進行講解。在網(wǎng)頁解析優(yōu)化前，新浪首頁的頁面大小是408/Kb，任務數(shù)量20，所有任務完成時間在優(yōu)化前是3.2min ，優(yōu)化后是2.7min 。網(wǎng)易首頁的頁面大小是369/Kb，任務數(shù)量20，所有任務完成時間在優(yōu)化前是3.0min ，優(yōu)化后是2.6min 。明顯可以看出域名檢索表方式優(yōu)化是有效的，這個漏洞管理平臺的聚焦爬蟲技術(shù)是可行的。

漏洞管理平臺的爬蟲聚焦技術(shù)的現(xiàn)狀是，爬蟲技術(shù)已經(jīng)漸漸成為人們檢索信息的工具，慢慢成為互聯(lián)網(wǎng)的入口和指南。這時候，用戶需求是不斷發(fā)展和豐富的過程，當然，也就有對漏洞信息的需求。聚焦爬蟲不追求大的覆蓋率，而將目標定為抓取某一特定主題內(nèi)容相關(guān)的網(wǎng)頁。當然，它有不足的地方，兩點：爬蟲效率瓶頸問題、URL 相關(guān)內(nèi)容改進問題。

云計算模式下的爬蟲技術(shù)的理論基礎(chǔ)其實與前面講的分布式爬蟲非常類似，它的特點不在于技術(shù)上的更新，而在于計算范圍是幾何級地擴張。分布式可以理解為系統(tǒng)，而云計算即是網(wǎng)絡。其中以Hadoop 為典型代表，它是Java 語言開發(fā)的作為云計算的開源平臺。

云計算爬蟲技術(shù)的方法可以以Hadoop 為例簡要講解。它是Apache 下面的一款分布式并行計算框架，依據(jù)HDFS 高容錯的特點，可以安置在便宜的硬件上。在Hadoop 框架中，負責計算的model 稱為Map/Reduce負責，HDFS 是Hadoop 的關(guān)鍵部分。HDFS 的特點在于其使得存儲便宜，譬如Google 在全球范圍進行云計算的爬蟲分布，每個服務中心每分鐘都可能燒壞一個硬件，此時硬件的成本一定不能太高。

云計算的案例之前在分布式爬蟲已以Google 為例講解，此不贅述。云計算式的爬蟲技術(shù)現(xiàn)狀：已在國內(nèi)各地逐步發(fā)展，在國內(nèi)，中國移動通信公司、百度公司、新浪公司都已經(jīng)搭建起以Hadoop 為框架的數(shù)據(jù)處理

《下一代互聯(lián)網(wǎng)技術(shù) 》試卷卷第 9 頁共 15 頁

平臺。云計算模式由于提供了平臺獨立性、可按需自助等功能，在2015年18屆智能下一代網(wǎng)絡的國際會議，云計算的一些提供商已經(jīng)開始把資源整合在一起。

空間網(wǎng)絡爬蟲的核心在于其根據(jù)地理空間研究的協(xié)議。這個協(xié)議可以使變換后的URL 發(fā)送到WFS 模塊。而WFS 模塊是記錄了檢索函數(shù)信息。例如，世界糧食首腦會議，GetCapability ，由這些關(guān)鍵字自動生成對應相關(guān)的URL 。當出現(xiàn)重復的GetCapability 信息。檢索時，不會再提取相關(guān)的URL 。基于爬蟲的語義智能履帶式算法：基于域名的URL 算法，估計網(wǎng)頁上鏈接的相關(guān)性，在找到頁面的相關(guān)性的過程中，繼續(xù)已確定內(nèi)容的爬行，達到平衡的最佳水平。例如，可以使用詞匯數(shù)據(jù)庫，是網(wǎng)絡爬蟲更準確和精準。還有一些更細的方法，我已在前文間斷地提及過。這樣的履帶式算法，是可以我們的爬蟲效率大大提高到。

網(wǎng)絡爬蟲技術(shù)有個關(guān)鍵問題：爬蟲效率。目前爬蟲效率的問題主要體現(xiàn)在：網(wǎng)絡的帶寬利用率低、爬蟲的模塊功能設計性較差。網(wǎng)絡的帶寬問題，一來隨著電信等網(wǎng)絡運營商的不斷發(fā)展，帶寬在可預見的將來是有望增加的，這時帶寬的利用率不再那么重要了，因為原本的帶寬已經(jīng)相當大了；二是可以采用并發(fā)工作流作為設計，以此盡可能充分地利用網(wǎng)絡帶寬資源。至于模塊功能的設計性較差，可以在網(wǎng)絡爬取模塊的工作流程上進行優(yōu)化，減少因任務等待而造成時間浪費，在網(wǎng)頁解析模塊進行優(yōu)化，減少重復采集工作。這些技術(shù)已經(jīng)發(fā)展得越來越成熟。

網(wǎng)絡爬蟲技術(shù)有一個尚未解決的難點：如何將不同的爬蟲系統(tǒng)，統(tǒng)一到一個爬蟲平臺。這樣的整合要使得它們的爬蟲效果有一加一大于二的效果。

這幾年，Internet ，尤其是互聯(lián)網(wǎng)，在令人難以想象的速度發(fā)展，以至于有些膾炙人口的句子：這是一個豬都會飛的時代。信息的增長何嘗不是讓人難以想象。越來越多人在互聯(lián)網(wǎng)上發(fā)布信息，發(fā)表自己的見解，也越來越多人需要找到有效的信息。而Web 是無結(jié)構(gòu)的、動態(tài)的，這是爬蟲技術(shù)發(fā)展的動力是巨大的。在如此巨大的動力推動下，加之目前所了解到爬蟲技術(shù)現(xiàn)狀，我相信，爬蟲技術(shù)還有相當大發(fā)展的空間。畢竟Google 在我寫這篇文章時，還沒有把每個IP 的location 可爬取技術(shù)公布出來。

4. 總結(jié)

我在這篇文章主要針對爬蟲的效率問題，講解了分布式爬蟲的相關(guān)技

《下一代互聯(lián)網(wǎng)技術(shù) 》試卷卷第 10 頁共 15 頁

成人AV在线无码|婷婷五月激情色,|伊人加勒比二三四区|国产一区激情都市|亚洲AV无码电影|日av韩av无码|天堂在线亚洲Av|无码一区二区影院|成人无码毛片AV|超碰在线看中文字幕

相關(guān)推薦