成人AV在线无码|婷婷五月激情色,|伊人加勒比二三四区|国产一区激情都市|亚洲AV无码电影|日av韩av无码|天堂在线亚洲Av|无码一区二区影院|成人无码毛片AV|超碰在线看中文字幕

網(wǎng)頁(yè)作弊與反作弊技術(shù)綜述_李智超

第46卷 第5期V o. l 46 N o. 5山 東 大 學(xué) 學(xué) 報(bào) (理 學(xué) 版)Journal of Shandong U niversity(N atural Science)2011年5月M

第46卷 第5期

V o. l 46 N o. 5

山 東 大 學(xué) 學(xué) 報(bào) (理 學(xué) 版)

Journal of Shandong U niversity(N atural Science)

2011年5月

M ay 2011

文章編號(hào):1671 9352(2011) 05 0001 08

網(wǎng)頁(yè)作弊與反作弊技術(shù)綜述

李智超, 余慧佳, 劉奕群, 馬少平

(清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室, 北京100084)

摘要:隨著網(wǎng)絡(luò)信息爆炸式的增長(zhǎng), 搜索引擎成為人們首選的獲取信息的主要途徑。能否在搜索引擎的排名中占有比較靠前的位置, 將在一定程度上決定網(wǎng)頁(yè)的訪問量。一些網(wǎng)站并不是通過提高網(wǎng)頁(yè)質(zhì)量來提高其在搜索引擎中的排名, 而是根據(jù)搜索引擎自身的特點(diǎn), 采用欺騙手段來提高排名, 這就是網(wǎng)頁(yè)作弊。網(wǎng)頁(yè)作弊是搜索引擎面臨的重大挑戰(zhàn)之一。本文將結(jié)合常見的網(wǎng)頁(yè)作弊的方法, 闡述當(dāng)前已經(jīng)存在的比較有效的反作弊技術(shù)。關(guān)鍵詞:網(wǎng)頁(yè)作弊; 反作弊; 搜索引擎中圖分類號(hào):TP391 3 文獻(xiàn)標(biāo)志碼:A

A s urvey of web spa m and anti spa m techni ques

L I Zhi chao , YU H u i jia , L IU Y i qun , M A Shao p i n g

(S t a te K ey L ab o f In telligent T echno l o gy and Sy ste m s , T si nghua U n i v ersity , B eiji ng 100084, C hina)

Ab stract :W ith the inc rease o fW eb i nform ati o n , search eng i nes hav e becom e the pr i nci pa l approach to i nfo r m a tion re triev a. l T he acce ssi ng o f a pag e is basicall y dec i ded by its ranki ng in search eng i ne s . Som e site s boo st t he ir page rank i ng w it hout i m pro v i ng the qua lit y o f the pages , but deceive the search eng i nes acco rd i ng to its charac teristi c , w hich is ca lled W eb Spa m. W eb spam is one o f t he cha llenge s o f search eng i nes . V ali d an ti spa m techniques are presented w ith an i n tro ducti on o f comm on W eb spam.

K ey w ords :w eb spam; an ti s pa m; sea rch eng i ne

[1]

, 由于動(dòng)態(tài)網(wǎng)

0 引言

互聯(lián)網(wǎng)在最近的十幾年間得到了飛速的發(fā)展, 網(wǎng)絡(luò)上的信息也成爆炸式的增長(zhǎng), 我國(guó)域名總數(shù)量

已經(jīng)超過了1121萬個(gè), 截至2010年6月, 域名注冊(cè)者在我國(guó)境內(nèi)的網(wǎng)站數(shù)目為279萬

頁(yè)的廣泛使用以及W eb2 0的普及, 真實(shí)的網(wǎng)頁(yè)數(shù)目更是難以估算。在如此眾多的網(wǎng)頁(yè)中查找所需要的信息, 搜索引擎(search eng i n e) 成為了人們的首選。搜索引擎也是發(fā)現(xiàn)新網(wǎng)站的主要途徑。我國(guó)4 2億網(wǎng)民中有76 3聲稱搜索引擎是他們經(jīng)常使用的網(wǎng)絡(luò)服務(wù)

[1]

在對(duì)大規(guī)模的搜索引擎用戶日志(user l o g ) 的

分析之后, 發(fā)現(xiàn)85的搜索引擎用戶只查看返回結(jié)果的第1頁(yè)的內(nèi)容, 也就是排名在前10名的頁(yè)面。所以為了能夠得到更高的點(diǎn)擊率, 獲得更高的商業(yè)利潤(rùn), 網(wǎng)站要盡可能使自己的頁(yè)面排在搜索引擎返回結(jié)果中更靠前的位置。

常規(guī)的提高頁(yè)面排名的做法就是努力提高頁(yè)面的質(zhì)量, 使頁(yè)面中的內(nèi)容更為用戶所需要, 與用戶的查詢更相關(guān)。但是有些網(wǎng)站試圖通過其他不正當(dāng)?shù)姆椒▉懋a(chǎn)生同樣的效果, 這就產(chǎn)生了網(wǎng)頁(yè)作弊(w eb spa m ) 。Z. G yongy i 和H. G arc ia M o li n a 給出了網(wǎng)頁(yè)作弊的定義:相對(duì)于網(wǎng)頁(yè)本身的實(shí)際價(jià)值來講, 使得網(wǎng)頁(yè)獲得不公正的查詢相關(guān)性和重要性的行

[4]

[2 3]

。

收稿日期:2011 01 10; 網(wǎng)絡(luò)出版時(shí)間:2011 05 0412 02網(wǎng)絡(luò)出版地址:http ://www.cnk. i net/kc m s/detail/37.1389. N . 20110504. 1202. 001. h t m l

基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(60736044, 60903107); 高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金項(xiàng)目(20090002120005); 國(guó)家重點(diǎn)基礎(chǔ)研究

(973) 項(xiàng)目(2004CB318108); 國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃) 項(xiàng)目(2006AA01Z141)

:(), 男, , , . Ema i :l liz @s ohu. co m

,

2

山 東 大 學(xué) 學(xué) 報(bào) (理 學(xué) 版) 第46卷

為就是作弊, 這樣的網(wǎng)頁(yè)被稱為作弊網(wǎng)頁(yè)(spa m pag e) 。通常一般的網(wǎng)站很難通過自身的力量來實(shí)現(xiàn)頁(yè)面作弊, 因而一種被稱為搜索引擎優(yōu)化(search eng i n e opti m izers , SEO ) 的產(chǎn)業(yè)應(yīng)運(yùn)而生。SE O 專門幫助商業(yè)網(wǎng)站來提高網(wǎng)頁(yè)的排名, 然而大部分SEO 并不是通過建立良好的網(wǎng)頁(yè)結(jié)構(gòu)和提高頁(yè)面內(nèi)容質(zhì)量等方法來實(shí)現(xiàn)網(wǎng)頁(yè)價(jià)值的提高, 而是通過作弊的手段來提高頁(yè)面排名。隨著W eb2 0的發(fā)展, 互聯(lián)網(wǎng)上的作弊手段更加豐富。W eb2 0使得用戶能夠更方便地對(duì)互聯(lián)網(wǎng)上的內(nèi)容添加社會(huì)標(biāo)簽(soc i a l book m arking ), 這也就使得通過對(duì)網(wǎng)頁(yè)添加不相關(guān)的標(biāo)簽而使網(wǎng)頁(yè)獲得更高的排名這種作弊手

[5 6]

段(so cia l spa m ) 變得更加方便。

作弊網(wǎng)頁(yè)的存在不但降低了搜索引擎的搜索性能, 將許多不相關(guān)的結(jié)果返回給用戶, 降低了用戶搜索引擎的信任度, 而且還使搜索引擎索引了大量無用頁(yè)面, 增加索引的空間開銷和查詢的時(shí)間開銷, 降低了搜索引擎的效率

[4]

是頁(yè)面本身的重要性, 網(wǎng)頁(yè)重要性的計(jì)算使用的是基于鏈接的Page Rank 算法和H I TS 算法, 通常情況下, 若一個(gè)頁(yè)面有越多的其他網(wǎng)頁(yè)鏈向它, 它就會(huì)獲得更高的重要性評(píng)分。作弊網(wǎng)頁(yè)會(huì)針對(duì)搜索引擎計(jì)算排序評(píng)分的算法特點(diǎn), 對(duì)自身內(nèi)容和鏈接關(guān)系進(jìn)行不正當(dāng)?shù)臉?gòu)造, 以提升自己在搜索引擎中的排序。

如果說采用提高評(píng)分的作弊方法是針對(duì)搜索引擎排序策略的欺騙, 那么采用隱藏技術(shù)的作弊方法就是欺騙搜索引擎的抓取模塊(爬蟲cra w l e r), 它使得作弊頁(yè)面能夠被搜索引擎作為正常頁(yè)面進(jìn)行抓取和索引。下面將針對(duì)各種作弊手段進(jìn)行更詳細(xì)的探討。1 1 基于內(nèi)容的作弊技術(shù)

基于內(nèi)容的作弊的主要目的在于提高搜索引擎計(jì)算網(wǎng)頁(yè)得到的相關(guān)性評(píng)分。作弊網(wǎng)頁(yè)往往在頁(yè)面中添加一些熱門的查詢?cè)~, 使得頁(yè)面能夠在用戶進(jìn)行熱門詞查詢時(shí)被檢索到, 并且獲得較高的相關(guān)性評(píng)分, 從而達(dá)到提升頁(yè)面排名的目的, 即便是頁(yè)面內(nèi)容和檢索的熱門詞之間沒有任何關(guān)系。這些熱門詞匯將分布在網(wǎng)頁(yè)的各個(gè)不同的域里面, 比如在標(biāo)題域(title) 中, 這樣更能提高頁(yè)面和熱門詞的相關(guān)性。此外, 熱門詞還可能被填充到m eta 標(biāo)簽中、錨文本中、URL 中以及社會(huì)標(biāo)簽中。有的頁(yè)面甚至將整個(gè)詞典級(jí)別的詞語集合全都放入頁(yè)面中, 使得頁(yè)面能夠被任意查詢檢索到

[4]

[11]

[12]

。通過抽樣研究發(fā)現(xiàn), 互聯(lián)

網(wǎng)上大約有10~15的頁(yè)面是作弊頁(yè)面, 這也

使反作弊(an ti spa m ) 成為了現(xiàn)代搜索引擎所面臨的重大挑戰(zhàn)之一

[7]

[10]

[4]

。

1 網(wǎng)頁(yè)作弊技術(shù)

作弊網(wǎng)頁(yè)為了使自己排在搜索引擎返回結(jié)果的前面, 通常根據(jù)搜索引擎的技術(shù)特點(diǎn), 修改頁(yè)面本身內(nèi)容或者頁(yè)面之間的鏈接結(jié)構(gòu), 來實(shí)現(xiàn)頁(yè)面評(píng)分的內(nèi)容排在搜索引擎結(jié)果列表中本不屬于它的位置。Z. G yongy i 和H. Garcia M o lina 將網(wǎng)頁(yè)作

[4]

弊技術(shù)分為兩大類, 如圖1所示。

[4, 7 9]

。有的網(wǎng)頁(yè)并不是將熱門

詞填充到頁(yè)面中, 而是引用一段內(nèi)容豐富的文章, 提

高頁(yè)面內(nèi)容的質(zhì)量, 從而達(dá)到提高排名的目的。

[4]

提高。還有的網(wǎng)頁(yè)通過隱藏技術(shù)間接地將實(shí)際頁(yè)面

有時(shí)候?yàn)榱四軌蜻_(dá)到將作弊頁(yè)面真正呈現(xiàn)在用戶眼前的效果, 頁(yè)面將會(huì)對(duì)填充到頁(yè)面中的熱門詞和大段無關(guān)的內(nèi)容進(jìn)行處理, 使用戶看不到這部分內(nèi)容, 而只是對(duì)搜索引擎進(jìn)行索引時(shí)起作用。比如將熱門詞的字體設(shè)成很小, 或者將其顏色設(shè)置成和背景顏色相同等。或者將實(shí)際要呈現(xiàn)在用戶眼前的內(nèi)容做成ifra m e 的形式, 躲避搜索引擎的過濾。

基于頁(yè)面內(nèi)容的作弊技術(shù)是成本最低的作弊方法, 也是比較容易識(shí)別的一類作弊方法。1 2 基于鏈接關(guān)系的作弊技術(shù)

作弊頁(yè)面通過構(gòu)建鏈接關(guān)系來誤導(dǎo)Page R ank

圖1 網(wǎng)頁(yè)作弊技術(shù)分類F ig . 1 W eb spa m taxonom y

算法和H I TS 算法, 從而提高自身的重要性評(píng)分。由于在整個(gè)網(wǎng)絡(luò)環(huán)境中, 頁(yè)面的Pag e Rank 值的分布

不均衡, Page Rank 算法也是易受攻擊的, Page R ank 值稍有提高, 就會(huì)使頁(yè)面排名得到較為顯著的提升

[13]

提高評(píng)分的作弊方法主要針對(duì)搜索引擎在進(jìn)行排序時(shí)對(duì)網(wǎng)頁(yè)進(jìn)行的評(píng)分, 這個(gè)評(píng)分主要來自于兩個(gè)方面的因素:一方面是網(wǎng)頁(yè)和查詢的相關(guān)性, 通常使用BM 25概率模型計(jì)算

, 網(wǎng)頁(yè)中含有查詢?cè)~數(shù)

, ; 。Z. Gyongy i 等給出了基于鏈接關(guān)系進(jìn)行作

如下:

弊的主要手段

(t):

,

第5期李智超, 等:網(wǎng)頁(yè)作弊與反作弊技術(shù)綜述

3

些提供有用資源的網(wǎng)頁(yè), 像蜜罐一樣吸引其他頁(yè)面鏈向它們, 然后它們?cè)冁溝蚰繕?biāo)作弊頁(yè)面, 從而間接提高目標(biāo)作弊頁(yè)面的Page Rank 值。蜜罐頁(yè)面為了能夠吸引鏈接, 會(huì)將指向目標(biāo)作弊頁(yè)面的鏈接進(jìn)行隱藏。

滲入網(wǎng)頁(yè)目錄(w eb directo ry ):一些具有很高Page R ank 值和hub 值的W eb 分類目錄允許網(wǎng)站所有者將其網(wǎng)站提交到目錄中的某個(gè)主題下。作弊者可以將帶有目標(biāo)作弊頁(yè)面鏈接的網(wǎng)頁(yè)提交到目錄中, 從而提高目標(biāo)作弊頁(yè)面的Page Rank 值和au tho rity 值。

張貼留言鏈接:在博客(B l o g ) 、信息板、訪客留言板或者w i k i 等網(wǎng)絡(luò)平臺(tái)上, 網(wǎng)絡(luò)使用者都可在上面張貼信息。作弊者可以在他們所張貼出的評(píng)論和信息中加入指向目標(biāo)作弊頁(yè)面的鏈接, 以提高目標(biāo)作弊頁(yè)面的Pag e Rank 值。為了能夠大量地張貼鏈接, 作弊者往往采用機(jī)器自動(dòng)添加的方法, 這樣也造成了評(píng)論和主題內(nèi)容偏離的現(xiàn)象

作弊鏈接交換:作弊者和作弊者之間為了提高

(B r ow ser) 發(fā)送不同內(nèi)容, 比如含有賭博、色情等內(nèi)容的無意義的頁(yè)面, 這些內(nèi)容和用戶查詢完全不相關(guān)。這種同一頁(yè)面給搜索引擎爬蟲和給用戶瀏覽器端發(fā)送不同內(nèi)容的方法被稱為掩蓋技術(shù)。

作弊者之所以能夠完成掩蓋技術(shù)作弊, 是因?yàn)樽鞅拙W(wǎng)站能夠比較容易地識(shí)別訪問它的客戶端是不是一個(gè)搜索引擎的抓取模塊。一方面, 作弊者可以維護(hù)一個(gè)搜索引擎抓取時(shí)使用的I P 地址列表, 并通過I P 地址匹配來識(shí)別; 另一方面, 可以通過HTTP 請(qǐng)求消息中的用戶代理域來進(jìn)行識(shí)別

[17]

。

并不是所有的使用了掩蓋技術(shù)的頁(yè)面都是作弊頁(yè)面, 一些頁(yè)面在發(fā)送給搜索引擎爬蟲的內(nèi)容中去掉了一部分廣告信息和鏈接信息, 而主要的內(nèi)容和發(fā)送給用戶瀏覽器的一樣, 從而使得搜索引擎在進(jìn)行索引時(shí)的負(fù)荷減輕, 這是搜索引擎所能夠接受的。B aoning W u 等人將所有的掩蓋技術(shù)稱為語法層掩蓋技術(shù)(syntactic cloak i n g ), 將真正影響了搜索引擎工作的掩蓋技術(shù)稱為語義層掩蓋技術(shù)(se m antic cloa king)

[18]

各自頁(yè)面的重要性, 通常會(huì)進(jìn)行合作, 令在各自的頁(yè)面中添加指向?qū)Ψ巾?yè)面的鏈接, 從而達(dá)到 互利 的

目的。

購(gòu)買過期域名:站點(diǎn)域名過期時(shí), 鏈向它的其他可以購(gòu)買過期域名, 然后安排給自己的作弊網(wǎng)頁(yè), 利用陳舊鏈接來獲得較高的Page Rank 值。

構(gòu)造鏈接工廠(li n k far m ):作弊者通常將大量的作弊頁(yè)面組織在一起, 通過鏈接關(guān)系精心設(shè)計(jì)一個(gè)相互鏈接的復(fù)雜的結(jié)構(gòu), 再利用滲透網(wǎng)頁(yè)目錄或

站點(diǎn)很難在第一時(shí)間將鏈接信息進(jìn)行更新。作弊者

者張貼留言鏈接等手段將外部鏈接鏈入結(jié)構(gòu)中的某些頁(yè)面, 從而使結(jié)構(gòu)中的所有作弊頁(yè)面都會(huì)得到一個(gè)相對(duì)較高的Pag e Rank 值。這樣的結(jié)構(gòu)被稱為鏈接工廠

[15]

[14]

。

。研究表明在搜索引擎對(duì)熱門詞的檢索結(jié)果

[18]

中, 排名靠前的頁(yè)面有3~9使用了掩蓋技術(shù)1 4 重定向技術(shù)

重定向(red irection) 技術(shù), 指的是當(dāng)用戶瀏覽器加載一個(gè)URL 之后, 將會(huì)跳轉(zhuǎn)到另外一個(gè)URL 所指向的頁(yè)面。頁(yè)面的跳轉(zhuǎn)可以通過3種方式來實(shí)現(xiàn)

[19]

:

(1) 使用H TTP 狀態(tài)碼:瀏覽器在接收到HT

TP 請(qǐng)求后, 將會(huì)根據(jù)HTTP 狀態(tài)碼進(jìn)行響應(yīng), 當(dāng)狀態(tài)碼為302、303、307時(shí)將會(huì)發(fā)生跳轉(zhuǎn);

(2) 使用M ETA 域刷新:當(dāng)頁(yè)面的m e ta 域中(3) 使用JavaScript 腳:JavaScri p t 是可以鑲嵌在網(wǎng)頁(yè)中的腳本語言, 通過簡(jiǎn)單的語句就能使頁(yè)面發(fā)生跳轉(zhuǎn)。但是, 大多數(shù)重定向作弊頁(yè)面中會(huì)使用非常復(fù)雜的方法來掩飾跳轉(zhuǎn)語句, 例如編碼解碼、H TM L 標(biāo)簽重構(gòu)等

[19]

出現(xiàn)refresh 標(biāo)簽時(shí), 頁(yè)面將會(huì)發(fā)生跳轉(zhuǎn);

。

二級(jí)域名作弊:作弊者利用了具有相同二級(jí)域名的大量域名, 它們的最低一級(jí)域名是隨機(jī)生成的, 這些域名的頁(yè)面要么互相有鏈接指向, 要么指向同一個(gè)目標(biāo)作弊頁(yè)面, 從而提高自身或目標(biāo)作弊頁(yè)面的Page R ank 值1 3 掩蓋技術(shù)

作弊網(wǎng)頁(yè)采用掩蓋(C l o ak i n g ) 技術(shù)來欺騙搜索引擎的爬蟲, 在搜索引擎要進(jìn)行抓取的時(shí)候, 作弊頁(yè)面向搜索引擎發(fā)送一個(gè)包含有用資源的高質(zhì)量頁(yè)面, 從而使搜索引擎認(rèn)為它是一個(gè)有價(jià)值的頁(yè)面, 并且在用戶進(jìn)行查詢時(shí), 將其排在比較靠前的位置, 但[16]

。

頁(yè)面的重定向技術(shù)可以用于廣告頁(yè)面的輪換、論壇發(fā)表文章之后跳轉(zhuǎn)等方面, 但是網(wǎng)頁(yè)作弊者則利用這項(xiàng)技術(shù)進(jìn)行網(wǎng)頁(yè)作弊。由于搜索引擎很難將頁(yè)面重定向之后的內(nèi)容抓取下來, 所以作弊者可以將URL 對(duì)應(yīng)的原始頁(yè)面做成一個(gè)含有有用資源的頁(yè)面, 令搜索引擎對(duì)其索引, 然后在用戶點(diǎn)擊URL 之后, 通過m eta 域刷新或者JavaScript 腳本跳轉(zhuǎn)到其他頁(yè)面, 實(shí)現(xiàn)作弊。K. Chellap illa 等人的研究表明在熱門的URL 中有大約0 35使用了JavaScri p t [19]

,

4

山 東 大 學(xué) 學(xué) 報(bào) (理 學(xué) 版) 第46卷

作弊網(wǎng)頁(yè)通常不會(huì)只包含一種作弊技術(shù), 而是將各種作弊技術(shù)相結(jié)合, 以得到最佳的欺騙搜索引擎的效果。

特征的基礎(chǔ)上增加了更多的特征來進(jìn)行作弊頁(yè)面的識(shí)別, 其中包括錨文本的數(shù)量、頁(yè)面中含有熱門詞匯的數(shù)量等。此外他們還融合了一些非頁(yè)面內(nèi)容的特征, 比如頁(yè)面最近一次被更新的時(shí)間、頁(yè)面鏈接中已經(jīng)失效的鏈接比例、頁(yè)面中有用信息所占的比例、頁(yè)面制造者的名聲、鏈向該頁(yè)面的鏈接數(shù)量、頁(yè)面內(nèi)容專注于單一話題的程度等。在綜合多個(gè)特征之后, 文中使用learning to rank 的方法對(duì)頁(yè)面進(jìn)行作弊程度的排序, 而并非使用分類的形式將作弊頁(yè)面抽取出來。

D. Fetterly 等

[9]

2 作弊頁(yè)面識(shí)別技術(shù)

通過對(duì)網(wǎng)頁(yè)作弊技術(shù)的研究, 一些反作弊技術(shù)也逐漸發(fā)展起來。針對(duì)各種作弊技術(shù), 大都有了相應(yīng)的識(shí)別方法。但是作弊技術(shù)多種多樣, 針對(duì)作弊技術(shù)進(jìn)行識(shí)別的方法并不能夠滿足搜索引擎的需求, 所以近年來一些并非針對(duì)特定類別作弊技術(shù)的作弊頁(yè)面識(shí)別算法得到了很大的發(fā)展。2 1 特定類別的作弊頁(yè)面識(shí)別技術(shù)2 1 1 基于內(nèi)容作弊頁(yè)面的識(shí)別

基于內(nèi)容的作弊方法是針對(duì)頁(yè)面文本域的各部分區(qū)域進(jìn)行關(guān)鍵詞填充等, 因此識(shí)別這類作弊頁(yè)面的方法主要是通過挖掘作弊頁(yè)面不同于正常頁(yè)面的特征來進(jìn)行識(shí)別。

A. N t o ulas 等提出了一種基于內(nèi)容的作弊頁(yè)面

[20]

識(shí)別方法, 并給出了很多特征分析結(jié)果。他們通過M SNB o t 的爬蟲在2004年8月期間抓取105484446個(gè)真實(shí)網(wǎng)絡(luò)頁(yè)面組成數(shù)據(jù)集。對(duì)數(shù)據(jù)集中的約55000000個(gè)英文頁(yè)面進(jìn)行了抽樣標(biāo)注, 在17168個(gè)抽樣頁(yè)面中共有2364個(gè)作弊頁(yè)面, 比例為13 8。文獻(xiàn)[20]中給出了一些易于計(jì)算的頁(yè)

用兩個(gè)獨(dú)立收集的數(shù)據(jù)集進(jìn)行

實(shí)驗(yàn), 并著重分析了一些特征的規(guī)律分布圖上出現(xiàn)

的特殊噪聲點(diǎn), 提出了另外一些有用的特征, 如URL 屬性, 即作者發(fā)現(xiàn)含有很多字符、圓點(diǎn)、破折號(hào)和數(shù)字的主機(jī)名字更像是作弊站點(diǎn); 映射到同一IP 地址的不同主機(jī)數(shù)目超過一定閾值后就很可能是作弊站點(diǎn); 在一個(gè)給定站點(diǎn)上的頁(yè)面變化率, 那些每周頁(yè)面幾乎完全變化的站點(diǎn)基本都是作弊站點(diǎn)。Fetterl y 等還介紹了針對(duì)短語級(jí)別作弊的識(shí)別算法等。

我們對(duì)中文網(wǎng)頁(yè)中作弊頁(yè)面進(jìn)行了頁(yè)面內(nèi)容的特征提取和分析。在對(duì)10000個(gè)UR l 頁(yè)面中的作弊頁(yè)面和非作弊頁(yè)面進(jìn)行分析之后, 發(fā)現(xiàn)網(wǎng)頁(yè)的內(nèi)容壓縮比、標(biāo)題長(zhǎng)度、標(biāo)題詞語在正文中出現(xiàn)的比例、m eta 標(biāo)簽的長(zhǎng)度等內(nèi)容特征在中文作弊頁(yè)面的識(shí)別中也有一定區(qū)分度。圖2中給出了中文頁(yè)面中標(biāo)題長(zhǎng)度和作弊頁(yè)面分布之間的關(guān)系。圖中橫坐標(biāo)為標(biāo)題長(zhǎng)度, 柱狀圖為含有對(duì)應(yīng)標(biāo)題長(zhǎng)度的頁(yè)面在

[22]

面內(nèi)容特征, 其中包括標(biāo)題長(zhǎng)度、詞語的平均長(zhǎng)度、可見內(nèi)容的比例、內(nèi)容壓縮比等。標(biāo)題長(zhǎng)度:作弊者會(huì)將關(guān)鍵詞堆砌到標(biāo)題域中, 所以那些標(biāo)題很長(zhǎng)的頁(yè)面大部分是作弊頁(yè)面。詞語的平均長(zhǎng)度:很多英文頁(yè)面中會(huì)存在將一些詞合成起來作為新詞的作弊現(xiàn)象, 如freebook 等等, 以滿足和更多的查詢?cè)~相關(guān)。分析后發(fā)現(xiàn), 如果頁(yè)面的平均詞語長(zhǎng)度(字母數(shù)) 很長(zhǎng), 那就很可能是作弊頁(yè)面??梢妰?nèi)容的比例:這是針對(duì)內(nèi)容隱藏作弊情況考察的, 但這類作弊頁(yè)面識(shí)別較容易, 現(xiàn)有的搜索引擎已基本解決。內(nèi)容壓縮比:將文本通過GZ IP 算法進(jìn)行壓縮, 壓縮前的文本大小除以壓縮后的文本大小即為壓縮比。這個(gè)特征主要是針對(duì)重復(fù)部分熱門關(guān)鍵詞的作弊手法, 壓縮比越高說明文檔中詞語重復(fù)度越高, 是作弊頁(yè)面的可能性就越大。最后, 作者選了一些區(qū)分度比較明顯的特征對(duì)標(biāo)注的數(shù)據(jù)集通過C4 5進(jìn)行了10次交叉驗(yàn)證, 結(jié)果是對(duì)作弊頁(yè)面的識(shí)別有82 1的查全率和84 2的精確度, 非作弊頁(yè)面的識(shí)別召回率為97 5, 精確度為97 1, 比作弊頁(yè)面稍高。

[21]

W. W ang 等在A. N to ulas 等所提出的頁(yè)面

中文頁(yè)面中的比例Ratio1, 曲線表示含有對(duì)應(yīng)標(biāo)題長(zhǎng)度的頁(yè)面中作弊頁(yè)面的比例Rati o 2。從圖中可以看出在不同標(biāo)題長(zhǎng)度的頁(yè)面中, 作弊頁(yè)面的分布有明顯的不同, 通過機(jī)器學(xué)習(xí)的方法能夠有效識(shí)別這一類作弊頁(yè)面?;趦?nèi)容作弊的頁(yè)面比較容易識(shí)別, 這是由于內(nèi)容作弊的針對(duì)性強(qiáng), 而且這類作弊僅僅依靠自身的變化, 從而使得特征的發(fā)現(xiàn)和提取都易于實(shí)現(xiàn)。

圖2 中文頁(yè)面中標(biāo)題長(zhǎng)度的分布和作弊頁(yè)面所占比例`

F i g. 2 T he d istr i bution o f title leng t h o f Ch i nese w eb page

and t rti on o f w eb 品

,

第5期李智超, 等:網(wǎng)頁(yè)作弊與反作弊技術(shù)綜述

5

2 1 2 基于鏈接作弊頁(yè)面的識(shí)別

相比于較容易的基于內(nèi)容作弊的頁(yè)面識(shí)別, 基于鏈接關(guān)系作弊的識(shí)別則相對(duì)困難, 研究者們提出了多種方法來識(shí)別鏈接工廠、消弱作弊頁(yè)面的Rank 值等。

Trust R ank 是由Z. G y o ng y i 等人提出的一個(gè)反

[23]

鏈接作弊的算法, 它可以算作Page Rank 的改進(jìn)版本。這個(gè)算法的核心思想是認(rèn)為優(yōu)質(zhì)頁(yè)面將鏈向優(yōu)質(zhì)頁(yè)面, 而很少會(huì)鏈向作弊頁(yè)面。作者先在眾多的頁(yè)面中挑選出一部分種子頁(yè)面, 通過人工選擇, 得到一個(gè)優(yōu)質(zhì)頁(yè)面的集合。對(duì)于這些頁(yè)面, 賦一個(gè)T r ust R ank 的初始值, 然后在整個(gè)頁(yè)面集合中進(jìn)行迭代, 迭代的過程和Page R ank 算法類似, 如下:

t = T t (1- ) d,

其中t 為頁(yè)面的Trust R ank 值, 為衰減因子, T 為鄰接矩陣, d 為頁(yè)面初始的T rust R ank 值, 對(duì)優(yōu)質(zhì)頁(yè)面而言這個(gè)值是一個(gè)正數(shù), 而對(duì)非優(yōu)質(zhì)頁(yè)面, 這個(gè)值為0。經(jīng)過若干次迭代后, 優(yōu)質(zhì)頁(yè)面的Trust R ank 值將會(huì)通過鏈接關(guān)系傳遞給它所指向的頁(yè)面, 這樣被優(yōu)質(zhì)頁(yè)面所鏈接的頁(yè)面也將會(huì)得到較高的Trus trank 值。最終認(rèn)為T rust R ank 值高的頁(yè)面不是基于鏈接的作弊頁(yè)面, 那么它們可以被搜索引擎作為結(jié)進(jìn)行排名比通過Page R ank 進(jìn)行排名的作弊頁(yè)面的位置明顯靠后。T rust R ank 算法雖然不能直接識(shí)別出作弊頁(yè)面, 但是能夠通過降低作弊頁(yè)面排名的方式來提高搜索引擎的檢索性能。

*

*

*

相關(guān)性, 通過對(duì)原帖和張貼內(nèi)容在語言模型上的分析比較, 來判斷他們之間的相關(guān)性, 根據(jù)相關(guān)性就可以識(shí)別作弊鏈接, 從而識(shí)別作弊頁(yè)面。但通常在博客上張貼的內(nèi)容比較簡(jiǎn)短, 單單比較這部分內(nèi)容的語言模型, 不容易得出很高的識(shí)別率, 所以文中跟蹤了張貼的鏈接, 將鏈接指向的內(nèi)容也進(jìn)行語言模型的分析。如果張貼的語言模型和原帖的有很大不同, 那么就認(rèn)為這是機(jī)器自動(dòng)張貼的作弊內(nèi)容。這個(gè)算法可以得到83的準(zhǔn)確率。判斷博客上的作弊鏈接的主要的困難還是在于在原帖內(nèi)容較短時(shí), 對(duì)語言模型的估計(jì)存在偏差, 況且博客中本身存在主題漂移的現(xiàn)象, 這都對(duì)作弊鏈接的識(shí)別產(chǎn)生影響。J . M arti n ez Rom o 等

[26]

也給出了類似的語言模型的

算法, 并且還綜合考慮了鏈接錨文本、URL 、頁(yè)面標(biāo)題等之間的KL 距離、以及鏈接為站內(nèi)鏈接還是站外鏈接等因素, 能夠使準(zhǔn)確率達(dá)到87。

A. A. B encz r 等人從檢索的角度給出了一個(gè)識(shí)別鏈接作弊的方法

[27]

果頁(yè)面返回給用戶。實(shí)驗(yàn)結(jié)果表明, 通過T r ust R ank

另一種思路和T r ust R ank 的思想相對(duì), 即認(rèn)為鏈向作弊頁(yè)面的頁(yè)面大多是作弊頁(yè)面。那么可以事先從網(wǎng)頁(yè)中人工選擇一個(gè)作弊網(wǎng)頁(yè)集合, 對(duì)這些頁(yè)面賦一個(gè)表征作弊可能性的值, 可以稱為 作弊度 , 然后通過鏈入作弊網(wǎng)頁(yè)的鏈接, 將這個(gè) 作弊度 迭代傳播給鏈向作弊頁(yè)面的網(wǎng)頁(yè), 這個(gè)迭代過程也與Page R ank 算法類似。經(jīng)過迭代之后, 作弊度 高的頁(yè)面將被認(rèn)為是基于鏈接的作弊頁(yè)面。有很多研究者運(yùn)用這個(gè)思路設(shè)計(jì)了作弊頁(yè)面識(shí)別算法, 由A. A. B encz r 等人在2005年提出的Spa m R ank 算法

[24]

就是其中之一。在Spa mR ank 算法作

用下, 作弊度 較高的頁(yè)面有將近90的是作弊頁(yè)面。V. K rishnan 等人在2006年也提出了類似的A nti Trust Rank 算法。

對(duì)在博客上張貼鏈接而形成的鏈接作弊, G. M ishne 等人給出了一個(gè)基于語言模型的識(shí)別方法

[14]

[25]

。他認(rèn)為在博客上張貼的作弊鏈接大多是機(jī)

。文中先構(gòu)造一個(gè)頁(yè)面集合,

然后對(duì)頁(yè)面集合中的部分頁(yè)面是否為作弊頁(yè)面進(jìn)行人工標(biāo)注。對(duì)于待判定的頁(yè)面, 計(jì)算它和頁(yè)面集合中每個(gè)頁(yè)面的相關(guān)性, 再根據(jù)相關(guān)性將集合中的頁(yè)面進(jìn)行排序。這個(gè)相關(guān)性主要是指鏈接的相關(guān)性,

兩個(gè)頁(yè)面同時(shí)被同一頁(yè)面所鏈接, 那么認(rèn)為這兩個(gè)頁(yè)面的鏈接相關(guān)性大于0, 這個(gè)相關(guān)性可以通過鏈接層數(shù)進(jìn)行迭代計(jì)算。在根據(jù)鏈接相關(guān)性排好序的頁(yè)面集合中, 如果排名靠前的頁(yè)面中被標(biāo)注為作弊的頁(yè)面居多, 則認(rèn)為待判定的頁(yè)面更可能是作弊頁(yè)面。實(shí)驗(yàn)表明最好的結(jié)果可以在75的查全率時(shí)得到90左右的準(zhǔn)確率。

各種識(shí)別基于連接作弊的方法, 都是針對(duì)互聯(lián)網(wǎng)中頁(yè)面之間的復(fù)雜鏈接關(guān)系, 而且大都是建立在 物以類聚 這樣一個(gè)基本假設(shè)上, 也就是認(rèn)為產(chǎn)生基于鏈接作弊的主要原因是有大多數(shù)頁(yè)面鏈向作弊頁(yè)面, 而這些提供出鏈接的頁(yè)面也大多是作弊頁(yè)面, 因?yàn)檎m?yè)面沒有理由去鏈向作弊頁(yè)面。然而作弊者最核心的作弊方法就是產(chǎn)生正常頁(yè)面鏈向作弊頁(yè)面的鏈接, 這在前面一章中已經(jīng)提到過。識(shí)別由正常頁(yè)面鏈向作弊頁(yè)面的鏈接應(yīng)當(dāng)是識(shí)別鏈接作弊的重點(diǎn)所在, 同時(shí)也是難點(diǎn)所在。圖3中被標(biāo)記為SL 的鏈接就是一個(gè)正常頁(yè)面鏈向作弊頁(yè)面的鏈接。從圖中可以發(fā)現(xiàn)T rust R ank 值可以通過SL 從節(jié)點(diǎn)4傳遞給節(jié)點(diǎn)5, 從而使得節(jié)點(diǎn)6, 7, 8都獲得T rus t R ank 值, Spa mRank 也可能會(huì)認(rèn)為節(jié)點(diǎn)4為作弊網(wǎng)頁(yè)。又由于節(jié)點(diǎn)3和節(jié)點(diǎn)5同時(shí)被節(jié)點(diǎn)4鏈接, 也, 從 出

,

6

山 東 大 學(xué) 學(xué) 報(bào) (理 學(xué) 版) 第46卷

這也是各種算法都很難得到非常高的準(zhǔn)確率的主要原因。如果能夠識(shí)別SL 鏈接, 將會(huì)很大程度地提高鏈接作弊的識(shí)別率。H . Y u 等

[28]

容相同, 則認(rèn)為該URL 沒有使用掩蓋作弊技術(shù)的可能, 便直接認(rèn)定為非作弊頁(yè)面。然后對(duì)兩個(gè)版本不同的URL, 再抓取C2和B2, 進(jìn)行掩蓋技術(shù)作弊的判別。在判別上, K. Chellap illa 等人將NBC 和NCC 的差的評(píng)價(jià)指標(biāo)進(jìn)行了歸一化, 因?yàn)橹苯邮褂肗BC 和NCC 的差對(duì)于頁(yè)面長(zhǎng)度較長(zhǎng)的URL 來說, 更容易被劃分為作弊頁(yè)面, 導(dǎo)致誤判, 歸一化之后則不存在這個(gè)問題。他們?cè)趯?shí)驗(yàn)中得到最好的結(jié)果可以在100查全率下得到98 54的準(zhǔn)確率。

到目前為止, 識(shí)別掩蓋作弊的主要方法中, 都需要對(duì)每個(gè)URL 抓取兩個(gè)版本的內(nèi)容, 如果直接應(yīng)用到實(shí)際系統(tǒng)中, 搜索引擎爬蟲的效率將會(huì)大大下降, 而真正使用了掩蓋作弊的頁(yè)面最多也不到10

[18]

通過用戶瀏覽

行為將這樣的鏈接最大程度地進(jìn)行了去除。文中在構(gòu)造鏈接關(guān)系圖的時(shí)候, 只選取了被用戶點(diǎn)擊過的

鏈接, 因?yàn)橛脩粢话悴粫?huì)從一個(gè)正常頁(yè)面點(diǎn)擊進(jìn)入一個(gè)作弊頁(yè)面, 這樣SL 鏈接將會(huì)很少出現(xiàn)在鏈接關(guān)系圖中, 在這樣構(gòu)造的鏈接關(guān)系圖中使用T rust R ank 算法, 就能夠有效地找出作弊頁(yè)面。文中使用站點(diǎn)級(jí)別數(shù)據(jù)進(jìn)行實(shí)驗(yàn), 在用戶瀏覽鏈接關(guān)系圖中使用T rust R ank 算法得到的Trust R ank 值最低的100個(gè)站點(diǎn)中, 有89個(gè)站點(diǎn)為作弊站點(diǎn)或低質(zhì)量站點(diǎn)。

。所以如何根據(jù)爬蟲抓取的網(wǎng)頁(yè)的自身特

征來首先排除大部分不可能使用掩蓋作弊的頁(yè)面, 將是提高識(shí)別掩蓋作弊效率的重要手段。

2 1 4 重定向作弊頁(yè)面的識(shí)別

B aon i n g W u 和B. D. D av ison

[18]

圖3 互聯(lián)網(wǎng)鏈接結(jié)構(gòu), 其中黑色節(jié)點(diǎn)為作弊網(wǎng)頁(yè),

白色節(jié)點(diǎn)為正常頁(yè)面

F i g. 3 L i nk structure o f w eb , i n w h i ch b l ack nodes are

spa m page s w hil e w h ite ones are regular

2 1 3 掩蓋作弊頁(yè)面的識(shí)別

[18]

對(duì)于掩蓋作弊的頁(yè)面, B aon i n g W u 在2005年給出了一種檢測(cè)方法。他建立了兩個(gè)不同的網(wǎng)

頁(yè)抓取程序, 一個(gè)模擬G oo g le 搜索引擎爬蟲, 另一個(gè)模擬Interne t E xplorer 瀏覽器。用兩個(gè)程序?qū)ν?/p>

一個(gè)URL 分別進(jìn)行兩次抓取, 得到4個(gè)版本的頁(yè)面內(nèi)容, 分別記作C 1, C 2, B1, B 2。通過比較各個(gè)版本之間的區(qū)別, 來判斷對(duì)應(yīng)的URL 是否使用了掩蓋技術(shù)。如果模擬爬蟲抓到的內(nèi)容和模擬瀏覽器抓到的內(nèi)容差別比較大, 就認(rèn)為頁(yè)面可能使用了掩蓋技術(shù)進(jìn)行作弊。定義C1和C2兩個(gè)版本之間的差異度為NCC, C 1和B 1兩個(gè)版本之間的差異度為NBC, 這個(gè)差異度可以認(rèn)為是兩個(gè)版本之間存在不同的詞語的數(shù)目或者是不同的鏈接的數(shù)目。NBC 與NCC 的差則更能表征頁(yè)面使用掩蓋技術(shù)的可能性。根據(jù)這個(gè)假設(shè), 對(duì)23475個(gè)URL 進(jìn)行語法層掩蓋技術(shù)作弊的判斷, F 值最高可以達(dá)到0 891。

2006年, K. Chellap illa 等人對(duì)B aon i n g W u 的方案進(jìn)行了改進(jìn)。他們并沒有盲目地對(duì)每一個(gè)URL 抓取4個(gè)版本的內(nèi)容, 而是先使用模擬搜索引擎爬蟲和模擬w eb 瀏覽器分別抓取1次, 得到C 1和, , [17]

鳥 鵬

在對(duì)重定向作

弊頁(yè)面進(jìn)行抽樣分析時(shí), 指出95的在m eta 域中含有refresh 標(biāo)簽的頁(yè)面都會(huì)發(fā)生頁(yè)面的跳轉(zhuǎn), 剩余5的頁(yè)面的refresh 標(biāo)簽位于NO SCRIPT 域中, 不產(chǎn)生跳轉(zhuǎn)。但是作者在抽樣時(shí)只抽取了20個(gè)帶有

refresh 標(biāo)簽的頁(yè)面, 并不能很好地說明根據(jù)re fresh 標(biāo)簽判斷重定向作弊具有很好的性能。況且有的頁(yè)面本身也使用refre sh 標(biāo)簽來進(jìn)行正常的網(wǎng)頁(yè)刷新, 這并不能算作是作弊行為。

K. Che llap ill a 等提出了一個(gè)收集基于Java

[19]

Scri p t 跳轉(zhuǎn)作弊頁(yè)面的方法, 可以用來進(jìn)行JavaScri p t 重定向作弊的識(shí)別。他們使用了一個(gè)帶有JavaScript 解析功能的爬蟲和一個(gè)不帶JavaScri p t 解析功能的爬蟲分別對(duì)同一個(gè)URL 進(jìn)行抓取。有解析功能的爬蟲將會(huì)跟蹤頁(yè)面中的JavaScript 語句, 抓取最終跳轉(zhuǎn)到的頁(yè)面及其URL, 判斷這個(gè)URL 和初始URL 的異同, 如果相同, 則不存在JavaScri p t 作弊, 否則判斷這個(gè)URL 和原始URL 是否在同一域名下。因?yàn)槿绻麅蒛RL 在同一域名下, 可能是論壇內(nèi)部跳轉(zhuǎn), 并不是重定向作弊, 但如果不是同一域名下的URL, 那么這個(gè)頁(yè)面將被認(rèn)定為JavaScri p t 重定向作弊頁(yè)面。

2 2 非特定類別的作弊頁(yè)面識(shí)別技術(shù)

下面要介紹的作弊識(shí)別技術(shù)中并不是針對(duì)特定的某類作弊技術(shù), 而是通過其他角度來進(jìn)行識(shí)別。傳統(tǒng)的針對(duì)作弊技術(shù)的識(shí)別方法都依賴于作弊技術(shù)本身, 需要等作弊技術(shù)被搜索引擎發(fā)現(xiàn)并認(rèn)知之后, 出

,

第5期李智超, 等:網(wǎng)頁(yè)作弊與反作弊技術(shù)綜述

7

進(jìn)行識(shí)別。而非特定類別的作弊頁(yè)面識(shí)別技術(shù)則能夠克服傳統(tǒng)方法中的這個(gè)問題, 而且能夠應(yīng)對(duì)各種類型的作弊技術(shù), 即使是新出現(xiàn)的作弊類型也能夠有效地進(jìn)行識(shí)別。

2 2 1 基于用戶行為的作弊識(shí)別技術(shù)

Y. L iu 等

[29]

以上兩類作弊頁(yè)面的識(shí)別技術(shù)都是從作弊頁(yè)面的作用結(jié)果出發(fā)來進(jìn)行識(shí)別的, 從作弊頁(yè)面的成因出發(fā)不同, 所以它能夠更高效地進(jìn)行工作, 這也是未來作弊頁(yè)面識(shí)別技術(shù)發(fā)展的主要方向之一。

認(rèn)為作弊網(wǎng)頁(yè)的用戶訪問大多數(shù)

3 結(jié)論

目前, 網(wǎng)頁(yè)作弊已經(jīng)成為了網(wǎng)絡(luò)搜索引擎所面臨的重大挑戰(zhàn)之一。作弊者通過使用各種各樣的網(wǎng)頁(yè)作弊手段, 使自己的頁(yè)面獲得本不屬于它們的高排名, 以不正當(dāng)?shù)男袨楂@得經(jīng)濟(jì)利益。這些作弊方法主要包括基于內(nèi)容的作弊、基于鏈接關(guān)系的作弊、掩蓋技術(shù)作弊和重定向技術(shù)作弊等, 實(shí)際網(wǎng)頁(yè)中更是將各種作弊技術(shù)相結(jié)合, 增加了搜索引擎識(shí)別作弊頁(yè)面的困難。研究人員不但從作弊技術(shù)的成因出發(fā), 針對(duì)每一種作弊技術(shù)都展開了研究, 而且從作弊產(chǎn)生的作用結(jié)果出發(fā), 從用戶行為、作弊目的等方面也進(jìn)行反作弊的研究, 并取得了一定的成果。

但是在反作弊的征途中, 依然有很多的困難擺在眼前。首先, 由于作弊頁(yè)面通常不僅僅使用一種作弊技術(shù), 所以現(xiàn)有的研究成果大都準(zhǔn)確率并不高。其次, 由于在復(fù)雜性和效率上存在問題, 很難在實(shí)際的搜索引擎系統(tǒng)中得到應(yīng)用。但也正是這樣那樣的困難推動(dòng)著搜索引擎技術(shù)的不斷進(jìn)步。

參考文獻(xiàn):

都是由搜索引擎所引導(dǎo)的?;谶@樣的假設(shè), 文中使用用戶瀏覽日志, 抽取用戶訪問行為的一些特征, 來進(jìn)行作弊頁(yè)面的識(shí)別。其中包括:(1) 搜索引擎引導(dǎo)訪問率:即由搜索引擎引導(dǎo)到頁(yè)面的訪問次數(shù)與頁(yè)面被用戶總的訪問次數(shù)之比。通過統(tǒng)計(jì), 82的正常網(wǎng)頁(yè)從搜索引擎獲得的訪問比例不到10, 然而大約有60的作弊頁(yè)面從檢索結(jié)果列表中獲得的引導(dǎo)訪問比例超過了40。(2) 鏈接源比例:在日志中頁(yè)面作為鏈接源被用戶點(diǎn)擊到其他頁(yè)面的次數(shù)占頁(yè)面被訪問次數(shù)的比例。用戶通常不會(huì)在作弊頁(yè)面上點(diǎn)擊鏈接, 所以作弊頁(yè)面的鏈接源比例會(huì)比較小。(3) 少次數(shù)引導(dǎo)比例:用戶在一次會(huì)話中訪問站點(diǎn)中頁(yè)面數(shù)量小于N 的比例。用戶在瀏覽到作弊站點(diǎn)之后, 通常不會(huì)再在作弊站點(diǎn)中瀏覽其他的頁(yè)面, 所以一次會(huì)話中瀏覽站點(diǎn)頁(yè)面數(shù)都會(huì)比較少。

在使用這些特征對(duì)頁(yè)面進(jìn)行分類之后發(fā)現(xiàn), 在被分類為作弊頁(yè)面的300個(gè)頁(yè)面中, 有21 67的

頁(yè)面為基于內(nèi)容的作弊頁(yè)面, 23 33的頁(yè)面為基于

鏈接的作弊頁(yè)面, 10 67的頁(yè)面為其他類型的作弊頁(yè)面, 只有6的頁(yè)面是非作弊頁(yè)面。這說明基于準(zhǔn)確率, 還能應(yīng)對(duì)各種類型的作弊頁(yè)面。2 2. 2 基于作弊目的的作弊識(shí)別技術(shù)

余慧佳等認(rèn)為無論對(duì)于那一種作弊方法, 作弊的目的都是為了獲取經(jīng)濟(jì)利益, 雖然作弊者能夠更新作弊技術(shù)以應(yīng)對(duì)搜索引擎反作弊技術(shù), 但是作弊者生成作弊頁(yè)面的目的卻基本不會(huì)發(fā)生變化, 一般只有如下幾類:第一, 廣告類, 這類作弊主要是為了引導(dǎo)用戶去點(diǎn)擊廣告, 從而獲取代理商處的利益, 廣告類作弊主要有JavaScript 嵌入的列表型、視頻類和廣告聯(lián)盟等形式; 第二, 增值服務(wù)類, 這一類

[30 31]

用戶行為的作弊頁(yè)面識(shí)別技術(shù)不但能夠達(dá)到很高的

作弊主要目的是給用戶提供一些收費(fèi)的服務(wù)從而獲取利益; 第三, 博客類, 主要通過發(fā)布鏈接等行為為其他站點(diǎn)提供流量或進(jìn)行廣告。余慧佳等

[31]

過了對(duì)頁(yè)面中廣告在頁(yè)面中所占的比例、已經(jīng)非法查詢?cè)~引導(dǎo)比例等特征對(duì)廣告類作弊和一些非法宣傳類作弊頁(yè)面進(jìn)行了識(shí)別, 識(shí)別的準(zhǔn)確率超過了鳥

還通

1 9.

[1]中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNN IC ). 第26次中國(guó)互聯(lián)網(wǎng)

絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R ].北京:CN N I , 2010.

[2]SILV E R ST EIN C, HEN Z I NG ER M , M ARA IS H, et a. l

A naly sis o f a v ery l arge w eb search eng i ne query l o g [J].ACM SI G IR F o ru m, 1999, 33(1) :6 12.

[3]余慧佳, 劉奕群, 張敏, 等. 基于大規(guī)模日志分析的搜索

引擎用戶行為分析[J].中文信息學(xué)報(bào), 2007, 21(1):109 115.

[4]G YONG Y I Z, GARC I A M O L INA H. W eb spam tax ono

m y [C ]//AI RW eb 05. Ch i ba ,

,

8

山 東 大 學(xué) 學(xué) 報(bào) (理 學(xué) 版) 第46卷

Chall enges in w eb search eng i nes [J].ACM SI G I R Fo ru m, 2002, 36(2):11 22.

[8]SAHAM I M , M ITTA L V, BA LU J A S , et a. l T he happy

searcher :chall eng es i n w eb i nfo r m ati on retriev a l [C ]//P ro ceeding s o f 8th Pacif i c R i m Interna tional C onference on A rtif i c ial Inte lli g ence . V erlag , 2004, 3157:3 12.

[9]FET TERLY D, M AN A SSE M , N A J O RK M.

Spam,

da m n s pa m, and statistics[C ]//P ro ceeding s o f the 7th Interna ti ona lW o rks hop on t he W eb and D ataba ses . N e w Y ork :ACM Press , 2004:1 6.

[10]BAEZA YA TES R, R IBE I RO NETO B . M odern info r

m ati on re trieva l[M].L ondon :A dd is on W esl ey, 1999. [11]PAG E L, BR I N S , M O TW A N I R, e t a. l T he PageR ank

c itati on rank i ng :br i ng i ng o rder t o the w eb [R ].Stan ford :D epart m en t o f C om pute r Sc i ence , Stanfo rd U n i v er sity, 1998.

[12]K LE I N BE RG J . A ut ho rita tive s o urces i n a hyper li nked

env iron m ent [J].Jo urnal o f t he A C M , 1999, 46(5):604 632.

[13]BA EZA YA TES R, CA ST I L LO C, LO PEZ V. Pag er

標(biāo)簽: