網(wǎng)站影響力的定量評(píng)價(jià)指標(biāo)_網(wǎng)絡(luò)影響因子述評(píng)
第24卷第8期2006年8月情 報(bào) 科 學(xué)V ol. 24,N o. 8August ,2006?綜 述?網(wǎng)站影響力的定量評(píng)價(jià)指標(biāo)———網(wǎng)絡(luò)影響因子述評(píng)朱 雷(中南大學(xué)醫(yī)學(xué)圖書(shū)館, 湖南長(zhǎng)沙4100
第24卷第8期2006年8月
情 報(bào) 科 學(xué)
V ol. 24,N o. 8
August ,2006
?綜 述?
網(wǎng)站影響力的定量評(píng)價(jià)指標(biāo)———網(wǎng)絡(luò)影響因子述評(píng)
朱 雷
(中南大學(xué)醫(yī)學(xué)圖書(shū)館, 湖南長(zhǎng)沙410078)
摘 要:本文將對(duì)網(wǎng)絡(luò)影響因子(WIFs ) 論。從網(wǎng)絡(luò)計(jì)量學(xué)誕生到現(xiàn)在, , 據(jù)搜索技術(shù)也不斷提高。目前WIFs 。。此外本文關(guān)鍵詞:Internet ; ; WIF G :A 文章編號(hào):100727634(2006) 0821269206
Web Impact F actors :the I ndex of Q uantitative Analysis for WEB Site
ZHU Lei
(Medical Library o f Centeral South Univer sity , Changsha 410078, China )
Abstract :This paper reviews how this linkbased metric has been developed , enhanced and applied. N ot only has the metric itself underg one im provement but als o the relevant data collection techniques have been en 2hanced. WIFs have als o been validated by significant correlations with traditional research measures. Biblio 2metric techniques have been further applied to the Web and patterns that might have otherwise been ignored have been found from hyperlinks. This paper concludes with s ome suggestions for future research. K ey w ords :internet ; webometric studies ; hyperlinks ; web im pact factors ; WIF
揭示其數(shù)量特征和內(nèi)在規(guī)律的一門新興分支學(xué)科。
1 網(wǎng)絡(luò)影響因子的起源及其概念
20世紀(jì)90年代中期, 隨著Internet 網(wǎng)絡(luò)技術(shù)飛
111 網(wǎng)絡(luò)影響因子的研究基礎(chǔ)
11111 鏈接分析
速發(fā)展, 紙質(zhì)印刷型等傳統(tǒng)信息資源向數(shù)字化、網(wǎng)絡(luò)化方向發(fā)展的進(jìn)程不斷加快, 使用原有的信息計(jì)量方法已不能夠滿足對(duì)電子和網(wǎng)絡(luò)信息進(jìn)行測(cè)度和計(jì)量的需要, 這就促成了新的網(wǎng)絡(luò)計(jì)量學(xué)的誕生。網(wǎng)絡(luò)計(jì)量學(xué)是應(yīng)用文獻(xiàn)計(jì)量學(xué)、科學(xué)計(jì)量學(xué)及信息技術(shù), 對(duì)網(wǎng)上信息的組織、存儲(chǔ)、分布、傳遞、相互引證和開(kāi)發(fā)利用等進(jìn)行定量描述和統(tǒng)計(jì)分析, 以
收稿日期:2005-10-20
鏈接分析法是網(wǎng)絡(luò)計(jì)量學(xué)研究方法的具體應(yīng)用, 近年來(lái)對(duì)Internet 上網(wǎng)站之間相互鏈接分析的研究呈不斷上升趨勢(shì)。鏈接分析研究的意義在于:
(1) 通過(guò)分析站點(diǎn)被其他站點(diǎn)“引用”的情況, 也就是對(duì)其它站點(diǎn)指向某站點(diǎn)的鏈接數(shù)量進(jìn)行統(tǒng)計(jì)分析, 可以幫助確定核心站點(diǎn)。
(2) 為網(wǎng)絡(luò)信息資源的評(píng)價(jià)提供依據(jù)??梢酝?/p>
作者簡(jiǎn)介:朱 雷(1973-) , 男, 湖北宜昌人, 中南大學(xué)醫(yī)學(xué)圖書(shū)館館員,
中南大學(xué)公共衛(wèi)生學(xué)院社會(huì)醫(yī)學(xué)與衛(wèi)生
事業(yè)管理博士生, 從事網(wǎng)絡(luò)數(shù)據(jù)庫(kù)開(kāi)發(fā)、應(yīng)用, 網(wǎng)絡(luò)計(jì)量學(xué)研究.
,1270情 報(bào) 科 學(xué) 24卷
子的測(cè)度進(jìn)行了研究。他選取的研究對(duì)象是澳大利
亞的大學(xué)網(wǎng)站和電子期刊網(wǎng)站, 并把研究結(jié)果與傳統(tǒng)的研究方法得出的結(jié)果進(jìn)行了對(duì)比。他采用的計(jì)算方法與IngWemen 類似, 得出的結(jié)論是:大學(xué)或者研究機(jī)構(gòu)的網(wǎng)絡(luò)影響因子是評(píng)價(jià)其網(wǎng)絡(luò)影響力的一個(gè)有用指標(biāo)。Vaughan 和Thelwall 對(duì)電子期刊
【11】
網(wǎng)站, T ang 和Thelwall 對(duì)科研學(xué)術(shù)網(wǎng)站的網(wǎng)絡(luò)影響因子進(jìn)行了研究, 。這一結(jié)果表、學(xué)術(shù)im 研究了學(xué)者個(gè)人學(xué), 他位學(xué)者, 這些學(xué)者所在網(wǎng)上發(fā)表的學(xué)術(shù)性論文都存在被外部鏈接的情況, 研究結(jié)果表明上述網(wǎng)頁(yè)與普通網(wǎng)頁(yè)的網(wǎng)絡(luò)影響因子具有一致性, 即內(nèi)容豐富、信息更新、更快、可利用價(jià)值高的網(wǎng)頁(yè)的網(wǎng)絡(luò)影響因子越高, 網(wǎng)絡(luò)影響力就越大。1999
【13】
年, Owen Thomas 和Peter Willett 對(duì)英國(guó)大學(xué)圖書(shū)情報(bào)系網(wǎng)站的網(wǎng)絡(luò)影響因子做了分析。他們發(fā)現(xiàn)鏈接到圖書(shū)情報(bào)學(xué)系網(wǎng)站的網(wǎng)頁(yè)中有很多是來(lái)自非圖書(shū)情報(bào)主題的網(wǎng)頁(yè)甚至是商業(yè)性的網(wǎng)頁(yè)。他們認(rèn)為:鏈接分析的數(shù)據(jù)不適合用于對(duì)圖書(shū)情報(bào)系的研究能力進(jìn)行定量研究。
實(shí)際上AltaVista 搜索引擎統(tǒng)計(jì)出的鏈接數(shù)是那些至少包含一個(gè)指向被鏈接網(wǎng)站的網(wǎng)頁(yè)。
【14】
Egghe 指出網(wǎng)頁(yè)鏈接可能是雙向的(網(wǎng)頁(yè)可以相互鏈接而不論它們出現(xiàn)在網(wǎng)絡(luò)上的先后順序) , 但引用卻是單方向的, 引用的常見(jiàn)情況應(yīng)該是后出現(xiàn)的網(wǎng)頁(yè)鏈接較早出現(xiàn)的網(wǎng)頁(yè)。然而在網(wǎng)絡(luò)上也可能出現(xiàn)這種情況, 即網(wǎng)頁(yè)的制作者相互交換鏈接。同時(shí)WIF 與J IF 的時(shí)效性也是不相同的, J IF 計(jì)算的時(shí)間段是指期刊已經(jīng)出版后的一段時(shí)間內(nèi)其他作者對(duì)期刊論文的引用, 而WIF 計(jì)算的是某一時(shí)間點(diǎn), 即搜索引擎在網(wǎng)上爬行的極小時(shí)間段。與期刊內(nèi)容相比較, 網(wǎng)頁(yè)的內(nèi)容缺乏同行的評(píng)審, 所以缺乏質(zhì)量控制, 因此WIF
與J IF 相比較還是存在較大的區(qū)別。早期WIF 計(jì)算被認(rèn)為是網(wǎng)絡(luò)計(jì)量學(xué)的一個(gè)粗
【13、15-17】
略統(tǒng)計(jì)工具。首先, 因特網(wǎng)上的鏈接與其說(shuō)是對(duì)感興趣的網(wǎng)頁(yè)內(nèi)容的認(rèn)可, 不如說(shuō)其僅僅只起到了網(wǎng)絡(luò)導(dǎo)航的作用。Web 站點(diǎn)包含的網(wǎng)頁(yè)越多, 其內(nèi)部鏈接量也就越大。所以說(shuō)只有外部鏈接數(shù)才能真正代表對(duì)目標(biāo)網(wǎng)頁(yè)的引用, 才更具有計(jì)量學(xué)意義。然而區(qū)分內(nèi)、外部鏈接數(shù)并非容易之事, 例如, 英國(guó)的計(jì)算機(jī)信息學(xué)院(scit 1wlv 1ac 1uk ) 站
】
【10】
過(guò)計(jì)算網(wǎng)絡(luò)資源被檢索或引用的次數(shù)來(lái)測(cè)定網(wǎng)絡(luò)資源的重要性。
(3) 指導(dǎo)網(wǎng)站建設(shè)和網(wǎng)絡(luò)管理, 完善搜索引擎的功能。高度鏈接的站點(diǎn)被認(rèn)為是“核心站點(diǎn)”,
【1】
這樣就可以增加網(wǎng)站的知名度, 推動(dòng)網(wǎng)站建設(shè)。
(4) 根據(jù)鏈接深度分析結(jié)果, 使網(wǎng)絡(luò)機(jī)器人對(duì)不同類型的網(wǎng)絡(luò)進(jìn)行不同深度的搜索, 同時(shí)刪除無(wú)效鏈接, 以提高其檢索質(zhì)量。美國(guó)斯坦福大學(xué)的數(shù)學(xué)圖書(shū)館計(jì)劃開(kāi)發(fā)的G oogle 搜索引擎就可以通過(guò)對(duì)搜索到的網(wǎng)頁(yè)超鏈接進(jìn)行定量分析來(lái)對(duì)其搜索結(jié)果進(jìn)行排序。
11112 引文分析
要工具。在網(wǎng)絡(luò)環(huán)境下, 。信息科學(xué)家從1996, 并將超
【3-7】
?! ?12 網(wǎng)絡(luò)影響因子的產(chǎn)生
網(wǎng)絡(luò)影響因子是鏈接分析研究中的一個(gè)重要概念。它最早出現(xiàn)在Ing wersen 于1998年發(fā)表的《網(wǎng)絡(luò)影響因子的計(jì)量》一文中。他選擇了包括7個(gè)國(guó)家(英國(guó)、挪威、法國(guó)、丹麥、瑞典、芬蘭、日本) 域名、4個(gè)頂級(jí)域名(1Bov 、1orx 、1com 、1edu ) 和6個(gè)學(xué)術(shù)機(jī)構(gòu)域名的網(wǎng)站, 利用A1taVista 的高級(jí)檢索功能得到了各自的網(wǎng)站總網(wǎng)頁(yè)數(shù)和網(wǎng)頁(yè)鏈接數(shù), 在此基礎(chǔ)上Ingwersen 計(jì)算了各網(wǎng)站的網(wǎng)絡(luò)影響因子。
113 網(wǎng)絡(luò)影響因子的概念
從Ingwersen 的論文中可以得知網(wǎng)絡(luò)影響因子的概念是借鑒期刊影響因子的計(jì)算方法提出來(lái)的。它是指網(wǎng)絡(luò)空間中所有指向某網(wǎng)站的超鏈接總數(shù)除以該網(wǎng)站內(nèi)的所有頁(yè)面總數(shù), 在數(shù)學(xué)上可以用這樣的數(shù)學(xué)公式表示:在某一時(shí)間點(diǎn), 某個(gè)網(wǎng)址被其他網(wǎng)址和其自身所鏈接的網(wǎng)頁(yè)數(shù)目的邏輯和(a ) 除以該網(wǎng)址的所有網(wǎng)頁(yè)數(shù)(b ) , 即WIF =a Πb 。網(wǎng)絡(luò)影響因子還可以分為外部網(wǎng)絡(luò)影響因子(某個(gè)網(wǎng)址被其他網(wǎng)址所鏈接的網(wǎng)頁(yè)數(shù)目除以該網(wǎng)址的所有網(wǎng)頁(yè)數(shù)) 和內(nèi)部網(wǎng)絡(luò)影響因子(某個(gè)網(wǎng)址被其自身所鏈接的網(wǎng)頁(yè)數(shù)目除以該網(wǎng)址的所有網(wǎng)頁(yè)數(shù)) 。 114 早期網(wǎng)絡(luò)影響因子的實(shí)證測(cè)量
Alastair G 1Smith 在1998年10月對(duì)網(wǎng)絡(luò)影響因
【9】
【8】
【2】
,8期 網(wǎng)站影響力的定量評(píng)價(jià)指標(biāo)———網(wǎng)絡(luò)影響因子述評(píng)1271
點(diǎn)是w olverham pton (wlv 1ac 1uk ) 大學(xué)網(wǎng)站的下屬的子站點(diǎn), 那么從wlv 1ac 1uk 指向scit 1wlv 1ac 1uk 的鏈接應(yīng)該被認(rèn)為是外部鏈接還是內(nèi)部鏈接呢? 本文認(rèn)為作為同一所大學(xué)網(wǎng)站內(nèi)的鏈接, 其應(yīng)被看作內(nèi)部鏈接; 其次, 搜索引擎對(duì)鏈接數(shù)據(jù)的統(tǒng)計(jì)存在著固有的缺陷。如AltaVista 搜索引擎在1999年10月升
【17-18】
級(jí)以前其檢索結(jié)果相當(dāng)不穩(wěn)定, 對(duì)同一檢索目的不同的檢索表達(dá)式檢出的結(jié)果不同, 因此信息學(xué)家不得不設(shè)計(jì)多種測(cè)量方案以最大限度地減少這
【8、15】
種誤差; 第三, WIF 計(jì)算公式的分母是該網(wǎng)站所包含的網(wǎng)頁(yè)總數(shù), 而什么樣的內(nèi)容才能被當(dāng)作是一個(gè)網(wǎng)頁(yè)并沒(méi)有公認(rèn)的標(biāo)準(zhǔn), 是一個(gè)網(wǎng)頁(yè), 而作為幾個(gè)網(wǎng)頁(yè)進(jìn)行計(jì)算, , , , 那么其WIF 值為100, 100個(gè)頁(yè)面來(lái)顯示, 那么其WIF 值僅為1。這表明WIF 的結(jié)果將會(huì)因電子文檔在Web 網(wǎng)上出現(xiàn)方式的不同而具有很大的差異性。
檢索目的網(wǎng)站的總網(wǎng)頁(yè)數(shù)T
Altavista 的檢索表達(dá)式H ost :w w w 1csu
1edu 1cn
2 網(wǎng)絡(luò)影響因子計(jì)算公式數(shù)據(jù)的收集
為了對(duì)Web 站點(diǎn)網(wǎng)絡(luò)影響因子進(jìn)行計(jì)算分析, 那么首先要對(duì)Web 站點(diǎn)鏈接數(shù)量進(jìn)行統(tǒng)計(jì)。在網(wǎng)絡(luò)計(jì)量學(xué)研究中, 商業(yè)搜索引擎和專門的網(wǎng)絡(luò)爬行工具都被使用?! ?11 商業(yè)搜索引擎
, AltaVista (w w 2AllTheweb (w w w 1alltheweb 1com ) 大, 網(wǎng)頁(yè)數(shù)據(jù)庫(kù)及時(shí)動(dòng)態(tài)更新, 并且提供了對(duì)網(wǎng)站總網(wǎng)頁(yè)數(shù)及網(wǎng)站總鏈接數(shù)的檢索命令, 同時(shí)運(yùn)用布爾邏輯符對(duì)檢索命令進(jìn)行組配, 可得到某網(wǎng)站的內(nèi)、外部鏈接數(shù), 所以都被用于對(duì)鏈接量及網(wǎng)頁(yè)數(shù)
【8、15、20】
的計(jì)算。Altavista 和AllTheweb 搜索引擎的檢索表達(dá)式和網(wǎng)絡(luò)影響因子計(jì)算見(jiàn)下表(以w w w 1csu 1edu 1cn 網(wǎng)站為例) :
AllTheweb 的檢索表達(dá)式Must
include in the include in the include in the include in the include in the
表1 AltaVista 與AllTheweb 檢索表達(dá)式的比較
網(wǎng)站的總鏈接數(shù)L Link :w w w 1csu 1edu 1cn Must
網(wǎng)站的內(nèi)部鏈接數(shù)S S1:link:w w w 1csu 1edu 1cn AND host :w w w 1csu 1edu 1cn S2:host:w w w 1csu 1edu 1cn AND link :w w w 1csu 1edu 1cn
Must
host :
link to UR L AND NOT Must include http :ΠΠw w w 1csu 1edu 1cn in the
(host :AND
UR L
網(wǎng)站的外部鏈接數(shù)E E1:link:w w w 1csu 1edu 1cn AND
w w w 1csu 1edu 1cn E2:link:w w w 1csu 1edu 1cn AND
w w w 1csu 1edu 1cn link :ww w 1csu 1edu 1cn ) E3:link:w w w 1csu 1edu 1cn AND
w w w 1csu 1edu 1cn host :ww w 1csu 1edu 1cn )
NOT
(link :AND
NOT NOT
總網(wǎng)絡(luò)影響因子WIF 外部網(wǎng)絡(luò)影響因子WIFe 內(nèi)部網(wǎng)絡(luò)影響因子WIFs
【19】
L ΠT
(E1 E2 E3) Π3ΠT (S1 S2) Π2ΠT
L ΠT E ΠT S ΠT
如邱均平等利用A LLTheWeb 搜索引擎搜索42種工程類中文期刊網(wǎng)站的外部鏈接數(shù), 并計(jì)算
,1272
【20】
情 報(bào) 科 學(xué) 24卷
商業(yè)搜索引擎AltaVista 和專門的爬行器得出的結(jié)論
比較類似, AltaVista 也可以用作網(wǎng)絡(luò)影響因子測(cè)度的工具, 但是它們的適用范圍不同。A1taVista 更便于做探索性研究, 專門的爬行器在進(jìn)行驗(yàn)證性的研究方面要好一些。
專門的爬行工具的優(yōu)點(diǎn)在于它的檢索算法更科學(xué), 它可以通過(guò)參數(shù)設(shè)置統(tǒng)計(jì)某個(gè)單獨(dú)站點(diǎn)的鏈接
【32】
數(shù)據(jù), Web 其網(wǎng)絡(luò)影響因子。楊濤采用A LLTheWeb 搜索引擎對(duì)中國(guó)20所大學(xué)的鏈接進(jìn)行了統(tǒng)計(jì)分析, 指出盡管A LLTheWeb 搜索引擎在處理中文網(wǎng)站的能力上沒(méi)有處理英文網(wǎng)站那樣出色, 但是用來(lái)做網(wǎng)絡(luò)信息計(jì)量學(xué)的研究還是基本可行的。
G oogle 搜索引擎(w w w 1g oogle 1com ) 同樣具有高級(jí)檢索方法, 但它不具備AltaVista 和AllTheweb 對(duì)某一站點(diǎn)的鏈接數(shù)進(jìn)行檢索的功能, 它只能統(tǒng)計(jì)某一網(wǎng)頁(yè)的鏈接數(shù), 其次G oogle 的高級(jí)檢索雖然能限定在某一分類域名中, 但它不能準(zhǔn)確地區(qū)分內(nèi)外部鏈接。所以說(shuō)盡管G oogle 被認(rèn)為是使用最廣
【22】
泛的搜索引擎, 【23-24】
因此, 因?yàn)? 所以研究者在很多情況下沒(méi)有必要自己去開(kāi)發(fā)設(shè)計(jì)一種專門的爬行工具對(duì)整個(gè)Web 網(wǎng)或某個(gè)國(guó)家的Web 網(wǎng)進(jìn)行爬行分析。但商業(yè)搜索引擎也存在缺陷, 比如只對(duì)Web 網(wǎng)進(jìn)行了部分搜索, 統(tǒng)計(jì)出的值都是近似值, 檢索結(jié)果里有許多死鏈接, 其檢索結(jié)果在不同時(shí)間相差較大, 尤其是其檢索算法是保密的, 用戶在使用過(guò)程中無(wú)法對(duì)它進(jìn)行有效控制等, 因此其穩(wěn)定性和可靠性較【17、25-27】差, 所以使用商業(yè)搜索引擎檢索出的結(jié)果只是被認(rèn)為是定性分析, 而不能作準(zhǔn)確的定量分析
【28】
研究?;诖? Bar -Ilan 敦促信息學(xué)家設(shè)計(jì)專門的爬行工具以便獲得準(zhǔn)確的數(shù)據(jù)結(jié)果。 212 專門的爬行工具
設(shè)計(jì)出一種專門的爬行工具來(lái)克服商業(yè)搜索引擎的弊病:爬行器首先從一所大學(xué)的網(wǎng)站的主頁(yè)開(kāi)始, 分析網(wǎng)頁(yè)上全部的鏈接并下載所有來(lái)自同一站點(diǎn)的網(wǎng)頁(yè), 上述過(guò)程將反復(fù)進(jìn)行, 直到所有鏈接都被分析完成。該爬行工具能更加準(zhǔn)確地區(qū)分并排除來(lái)自網(wǎng)站內(nèi)部的重復(fù)頁(yè)面和該網(wǎng)站的鏡像站點(diǎn)(相同的網(wǎng)站內(nèi)容被存貯在不同的服務(wù)器上) 上相同的頁(yè)面。采用這種數(shù)據(jù)收集方法, 研究
Thelwall
【28-29】
【21】
311 對(duì)網(wǎng)絡(luò)影響因子計(jì)算公式分子的改進(jìn)盡管早期的WIF 分析并沒(méi)有什么非常有價(jià)值的成果, 但它開(kāi)創(chuàng)了網(wǎng)絡(luò)計(jì)量學(xué)一個(gè)新的研究領(lǐng)域。隨后信息學(xué)家在鏈接分析過(guò)程中發(fā)現(xiàn)內(nèi)部鏈接存在著種種不確定因素, 因此他們用外部鏈接量逐步取代了總鏈接量作為WIF 公式的分子。Smith 研究了澳大利亞的大學(xué)網(wǎng)站和電子期刊網(wǎng)站, 他就
【33】
將外部鏈接量作為WIF 的分子。Thelwall 利用專門的爬行器對(duì)英國(guó)6所大學(xué)網(wǎng)站的鏈接作了研究, 分子仍然是外部鏈接數(shù), 分母是網(wǎng)站的總網(wǎng)頁(yè)數(shù)?! ?12 對(duì)網(wǎng)絡(luò)影響因子計(jì)算公式分母的改進(jìn)利用了兩種工具———自己設(shè)計(jì)的爬行器和商業(yè)搜索引擎Alta 2Vista 對(duì)英國(guó)、澳大利亞、新西蘭的大學(xué)及中國(guó)臺(tái)
Alastair G Smith 和Mike Thelwall
【31】
【8】
灣大學(xué)之間的相互鏈接情況做了統(tǒng)計(jì), 分別得出了網(wǎng)絡(luò)影響因子的分子部分。對(duì)于分母部分, 也采用了兩種計(jì)算方法:一是網(wǎng)站所包含的網(wǎng)頁(yè)數(shù), 另一種為學(xué)校的研究人員數(shù), 采用學(xué)校的科研人員總數(shù)作為分母, WIF 的計(jì)算公式就變?yōu)?WIF =某大學(xué)網(wǎng)站的外部鏈接數(shù)Π該大學(xué)科研人員總數(shù)
。這是首次在WIF 研究中考慮到網(wǎng)絡(luò)以外的因素對(duì)網(wǎng)絡(luò)影響因子的作用, 這種改進(jìn)后的WIF 結(jié)果的相關(guān)性經(jīng)分析后被認(rèn)為是最好的, 而普通的用
【20】
AltaVista 計(jì)算出的WIF 相關(guān)性最差。楊濤從中國(guó)大陸20所大學(xué)網(wǎng)站的總鏈接數(shù)、站外鏈接數(shù)、教育網(wǎng)站外鏈接數(shù)入手, 比較總網(wǎng)絡(luò)影響因子、外部網(wǎng)絡(luò)影響因子、總科研網(wǎng)絡(luò)影響因子、科研網(wǎng)絡(luò)影響因子、教育網(wǎng)影響因子的效用。認(rèn)為在網(wǎng)絡(luò)影響
者能更準(zhǔn)確有效地計(jì)算網(wǎng)站的總網(wǎng)頁(yè)數(shù)及鏈接數(shù)。在搜索過(guò)程中, 爬行工具只搜索包含在網(wǎng)站索引中
【30】
的網(wǎng)頁(yè), 那些盡管被站外結(jié)點(diǎn)鏈接但沒(méi)有被自身站點(diǎn)主頁(yè)直接或間接鏈接的網(wǎng)頁(yè)將被排除在網(wǎng)站
【31】
總網(wǎng)頁(yè)數(shù)的范圍外。Smith 和Thelwall 比較了自己設(shè)計(jì)的爬行器和商業(yè)搜索引擎AltaVista , 他們認(rèn)為
,8期 網(wǎng)站影響力的定量評(píng)價(jià)指標(biāo)———網(wǎng)絡(luò)影響因子述評(píng)1273
因子的計(jì)量中, 以某大學(xué)的總科研人員數(shù)(即專任教師數(shù)、專職科研人員數(shù)、博士生數(shù)) 作為衡量某
【34】
網(wǎng)站的大小也是比較科學(xué)的。Thelwall 分析了10個(gè)不同域類之間的鏈接和96所英國(guó)大學(xué)網(wǎng)站的外部鏈接情況, 研究結(jié)果發(fā)現(xiàn)頂級(jí)域名為edu 、ac 1uk 、uk 、org 及外部網(wǎng)絡(luò)影響因子都與平均RAE
性的特點(diǎn), 但利用超鏈接分析對(duì)大范圍Web 網(wǎng)而
言, 確實(shí)能起到揭示某些規(guī)律性的作用。在對(duì)WIF 進(jìn)行改進(jìn)后, WIF 已經(jīng)被發(fā)現(xiàn)與網(wǎng)絡(luò)外的其它因素存在密切相關(guān)的特點(diǎn)。
網(wǎng)絡(luò)影響因子可以像傳統(tǒng)的影響因子用于對(duì)期刊、科學(xué)家、研究機(jī)構(gòu)等進(jìn)行評(píng)價(jià)一樣, 可以用于對(duì)網(wǎng)站進(jìn)行評(píng)價(jià)。一般說(shuō)來(lái), 網(wǎng)絡(luò)影響因子的值越高則該網(wǎng)站的價(jià)值就越大。, 站能, 每天都有成千上萬(wàn)的新。網(wǎng)絡(luò)影響因子的測(cè)度主要, 將它應(yīng)用到網(wǎng)絡(luò)結(jié)構(gòu)的分析上, 應(yīng)用其結(jié)果, 可以建立網(wǎng)絡(luò)導(dǎo)航圖。另外網(wǎng)絡(luò)影響因子的研究可以改進(jìn)網(wǎng)絡(luò)信息檢索工具的性能, 通過(guò)對(duì)網(wǎng)絡(luò)影響因子的研究使搜索引擎更加智能化, 使其只在重點(diǎn)區(qū)域爬行, 以提高檢準(zhǔn)率。
對(duì)于未來(lái)的信息學(xué)家而言, 網(wǎng)絡(luò)計(jì)量學(xué)不僅僅能在諸如頂級(jí)分類域名或某個(gè)國(guó)家這樣大范圍的Web 網(wǎng)絡(luò)中對(duì)網(wǎng)絡(luò)信息進(jìn)行規(guī)律性、特征性的研
指標(biāo)存在相關(guān)性。Smith 和Thelwall 利用AltaVis 2ta 、AllTheweb 以及專門的爬行工具對(duì)英國(guó)、澳大利亞、新西蘭的Web 空間及大學(xué)網(wǎng)站的鏈接作了統(tǒng)計(jì), 并且以大學(xué)科研人員數(shù)作為分母對(duì)WIF 進(jìn)行了計(jì)算。T ang 和Thelwall 也發(fā)現(xiàn)在中國(guó)內(nèi)地的大學(xué)網(wǎng)站的外部WIF 與大學(xué)排名存在相關(guān)性?! ?13 息, 。Thelwall 經(jīng)研究認(rèn)為, 接的網(wǎng)頁(yè)之間的鏈接數(shù)比那些只有單向鏈接的鏈接數(shù)在鏈接統(tǒng)計(jì)分析中更具可靠性。
【36】
【35】
【20】
4 引用在網(wǎng)絡(luò)影響因子和期刊影響因子中的差異
超鏈接可被看作是文獻(xiàn)計(jì)量學(xué)研究中的論文相互引證的類似概念。論文之間的引用被認(rèn)為是評(píng)估學(xué)術(shù)水平的一個(gè)指標(biāo), 例如某一期刊的某篇論文被其他期刊的兩篇論文引用, 或者這篇論文的同一部分被另一種期刊的兩篇論文所引用, 那么該論文的被引次數(shù)為兩次, 但是一篇論文的多個(gè)章節(jié)都被另一篇論文所引用, 這篇論文的被引次數(shù)仍然為一次。對(duì)于Web 網(wǎng)上的鏈接而言, 網(wǎng)頁(yè)是不同于期刊頁(yè)面的另一種載體形式。某個(gè)網(wǎng)頁(yè)的被鏈接次數(shù)被定義為是那些至少具有一個(gè)超鏈接指向那個(gè)頁(yè)面的網(wǎng)頁(yè)數(shù), 如果利用搜索引擎統(tǒng)計(jì)鏈接數(shù), 那么可能會(huì)存在與引文統(tǒng)計(jì)不一致的地方, 即某個(gè)網(wǎng)頁(yè)包含多個(gè)內(nèi)容, 這些內(nèi)容被另一網(wǎng)頁(yè)所鏈接, 則搜索引擎會(huì)認(rèn)為其鏈接數(shù)為一次; 在Web 網(wǎng)上也會(huì)出現(xiàn)某一主題被切分成幾個(gè)頁(yè)面來(lái)闡述, 或者多個(gè)頁(yè)面論述的是同一主題的現(xiàn)象, 在這種情況下對(duì)網(wǎng)頁(yè)鏈接進(jìn)行統(tǒng)計(jì)可能會(huì)出現(xiàn)偏差。
究, 而且應(yīng)深入到單個(gè)網(wǎng)站內(nèi)部將其有價(jià)值的信息分離出來(lái)。
另外, 我們知道在引文分析中不同的引文類型和引文動(dòng)機(jī)的價(jià)值是不同的, 在鏈接分析中同樣應(yīng)根據(jù)鏈接的不同類型和不同動(dòng)機(jī)給出網(wǎng)頁(yè)的不同權(quán)值, 使網(wǎng)絡(luò)影響因子的值更加準(zhǔn)確。
參考文獻(xiàn)
1 龔立群. 網(wǎng)絡(luò)計(jì)量學(xué)的研究方法及應(yīng)用[J].新世紀(jì)圖書(shū)
館,2003, (6) :6-9.
2 ST ANFORD [DB ΠO L ].http :ΠΠdiglib. stan ford. edu Πindex. htm , 2005-09-22.
3 Almind ,T. C. , Ing wersen , P. In formetric analyses on the W orld
Wide Web :methodological approaches to Webometrics [J ].Journal of D ocumentation ,1997,53(4) :404-426.
4 Davenport , E. ,Cronin ,B. . The citation netw ork as a prototype for representing trust in virtual environments , in Cronin , B. (Ed. ) ,The Web of K nowledge :a Festschrift in H onour of Eu 2gene G ar field ,In formation T oday ,Med ford ,N J. 2000. 517-534. 5 R ousseau , R. . S itations :an exploratory study. Cybermetrics. 1997,1(1) [DBΠO L ].http :ΠΠw w w. cindoc. csic. es Πcybermetrics Πarticles Πv1i1p1. html ,2005-09-22.
6 ISI. ISI Web of Science. 2003[DB
ΠO L ].http :ΠΠw w w. isinet.
com Πisi Πproducts Πcitation Πw os Π,2005-09-22.
7 M oed , H. F. . The im pact -factors debate :the ISI ’s uses and
5 結(jié) 語(yǔ)
盡管Web 網(wǎng)絡(luò)結(jié)構(gòu)分散, 具有動(dòng)態(tài)性和多元
,1274
limits[J].Nature ,2002, (415) :731-732.
情 報(bào) 科 學(xué) 24卷
2005-09-22.
24 Sullivan ,D. . G oogle tops in “Search H ours ”ratings. Search 2
EngineWatch, 2002[DB ΠO L ].http :ΠΠsearchenginewatch. com Πsereport Π02Π05-ratings. html ,2005-09-14.
25 Bar -I lan ,J. . Search engine results over time :acase study on
search engine stability. Cybermetrics ,1999,2Π3(1) [DB ΠO L ].http :ΠΠw w w. cindoc. csic. es Πcybermetrics Πarticles Πv2i1p1. ht 2ml ,2005-09-20.
26 Thelwall ,M. . Im plications of search coverage on the vi 2
ability of commercial ,Proceedings of ICEIS 27. Data on the Web for in forme 2
and analysis[J].Scientometrics ,2001, (:7-32.
Thelwall ,M. . A Web crawler design for data mining[J].Jour 2
nal of In formation Science ,2001,27(5) :319-325.
29 Thelwall ,M. . A publicly accessible database of UK university
Website links and a discussion of the need for human interven 2tion in Web crawling[C].University of W olverham pton ,2001, W olverham pton.
30 Lawrence ,S. , G iles ,C. L. . Accessibility of in formation on the
Web.Nature ,1999, (400) :107-109[DB ΠO L ].http :ΠΠw w w 2metrics. com Π,2005-09-22.
31 Smith ,A. G. ,Thelwall ,M. . Web im pact factors and university
research links ”[C].Proceedings of the 8th International C on 2ference on Scientometrics and In formetrics , Sydney Australia , 2001, (2) :657-664.
32 Thelwall ,M. . Methodologies for crawler -based Web surveys
[J].Internet Research :E lectronic Netw orking and Applica 2
tions ,2002,12(2) :124-138.
33 Thelwall ,M. . Results from a Web Im pact Factor crawler [J].
Journal of D ocumentation ,2001,57(2) :177-191.
34 Thelwall ,M. . A com paris on of s ources of links for academic
Web Im pact Factor calculations[J].Journal of D ocumentation , 2002,58(1) :60-72.
35 T ang ,R. ,Thelwall ,M. . Exploring the pattern of links between
Chinese university Web sites[C].Proceedings of the 65th An 2nual Meeting of the American S ociety for In formation Science and T echnology ,2002, (39) :417-424.
36 Thelwall ,M. . Evidence for the existence of geographic trends in
university Web site interlinking[J].Journal of D ocumentation , 2002,58(5) :563-574.
37 Thelwall ,M. . C onceptualising documentation on the Web :an
evaluation of different heuristic -based m odels for counting links between university Web sites[J].Journalof the American S ociety for In formation Science and T echnology ,2002,53(12) :995-1005.
(責(zé)任編輯:滕代娣)
8 Ing wersen ,P. . The calculation of Web Im pact Factors[J].Jour 2nal of D ocumentation ,1998,54(2) :236-243.
9 Smith ,A. G. . The Im pact of Web sites :Acom paris on between Australasia and Latin America. In Proceedings of I NFO π99,C on 2gres o Internacional de In formacion ,Havana ,4-8October 1999. Retrieved January 3. 2003[DBΠO L ].http :ΠΠw w w. vuw. ac. nz Π~agsmith Πpublns Πaustlat Π,2005-09-20.
10 Vaughan ,L. ,Thelwall ,M. . Scholarly use of the Web :Whatare
the key inducers of links to journal Web sites ? [J].Journal of the American S ociety for In formation Science and T echnology , 2003,54(1) :29-38.
11 T ang ,R. ,Thelwall ,M. . Disciplinary differences in US ic departmental web site interlinking[J].In 2tion Science Research ,2003,53(412 K im ,H. J. . M articles of American S ociety for In ,2000(10) :887-899.
13 Thomas ,O. ,P. . Webometric analysis of departments of
librarianship and in formation science[J].Journalof In formation Science ,2000,26(6) :421-428.
14 Egghe ,L. . New in formetric aspects of the Internet :some reflec 2
tions -many problems [J ].Journal of In formation Science , 2000,26(5) :329-335.
15 Smith ,A. G. . A tale of tw o Web spaces :comparing sites using
Web im pact factors [J].Journal of D ocumentation , 1999, 55(5) :577-592.
16 Thelwall , M. . rdquo ; Web im pact factors and search engine
coverage[J].Journal of D ocumentation , 2000, 56(2) :185-189.
17 Bjorneborn ,L. , Ing wersen , P. . Perspectives of Webometrics
[J].Scientometrics ,2001,50(1) :65-82.
18 R ousseau ,R. . Daily time series of comm on single w ord search 2
es in AltaVista and N orthern Light. Cybermetrics ,1999,2Π3(1) [DB ΠO L ].http :ΠΠw w w. cindoc. csic. es Πcybermetrics Πarticles Πv2i1p2. html ,2005-9-22.
19 邱均平, 安 璐. 中文期刊影響因子與網(wǎng)絡(luò)影響因子和
外部鏈接數(shù)的關(guān)系研究[J].情報(bào)學(xué)報(bào),2003,22(4) :398
-402.
20 楊 濤. 網(wǎng)絡(luò)信息計(jì)量學(xué)實(shí)證研究:對(duì)國(guó)內(nèi)20個(gè)大學(xué)網(wǎng)
站的分析[J].圖書(shū)情報(bào)工作,2003, (9) :61-66.
21 Smith ,A. G. ,Thelwall ,M. . Web Im pact Factors for Australa 2
sian universities[J].Scientometrics ,2002,54(1Π2) :363-380. 22 Sullivan ,D. . Search engine features. SearchEngineWatch ,2001
[DBΠO L ].http :ΠΠsearchenginewatch. com Πfacts Πassistance. ht 2ml ,2005-09-20.
23 Sullivan , D. . Search engine sizes. SearchEngineWatch , 2001
[DBΠO L ].http :ΠΠsearchenginewatch. com Πreports Πsizes. html ,