國外六個著名搜索引擎的特征和評析
《現代圖書情報技術》 2001年 第1期信息檢索技術總第84期國外六個著名搜索引擎的特征和評析徐建華 伍 憲 胡燕菘(深圳大學圖書館 深圳518060)【摘要】 對國外六個著名的搜索引擎Altav
《現代圖書情報技術》 2001年 第1期
信息檢索技術
總第84期
國外六個著名搜索引擎的特征和評析
徐建華 伍 憲 胡燕菘
(深圳大學圖書館 深圳518060)
【摘要】 對國外六個著名的搜索引擎Altavista 、E xcite 、Go 、Hotbot 、Lycos 、Yahoo 的數據庫規(guī)模和范圍、信息采集方
式、標引內容、檢索功能、結果顯示格式、結果排序規(guī)則與數據庫更新頻率等七個方面進行了比較和評析。
【關鍵詞】 因特網 搜索引擎 網絡檢索工具 【分類號】 G 354. 2
An Examination of Six Popular Web
Search Engines on Abroad
Xu Jianhua Wu Xian Hu Yansong (Shenz hen Univ ersity L ibr ary , S henz hen )
【Abstract 】 T his ar ticle evaluates six po pular W eb Sear ching Engines:Altav ista, Ex cit e, Go , Hot bo t, L y co s, and Y ahoo. T hese databases ar e compar ed and ana ly sed in seven a spects:sco pe and size, co llecting met ho ds, index ing and abstr act ing, search features, displaying , sor ting , and updating frequency.
【 Internet Sear ch eng ines N etwo r k r etr iev al to ols Keywords 】
Inter net 搜索引擎就象信息海洋中的導航員, 能幫助人們快速找到所需要的信息。然而隨著各種信息的巨量增長, 人們使用搜索引擎也遇到了困難, 相同的檢索詞在不同的搜索引擎中得出的結果在質量和數量上都有所不同, 產生這種現象是因為不同的搜索引擎采集信息的方法、標引的內容以及檢索功能是有所區(qū)別的, 這樣就導致利用相同的檢索詞在不同的搜索引擎中獲得不同的結果。本文將對Int ernet 六個著名的搜索引擎的特征進行比較和評析, 通過比較不同搜索引擎的工作方式, 有助于用戶正確地掌握不同搜索引擎的使用規(guī)則, 輕松方便地上網查找信息; 另一方面, 還可以幫助網頁設計者根據搜索引擎的要求去設計和提交網頁, 確保證自己的網站能被搜索引擎收錄, 并且在進行檢索時能得到較高的排名。
件標引網頁的內容是不同的, 有些對網頁全文進行標引, 有些只標引網頁的地址、篇名、題名、特定的段落和重要的詞。不同的索引軟件建立數據庫的規(guī)模不一樣, 數據庫規(guī)模的大小決定查詢到的信息是否全面和查全率的高低。數據庫越大, 檢索到的結果越多。查詢軟件負責在數據庫中進行檢索, 并將查詢到的結果返回給用戶。查詢軟件決定搜索引擎的檢索功能和返回結果的相關性。在檢索過程中, 該軟件還會利用特殊的計算機算法對文獻與檢索詞的相關性進行計算和評估。不同的搜索引擎使用各自的標準對相關度作出判斷, 這些標準包括:標題、網址、題名、M eta 標記等, 根據檢索詞出現在文件中的位置、頻率、多個詞檢索時所出現的檢索詞數量的多少等。
1 搜索引擎是如何工作的
機器人搜索引擎一般由搜索軟件、索引軟件和檢索軟件三部分組成。搜索軟件, 通常稱為機器人(Robo t ) 、爬蟲(Cr aw ler s ) 、蜘蛛(Spider s ) , 它們是可以運行在W WW 的空間、能夠沿著網站的鏈接從一個頁面跨越到另一個頁面, 自動追尋和發(fā)掘網上的各種文獻信息資源, 采集新出現的信息, 確認網頁之間的鏈接是否有效, 剔除死鏈的一種軟件。一般來說搜索軟件通常最先訪問知名度高的服務器。所謂知名度高, 是指服務器和網頁的" 被鏈接率”高。索引軟件將采集的網頁信息進行自動標引, 建立索引數據庫。不同的索引軟
2 六個著名搜索引擎的特征和評析
下面將從數據庫規(guī)模、信息采集方式、標引內容、檢索功能、結果顯示格式、結果排序規(guī)則、數據庫更新頻率等七個方面對六個著名的搜索引擎進行比較和評析。需要指出的是, 隨著時間的推移, 搜索引擎的某些特征可能會有所變化。2. 1 A lta Vist a 網址:http://ww w. altav ista. co m/
A ltaV ista 是資格最老的搜索引擎之一, 1995年由著名計算機Dig ital 公司正式推出, 1998年被Co mpaq 收購, 為了將其發(fā)展成為提供Inter net 信息和電子商務服務的主要網站, 今年1月又從Co mpaq 中獨立出來, 成為自主運營的子公司。新近開發(fā)的3. 0新版為電子商務站點、信息門戶和B2B 市場等增添了很多額外的搜索功能。這些功能包括對整個網絡、數據庫以及200多個不同的文件類型進行搜索。是
收稿日期:2000-07-16
,《現代圖書情報技術》 2001年 第1期
信息檢索技術
總第84期
目前最受歡迎的因特網搜索工具之一, 它以其搜索功能強大, 響應速度快和巨大的信息量著稱。
數據庫規(guī)模和范圍:數據庫中已包括2. 5億個網頁, 在搜索引擎庫容量排行榜上列居第三, 僅次于Inktomi 和FAS T 。在1999年以前它一直以最大的數據庫稱雄于網絡之中。AltaVista 提供關鍵詞和分類目錄檢索。檢索內包括產品、6-14天的新聞、討論組、W eb 頁面、圖像、視頻等信息。M P 3/音頻、
信息采集的方法:A ltaVis ta 采用用戶提交和利用網絡機器人自動搜索的方式增加和更新數據庫。它的超級蜘蛛“Scooter ”每天會不斷地在網上搜尋, 及時發(fā)現網頁的變化, 并自動地將更新的信息在索引中反映出來, 每天至少更新300萬條信息。機器人可以識別假冒偽劣的網頁, 并對其進行懲罰。所謂的假冒偽劣網頁是那些重復使用關鍵詞或者將一些與網頁主題不相關的熱門詞匯做成與背景相同的顏色來欺騙搜索引擎以獲得較高相關性等級的網頁。
標引內容:對網頁的所有文本(包括標題、文摘、關鍵詞、全文) 、圖像、鏈接、錨點、域名、主機名、M ate 標記、URL 和Applet 、Acc-tivex 等進行標引。摘要通常是M ate 描述標記的內容, 如果無此項則利用文獻中的前兩行編制一個簡短的文摘。
檢索功能:AltaVis ta 支持簡單和高級查詢。可進行單詞和詞組檢索(用雙引號) , 詞間缺省關系為or, 可用自然語言進行檢索。如果要求特定單詞包含在索引的文檔中, 可以在它前面加一個 號, 如果要排除含有特定單詞的文檔, 可以在它前面加一個-號。利用通配符*進行截詞。在高級查詢中, AltaVis ta 支持全功能的布爾邏輯式檢索、近似搜索, 能將文本譯為多種語言, 在主頁列出了熱門站點, 它還提供日期限定, 語言限定, 字段限定等擴展功能, 可進一步提高用戶的查準率。字段限制包括篇名、域名、主機名、圖像文件、鏈接點、URL 等。在字段檢索中可以采用布爾邏輯式表示是AltaVista 的獨特之處。此外還可利用Ask Jeeves 自然語言技術和分類目錄進行檢索。
結果顯示格式:包括篇名、文件的前兩行、URL 文件大小及文件索引的日期。另外還提供對網頁進行翻譯和利用“查Related pages ”找相關的網頁信息的功能。
結果排序規(guī)則:AltaV ista 根據每個文獻包含檢索詞的數量, 關鍵詞出現的位置和關鍵詞彼此接近的程度等信息給出一個等級。如在結果的前幾個單詞中含有要查找的單詞(特別是網頁的標題) , 或在結果中要查找的單詞很靠近, 或該結果比其它的結果含有更多的要查找的詞則會得到較高的排序。
數據庫更新頻率:索引內容大約每4~6周全部更新一次。評價:數據庫容量大, 用戶介面友好, 在線幫助文件完整, 檢索速度快。是目前檢索軟件中功能最全面、查全率最高的優(yōu)秀搜索引擎之一。由于進行全文索引, 對內容不進行選擇, 因而“信噪比”較大, 但對于進行精細檢索和查找內容較專的特定詞以及比較偏僻的信息會得到比較滿意的結果。
但并沒有包括這些主題詞的文件。它是通過統(tǒng)計的方法, 發(fā)現詞頻相近的目錄, 從而將其作為相關文件進行檢索。
數據庫規(guī)模和范圍:查詢內容包括WW W 、Usenet 、音頻、視頻、新聞、地圖、黃頁、軟件、股票、電子郵件地址、飛機航班等信息。含有5000萬個網頁, 由30名專業(yè)記者組成的隊伍用一年半的時間對6萬個W eb 站點進行評論。
信息采集方式:人工提交和通過檢查流行的網站來采集信息。E xcite 的機器人每周運行一次, 檢索自己數據庫內的各站點, 并且查看“What's New ? ”網頁。對于用戶提交的網頁, 機器人第一次訪問時就會將此內容加到數據庫中。
標引內容:Excite 標引網頁題名、URL 和鏈接, 注重標題文字、網頁文字和可見的或含鏈接的詞。不標引注釋標記、Alt. 標記、Java 或其它在瀏覽器中不可見但出現在原代碼中的信息。不查看meta 標記項, 但標記M eta 描述項。Excite 用“智能概念抽取”軟件分析站點并根據一定的規(guī)則確定關鍵詞索引, 再根據關鍵詞為指南來查詢最合適的句子, 然后將這些句子連在一起組成摘要。這種由檢索程序編制的智能文摘使其摘要具有較高的可讀性。Excite 注重應用關鍵詞或關鍵詞語, 如某個關鍵詞能深入整個網頁比多個主題或關鍵詞堆積在一塊效果要好。對假冒偽劣網頁進行懲罰。
檢索功能:有基本檢索和高級檢索。其中基本檢索支持關鍵詞、詞組和自然語言檢索。自然語言檢索越詳細越好。Ex cite 中要求的單詞和排除的單詞的使用方法同AltaVista 一樣, 使用 號和-號。
布爾搜索:Ex cite 支持AND 、它也支持OR 、AND NOT 操作符。用括號來構成檢索式。高級檢索利用表格可選擇檢索或排除某個單詞和詞組, 還可對國家和語言、域名等進行限制檢索。
結果顯示格式:首先顯示Web 目錄、然后最好的10個Web 結果、下面是最相關的5條Web 新聞。W eb 結果包括相關得分、題名、摘要、URL, 也可選擇只顯示題名??捎肳eb 結果中的“S earch for m ore documents like this one ”進行相關性檢索。新聞可顯示標題、出處、相關得分、日期和進行相關新聞的檢索, 選擇顯示摘要按日期和出版物進行排序。每屏顯示的結果可選擇10、20、30、40、50條。
數據庫更新頻率:1-2周。
評價:系統(tǒng)反應速度快。便于簡短查詢。查詢相關網頁服務的檢索效果比其它檢索工具強。智能文摘技術使其摘要具有較高的可讀性。可以以多種方式瀏覽結果。相關性排序質量一般。搜索出來的結果不能指明其格式或以兆字節(jié)數來告知文件的大小。
2. 3 Go (Info seek) 網址:htt p://ww w. g o. co m/
G o 創(chuàng)建于1999年1月, 是由Infoseek 和Disney 共同開發(fā)的門戶和搜索引擎網站, 它的前身是Infoseek (1995創(chuàng)建) 。它是第一個提供有償服務的網絡信息檢索系統(tǒng)。1999年4月新增翻譯服務, 可將英語翻譯成法語、德語、意大利語、西班牙語和葡萄牙語。提供巴西、荷蘭、丹麥、德國、法國、瑞典、意大利、日本、英國等10個語言的版本, 使其具有全球效應。
數據庫規(guī)模和范圍:數據庫內容包括5000萬個網頁。分類目錄是一個由人工精選的高質量的Web 網站目錄, 可檢索W WW 信息、圖像、音頻、視頻、新聞和公司信息以及新聞組。此外還提供許多附加的參考數據庫。如股票報價、公司資料、類似字典的E -mail 地址、各種參考資料以及郵政編碼指南。利用Expres s Sear ch(h ttp://ex-press. go. com. ) 多元搜索引擎可同時對10個搜索引擎進行查詢。
2. 2 Ex cite 網址:http://w w w. excite. com
Ex cite 于1995年底創(chuàng)建, 它的最大特色恐怕就是它的概念搜索了。Ex cite 首先將你的檢索詞按字義進行自動擴展或加以限定, 然后根據“智能概念抽提”技術查找與提問的概念和含義相關的文獻, 而不只是簡單的關鍵詞匹配。概念檢索是指在檢索文件的過程中, 不僅能夠檢索到含有用戶提出的關鍵詞的文件, 還能檢索到與用戶的檢索主題密切相關、
,《現代圖書情報技術》 2001年 第1期
信息檢索技術
和網頁中都使用M ate 標記。
總第84期
信息采集方式:Go 對信息源的采集利用自動跟蹤軟件漫游獲取與用戶登錄相結合的方式。通常要花十天左右的時間來處理一個網址加入其索引庫, 它對網址的自動登錄有嚴格的限制, 也保留刪除一個網址的權力。它允許用戶以200個字符來描述一個網頁的內容, 這段文字將出現的檢索結果的摘要中。不支持Frames 和S temming 。
標引內容:Go 進行全文索引, 但不標引禁用詞。利用超感知覺的算法和人工編輯的目錄為用戶提供優(yōu)質服務。主要根據M eta 標記來決定網頁被索引的數量。如果無M eta 標記則利用最前面的250個字母, 因此最好寫入一定數量的關鍵詞在M eta 標記中, 這樣被索引的機會大。前250個字母最好包括主題詞和關鍵詞。
檢索功能:可通過高質量的分類目錄進行瀏覽。查詢功能有簡單和高級的搜索功能, 詞語缺省檢索為or, 無截詞功能, 但可自動檢索單復數形式。它支持支持布爾邏輯and 、or 、not 檢索、雙引號短語檢索, 大小寫有別, 利用管道“ ”進行縮檢。高級檢索中可選擇檢索題名、URL 、網站、超級鏈接、域名、人名等進行限制檢索。
結果顯示格式:首先出現分類目錄中檢索到的高質量的網站, 然后是網頁信息。每一條結果都顯示文獻的題名、文摘、相關性得分、文件創(chuàng)建或更新的日期、文件大小、URL 。具備進行相關網頁的檢索、翻譯和聚類功能。聚類功能可將同一網站下的網頁聚在一塊, 利用“M ore results from . . . ”可顯示同一網站的更多結果。如果取消聚類功能則對網頁的相關性重新排序。還可選擇不顯示文摘, 按時間先后順序排列結果。
結果排序規(guī)則:按網站的相對得分進行排序, 得分的依據是根據檢索詞在網頁中出現的位置(篇名或文章的開始部分) 、詞出現的頻度、權重和鏈接分析等因素。數據庫中不常見檢索詞的加權較高, 常用詞加權較低。
數據庫更新頻率:1-60天。
評價:搜索精度高, 查到的信息一般都比較準確。新站點加入很及時, 數據庫中剔出了陳舊的列表和重復的主頁。由于軟件排除數據庫中重復的URL , 每一U RL 只標引一次, 因此檢索到的重復文件相對比較少, 系統(tǒng)反應速度快, 相關性排序較好。可以檢索人名、地名和其它專有名詞。高級檢索功能較少。數據庫較小。
檢索功能:提供簡單和高級檢索。簡單檢索利用下拉菜單可選擇利用單詞、短語、題名、人物、URL 布爾邏輯進行檢索, 可對語言、日期進行限制。高級檢索除包含簡單檢索的功能外, 可選擇包含或排除某個檢索詞, 是檢索所有的網頁還是首頁, 還可對媒介類型、地區(qū)和域名進行限制??稍诘玫降慕Y果中作進一步的檢索。
結果顯示格式:可選擇一次顯示10、25、50或者100條結果。結果由三部分組成。先列出10個最好的網站, 這10個網站是根據受用戶的歡迎程度以及相關性來決定的(太專一或偏的檢索可能沒有此項結果) , 然后是顯示與檢索相匹配的分類目錄列表, 最后是由Ink-tomi 產生的結果列表。在結果顯示時, HotBot 會列出標題、一個簡短的由軟件產生的摘要、相應的得分、文件大小、日期和網址。結果中的日期表示此信息加入數據庫的時間或更新的時間。一般同一個網站只列出主要的頁面或首頁, 利用“可查看同一網站Th is site on ly ”的其它網頁。
結果排序規(guī)則:根據題名, M eta 標記中的關鍵詞、詞(排除太一般的詞) 在文獻中出現的位置和頻度以及文獻的長度決定排列順序。隨著時間的推移, 還會不斷改進算法規(guī)則。對欺騙性的網頁進行懲罰, 降低排名。
數據庫更新頻率:每3-4周更新一次。
評價:HotBot 最大的特點在于它的界面組織和豐富的檢索功能。HotBot 在頁面上提供了直觀的圖形化檢索菜單功能, 用戶可以通過簡單的下拉菜單創(chuàng)建復雜的布爾查詢, 或者按日期、地理區(qū)域和媒體類型進行限制性搜索。可對搜索結果進行再搜索。由于使用了并行處理辦法, 數據庫也分配在幾個工作站上, 因此速度快。在搜索引擎領域, HotBot 仍然是令眾人矚目的領頭羊。它的不足之處在布爾操作符上有些限制。
2. 5 L ycos 網址:http://w ww. ly co s. com
L y cos 是最早出現的搜索引擎之一, 創(chuàng)建于1995年, 由美國卡內基?梅隆大學的機器翻譯中心開發(fā)研制。L y co s 來源于一種陸上蜘蛛的拉丁文名稱。這種蜘蛛不靠結網而靠抓取獵物生存, 而且活動速度很快, 習慣于夜間活動。
數據庫規(guī)模和范圍:利用多個數據庫提供關鍵詞和分類主題查詢以及其它服務。高級檢索利用Fast 的數據庫(包含3. 4億個網頁) 。Lycos 自身的目錄指南包含5000萬網頁。最好的十個網站來自Direct Hit 。檢索對象包括WW W 、FTP 、Gopher, 以及圖像、音頻、視頻文件。每項服務包括特別的增值服務, 如熱點選評、當前最新信息和報道等。
信息采集方式:用戶提交和利用機器人自動搜索。用戶注冊提交URL 和電子郵件地址, 然后Lycos 的蜘蛛會自動地根據訪問到的信息創(chuàng)建文摘, 確立關鍵詞和說明。幾周后就可檢索到提交網頁的信息。可同時提交多個不同內容的URL, 如果是相同的內容將會認為是“spam ”而被剔除。不支持M eta 標記和Frame 。機器人每4周要訪問所有的網站一次。
標引內容:非全文數據庫, 標引U RL 、篇名、題名、文件的前20行文字(或文件內容的20) 和文獻中最重要的100個詞以及超文本的鏈接詞。
檢索功能:Lycos 提供簡單和高能檢索。利用 、-表示要求或排除的單詞, 缺省檢索是And 。
在高級檢索中, 不使用布爾邏輯操作符, 但可用下拉菜單選擇檢索“所有的詞”、“任何詞”或“精確地匹配”。字段限制檢索:題名,
2. 4 Ho tBo t 網址:ht tp://ww w. ho tbot. com
HotBot 是Wired Digital Inc. 1996年5月推出的搜索引擎。1998年10月L y co s Inc. 將其收購, 成為L y cos N et-wo rk 的一個獨立的檢索服務商。Ho tBo t 是一個非常優(yōu)秀的搜索引擎, 它獲得了美國《個人電腦》雜志及許多媒體的獎項。
數據庫規(guī)模和范圍:數據庫包含1. 1億個網頁。主題分類目錄由專家組成的編輯對其進行維護, 編輯們對一些特別好的優(yōu)秀網站進行評論, 讀者也可申請成為某子目錄的編輯。HotBot 除了能夠檢索Web 頁面、新聞討論組之外, 還包括股票、電子商務、新聞、商業(yè)信息等服務。是一個提供最新、最全面信息服務的門戶網站。
信息采集方式:HotBot 利用蜘蛛漫游提交的網頁。提交的網頁到最好在HT M L 代碼中有meta 標記內容, 包括作者、內容描述(150個字母) 和75個字母的關鍵詞。對網站進行索引需要3周-60天的時間, 每個網站在最多能提交50個網頁(這些工作需在一天之內完成) 。
標引內容:HotBot 標引題名、鏈接點、多媒體文件、利用文本的前20行以及文獻中最重要的100個詞做索引。根據M ate 標記中的描述和關鍵詞來排序, 似乎與題名和前250個字母無關, 建議在首頁
,《現代圖書情報技術》 2001年 第1期
信息檢索技術
總第84期
主機/域名??蛇x擇的文獻類型有:所有的W eb 、書、城市、軟URL 、
件、FT P 檢索、多媒體、新聞、Open Director y(人工編輯的目錄) 、股票、M P3等14種25種不同的語言。取消了以前的自動截詞功能, 大小寫無區(qū)別。
結果顯示格式:首先列出流行的網站、緊接著是W eb 網站, 最后是新聞。也可對搜索結果進行再搜索。每條結果包括題名、摘要、URL 。
結果排序規(guī)則:Lycos 在搜集文件的過程中采用流行網站優(yōu)先的策略。排序方法根據網站的流行程度(指被其它網址和文件鏈接的數量最多, 類似于科學文獻中的被引率高) 、檢索詞出現的位置和頻度來判斷。分析題名、標題和子標題、不分析圖像, 但分析圖形標記的ALT 屬性。關鍵詞出現在篇名或大標題上的文件, 其相關性比關鍵詞出現在文摘中的文件要高。不同的數據庫排序依據不一致。
數據庫更新頻率:2-4周。
評價:用戶界面友好, 在搜索圖像和聲音文件上的能力強。它的優(yōu)點在于它的速度快、使用簡便、相關性排序較好, 查準率較高。檢索結果中文件的重復率高, 有名存實亡的鏈接存在。速度有些慢。
U RL , 題名和目錄, 索引人員檢索一個完整的站點, 然后參考自己的主題分類目錄, 將選擇的網頁與主題匹配起來, 這些主題目錄一般在大類目下分成若干小類目, 類目之間按照等級系統(tǒng)排列。Yahoo 的主題編排主要分14大類:藝術、商業(yè)和經濟、計算機和Internet 、教育、娛樂、政府、健康、新聞、消遣、參考工具書、地區(qū)信息、自然科學、社會科學、社會和文化, 以超文本指南的方式將主題詞鏈接起來。編輯對
[*]
質量比較高的網頁加上標記, 建議用戶優(yōu)先訪問這一地址。表明
該主題在內容和版面設計上都優(yōu)于其它文件; @符號代表這個類目會同時出現在Yahoo 的其他分類類目下, 括號里的數字代表這個類目下連結站點的總數。“New ”表示這是新增加的類目。
檢索功能:Yahoo 支持簡單和高級查詢, 在高級查詢中, Yahoo 支持詞語檢索和 、-、截詞等, 它還提供日期限定, 還有URL 和題名限制檢索等??蛇M行時間限制和控制每屏結果輸出的數量(10、25(缺省) 、50或100) 。
結果顯示格式:按下列順序排列結果, 首先是滿足查詢條件的Yahoo 目錄和子目錄, 接著是滿足查詢條件的網站, 最后是網頁。網頁只顯示題名、摘要、URL 。
結果排序規(guī)則:Yah oo 搜尋引擎會根據分類類目網站信息與關鍵字串的相關程度來排列出相關的Yahoo 類目和網站。匹配的關鍵詞越多, 相關性越高; 檢索詞出現在題名中的文獻給出一個優(yōu)先的排序。出現在分類目錄中的級別, 按目錄的級別從高到低排序。
數據庫更新頻率:不定期。
評價:系統(tǒng)反應速度較快, 通過主題主題指南進行查詢查準率高。它的優(yōu)點是反映了人在選擇和組織信息時的知識和智慧, 收錄的網頁經過篩選和系統(tǒng)組織, 質量較高, 條理性比較強, 檢索結果接近用戶的信息需求。缺點是采集信息的速度遠遠比不上網絡資源的增長速度, 所建立的數據庫的規(guī)模都比較小, 因此檢索到的文獻數量有限, 對于較為專業(yè)偏僻的查詢很難提供滿意的結果。
2. 6 Y ahoo 網址:ht tp://w ww. y ahoo. com
Y ahoo 于1995年3月1994年底由美籍華裔楊致遠等人創(chuàng)辦到現在, 從過去一個單純的互聯網目錄發(fā)展成為許多人上網沖浪的中心。它現在提供的服務包括:拍賣, 購物, 開設網上商店, 個人免費電子信箱服務、聊天和新聞等多種網絡服務。Y ahoo 不是搜索引擎, 而是嚴格的層次組織的分類主題索引。有150個編輯人員來維護, 將其收集到的網站及網頁分門別類加以索引和文摘。Y aho o 由人工索引的分類數據庫也保證了庫內數據質量較高, 冗余信息較少的優(yōu)點。
數據庫規(guī)模和范圍:主題指南提供Internet 資源檢索新聞地圖分類廣告, 股票、運動、商業(yè)、電話號碼個人主頁和電子郵件地址(獨立數據庫) 服務, 它是最大的人工編輯的目錄。可檢索目錄, W eb 網頁、相關新聞、網絡事件等。Yahoo 包含120萬個網頁內容, 如果用戶的檢索詞在Yahoo 中查詢不到結果, Yah oo 還會自動地將查詢較交給Inktomi, 由后者來為用戶作進一步的檢索。In ktomi 是一個真正的搜索引擎, 它擁有世界上最大的數據庫(5億網頁) 。實際上它在后臺支持著十幾個有名的搜索引擎。
信息采集方式:由索引人員用人工方式建立并更新。鼓勵用戶利用聯機表格遞交自己的網頁地址, 用人工和Yahoo 的蜘蛛軟件不定期地在W eb 的“W hat's new ”網站上發(fā)現新文件。Yahoo 對收集到的信息要進行嚴格的審核和分類。
標引內容:Yah oo 根據提交的注冊表中的信息建立索引, 包括
參考文獻
1 Scott Nich olson. In dexing an d Abstracting on the World Wide
Web :An exam ination of s ix W eb databases . Information T ech-nology and Libraries , 1997, 16(2) :73-812 h ttp://w w w. searchen gines how dow n. com/3 h ttp://w w w. altavista. com/4 h ttp://w w w. excite. com 5 h ttp ://w w w . go . com /6 h ttp://w w w. hotbot. com 7 h ttp://w w w. lycos. com 8 h ttp://w w w. yah oo. com.
(上接第47頁)
參考文獻
1 VE NKE NT N . GUDIVADA , M odeling and Retrieving Imag es
b y Content. Information Process ing &M anagement. 1997(4) 2 Chang S K, Yan C W. Dimitroff D C, Arndt T. An Intelligen t
Image Databas e Sys tem, IEEE Trans on Softw are Engineering , 1998, 14
3 趙丹群. 圖像信息基于內容檢索方法的研究分析. 情報科學,
1998, (6)
4 胡曉峰 劉 毅. Q BIC :一個典型的基于內容的檢索系統(tǒng). 微型
計算機, 1996, (6)
5 史忠植. 多媒體信息檢索研究動態(tài). 計算機世界, 1998, 1, 19,
D3
6 胡 宏. 圖像內容檢索方法. 計算機世界, 1998, 1, 19, D37 h ttp ://w w w . ee . colum bia . edu /s fchang /dem os e . h tm 8 h ttp://w w w. qbic. almaden. ibm. com
9 h ttp://w w w. excalib. com/cgi-bin/s dk/cs t/cst2-bat