成人AV在线无码|婷婷五月激情色,|伊人加勒比二三四区|国产一区激情都市|亚洲AV无码电影|日av韩av无码|天堂在线亚洲Av|无码一区二区影院|成人无码毛片AV|超碰在线看中文字幕

搜索引擎分類(lèi)

搜索引擎分類(lèi)按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類(lèi):1. 目錄式搜索引擎:以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類(lèi)框

搜索引擎分類(lèi)

按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類(lèi):

1. 目錄式搜索引擎:以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類(lèi)框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類(lèi)搜索引擎因?yàn)榧尤肓巳说闹悄埽孕畔?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類(lèi)搜索引擎的代表是:Yahoo 、LookSmart 、Open Directory、Go Guide等。

2. 機(jī)器人搜索引擎:由一個(gè)稱(chēng)為蜘蛛(Spider)的機(jī)器人程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶(hù)的查詢(xún)輸入檢索索引庫(kù),并將查詢(xún)結(jié)果返回給用戶(hù)。服務(wù)方式是面向網(wǎng)頁(yè)的全文檢索服務(wù)。該類(lèi)搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù),缺點(diǎn)是返回信息過(guò)多,有很多無(wú)關(guān)信息,用戶(hù)必須從結(jié)果中進(jìn)行篩選。這類(lèi)搜索引擎的代表是:AltaVista 、Northern Light、Excite 、Infoseek 、Inktomi 、FAST 、Lycos 、Google ;國(guó)內(nèi)代表為:" 天網(wǎng)" 、悠游、OpenFind 等。

3. 元搜索引擎:這類(lèi)搜索引擎沒(méi)有自己的數(shù)據(jù),而是將用戶(hù)的查詢(xún)請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶(hù)。服務(wù)方式為面向網(wǎng)頁(yè)的全文檢索。這類(lèi)搜索引擎的優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全,缺點(diǎn)是不能夠充分使用所使用搜索引擎的功能,用戶(hù)需要做更多的篩選。這類(lèi)搜索引擎的代表是WebCrawler 、InfoMarket 等。

性能指標(biāo)

我們可以將WEB 信息的搜索看作一個(gè)信息檢索問(wèn)題,即在由WEB 網(wǎng)頁(yè)組成的文檔庫(kù)中檢索出與用戶(hù)查詢(xún)相關(guān)的文檔。所以我們可以用衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)-召回率(R ecall)和精度(Pricision)衡量一個(gè)搜索引擎的性能。

召回率是檢索出的相關(guān)文檔數(shù)和文檔庫(kù)中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎) 的查全率;精度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)(搜索引擎) 的查準(zhǔn)率。對(duì)于一個(gè)檢索系統(tǒng)來(lái)講,召回率和精度不可能兩全其美:召回率高時(shí),精度低,精度高時(shí),召回率低。所以常常用11種召回率下11種精度的平均值(即11點(diǎn)平均精度) 來(lái)衡量一個(gè)檢索系統(tǒng)的精度。對(duì)于搜索引擎系統(tǒng)來(lái)講,因?yàn)闆](méi)有一個(gè)搜索引擎系統(tǒng)能夠搜集到所有的WEB 網(wǎng)頁(yè),所以召回率很難計(jì)算。目前的搜索引擎系統(tǒng)都非常關(guān)心精度。

影響一個(gè)搜索引擎系統(tǒng)的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢(xún)的表示方法、評(píng)價(jià)文檔和用戶(hù)查詢(xún)相關(guān)性的匹配策略、查詢(xún)結(jié)果的排序方法和用戶(hù)進(jìn)行相關(guān)度反饋的機(jī)制。

主要技術(shù)

一個(gè)搜索引擎由搜索器、索引器、檢索器和用戶(hù)接口等四個(gè)部分組成。

1. 搜索器

搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個(gè)計(jì)算機(jī)程序,日夜不停地運(yùn)行。它要盡可能多、盡可能快地搜集各種類(lèi)型的新信息,同時(shí)因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過(guò)的舊信息,以避免死連接和無(wú)效連接。目前有兩種搜集信息的策略:

●從一個(gè)起始URL 集合開(kāi)始,順著這些URL 中的超鏈(Hyperlink),以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL 可以是任意的URL ,但常常是一些非常流行、包含很多鏈接的站點(diǎn)(如Yahoo !) 。

●將Web 空間按照域名、IP 地址或國(guó)家域名劃分,每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡搜索。搜索器搜集的信息類(lèi)型多種多樣,包括HTML 、XML 、Newsgroup 文章、FTP 文件、字

,

處理文檔、多媒體信息。搜索器的實(shí)現(xiàn)常常用分布式、并行計(jì)算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬(wàn)網(wǎng)頁(yè)。

2. 索引器

索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表。

索引項(xiàng)有客觀(guān)索引項(xiàng)和內(nèi)容索引項(xiàng)兩種:客觀(guān)項(xiàng)與文檔的語(yǔ)意內(nèi)容無(wú)關(guān),如作者名、 URL 、更新時(shí)間、編碼、長(zhǎng)度、鏈接流行度(Link Popularity) 等等;內(nèi)容索引項(xiàng)是用來(lái)反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語(yǔ)、單字等等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng)(或稱(chēng)短語(yǔ)索引項(xiàng)) 兩種。單索引項(xiàng)對(duì)于英文來(lái)講是英語(yǔ)單詞,比較容易提取,因?yàn)閱卧~之間有天然的分隔符(空格) ;對(duì)于中文等連續(xù)書(shū)寫(xiě)的語(yǔ)言,必須進(jìn)行詞語(yǔ)的切分。

在搜索引擎中,一般要給單索引項(xiàng)賦與一個(gè)權(quán)值,以表示該索引項(xiàng)對(duì)文檔的區(qū)分度,同時(shí)用來(lái)計(jì)算查詢(xún)結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語(yǔ)索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語(yǔ)言學(xué)法。

索引表一般使用某種形式的倒排表(Inversion List),即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系(proximity)。

索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí),必須實(shí)現(xiàn)即時(shí)索引(Instant Indexing) ,否則不能夠跟上信息量急劇增加的速度。索引算法對(duì)索引器的性能(如大規(guī)模峰值查詢(xún)時(shí)的響應(yīng)速度) 有很大的影響。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。

3. 檢索器檢索器的功能是根據(jù)用戶(hù)的查詢(xún)?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)行文檔與查詢(xún)的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶(hù)相關(guān)性反饋機(jī)制。

檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。

4. 用戶(hù)接口

用戶(hù)接口的作用是輸入用戶(hù)查詢(xún)、顯示查詢(xún)結(jié)果、提供用戶(hù)相關(guān)性反饋機(jī)制。主要的目的是方便用戶(hù)使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。用戶(hù)接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類(lèi)的思維習(xí)慣。

用戶(hù)輸入接口可以分為簡(jiǎn)單接口和復(fù)雜接口兩種。

簡(jiǎn)單接口只提供用戶(hù)輸入查詢(xún)串的文本框;復(fù)雜接口可以讓用戶(hù)對(duì)查詢(xún)進(jìn)行限制,如邏輯運(yùn)算(與、或、非; 、-) 、相近關(guān)系(相鄰、NEAR) 、域名范圍(如.edu 、.com) 、出現(xiàn)位置(如標(biāo)題、內(nèi)容) 、信息時(shí)間、長(zhǎng)度等等。目前一些公司和機(jī)構(gòu)正在考慮制定查詢(xún)選項(xiàng)的標(biāo)準(zhǔn)。

標(biāo)簽: