搜索引擎分類

2017-03-27

33858

搜索引擎分類按照信息搜集方法和服務(wù)提供方式的不同，搜索引擎系統(tǒng)可以分為三大類：1. 目錄式搜索引擎：以人工方式或半自動(dòng)方式搜集信息，由編輯員查看信息之后，人工形成信息摘要，并將信息置于事先確定的分類框

搜索引擎分類

按照信息搜集方法和服務(wù)提供方式的不同，搜索引擎系統(tǒng)可以分為三大類：

1. 目錄式搜索引擎：以人工方式或半自動(dòng)方式搜集信息，由編輯員查看信息之后，人工形成信息摘要，并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站，提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄埽孕畔?zhǔn)確、導(dǎo)航質(zhì)量高，缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的代表是：Yahoo 、LookSmart 、Open Directory、Go Guide等。

2. 機(jī)器人搜索引擎：由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息，由索引器為搜集到的信息建立索引，由檢索器根據(jù)用戶的查詢輸入檢索索引庫，并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁的全文檢索服務(wù)。該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù)，缺點(diǎn)是返回信息過多，有很多無關(guān)信息，用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是：AltaVista 、Northern Light、Excite 、Infoseek 、Inktomi 、FAST 、Lycos 、Google ；國內(nèi)代表為：" 天網(wǎng)" 、悠游、OpenFind 等。

3. 元搜索引擎：這類搜索引擎沒有自己的數(shù)據(jù)，而是將用戶的查詢請求同時(shí)向多個(gè)搜索引擎遞交，將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后，作為自己的結(jié)果返回給用戶。服務(wù)方式為面向網(wǎng)頁的全文檢索。這類搜索引擎的優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全，缺點(diǎn)是不能夠充分使用所使用搜索引擎的功能，用戶需要做更多的篩選。這類搜索引擎的代表是WebCrawler 、InfoMarket 等。

性能指標(biāo)

我們可以將WEB 信息的搜索看作一個(gè)信息檢索問題，即在由WEB 網(wǎng)頁組成的文檔庫中檢索出與用戶查詢相關(guān)的文檔。所以我們可以用衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)-召回率(R ecall)和精度(Pricision)衡量一個(gè)搜索引擎的性能。

召回率是檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率，衡量的是檢索系統(tǒng)(搜索引擎) 的查全率；精度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率，衡量的是檢索系統(tǒng)(搜索引擎) 的查準(zhǔn)率。對于一個(gè)檢索系統(tǒng)來講，召回率和精度不可能兩全其美：召回率高時(shí)，精度低，精度高時(shí)，召回率低。所以常常用11種召回率下11種精度的平均值(即11點(diǎn)平均精度) 來衡量一個(gè)檢索系統(tǒng)的精度。對于搜索引擎系統(tǒng)來講，因?yàn)闆]有一個(gè)搜索引擎系統(tǒng)能夠搜集到所有的WEB 網(wǎng)頁，所以召回率很難計(jì)算。目前的搜索引擎系統(tǒng)都非常關(guān)心精度。

影響一個(gè)搜索引擎系統(tǒng)的性能有很多因素，最主要的是信息檢索模型，包括文檔和查詢的表示方法、評價(jià)文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相關(guān)度反饋的機(jī)制。

主要技術(shù)

一個(gè)搜索引擎由搜索器、索引器、檢索器和用戶接口等四個(gè)部分組成。

1. 搜索器

搜索器的功能是在互聯(lián)網(wǎng)中漫游，發(fā)現(xiàn)和搜集信息。它常常是一個(gè)計(jì)算機(jī)程序，日夜不停地運(yùn)行。它要盡可能多、盡可能快地搜集各種類型的新信息，同時(shí)因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快，所以還要定期更新已經(jīng)搜集過的舊信息，以避免死連接和無效連接。目前有兩種搜集信息的策略：

●從一個(gè)起始URL 集合開始，順著這些URL 中的超鏈(Hyperlink)，以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL 可以是任意的URL ，但常常是一些非常流行、包含很多鏈接的站點(diǎn)(如Yahoo ！) 。

●將Web 空間按照域名、IP 地址或國家域名劃分，每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡搜索。搜索器搜集的信息類型多種多樣，包括HTML 、XML 、Newsgroup 文章、FTP 文件、字

處理文檔、多媒體信息。搜索器的實(shí)現(xiàn)常常用分布式、并行計(jì)算技術(shù)，以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬網(wǎng)頁。

2. 索引器

索引器的功能是理解搜索器所搜索的信息，從中抽取出索引項(xiàng)，用于表示文檔以及生成文檔庫的索引表。

索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種：客觀項(xiàng)與文檔的語意內(nèi)容無關(guān)，如作者名、 URL 、更新時(shí)間、編碼、長度、鏈接流行度(Link Popularity) 等等；內(nèi)容索引項(xiàng)是用來反映文檔內(nèi)容的，如關(guān)鍵詞及其權(quán)重、短語、單字等等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng)(或稱短語索引項(xiàng)) 兩種。單索引項(xiàng)對于英文來講是英語單詞，比較容易提取，因?yàn)閱卧~之間有天然的分隔符(空格) ；對于中文等連續(xù)書寫的語言，必須進(jìn)行詞語的切分。

在搜索引擎中，一般要給單索引項(xiàng)賦與一個(gè)權(quán)值，以表示該索引項(xiàng)對文檔的區(qū)分度，同時(shí)用來計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語言學(xué)法。

索引表一般使用某種形式的倒排表(Inversion List)，即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置，以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系(proximity)。

索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí)，必須實(shí)現(xiàn)即時(shí)索引(Instant Indexing) ，否則不能夠跟上信息量急劇增加的速度。索引算法對索引器的性能(如大規(guī)模峰值查詢時(shí)的響應(yīng)速度) 有很大的影響。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。

3. 檢索器檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔，進(jìn)行文檔與查詢的相關(guān)度評價(jià)，對將要輸出的結(jié)果進(jìn)行排序，并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。

檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。

4. 用戶接口

用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要的目的是方便用戶使用搜索引擎，高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。用戶接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法，以充分適應(yīng)人類的思維習(xí)慣。

用戶輸入接口可以分為簡單接口和復(fù)雜接口兩種。

簡單接口只提供用戶輸入查詢串的文本框；復(fù)雜接口可以讓用戶對查詢進(jìn)行限制，如邏輯運(yùn)算(與、或、非；、-) 、相近關(guān)系(相鄰、NEAR) 、域名范圍(如.edu 、.com) 、出現(xiàn)位置(如標(biāo)題、內(nèi)容) 、信息時(shí)間、長度等等。目前一些公司和機(jī)構(gòu)正在考慮制定查詢選項(xiàng)的標(biāo)準(zhǔn)。

成人AV在线无码|婷婷五月激情色,|伊人加勒比二三四区|国产一区激情都市|亚洲AV无码电影|日av韩av无码|天堂在线亚洲Av|无码一区二区影院|成人无码毛片AV|超碰在线看中文字幕

相關(guān)推薦