成人AV在线无码|婷婷五月激情色,|伊人加勒比二三四区|国产一区激情都市|亚洲AV无码电影|日av韩av无码|天堂在线亚洲Av|无码一区二区影院|成人无码毛片AV|超碰在线看中文字幕

數(shù)據(jù)庫漢語查詢句中查詢目標信息的研究

計算機科學2007Vol 134№13 數(shù)據(jù)庫漢語查詢句中查詢目標信息的研究3)鄭逢斌 葛 強 湯賽麗 黨蘭學(河南大學計算機與信息工程學院數(shù)據(jù)與知識工程研究所 開封475001) 摘 要 在自然語言

計算機科學2007Vol 134№13 

數(shù)據(jù)庫漢語查詢句中查詢目標信息的研究3)

鄭逢斌 葛 強 湯賽麗 黨蘭學

(河南大學計算機與信息工程學院數(shù)據(jù)與知識工程研究所 開封475001)

 

摘 要 在自然語言處理的研究中, 最有希望的應用領域之一是自然語言接口。計算機對自然語言中的查詢語言理

解的正確程度是自然語言接口質(zhì)量好壞的關(guān)鍵。通過對漢語查詢句———即用于數(shù)據(jù)庫自然語言查詢的祈使句和特指問句、是非問句、正反問句、選擇問句等共五類句型的研究, 建立并研究了復合概念、邏輯概念與標準概念的內(nèi)在聯(lián)系, 將查詢目標概念分解為直接查詢目標、邏輯推理目標和比較判斷目標三個階段, 研究了這三個階段的關(guān)系。關(guān)鍵詞 自然語言處理, 人機接口, 查詢目標 

A Study of the Q uery Aim Information of the uery ZH EN G Feng 2Bin  GE G 2Xue

(Institute of Data and Knowledge Enginerring , College , Henan University , Kaifeng 475001)

 

Abstract  Natural is hopef ul fields in the research on Natural Language Processing. Accuracy of query of natural language is key to quality of the natural language interface. Through the study Chinese query sentence , the Chinese query sentence is consist of the imperative sentence and special question , the yes 2or 2no question ,the positive and negative question , choose question etc. Build and study the relation of composing conception , logical conception , standard conception. The conception of the query aim is decom 2posed into three phases , there are direct query aim , logic discursion aim and compare judge aim , the relation of the three phases has been studied . K eyw ords  Natural language processing ,Man 2machine interface ,Query aim  

中, 最主要的也是系統(tǒng)最關(guān)心的就是要分清查詢目標與查詢

條件, 一般的查詢句有以下形式[4~6]:

(查詢句) ::=〈(查詢實體〉||〈條件信息〉||〈目標信息〉

) 3||〈干擾噪音〉

(查詢實體) ::=〈實體名〉或間接〈實體名〉

(條件信息) ::=[(域名) 十][(關(guān)系符) 十]域值[十環(huán)境詞]

(目標信息) ::=〈域名〉或間接〈域名〉(關(guān)系符) ::={=, ≠, ≤, ≥, <, >, ∈}

說明:(1) 查詢句可由若干個條件信息或目標信息組成, 其中可能有若干干擾噪聲。

(2) 條件信息中域名和操作符有時可以缺省, 這主要因為域值本身是特定域名的值。

(3) […]表示其內(nèi)容或者沒有或者一次; (…) 表示其內(nèi)容

) 3表示其內(nèi)容可重復零次或多次。可一次; (…

定義1 本文中標準概念是指收錄在理解自然語言所使用的各個知識庫中的概念。與它同義的其它詞語稱為非標準概念。

定義2 本文中的復合概念是指能分解為多個標準概念或分解為一個標準概念與常量的算術(shù)運算式的概念。如“中級職稱”“、明年”。

一個復合概念對應多個標準概念, 它是多個標準概念算術(shù)運算或邏輯運算的結(jié)果; 當一個概念解釋為唯一的一個標準概念時它就是標準概念同義詞了。

1 引言

本文所說的漢語查詢句是指用于數(shù)據(jù)庫自然語言查詢的疑問句和祈使句兩種類型, 疑問句分成特指問句、是非問句、正反問句、選擇問句四類。計算機理解漢語查詢句正確的程度是數(shù)據(jù)庫自然語言接口好壞的關(guān)鍵。所謂自然語言接口就是允許人們用某種自然語言的子集在限制領域內(nèi)同計算機進行通訊。數(shù)據(jù)庫自然語言接口是人工智能與數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物, 涉及到人工智能、自然語言處理、數(shù)據(jù)庫技術(shù)、人機接口等方面的研究[2,3]。狹義上的數(shù)據(jù)庫自然語言接口僅僅指數(shù)據(jù)庫自然語言查詢接口。

計算機處理漢語自然語言是多學科的研究工作, 但我國語言學界多數(shù)著重漢語教學方面的研究, 并且研究的成果是“給人看”的, 而不是“給計算機看”的。成果是“給人看”時, 研究成果很難形式化, 不適合直接用計算機處理, 有些成果根本無法形式化, 它們對計算機處理用處不大。成果“給計算機看”時是形式化的, 可以用軟件逐步實現(xiàn)[1]。下文是作者從程序?qū)崿F(xiàn)的角度出發(fā)對漢語數(shù)據(jù)庫查詢句進行了深入研究后關(guān)于查詢目標部分的結(jié)論。

2 查詢目標分類

作為以查詢數(shù)據(jù)庫內(nèi)容為目的的自然查詢語句, 主要包括查詢實體、查詢條件、查詢目標等方面的信息以及語句表達上需要而與查詢內(nèi)容無關(guān)的干擾噪音。自然查詢語言處理

3) 基金項目:河南省科技攻關(guān)(No. 0424220146) , 河南大學重點理工科項目(No. 04ZDZR001) 。鄭逢斌 博士, 副教授, 主要研究方向為自然語言理解, 軟件工程。

?9

0?

,

復合概念的含義在本系統(tǒng)中是固定的, 如果在不同的條件下含義不同屬于邏輯概念。

定義3 本文中的邏輯概念是指在不同的條件下有不同的含義(或值) 的概念。如“:退休年齡”。

在本文中邏輯概念用產(chǎn)生式表示, 存儲分為靜態(tài)存儲和動態(tài)存儲兩種形式, 靜態(tài)存儲可用二維關(guān)系表表示, 動態(tài)存儲用二級鏈表表示。所謂靜態(tài)存儲是指系統(tǒng)處于未運行時的存儲狀態(tài), 動態(tài)存儲是指系統(tǒng)啟動運行中的存儲狀態(tài)。系統(tǒng)在啟動時自動將靜態(tài)存儲狀態(tài)的知識轉(zhuǎn)化為動態(tài)存儲狀態(tài), 系統(tǒng)使用邏輯概念只對處于動態(tài)存儲狀態(tài)的知識進行操作。求邏輯概念的值時要進行邏輯推演才可以得知。

概念等價變換包括概念分解等價變換和概念合成等價變換。定義4 概念分解等價變換是指用復合概念知識庫將用戶輸入自然語言句子中復合概念逐步變換為只剩下域名和邏輯概念組成的復合式的過程。

在復合直接查詢目標轉(zhuǎn)換為簡單直接查詢目標、間接邏輯推理目標轉(zhuǎn)換為直接邏輯推理目標、件處理過程中都涉及概念分解等價變換定義5 換, 。

定義6 的結(jié)果。

查詢目標分為直接查詢目標、邏輯推理目標、比較判斷目標三個階段目標。要得到這些目標有時需要對概念進行等價變換和邏輯推理。

定義7 直接查詢目標是指通過知識庫的計算機操作命令直接對知識庫進行操作得到的數(shù)據(jù), 或這些數(shù)據(jù)經(jīng)過概念合成等價變換的結(jié)果。

直接查詢目標分簡單直接查詢目標和復合直接查詢目標, 簡單直接查詢目標是指只包含域名和聚集函數(shù)的目標; 復合直接查詢目標是指由簡單直接查詢目標經(jīng)過概念合成等價變換的目標。

用自然語言描述直接查詢目標可以有多種表達方式, 用戶不僅可以直接指定所要查詢的目標, 也可以用疑問代詞指代所要查詢的目標, 另外, 根據(jù)用戶的需求, 在查詢目標中還可以出現(xiàn)聚集函數(shù)。據(jù)此, 本文又可以將簡單直接查詢目標分為顯性目標、疑問目標和聚集目標三類。

定義8 顯性目標是指用域名直接給出的目標。定義9 疑問目標是指用疑問詞給出的目標。定義10 聚集目標是指用聚集函數(shù)給出的目標。

在表達上, 當將自然查詢語言中的每一個詞轉(zhuǎn)換為知識庫內(nèi)部表示后, 顯性目標和疑問目標都是與知識庫某些域名相對應, 而聚集目標則與一個聚集函數(shù)(如:COUN T 、SUM 、AV G 、MAX 、MIN ) 相對應。

定義11 數(shù)據(jù)提取目標是指簡單直接查詢目標中能轉(zhuǎn)換為同一個計算機命令語句的那些目標。計算機實現(xiàn)數(shù)據(jù)提取目標的過程稱為數(shù)據(jù)提取過程。

每個數(shù)據(jù)提取目標最終轉(zhuǎn)換為一個SQL 語句, 簡單直接查詢目標包括一個或多個數(shù)據(jù)提取目標, 因此簡單直接查詢目標應轉(zhuǎn)換成一個或多個SQL 語句。這幾個數(shù)據(jù)提取目標由數(shù)據(jù)提取過程來實現(xiàn), 它們是并列的。如:張三與李四誰先退休? 通過一系列變換得到簡單直接查詢目標為:張三的出生日期、性別、職業(yè)、職稱和李四的出生日期、性別、職業(yè)、職稱, 它對應如下兩個數(shù)據(jù)提取目標:

數(shù)據(jù)提取目標1:張三的出生日期, 性別, 職業(yè), 職稱。數(shù)據(jù)提取目標2:李四的出生日期, 性別, 職業(yè), 職稱。定義12 數(shù)據(jù)提取子目標是指數(shù)據(jù)提取目標中每一個相互獨立的最小的數(shù)據(jù)目標; 如“:出生日期”“、性別”。

數(shù)據(jù)提取目標=提取子目標1 提取子目標2 …… 提取子目標n (n ≥1) 。數(shù)據(jù)提取目標在分解為數(shù)據(jù)提取子目標時有如下幾種情況:

(1) 提取子目標1、提取子目標2、…、提取子目標n 為同一個知識庫的域名。

(2) 提取子目標1、提取子目標2、…、提取子目標n 為多個不同知識庫的域名。

(3) 提取目標i (i =1, 2, …, 算術(shù)運算符 , —, 3) 。

4) n , 且為集函數(shù)的函數(shù)值。13識庫的產(chǎn)生式結(jié)論中出現(xiàn)的知識目標的目標。

邏輯推理目標分為直接邏輯推理目標和間接邏輯推理目標。直接邏輯推理目標是指知識庫邏輯概念推理知識庫的產(chǎn)生式結(jié)論中出現(xiàn)的知識目標, 如“張三的退休年齡是多少? ”例句中“退休年齡”; 間接邏輯推理目標是指經(jīng)過概念分解等價變換最終變換為邏輯概念推理知識庫的產(chǎn)生式結(jié)論中出現(xiàn)的知識目標的目標, 如“張三的退休日期是何時? ”例句中“退休

(退休日期=出生日期 退休年齡) 。日期”

定義14 邏輯推理目標化解推演變換是指把直接邏輯推理目標經(jīng)過應用領域邏輯概念分解知識庫中的產(chǎn)生式逆向(即有結(jié)論到前提) 推理轉(zhuǎn)換為直接查詢目標的過程。

定義15 邏輯推理目標求值推演變換是指把直接查詢目標所得的知識經(jīng)過應用領域邏輯概念分解知識庫中的產(chǎn)生式推理轉(zhuǎn)換為直接邏輯推理目標的過程。

邏輯推理目標的結(jié)果本文用直接邏輯推理目標隊列表示, 間接邏輯推理目標到直接邏輯推理目標的轉(zhuǎn)換用概念等價變換鏈表表示。

定義16 比較判斷目標是指根據(jù)自然查詢句的要求, 對直接查詢目標或邏輯推理目標進行比較, 根據(jù)比較結(jié)果產(chǎn)生回答的內(nèi)容, 這個結(jié)果就是比較判斷目標。

比較的類型要考慮的因素有:句型、比較元素個數(shù)及比較關(guān)系、比較元素值的來源、比較結(jié)果類型等[7,8]。

從句型來看, 特殊問句和祈使句沒有比較判斷目標; 是非、選擇和正反問句的比較判斷目標為直接查詢目標或邏輯推理目標的比較值。

從比較元素個數(shù)及比較關(guān)系來看又分為:兩個元素比較(比較關(guān)系有:=, ≠, ≤, ≥, <, >, —) ; 多個元素(比較關(guān)系有:MAX,MIN ,ORDER ) ; 一個元素與一個集合比較(比較關(guān)

) 等。系有:∈

從元素值的來源來看又分為:查詢所得數(shù)據(jù)和查詢句原帶數(shù)據(jù)。如:張三是北京人還是上海人? 張三和李四是不是一年出生的?

從比較數(shù)據(jù)的結(jié)果類型來看又分為:邏輯值(真, 假) , 數(shù)據(jù)值。如:張三是南陽人嗎? 張三比李四大多少?

比較結(jié)果用比較判斷目標(一對多) 鏈表來表示。

(下轉(zhuǎn)第103頁)    

?9

1?

,

for XML. In :Proceedings of t he 8t h International World Wide Web Conference , May 1999. 77~9156

Bruno N , K oudas N ,Srivastava D. Holistic Twig Joins :Optimal XML Pattern Matching. In :ACM SIGMOD , J une 2002Wang H X , Park S , Fan W , et al. ViST :A Dynamic Index Met hod for Querying XML Data by Tree Structures. In :ACM SIGMOD ,J une 200378

McCreight E M. A space 2economical suffix tree construction algo 2rit hm. Journal of t he ACM , 1976,23(2) :262~272

Shasha D , Wang J T L , G iugno R. Algorit hmics and Applications of Tree and Graph Searching. In :ACMSymposium on Principles

9

of Database Systems (PODS ) , May 2002. 39~52

van Leeuwen J. Algorit hms for finding patterns in strings. In :Handbook of Theoretical Computer Science. Vol A , Algorit hms and complexity. Chapter 5. Elsevier , Amsterdam , 1990. 255~30010Sleepycat Software. http ://www. sleepycat. com. The Berkeley

Database (Berkeley DB )

11Ley M. DBL P database web site. http ://www. informatik. uni 2

t rier. de/ley/db , 2004

12XMAR K:The XML 2benchmark project. http ://monetdb. cwi.

nl/xml , 2004

(上接第91頁) 回答用戶目標用回答用戶目標隊列來表示。

  定義17 回答用戶目標是指自然查詢句要求系統(tǒng)回答的內(nèi)容。回答用戶目標可能是比較判斷目標, 也可能是邏輯推理目標或者直接查詢目標。

3 

查詢目標關(guān)系

圖1 查詢目標關(guān)系圖

  查詢目標中各階段目標的關(guān)系如圖1所示。在實際中,

許多查詢句的查詢目標只包括三個階段中的部分階段, 分如下幾種情況:

(1) 當回答用戶目標=直接查詢目標時, 直接查詢目標的內(nèi)容就是回答用戶目標的值。如:請說出張三的籍貫(祈使句) , 哪里是張三的老家? (特殊疑問句) 。

(2) 當回答用戶目標=邏輯推理目標時, 邏輯推理目標的內(nèi)容就是回答用戶目標的值。如:請說出張三的退休日期(祈使句) , 張三哪年退休? (特殊疑問句) 。邏輯概念“退休日期”的值就是回答用戶目標的值。

(3) 當回答用戶目標=判斷比較目、只有一個比較者和一個被比較者(是非問句或正反問句) 、比較者是直接查詢目標或邏輯推理目標、被比較者為常量或直接查詢目標或邏輯推理目標時, 則回答用戶目標的值是二者比較結(jié)果的邏輯值。如:張三是副教授嗎? 張三與李四的職稱一樣嗎? 張三與李四的退休年齡一樣嗎?

(4) 當回答用戶目標=判斷比較目、只有一個比較者和多個被比較者(選擇問句) 、比較者是直接查詢目標或邏輯推理目標、被比較者均為常量時, 則回答用戶目標的值是比較結(jié)果為真的對應的被比較者。如:張三是講師還是副教授?

(5) 當回答用戶目標=判斷比較目、只有一個比較者和多個被比較者(選擇問句) 、比較者是直接查詢目標或邏輯推理目標、被比較者均為直接查詢目標或邏輯推理目標時, 則回答用戶目標的值是比較結(jié)果為真的對應的被比較者概念對應的

查詢條件塊。如:張三的職稱是與李四一樣還是與王五一樣?

結(jié)論 本文深入研究了漢語查詢句中查詢目標信息, 用祈使句或特殊疑問句查詢時, 回答用戶目標一般等于直接查詢目標或邏輯推理目標; 用是非問句、正反問句、選擇問句等方式查詢時, 回答用戶目標一般等于判斷比較目標。這些信息作者都設計了存儲表示結(jié)構(gòu), 可已用計算機軟件來識別和轉(zhuǎn)換, 識別和轉(zhuǎn)換的算法將于另文討論。

參考文獻

12345678

鄭逢斌. 計算機理解自然查詢語言的研究與實現(xiàn)[D ]:[西南交通大學博士研究生學位論文].2004

孟小峰, 王珊. 中文數(shù)據(jù)庫自然語言查詢系統(tǒng)Nchiql 設計與實現(xiàn)

[J].計算機研究與發(fā)展,2001,38(9) :1080~1086

王英姿, 宗成慶, 陳肇雄, 黃河燕. ITS 系統(tǒng)中自然語言人機接口的設計與實現(xiàn)[J].計算機研究與發(fā)展,1998,35(9) :814~818許龍飛, 楊曉昀, 唐世渭. 基于受限漢語的數(shù)據(jù)庫自然語言接口技術(shù)研究[J].軟件學報,2002,13(4) :537~544

許龍飛, 唐世渭. 數(shù)據(jù)庫漢語自然語言查詢模型研究[J].計算機科學,1999,26(8) :43~46

許龍飛1數(shù)據(jù)庫自然語言查詢技術(shù)研究[J].計算機科學,1997,

24(5) :50~54

卞世力, 姚天順, 金鴻1一個中間語言生成目標語言的原理和方法[J].軟件學報,1994,5(9) :1~8

李保利, 周錫令1數(shù)據(jù)庫自然語言接口系統(tǒng)的研究[J].計算機系統(tǒng)應用,1999(12) :31~34

?1

03?

標簽: