《現代漢語(yǔ)語(yǔ)法信息詞典》的開(kāi)發(fā)與應用
【摘要】現代漢語(yǔ)語(yǔ)法信息詞典是為計算機實(shí)現漢語(yǔ)句子的自動(dòng)分析與自動(dòng)生成開(kāi)發(fā)的一部機器詞典,它以數據庫文件形式收錄了5萬(wàn)多條現代漢語(yǔ)的詞語(yǔ),不僅給出了每個(gè)詞語(yǔ)所屬的詞類(lèi),而且詳細描述了它們的各種語(yǔ)法屬性。本文介紹這部語(yǔ)法詞典的開(kāi)發(fā)歷程、內容概要和設計思想,并且舉例說(shuō)明在自然語(yǔ)言處理系統中如何應用這部語(yǔ)法詞典。關(guān)鍵詞:現代漢語(yǔ)、語(yǔ)法信息詞典、機器詞典、自然語(yǔ)言處理The Development of Contemporary Chinese GrammaticalKnowledge Base and its ApplicationsZHU Xuefeng YU Shiwen WANG HuiInstitute of Computational Linguistics, Peking UniversityBeijing 100871, P.R.CPhone :2501892 AbstractThe Contemporary Chinese Grammatical Knowledge Base is a machine dictionary,which is developed for automatic analysis and generation of Chinese sentences. There are about 50,000 Chinese words and idioms in the knowledge base represented by database files. The knowledge base not only gives part of speech for each word or idiom, but also describes their various grammatical attributes. The paper introduces the design, the development and the outline of the knowledge base and shows its applications in natural language processing systems with examples.Keywods: contemporary Chinese, grammatical knowledge base, machine dictionary, natural language processing 1. 現代漢語(yǔ)語(yǔ)法信息詞典的開(kāi)發(fā)歷程 十年前,中文輸入技術(shù)的主流還是漢字編碼,以詞為單位進(jìn)行輸入也只是漢字輸入的陪襯。北大計算語(yǔ)言學(xué)研究所在1986年提出了一個(gè)語(yǔ)法規則制導的以語(yǔ)句為單位的中文輸入方案,并在一年多的時(shí)間內實(shí)現了。參考文獻[1]深入淺出地介紹了這個(gè)方案的原理與實(shí)現技術(shù)。這個(gè)方法中就包含了一部電子詞典,除了詞條及每個(gè)詞的檢索特征(拼音、起筆、末筆等)外,還包括詞類(lèi)及細分的子類(lèi)。這部詞典成為現代漢語(yǔ)語(yǔ)法信息詞典的基礎。 作為中國七五攻關(guān)項目“自然語(yǔ)言理解與人機接口”中的一個(gè)子專(zhuān)題,俞士汶于1987年提出了開(kāi)發(fā)“現代漢語(yǔ)詞語(yǔ)語(yǔ)法信息庫”的計劃[2] ,把研究重點(diǎn)放在詞語(yǔ)語(yǔ)法屬性的描述上。恰逢此時(shí),中國著(zhù)名語(yǔ)言學(xué)家朱德熙先生承擔了全國社會(huì )科學(xué)規劃領(lǐng)導小組下達的“現代漢語(yǔ)詞類(lèi)研究”的攻關(guān)項目。從此,北大計算語(yǔ)言學(xué)研究所與中文系的研究者們在朱德熙先生的率領(lǐng)下開(kāi)始了聯(lián)合攻關(guān),并結成了穩定的合作關(guān)系。1990年,“現代漢語(yǔ)詞語(yǔ)語(yǔ)法信息庫”取得了階段性成果,通過(guò)技術(shù)鑒定。 在討論八五攻關(guān)項目時(shí),以中國工程院院士、中國中文信息學(xué)會(huì )理事長(cháng)陳力為教授為代表的中國一批自然語(yǔ)言處理技術(shù)專(zhuān)家敏銳地覺(jué)察到,為了中文信息處理技術(shù)的發(fā)展,特別是語(yǔ)言信息處理技術(shù)的發(fā)展,有必要建立通用的應用開(kāi)發(fā)平臺[3][4]。這個(gè)大型語(yǔ)言工程將現代漢語(yǔ)語(yǔ)法信息詞典(以下有時(shí)簡(jiǎn)稱(chēng)為“語(yǔ)法詞典”)列為它的一個(gè)子專(zhuān)題。從1991年起北大計算語(yǔ)言學(xué)研究所承擔了這個(gè)子專(zhuān)題的研制任務(wù)。本項研究繼承了“現代漢語(yǔ)詞語(yǔ)語(yǔ)法信息庫”的成果,又經(jīng)過(guò)5年的努力,現在本項研究已完成如下任務(wù):(1)制訂了現代漢語(yǔ)語(yǔ)法信息詞典的規格說(shuō)明書(shū)與開(kāi)發(fā)方略[5];(2)建立了面向信息處理的現代漢語(yǔ)詞語(yǔ)分類(lèi)體系并完成了關(guān)于這個(gè)分類(lèi)體系的研究報告[6];(3)明確了詞語(yǔ)的收錄范圍與選詞原則[7];(4)探討了某些詞類(lèi)的子類(lèi)劃分[8];(5)語(yǔ)法詞典本身的開(kāi)發(fā),這當然是最繁重、最艱巨的任務(wù)。到目前為止,語(yǔ)法詞典收錄的詞語(yǔ)總數為5萬(wàn)多條,并且將這5萬(wàn)多詞都歸了類(lèi),按照規格說(shuō)明書(shū)填入了語(yǔ)法屬性信息,其中百分之七十經(jīng)過(guò)了仔細的、多遍的、不同角度的校對。 按照應用開(kāi)發(fā)平臺工程總體組的布署,北大已將語(yǔ)法詞典的部分內容提交給其他子專(zhuān)題開(kāi)發(fā)組使用。最近,負責句法規則的研究者告知,語(yǔ)法詞典對句法分析提供的語(yǔ)法知識是有價(jià)值的,也是相當充分的。對于開(kāi)發(fā)者來(lái)說(shuō),這當然是莫大的安慰與鼓勵。另外,北大計算語(yǔ)言學(xué)研究所與中國科學(xué)院計算所聯(lián)合開(kāi)發(fā)“漢英機器翻譯模型系統”,與北京通字公司聯(lián)合開(kāi)發(fā)“面向通用圖像碼的自然語(yǔ)言生成系統”,與自然科學(xué)基金項目配合,開(kāi)發(fā)漢語(yǔ)語(yǔ)料庫多級標注系統[9],這些應用系統利用了語(yǔ)法詞典的信息。語(yǔ)法詞典為這些應用系統取得階段性成果也作出了貢獻。 總之,現代漢語(yǔ)語(yǔ)法信息詞典的開(kāi)發(fā)已取得階段性成果,并且在若干自然語(yǔ)言處理應用系統開(kāi)發(fā)中得到了利用。2. 現代漢語(yǔ)語(yǔ)法信息詞典的內容概要2.1 詞語(yǔ)的分類(lèi)詞語(yǔ)的分類(lèi)既是任何一個(gè)自然語(yǔ)言處理系統的基礎也是語(yǔ)法信息詞典開(kāi)發(fā)的基礎。因為語(yǔ)法詞典既要描述每類(lèi)詞都有的共同的語(yǔ)法屬性,又要分別描述各類(lèi)詞特有的語(yǔ)法屬性,只有這樣,語(yǔ)法信息才會(huì )充分、完備,而又不致過(guò)于冗余。語(yǔ)法詞典的詞類(lèi)體系是在朱德熙先生的語(yǔ)法理論指導下,依據詞的語(yǔ)法功能建立的,現代漢語(yǔ)詞語(yǔ)可劃分為以下18個(gè)基本詞類(lèi):名 詞(n) 如:書(shū)、水、教授、國家、心胸、北京時(shí)間詞(t) 如:明天、元旦、唐朝、現在、春天處所詞(s) 如:空中、低處、郊外、隔壁方位詞(f) 如:上、下、前、后、東、西、南、北、里面、外頭、中間數詞(m) 如:一、第一、千、零、許多、分之量 詞(q) 如:個(gè)、群、公斤、杯、片、種、些區別詞(b) 如:男、女、公共、微型、初級代 詞(r) 如:你、我們、這、那么、哪兒、誰(shuí) 動(dòng) 詞(v) 如:走、休息、同意、能夠、出去、是、調查形容詞(a) 如:好、紅、大、溫柔、美麗、突然狀態(tài)詞(z) 如:雪白、金黃、淚汪汪、滿(mǎn)滿(mǎn)當當、灰不溜秋副詞(d) 如:不、很、都、剛剛、難道、忽然介 詞(p) 如:把、被、對于、關(guān)于、以、按照連 詞(c) 如:和、與、或、雖然、但是、否則助 詞(u) 如:了、著(zhù)、過(guò)、的、所、似的語(yǔ)氣詞(y) 如:?jiǎn)、呢、吧、嘛、啦、唄擬聲詞(o) 如:?jiǎn)、啪、叮呤當啷、嘩啦嘆 詞(e) 如:唉、喔、哎喲、嗯、啊括號中的英文字母是各個(gè)詞類(lèi)的代碼。這18個(gè)基本詞類(lèi)是被多數語(yǔ)言學(xué)家認可的。其中名詞、時(shí)間詞、處所詞、方位詞、數詞、量詞可以歸并為體詞(其主要語(yǔ)法功能是作主語(yǔ)、賓語(yǔ)),動(dòng)詞、形容詞、狀態(tài)詞可以歸并為謂詞(其主要語(yǔ)法功能是作謂語(yǔ)),代詞有一部分屬于體詞(如:你、我、這兒、哪里等),又有一部分屬于謂詞(如:這樣、那么、怎么樣等)。體詞、謂詞、區別詞、副詞又合稱(chēng)為實(shí)詞,而介詞、連詞、助詞、語(yǔ)氣詞合稱(chēng)為虛詞。在實(shí)際文本中出現的詞語(yǔ),除了屬于以上18個(gè)基本詞類(lèi)的以外,還存在比基本詞類(lèi)要大的單位,如:成 語(yǔ)(i) 如:空中樓閣、畫(huà)龍點(diǎn)睛、字字珠璣、一衣帶水習用語(yǔ)(l) 如:總而言之、自古以來(lái)、跑龍套、擺花架子簡(jiǎn)稱(chēng)略語(yǔ)(j) 如:北大、數理化、總參、三好、農牧業(yè)也存在比基本詞類(lèi)更小的單位,如:前接成分(h) 如:阿(~妹)、老(~張)、偽(~指令)后接成分(k) 如:子(桌~)、兒(花~)、頭(石~)、式、員語(yǔ) 素 字(g) 如:碧、棉、賓、潔、農、怒非語(yǔ)素字(x) 如:鴛、鴦、葡、萄、咖、啡中文的標點(diǎn)符號(w) 如:。,《》 、!“”為了分析實(shí)際文本的需要,現代漢語(yǔ)詞語(yǔ)功能分類(lèi)體系共包括了26個(gè)不同的詞語(yǔ)類(lèi)別,F在已完成了語(yǔ)法詞典收錄的5萬(wàn)詞語(yǔ)的歸類(lèi)工作。2.2 語(yǔ)法詞典的結構與形態(tài)語(yǔ)法詞典采用成熟的關(guān)系數據庫技術(shù),結合使用分類(lèi)與屬性描述兩種方法,對5萬(wàn)詞語(yǔ)建立了分級的語(yǔ)法屬性庫。每一個(gè)庫文件都刻劃了詞語(yǔ)及其屬性的二維關(guān)系。長(cháng)期以來(lái),自然語(yǔ)言處理技術(shù)都是應用規則系統描述語(yǔ)言的語(yǔ)法規律。這種規則系統抽象程度高,適合于描述詞類(lèi)與詞類(lèi)之間的組合關(guān)系。但是自然語(yǔ)言極其復雜,每個(gè)詞語(yǔ)都有自己的特性,規則系統是難以應付大范圍的實(shí)際語(yǔ)料的復雜性的。面向實(shí)際語(yǔ)料中詞與詞的同現關(guān)系的統計學(xué)研究是一個(gè)有前途的新方向,但統計的數據量非常大,需要強大的計算機系統甚至超并行計算機系統的支持。語(yǔ)法詞典介于上述兩種辦法之間,是在應用需求與客觀(guān)條件之間進(jìn)行權衡與折衷的實(shí)際可行的策略。詞典中共有32個(gè)數據庫文件?値1個(gè)。各類(lèi)詞庫24個(gè)(嘆詞、象聲詞、非語(yǔ)素字現未另建庫)。代詞庫下又設兩個(gè)庫,即人稱(chēng)代詞、指示 / 疑問(wèn)代詞分庫,動(dòng)詞庫下又設體賓動(dòng)詞、謂賓動(dòng)詞、雙賓動(dòng)詞、動(dòng)結式、動(dòng)趨式、離合詞等6個(gè)分庫。所有詞的共同屬性容納在總庫中,總庫中的屬性包括讀音、詞類(lèi)、切分標記、姓氏標記等,共計約20項。各類(lèi)詞的特有屬性填在各類(lèi)詞的庫中。以動(dòng)詞為例,動(dòng)詞庫中列出了46項屬性,表1是動(dòng)詞屬性庫中部分屬性的樣例。
表1. 動(dòng)詞屬性庫中部分屬性的樣例
詞語(yǔ)同形義項助動(dòng)外內體謂準雙賓著(zhù)了過(guò)重疊VVO離合單作謂語(yǔ)單作補語(yǔ)兼類(lèi)
交給體雙了
理發(fā)內了過(guò)VVO離可
會(huì )A見(jiàn)面體著(zhù)了過(guò)VVn
會(huì )B1理解體可可
會(huì )B2可能助謂可
會(huì )C付帳體可
加強體準了
進(jìn)行準了
能夠助謂可
保管1保存體著(zhù)了過(guò)ABAB可
保管2擔保謂
幫幫助體雙著(zhù)了過(guò)VV可q
冒險內過(guò)VVO離a
上去內了過(guò)離可可
對動(dòng)詞的某些屬性(如體詞賓語(yǔ)、謂詞賓語(yǔ)的類(lèi)型)還要進(jìn)一步刻劃,則分別建立有關(guān)的分庫。這樣,整個(gè)信息庫形成了層次構造的體系?値炫c各類(lèi)詞庫,代詞與下屬的2個(gè)分庫,動(dòng)詞與下屬的6個(gè)分庫都可以進(jìn)行連結(JOIN),連接條件可以用詞語(yǔ)、詞類(lèi)、同形這些字段來(lái)表達。這樣,這32個(gè)庫文件構成有上下位繼承關(guān)系的“樹(shù)”,子結點(diǎn)繼承父結點(diǎn)的全部信息,或者說(shuō),將父結點(diǎn)與子結點(diǎn)連結起來(lái)就可以得到詞語(yǔ)的更全面的信息。2.3 詞語(yǔ)的屬性描寫(xiě)分類(lèi)法刻劃事物雖然簡(jiǎn)潔、清晰、信息密度大,但屬于同一類(lèi)的事物仍可能各具特點(diǎn),例如“魚(yú)”和“!蓖瑢賯(gè)體名詞,因為“魚(yú)”有專(zhuān)用個(gè)體量詞“尾”,“!庇袑(zhuān)用個(gè)體量詞“頭”。但是,“魚(yú)”通常還可以與度量詞“斤,克”搭配,“!本筒恍。因此語(yǔ)法詞典更依靠屬性描述來(lái)刻劃每一個(gè)詞語(yǔ)的語(yǔ)法信息。如對于名詞,就詳細描述每個(gè)名詞可以搭配的各類(lèi)量詞。語(yǔ)法詞典對每一類(lèi)詞的語(yǔ)法屬性進(jìn)行了相當充分的發(fā)掘。例如,對于作為研究重點(diǎn)的動(dòng)詞共確定了46項屬性。這些屬性大致可歸納為7類(lèi)。第一類(lèi)是關(guān)于動(dòng)詞本身特性的,如該動(dòng)詞是不是系詞、助動(dòng)詞、趨向動(dòng)詞。第二類(lèi)是關(guān)于動(dòng)詞變化形態(tài)的,如有沒(méi)有VV、ABAB、AABB、V一V、V了V等形態(tài)。第三類(lèi)描述該動(dòng)詞有無(wú)名詞特性,如能否直接修飾名詞,能否直接受名詞修飾、能否作動(dòng)詞“有”的賓語(yǔ)等。第四類(lèi)反映該動(dòng)詞同一些虛詞的關(guān)系,如它前面能不能受“不,沒(méi),很”修飾,后面能不能帶“著(zhù),了,過(guò)”。第五類(lèi)描述動(dòng)詞在句中的功能,即該動(dòng)詞在句法結構中能否單獨作主語(yǔ)、謂語(yǔ)、賓語(yǔ)、狀語(yǔ)和補語(yǔ),其中能否單獨作謂語(yǔ)是一項很重要的屬性。第六類(lèi)刻劃動(dòng)詞與后繼成分的關(guān)系,即該動(dòng)詞能否后接表示結果的補語(yǔ),能否后接趨向動(dòng)詞,能否后接時(shí)量成分,能否后接動(dòng)量成分,能否帶賓語(yǔ)。如果能帶賓語(yǔ),則進(jìn)一步細分能帶什么樣的賓語(yǔ):體詞,謂詞,雙賓等。第七類(lèi)包含其它零散的屬性,如該動(dòng)詞的主語(yǔ)是否必須是“復數”。3. 現代漢語(yǔ)語(yǔ)法信息詞典的設計思想3.1 通用與專(zhuān)用相結合,以通用為主在自然語(yǔ)言處理系統中,通常都有一部包括詞法、句法、語(yǔ)義信息的機器詞典,但由于這類(lèi)詞典是服務(wù)于特定目的與特定系統的,為了把它從一個(gè)系統移植到另一個(gè)系統時(shí)需要花費很大力氣,人們往往寧愿另起爐灶。本語(yǔ)法詞典作為中文信息處理技術(shù)應用開(kāi)發(fā)平臺的一個(gè)組成部分,是獨立于特定的處理系統的,甚至也不依賴(lài)于某個(gè)具體的計算語(yǔ)言學(xué)理論與算法,它反映的是現代漢語(yǔ)詞語(yǔ)的語(yǔ)法功能的基本事實(shí)。各個(gè)具體的應用系統可能不需要語(yǔ)法詞典所包含的全部知識,但都可以對它進(jìn)行裁剪或從中提取出所需要的知識。語(yǔ)法詞典的收詞原則、各個(gè)詞的義項的選取原則以及語(yǔ)法屬性的確定都是面向通用的現代漢語(yǔ)的。但是,當將語(yǔ)法詞典應用于具體系統時(shí),也可以通過(guò)詞語(yǔ)的選取、屬性的增刪向各個(gè)具體系統傾斜,專(zhuān)用的色彩就會(huì )變濃。3.2 專(zhuān)家知識與語(yǔ)料庫相結合,以專(zhuān)家知識為主現代漢語(yǔ)詞語(yǔ)分類(lèi)體系的確立、若干詞類(lèi)的子類(lèi)的劃分、各類(lèi)詞的共同語(yǔ)法屬性(總庫)與特殊屬性(分庫)的設置以及屬性值的確定主要依賴(lài)專(zhuān)家的知識。指導、主持與參與語(yǔ)法詞典開(kāi)發(fā)的專(zhuān)家或者是造詣頗深的著(zhù)名語(yǔ)言學(xué)家,或者是在開(kāi)發(fā)具體的自然語(yǔ)言處理系統中積累了豐富感性知識的計算機專(zhuān)家,或者是基礎扎實(shí)文理結合的青年計算語(yǔ)言學(xué)工作者。語(yǔ)法詞典就是將這些專(zhuān)家的知識以形式化、規格化的方式存儲到計算機系統中。而且語(yǔ)法詞典的開(kāi)發(fā)也為計算機科學(xué)與語(yǔ)言學(xué)的結合找到了一個(gè)合適的途徑。計算機系統可以較快地吸收語(yǔ)言學(xué)家的知識,語(yǔ)言學(xué)家也能比較容易地利用語(yǔ)法詞典開(kāi)展語(yǔ)言研究與語(yǔ)言教學(xué)研究。在依賴(lài)專(zhuān)家知識的同時(shí),我們也重視語(yǔ)料庫的建設。對總體組提供的3批語(yǔ)料,我們參與了切分與詞性標注。北大計算語(yǔ)言學(xué)研究所還建立了面向語(yǔ)法研究的語(yǔ)料庫,并對其中一部分(約70萬(wàn)字)進(jìn)行了切分與標注。利用這些語(yǔ)料,可對詞典內容進(jìn)行比較與校對,從而大大提高了詞典內容的可信度。3.3 基礎研究與應用研究相結合,以基礎研究為主北大計算語(yǔ)言學(xué)研究所在八五期間始終將語(yǔ)法詞典的開(kāi)發(fā)列為工作的重點(diǎn),尤其是課題組的主要成員,更是全身心地投入了這項開(kāi)發(fā)工作,以全局利益和長(cháng)遠利益為重,堅持做底層的基礎的工作。北大計算語(yǔ)言學(xué)研究所也在另外一些項目中使用語(yǔ)法詞典的成果。這些項目包括獨立開(kāi)發(fā)的現代漢語(yǔ)語(yǔ)料庫多級標注系統CCMP[9],也包括與其它單位合作開(kāi)發(fā)的如1.中所述的應用系統。從應用中得到的反饋意見(jiàn)既使課題組得到鼓舞,也使課題組清醒地認識到,要使這項成果早日問(wèn)世,發(fā)揮作用,尚有很多艱苦的工作要做。4. 現代漢語(yǔ)語(yǔ)法詞典應用例解語(yǔ)法詞典是語(yǔ)言信息處理的基礎,它不僅可以在語(yǔ)言信息處理的各個(gè)項目(如:機器翻譯,自然語(yǔ)言接口,文獻檢索,語(yǔ)音識別,語(yǔ)音合成,文字識別,中文鍵盤(pán)輸入,文本校對,語(yǔ)料庫加工等)中得到應用,而且也可以在傳統的語(yǔ)言學(xué)研究特別是現代漢語(yǔ)語(yǔ)法研究中得到應用。下面以實(shí)例解釋如何運用這部語(yǔ)法詞典。4.1 句法分析按照當前的主流技術(shù),句法分析是機器翻譯與自然語(yǔ)言理解等系統的處理流程中的一個(gè)必要的環(huán)節。句法分析指的是依據某種句法分析理論提供的規則分析自然語(yǔ)言的句子,得到這個(gè)句子的句法樹(shù)(如上下文無(wú)關(guān)語(yǔ)法CFG)或以復雜特征集表示的功能結構(如詞匯功能語(yǔ)法LFG)。要進(jìn)行這種句法分析,必須要知道每個(gè)詞的詞性(即該詞所屬的詞類(lèi), part of speech)。但僅僅依靠詞性,會(huì )產(chǎn)生大量的歧義結構。如: 我們 選舉 他 當 主席。 (1) 我們 認為 他 是 主席。 (2)(1)與(2)的相似是明顯的,從詞性來(lái)看,它們都有如(3)所示的同樣的詞類(lèi)序列。 r v r v n (3)根據上下文無(wú)關(guān)的語(yǔ)法規則,這樣的詞類(lèi)序列可以產(chǎn)生多種句法樹(shù)。從語(yǔ)法詞典中查“選舉”,這個(gè)動(dòng)詞可以后接兼語(yǔ)結構,(1)的結構可以?xún)?yōu)選為圖1中的左邊的樹(shù)。從語(yǔ)法詞典中查“認為”,這個(gè)動(dòng)詞只能帶謂詞性賓語(yǔ),且這個(gè)謂詞性賓語(yǔ)是一個(gè)子句,(2)的結構只可能是圖1中的右邊的樹(shù)。 S SNP VP NP VP r v NP VP r v SC r v n NP VP我們 選舉 他 當 主席 r v n 我們 認為 他 是 主席圖1 句子(1)與(2)的句法樹(shù) 在機器翻譯系統中,只有得到了源語(yǔ)言句子的正確的句法結構,才有可能產(chǎn)生可信度與可讀性皆好的目標語(yǔ)言的句子。4.2 句子生成一般地說(shuō),在自然語(yǔ)言處理系統中,漢語(yǔ)的句子生成相對說(shuō)來(lái)要簡(jiǎn)單些,這是因為漢語(yǔ)的詞沒(méi)有復雜的形態(tài)變化,詞序又比較靈活。以漢語(yǔ)為母語(yǔ)的人容易從詞語(yǔ)、語(yǔ)素排列串中猜出它們要表達的意思。正因為如此,現在對漢語(yǔ)的句子生成投入的力量是不夠的。自然語(yǔ)言處理系統生成的漢語(yǔ)句子往往帶有“機器味兒”,不像地道的漢語(yǔ)。例如,機器翻譯系統給出以下兩句漢語(yǔ)是尋常的。 她是一個(gè)美麗姑娘。 (4) 當時(shí)敵機轟炸著(zhù)這個(gè)城市。 (5) “美麗”是形容詞,“美麗”修飾“姑娘”在語(yǔ)義上也是適配的,但讀起來(lái)總覺(jué)得有些別扭。這是因為漢語(yǔ)中的形容詞,只有一部分可以直接修飾名詞,相當多的一部分需要加助詞“的”才能修飾名詞。從語(yǔ)法詞典的形容詞庫中,可以查到,“美麗”需加“的”,而它的同義詞“漂亮”則不需要加“的”。只要利用這些平凡的知識,則能生成更自然的句子“她是一個(gè)美麗的姑娘”或“她是一個(gè)漂亮姑娘”。對于(5),之所以覺(jué)得它不地道,是因為“轟炸”這個(gè)動(dòng)詞后面不能接動(dòng)態(tài)助詞“著(zhù)”,為了表示進(jìn)行時(shí)態(tài),可以改為“當時(shí)敵機正在轟炸這個(gè)城市”。在語(yǔ)法詞典中確實(shí)包含了動(dòng)詞“轟炸”不能帶“著(zhù)”、可以受“正在”修飾的信息。4.3 語(yǔ)音識別與拼音漢字轉換語(yǔ)音識別通常分為兩個(gè)階段。第一階段是將無(wú)編碼的語(yǔ)音信號轉換為機內的漢語(yǔ)拼音序列,這是模式識別的任務(wù)。第二階段是分化同音字或同音詞,表現在書(shū)面上則是將拼音序列轉換為漢字序列。這是語(yǔ)言信息處理的任務(wù)。采用拼音方式從鍵盤(pán)上輸入中文所要解決的問(wèn)題也是拼音序列到漢字序列的轉換。假定,給定拼音序列 Zhuo1zi5 shang4 you3 yi1 jin1 pi2pa5。 (6) 這里,全拼音節后的數字1,2,3,4,5分別代表陰平、陽(yáng)平、上聲、去聲、輕聲。由于“pi2pa5”對應兩個(gè)同音詞“琵琶”和“枇杷”,某些系統轉換出 桌子上有一斤琵琶 。 (7) 是不足為怪的。但如果利用語(yǔ)法詞典,則可以查到每一個(gè)具體的名詞可能與哪些子類(lèi)的量詞以及哪些具體的量詞相適配。與“琵琶”相適配的只有個(gè)體量詞“把”,而“枇杷”卻是可以與度量詞“斤”相適配的。根據語(yǔ)法詞典提供的這些信息,系統就可以修正(7),從而得到“桌子上有一斤枇杷”。又假定系統已確認對應“jiayi”的詞是“加以”,接著(zhù)輸入“yanjiu”。沒(méi)有更多的信息,系統很難判定對應“yanjiu”的是“煙酒”還是“研究”。如果利用語(yǔ)法詞典,則知道“加以”是形式動(dòng)詞,只能帶準謂詞性賓語(yǔ),不會(huì )帶體詞性賓語(yǔ),因此在“加以”的制約下,對應“yanjiu”的只能是“研究”而不會(huì )是“煙酒”。4.4 漢字識別的后校正現在脫機(off-line)漢字識別技術(shù)對“師”這個(gè)模式通常給出“師、怖、帥”等若干個(gè)候選字。如果沒(méi)有上下文,孤立地決定選取哪一個(gè)字是困難的。但如果在上下文“三個(gè)師的士兵”中,“師”的前后都是筆劃較少、較易辨認的字,并且已經(jīng)唯一地確定下來(lái)了,則只有“師”這個(gè)名詞可以與個(gè)體量詞“個(gè)”相適配。在現代漢語(yǔ)中,“帥”與“怖”只是語(yǔ)素,不能獨立成詞,一般不會(huì )與“個(gè)”相適配。因此,系統就會(huì )很有信心地從3個(gè)候選字中選擇“師”。4.5 語(yǔ)料庫標注北大計算語(yǔ)言學(xué)研究所開(kāi)發(fā)漢語(yǔ)語(yǔ)料庫多級加工系統CCMP的經(jīng)驗表明,進(jìn)行語(yǔ)料庫標注,采取基于規則的方法與基于統計的方法相結合的策略是恰當的,并且切分與標注同步進(jìn)行是合理的[9]。在進(jìn)行這種標注時(shí),語(yǔ)法詞典可以發(fā)揮重要的作用。詞典中的數以萬(wàn)計的詞都已經(jīng)劃好了類(lèi),對標注的正確性與一致性可以起到基本的保證作用。標注程序只需集中力量解決兼類(lèi)詞的歧義消解及未登錄詞的確認與詞性判定。利用純粹的統計方法進(jìn)行詞類(lèi)標注,也需要有人先對一部分語(yǔ)料進(jìn)行手工標注(即對系統進(jìn)行訓練)。由于存在不同的語(yǔ)法體系,由于不同的人會(huì )有不同的認識,即使同一個(gè)人的認識也會(huì )發(fā)展變化,所以由人直接標注語(yǔ)料難免出現不一致性。例如,對于主賓語(yǔ)位置上的謂詞(動(dòng)詞、形容詞等)有可能被標為謂詞,也有可能被標為名詞。這樣就會(huì )影響自動(dòng)標注的正確率。依靠這部語(yǔ)法詞典,就不會(huì )發(fā)生這種情況。而且,標注了詞性的語(yǔ)料庫與語(yǔ)法信息詞典相結合,可以構成立體的知識庫,即從語(yǔ)料中的詞/詞性入口,可以迅速檢索到該詞的諸多語(yǔ)法特性,從而為進(jìn)一步的分析或標注提供豐富的知識。5. 后記本項研究雖然已取得了可觀(guān)的階段性成果,但要做的工作還很多。本課題組決心持之以恒,繼續推進(jìn)這項研究。本項研究自始至終是在陳力為院士的關(guān)心與支持下進(jìn)行的?傮w組的多位專(zhuān)家(如袁琦、董振東、黃昌寧等)及各合作單位都給過(guò)北大計算語(yǔ)言學(xué)研究所多種形式的支持與鼓勵。在此一并致以衷心的謝意。陸儉明與郭銳兩位先生起了重要的顧問(wèn)作用。北大計算語(yǔ)言學(xué)研究所的張蕓蕓、郭濤、周強、陶曉鵬、詹衛東、周莉娜等人或者是在詞典本身的開(kāi)發(fā)中或者是在詞典的應用中都為本項研究貢獻了力量。參考文獻[1] 俞士汶,中文輸入中語(yǔ)法分析技術(shù)的應用,《中文信息學(xué)報》,1988年,第二卷,第三期,PP20-26 [2] 俞士汶,現代漢語(yǔ)詞語(yǔ)信息庫開(kāi)發(fā)工作介紹提綱,《計算機開(kāi)發(fā)與應用》,1989年,第五卷第二期, PP16-18[3] 陳力為,建立應用開(kāi)發(fā)平臺是中文信息處理技術(shù)的當務(wù)之急,《計算機世界》,1992年1月8日,第2期第5版[4] Zhengdong Dong , 中國中文信息處理平臺工程項目與漢語(yǔ)研究,Communications of COLIPS, Volume 3, Number 2, 79~88,1993. [5] 俞士汶,朱學(xué)鋒,郭銳,現代漢語(yǔ)語(yǔ)法電子詞典的概要與設計,第三屆中文信息處理國際會(huì )議論文集(ICCIP’92),PP186-191[6] 俞士汶,信息處理用現代漢語(yǔ)詞語(yǔ)分類(lèi)體系介紹,計算語(yǔ)言學(xué)教學(xué)參考資料(北大計算語(yǔ)言所1993年7月編),PP35-57 ,其摘要“關(guān)于現代漢語(yǔ)詞語(yǔ)的語(yǔ)法功能分類(lèi)”刊載于《中國計算機報》,1994年5月31日第73版至第75版[7] 王惠,朱學(xué)鋒,《現代漢語(yǔ)語(yǔ)法電子詞典》的收詞原則,《中國計算機報》,1994年5月31日第79版至第83版[8] 朱學(xué)鋒,王惠,張蕓蕓,現代漢語(yǔ)語(yǔ)法電子詞典中量詞與名詞的子類(lèi)劃分,《中國計算機報》,1994年5月31日第79版[9] 周強,俞士汶,一個(gè)人機共生的漢語(yǔ)語(yǔ)料庫多級加工處理系統CCMP,《計算語(yǔ)言學(xué)進(jìn)展與應用》,清華大學(xué)出版社,1995年11月,PP50~55本文刊登在新加坡《中文與東方語(yǔ)言信息處理學(xué)會(huì )通訊》,1995年第2期,PP81~86--------------------------------------------------------------------------------* 本項研究得到中國八五攻關(guān)項目與國家自然科學(xué)基金的支持論文出處(作者):
中文全文信息檢索系統中索引項技術(shù)及分詞系統的實(shí)現
現代漢語(yǔ)文本的詞語(yǔ)切分技術(shù)
【《現代漢語(yǔ)語(yǔ)法信息詞典》的開(kāi)發(fā)與應用】相關(guān)文章:
現代漢語(yǔ)語(yǔ)法元理論研究述要03-18
探析醫院體檢信息管理系統的開(kāi)發(fā)與應用03-20
礦區物探領(lǐng)域的GIS開(kāi)發(fā)與應用03-27
淺談現代漢語(yǔ)新詞語(yǔ)12-02
小學(xué)數學(xué)微課資源開(kāi)發(fā)與應用論文11-21
現代漢語(yǔ)語(yǔ)義場(chǎng)分析初探03-18
“語(yǔ)法化”問(wèn)題03-27
管道液化氣微機管理系統的開(kāi)發(fā)與應用03-18
微機型防誤操作系統的開(kāi)發(fā)與應用03-18