關(guān)于新的句法標注模型探索
臨近畢業(yè),很多大學(xué)生最憂(yōu)愁的就是畢業(yè)設計和畢業(yè)論文了,畢業(yè)論文應該怎么寫(xiě)呢?好了,小編送福利的時(shí)間到了,下面是給大家帶來(lái)的漢語(yǔ)言文學(xué)畢業(yè)論文,歡迎廣大畢業(yè)生們閱讀參考!
論文關(guān)鍵詞:語(yǔ)料庫語(yǔ)言學(xué) 語(yǔ)義處理 句法標注模型
論文摘要:由于自然語(yǔ)言的語(yǔ)義存在不確定性,形式化很困難,因此語(yǔ)義處理成為自然語(yǔ)言處理的瓶頸所在;诖笠幠俗⒄Z(yǔ)料庫的語(yǔ)義處理已經(jīng)成為發(fā)展趨勢,語(yǔ)料標注本質(zhì)上就是語(yǔ)言知識(包括語(yǔ)義)形式化,F有句法標注模型主要包括基于短語(yǔ)結構語(yǔ)法(PSG)和基于依存語(yǔ)法(DG)的句法標注模型,還存在一些局限性。文章在現有句法標注模型的基礎上結合認知語(yǔ)法(CG)的有關(guān)理論提出改進(jìn)思路,以探索新的句法標注模型。
人類(lèi)社會(huì )發(fā)展的基本軌跡是:原始社會(huì )—農業(yè)社會(huì )—工業(yè)社會(huì )—信息社會(huì )。人工智能的目標是用計算機模擬人的智能,以最大限度地解放和延伸人的智能,無(wú)疑是信息社會(huì )的制高點(diǎn)。語(yǔ)言是人思維的物質(zhì)外殼,人不可能離開(kāi)語(yǔ)言而具備真正屬于人的高級智能。因此,模擬人類(lèi)語(yǔ)言智能的自然語(yǔ)言處理無(wú)疑是人工智能的重要研究方向。然而,迄今為止的研究表明,在可以預見(jiàn)的將來(lái),語(yǔ)義處理將是自然語(yǔ)言處理的瓶頸所在。原因是語(yǔ)義十分復雜,而基于現有計算機軟硬件的自然語(yǔ)言處理要求語(yǔ)義形式化。解決這一問(wèn)題的根本之道是:探索新的句法標注模型,進(jìn)行大規模的語(yǔ)義標注,基于語(yǔ)料庫進(jìn)行語(yǔ)義知識獲取和自然語(yǔ)言處理。
一、句法標注模型
語(yǔ)言的復雜性在于語(yǔ)言與認識的關(guān)系。語(yǔ)言具有意義,而意義是入對主客觀(guān)世界的認識結果。主客觀(guān)世界的復雜性決定了意義的復雜性,進(jìn)一步?jīng)Q定了語(yǔ)言的復雜性。語(yǔ)言本身又可以視為人的主客觀(guān)世界中的一部分,因此語(yǔ)言研究是一種特殊的認識活動(dòng),是人對語(yǔ)言的認識。由此可見(jiàn),語(yǔ)言離不開(kāi)認識。人對主客觀(guān)世界的認識可以如此描述:認識主體借助認識工具按照認識方法處理認識對象獲得認識結果。認識是由多種認識因素(主體、工具、方法、對象)共同作用的活動(dòng),認識結果是這一活動(dòng)的產(chǎn)物,被多種認識因素共同決定,任何一種認識因素的改變必然導致認識結果出現或大或小的差異。顯然,認識結果與認識對象不能等同,是認識主體對認識對象的選擇性反映,認識具有主觀(guān)能動(dòng)性。從這個(gè)意義上講。認識不可能也不應該去被動(dòng)地還原認識對象,而是從符合主體目的性出發(fā),力求簡(jiǎn)單有效地描述和預測認識對象。借用模型的概念,認識結果就是認識對象的模型(model),認識就是建立認識對象的模型,簡(jiǎn)稱(chēng)建模(modeling)。這是一種實(shí)用主義認識觀(guān)。
模型一般分為心理模型(psychological model)、數學(xué)模型(mathematical model)和物理模型(physical model)。心理模型是認識對象在人認識中的定性關(guān)系,是數學(xué)模型的基礎;數學(xué)模型是認識對象在人認識中的定量關(guān)系,是物理模型的基礎;物理模型是人借助特定材料和工具按照認識對象的數學(xué)模型實(shí)現的物質(zhì)結構。傳統意義上的建模主要指建立數學(xué)模型和物理模型,一般意義上的建模還包括建立心理模型。人的認識能力是有限的,表現在:人不能建立任意認識對象的心理模型,也不能建立任意心理模型的數學(xué)模型,也不能建立任意數學(xué)模型的物理模型。由于具有明確的實(shí)用主義特點(diǎn),建模在理工科領(lǐng)域大行其道,在文科領(lǐng)域也逐漸受到青睞。人類(lèi)將二進(jìn)制數學(xué)模型成功實(shí)現為晶體管物理模型,并開(kāi)發(fā)出越來(lái)越復雜和先進(jìn)的計算機軟件和硬件,從而進(jìn)入信息時(shí)代。20世紀以來(lái)一些主要或次要的語(yǔ)言理論都或多或少應用了數學(xué)模型,特別是一些面向語(yǔ)言計算的語(yǔ)言理論。隨著(zhù)計算機技術(shù)的飛速發(fā)展,人們對計算機自動(dòng)或輔助處理語(yǔ)言信息的需求越來(lái)越大。但計算機的根本缺陷在于,凡是不能建立數學(xué)模型的信息都無(wú)法處理。傳統語(yǔ)言理論往往只在心理模型層面定性研究,無(wú)法滿(mǎn)足這一需要。因此有必要引入數學(xué)模型研究語(yǔ)言,稱(chēng)為語(yǔ)言數學(xué)模型,簡(jiǎn)稱(chēng)語(yǔ)言模型(1anguage model)。統計語(yǔ)言模型(sta-tistical language model)就是一個(gè)成功的例子。但統計語(yǔ)言模型的性能取決于訓練語(yǔ)料的規模和質(zhì)量。目前,由于語(yǔ)料的不斷積累和計算機技術(shù)的不斷進(jìn)步,語(yǔ)料規模已不成問(wèn)題,語(yǔ)料中包含語(yǔ)言知識的數量和質(zhì)量才是關(guān)鍵。
計算機的語(yǔ)言知識主要來(lái)源于人。將語(yǔ)料中包含的語(yǔ)言知識標注出來(lái),有助于計算機獲得更豐富、更有價(jià)值的語(yǔ)言知識,從而提高語(yǔ)言處理水平,這就是語(yǔ)料標注(corpus tagging)。一般認為主要包括詞匯標注(1exical tagging,分詞、詞結構標注、詞性標注、詞義標注等)、句法標注(syntax tagging,語(yǔ)法樹(shù)標注、語(yǔ)義樹(shù)標注等)、語(yǔ)篇標注(discourse tagging,語(yǔ)體標注、領(lǐng)域標注等)等內容。經(jīng)過(guò)標注的語(yǔ)料還可以用于語(yǔ)言學(xué)研究、語(yǔ)言教學(xué)、語(yǔ)言測試、詞典編撰等諸多理論研究和實(shí)踐應用領(lǐng)域,越來(lái)越受到人們重視,并形成一門(mén)新興學(xué)科——語(yǔ)料庫語(yǔ)言學(xué)(corpus linguistics)。目前,相對句法標注,詞匯標注有更成熟的規范、準確率更高的技術(shù)和更大的標注規模。句法標注的主要困難在于,沒(méi)有一個(gè)真正成熟的語(yǔ)法或語(yǔ)義標注模型。句法結構尤其是語(yǔ)義結構很難統一描述,現有的句法理論還不完善,難以制定統一規范,標注主觀(guān)性很大,自動(dòng)標注準確率比較低。因此,句法標注成了語(yǔ)料標注的瓶頸問(wèn)題。由于句法知識在語(yǔ)言知識中的重要地位,有理由相信:如果有了大規模、高質(zhì)量的句法標注語(yǔ)料庫,圍繞語(yǔ)料庫的各種研究和應用有可能在現有基礎上產(chǎn)生質(zhì)的飛躍。因此,研究句法標注模型應是當務(wù)之急。語(yǔ)料庫語(yǔ)言學(xué)屬于交叉學(xué)科,句法標注模型是語(yǔ)料庫語(yǔ)言學(xué)的基礎理論,又與語(yǔ)言學(xué)的句法理論密切相關(guān)。一方面可以借鑒現有句法理論,另一方面,也可以從語(yǔ)料庫語(yǔ)言學(xué)的角度研究句法,提出新的句法標注模型。
二、現有句法標注模型
句法標注(Syntax Tagging,ST)以句子的語(yǔ)法知識和語(yǔ)義知識為標注對象,是語(yǔ)料標注的重點(diǎn)、難點(diǎn)所在,要以一定的語(yǔ)法理論為基礎。根據語(yǔ)法理論制定的句法標注規則、過(guò)程和結果,稱(chēng)為句法標注模型(Syntax Tagging Model,STM)。短語(yǔ)結構語(yǔ)法(PhraseStructure Grammar,PSG)和依存語(yǔ)法(DependencyGrammar,DG)是現有句法標注的兩種基礎語(yǔ)法理論,彼此卻有很大的不同;赑SG的句法標注模型稱(chēng)為短語(yǔ)結構句法標注模型(PSG—based Tagging Mod—el,PSGTM),基于DG的句法標注模型稱(chēng)為依存句法標注模型(DG—based Tagging Model,DGTM)。根據現有語(yǔ)料標注的實(shí)踐結果來(lái)看,PSGTM與DGTM都存在一定缺陷。
美國語(yǔ)言學(xué)家喬姆斯基(Noam Chomsky)于1957年出版專(zhuān)著(zhù)《句法結構》,從而奠定了短語(yǔ)結構語(yǔ)法(PSG)的理論基礎。其后發(fā)展起來(lái)的許多語(yǔ)法理論可以直接或間接歸到這一流派,如中心詞驅動(dòng)的短語(yǔ)結構語(yǔ)法(HPSG)、廣義短語(yǔ)結構語(yǔ)法(GPSG)等。到目前為止,PSG仍然是最重要的句法標注基礎理論,為世界上眾多語(yǔ)料庫項目所采用和發(fā)展。法國語(yǔ)言學(xué)家特思尼耶爾(Lucien Tesnire)于1959年出版專(zhuān)著(zhù)《結構句法基礎》,從而奠定了依存語(yǔ)法(DG)的理論基礎。其后發(fā)展起來(lái)的許多語(yǔ)法理論可以直接或間接歸到這一流派,如詞匯依存語(yǔ)法(WD)、概念依存理論(cD)、核心依存理論(KD)等。相對PSG而言,DG偏重于語(yǔ)義,在CD、KD上表現得十分明顯。另外,DG更簡(jiǎn)潔、直觀(guān)、經(jīng)濟,適應性更強,因此反而有后來(lái)居上之勢,目前已經(jīng)成為世界上較為通用的句法標注基礎理論。不過(guò),在具體的句法標注實(shí)踐中DGTM還是暴露出一些問(wèn)題,“對一些沒(méi)有明確依存關(guān)系的成分,標注起來(lái)則有些力不從心”,存在“依存失敗”現象,最突出的是難以標注缺省結構。缺省結構一直是句法標注中經(jīng)常出現而且很難解決的問(wèn)題。
【新的句法標注模型探索】相關(guān)文章:
做模型作文08-30
恐龍模型作文11-22
拼裝模型作文09-30
模型母雞作文12-26
橋梁模型制作教案09-19
租賃合同模型07-30
模型制作作文三篇11-08
紙飛機模型比賽方案03-13
做模型作文15篇10-13
最新的醫生工作檢討模型11-25