論中文信息處理的主流技術(shù)
論文關(guān)鍵詞:信息處理 N元模型 語(yǔ)音識別 句法分析
論文摘要:本文分析了中文信息處理的主流技術(shù),尤其是幾個(gè)重要的部分,即N元模型、語(yǔ)音識別和句法分析技術(shù)。
一、中文信息處理的特點(diǎn)
(一)漢字的特殊性
我們都知道,英語(yǔ)在計算機信息處理方面的優(yōu)勢就是其字母數量有限,因而可以很容易的進(jìn)行輸入輸出以及信息的加工和處理,而中文的漢字則數量龐大,且字形相對復雜,這就給漢字的編碼帶來(lái)了不小的困擾。因此我們根據漢字信息處理過(guò)程中的不同要求對漢字進(jìn)行了不同形式的編碼,總結來(lái)說(shuō)有以下幾種方案,即漢字輸入編碼,漢字標準編碼,漢字內碼和漢字形碼。
(二)書(shū)面漢語(yǔ)的特殊性
漢語(yǔ)的另一個(gè)特征是在書(shū)面表達中,詞語(yǔ)和記號之間沒(méi)有明顯的分隔標記,這就使自動(dòng)分詞在書(shū)面漢語(yǔ)分析中成立一個(gè)難題。分詞需要將連續的字按照一定的規范進(jìn)行有序的組合,比較英文我們會(huì )發(fā)現,英文單詞之間都是用空格來(lái)做分隔符,而中文則是習慣通過(guò)字、整句以及段落進(jìn)行簡(jiǎn)單的劃分,而這其中的一個(gè)難點(diǎn)就是對詞語(yǔ)的劃分,我們都知道,英語(yǔ)中也有短語(yǔ)劃分的問(wèn)題,但是由于中文的詞語(yǔ)遠比英語(yǔ)的數量和范圍要龐大,因而處理起來(lái)更為困難。
(三)漢語(yǔ)語(yǔ)音的特殊性
在語(yǔ)音方面,漢語(yǔ)的特征是音節結構相對簡(jiǎn)單,音節劃分界限比較清晰,但是聲調和變調是中文與英文的顯著(zhù)區別,因而在語(yǔ)音識別和語(yǔ)音合成方面來(lái)講這是一個(gè)劣勢,但是總體上來(lái)說(shuō)漢語(yǔ)語(yǔ)音的處理比之其他方面來(lái)說(shuō)還是相對容易的。
(四)漢語(yǔ)語(yǔ)法的特殊性
在語(yǔ)法方面,漢語(yǔ)詞匯的句法功能相對來(lái)說(shuō)難以判斷,這與英語(yǔ)語(yǔ)言上的多變形態(tài)有著(zhù)截然不同的表現。漢語(yǔ)主要依靠詞序和虛詞來(lái)表達不同的含義,因此如果不能很好的掌握句法,就特別容易產(chǎn)生歧義,因此漢語(yǔ)語(yǔ)句自動(dòng)分析這一重要技術(shù)是一項難以攻克的技術(shù)。
二、中文信息處理的若干技術(shù)
(一)N元模型
設wi是文本中的任意一個(gè)詞,如果已知它在該文本中的前兩個(gè)詞wi-2w-1,便可以用條件概率P(wi|wi-2w-1)來(lái)預測wi出現的概率。這就是統計語(yǔ)言模型的概念。一般來(lái)說(shuō),如果用變量W代表文本中一個(gè)任意的詞序列,它由順序排列的n個(gè)詞組成,即W=w1w2。。。wn,則統計語(yǔ)言模型就是該詞序列W在文本中出現的概率P(W)。利用概率的乘積公式,P(W)可展開(kāi)為:P(W)=P(w1)P(w2|w1)P(w3|w1 w2)。。。P(wn|w1 w2。。。wn-1)不難看出,為了預測詞w n的出現概率,必須知道它前面所有詞的出現概率。從計算上來(lái)看,這種方法太復雜了。如果任意一個(gè)詞wi的出現概率只同它前面的兩個(gè)詞有關(guān),問(wèn)題就可以得到極大的簡(jiǎn)化。這時(shí)的語(yǔ)言模型叫做三元模型(tri-gram):P(W)≈P(w1)P(w2|w1)∏i(i=3,。。。,nP(wi|wi-2w-1)
符號∏i i=3,…,n P(…)表示概率的連乘。一般來(lái)說(shuō),N元模型就是假設當前詞的出現概率只同它前面的N-1個(gè)詞有關(guān)。重要的是這些概率參數都是可以通過(guò)大規模語(yǔ)料庫來(lái)計算的。比如三元概率有P(wi|wi-2wi-1)≈count(wi-2wi-1wi)/count(wi-2wi-1)式中count(…)表示一個(gè)特定詞序列在整個(gè)語(yǔ)料庫中出現的累計次數。
(二)語(yǔ)音識別
語(yǔ)音識別的最終目標是使人類(lèi)與計算機之間實(shí)現真正意義上的自由交流,使機器聽(tīng)懂人類(lèi)的語(yǔ)言,并及時(shí)的做出準確的反饋。語(yǔ)音識別技術(shù)包括了信號處理、模式識別、概率論和信息論、發(fā)聲機原理和聽(tīng)覺(jué)原理、人工智能等主要內容。語(yǔ)音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準則和模型訓練技術(shù)3個(gè)方面,另外還涉及到語(yǔ)音識別單元的選取,在這個(gè)問(wèn)題上我們通常采用的是以音節為識別單元。另外,在特征參數的提取技術(shù)方面,由于語(yǔ)音符號中含有大量的信息,它們通常被稱(chēng)為聲學(xué)特征。特征參數是決定語(yǔ)音識別質(zhì)量的關(guān)鍵技術(shù),因此我們應該極可能的采集所要傳播語(yǔ)言的語(yǔ)義信息,剔除掉說(shuō)話(huà)人的個(gè)人信息干擾,這樣才能保證特征參數的有效性和準確性。
(三)句法分析
句法分析是以漢語(yǔ)的語(yǔ)法特征為分析方法,對句子、段落中的短語(yǔ)結構樹(shù)進(jìn)行各個(gè)句子成分關(guān)系的分析,分析的主要內容包括:句子中所有的單句,每個(gè)單句在句法中的作用是什么,在單句以上更大的語(yǔ)法結構是什么,句子中的短語(yǔ)或詞組類(lèi)型是什么,在句子中起了什么作用,最后,所有這些成分是如何有機組合或附著(zhù)在整個(gè)句子中的,這些就是句法結構分析的主要內容,這叫做線(xiàn)圖分析法。值得說(shuō)明的是,英語(yǔ)語(yǔ)言結構中主語(yǔ)必須置于謂語(yǔ)之前,否則所表達的意思就完全變化了,當然,在一些特定情況下,如倒裝句結構中這種情況還是普遍存在的。這一點(diǎn)是與漢語(yǔ)有著(zhù)顯著(zhù)的區別的。
三、結語(yǔ)
中文信息處理技術(shù)有著(zhù)重要的意義,它是語(yǔ)言學(xué)與信息技術(shù)的有機融合,旨在對中文的音、形、義等輸入計算機,進(jìn)而進(jìn)行必要的信息加工與處理,在這一過(guò)程中涉及到了計算機科學(xué)、信息學(xué)、聲學(xué)等大量學(xué)科的交叉知識。具體來(lái)說(shuō),語(yǔ)言信息處理是將自然語(yǔ)言的各個(gè)部分,包括詞語(yǔ)、句子、段落以至篇章進(jìn)行文本、聲音和圖像各種方式的信息化加工,然后對這些信息進(jìn)行輸入輸出、壓縮、存儲以及檢索等等各項處理。我們都知道,自然語(yǔ)言是我們日常最重要的交流溝通工具,是人類(lèi)進(jìn)行思維活動(dòng)、文化傳播的有效載體,因此語(yǔ)言信息處理這種技術(shù)有著(zhù)重要的意義,本文專(zhuān)門(mén)分析了利用計算機處理中文信息,即漢語(yǔ)信息處理技術(shù),希望本文能夠對同行們有所啟示,還望能夠多多交流學(xué)習,更好的完善這項技術(shù)。
參考文獻:
[1]曹邦偉,高傳善.計算機與信息處理[M].上海:復旦大學(xué)出版社,2001.
[2]陳小荷.中文信息處理概述[J].南京師范大學(xué)文學(xué)院學(xué)報,2002,(1).
[3]馮志偉.漢字和漢語(yǔ)的計算機處理[J].當代語(yǔ)言學(xué),2001,(1).
相關(guān)論文查閱:大學(xué)生論文、工商財務(wù)論文、經(jīng)濟論文、教育論文 熱門(mén)畢業(yè)論文
【論中文信息處理的主流技術(shù)】相關(guān)文章:
論英語(yǔ)語(yǔ)言教學(xué)中文化資源11-14
論教育技術(shù)建設與應用03-29
論金屬焊接雕塑技術(shù)11-24
論超濾技術(shù)在化工工藝中的應用11-23
論流行文化;主流文化;價(jià)值契合;功能互動(dòng)11-21
論科學(xué)技術(shù)與倫理道德關(guān)系03-16
論高性能砼施工技術(shù)淺析11-26
- 相關(guān)推薦