一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看

論述規則和統計相結合的句法分析一致性檢驗論文

時(shí)間:2025-08-21 11:18:25 論文范文 我要投稿

論述規則和統計相結合的句法分析一致性檢驗論文

  句法分析就是對詞語(yǔ)的語(yǔ)法功能和句子的結構進(jìn)行分析。句法分析的研究方向通常是依據一個(gè)大規模的句法分析樹(shù)庫,通過(guò)分析研究,建立統計模型。如果句法樹(shù)庫的準確率不高,將會(huì )降低句法樹(shù)庫模型的學(xué)習效果,進(jìn)而影響自動(dòng)標注句法分析結果的質(zhì)量。目前出現的漢語(yǔ)句法分析自動(dòng)標注的模型較多,但是完全句法分析自動(dòng)標注的準確率不是太理想,為了構建高質(zhì)量的大規模樹(shù)庫,需要投入大量的人工和時(shí)間。通過(guò)遍歷完全句法分析樹(shù)庫發(fā)現,人工標注結果存在的不一致現象非常普遍。為了提高句法樹(shù)庫質(zhì)量,本文采用的方法是通過(guò)分析標注錯誤的現象,編寫(xiě)規則和建立統計模型,自動(dòng)查找標注錯誤的地方,對于單個(gè)標注錯誤的地方自動(dòng)修正。

論述規則和統計相結合的句法分析一致性檢驗論文

  國外許多研究者在建立句法分析模型方面做出了很多探索。斯坦福大學(xué)的Roger Levy等人提出了分析漢語(yǔ)語(yǔ)料的困難,他們通過(guò)分析漢語(yǔ)語(yǔ)料庫發(fā)現,一些類(lèi)型的標注錯誤是由于漢語(yǔ)語(yǔ)法內在的歧義引起的。有些錯誤是標注經(jīng)驗導致的。通過(guò)最大似然估計PCFG特征模型,能夠提高句法分析的準確率。針對漢語(yǔ)樹(shù)庫完全句法分析一致性檢驗的研究,目前國內不是太多,較多的是關(guān)于句法分析自動(dòng)標注的解決方法。詹衛東等人分析句法格式,總結了很多句法結構歧義類(lèi)型,分析特征,并通過(guò)檢查樹(shù)庫統計了典型類(lèi)型的數量。魏莉等人分析完全句法分析語(yǔ)料庫,探索分詞標注、詞性標注和句法結構標注三個(gè)方面的錯誤現象,發(fā)現并修正。這些研究方法對于句法分析一致性檢驗有很好的借鑒作用。

  本文采用的方法是選擇完全句法分析樹(shù)庫的部分語(yǔ)料進(jìn)行研究,分析標注錯誤的現象,從單個(gè)句法分析標記不一致和句法分析層次結構標注不一致的現象中學(xué)習,使用基于規則和統計相結合的方法檢查發(fā)現不一致問(wèn)題,并通過(guò)人工或機器自動(dòng)修正。

  一、完全句法分析不一致現象

  遍歷完全句法樹(shù)庫,通過(guò)分析發(fā)現,可以總結為兩種類(lèi)型的不一致現象,一種是單個(gè)的句法標記,另一種是句法結構標注。完全句法分析樹(shù)庫中的標注一般有兩類(lèi),功能標記和結構標記。功能標注主要是分析句法成分的組合關(guān)系。結構標記主要是體現句子的語(yǔ)義關(guān)系。

  引起人工標注的完全句法分析語(yǔ)料庫不一致現象的原因有很多,包括標注者對標記的理解程度,標注經(jīng)驗,以及標注的專(zhuān)注程度。由于參與構建大規模句法樹(shù)庫的人員眾多,理解方式的不一致很容易引起標注不一致。不同標注者可能發(fā)生標注不一致,同一標注者可能標注前后不一致。因此很有必要通過(guò)機器進(jìn)行檢查,修正這些現象,提高完全句法樹(shù)庫的準確率。

  (一)單個(gè)句法分析標記標注不一致

  對于人工標注的標記符號錯誤的地方,可以直接設計算法,抽取所有標記一一和標記庫進(jìn)行對比。完全句法分析樹(shù)庫的兩種標記功能標記和結構標記都有可能出現標注不一致現象。通過(guò)遍歷樹(shù)庫發(fā)現不一致,并進(jìn)行分析。

  由于漢語(yǔ)中有很多兼類(lèi)詞,因此會(huì )出現同一詞匯標注的詞性不一樣,進(jìn)而功能標記和結構標記都會(huì )發(fā)生變化。例如短語(yǔ)“臨出發(fā)”“陸”是一個(gè)兼類(lèi)詞。臨這個(gè)字在語(yǔ)料中出現了標注不一致現象,一種標注為動(dòng)詞,相應為述賓結構,動(dòng)詞性短語(yǔ);另一種標注為介詞,相應為介賓結構,介詞短語(yǔ)。按照漢語(yǔ)語(yǔ)法“陸”放置在動(dòng)詞“出發(fā)”前,應該理解為做介詞用。因此正確的標注應該是介詞,介賓結構,介詞短語(yǔ)?梢(jiàn),兼類(lèi)詞是檢查的重點(diǎn),詞性標注錯誤可能會(huì )導致功能標記和結構標記標注錯誤。

  (二)句法分析結構標注不一致

  完全句法分析與淺層句法分析不同,分析標注的是整個(gè)句子的結構關(guān)系。各個(gè)詞語(yǔ)之間的層次關(guān)系可能會(huì )出現組合順序的不一致。特別是嵌套的句法結構,很容易有歧義。

  例如短語(yǔ)“喜歡說(shuō)話(huà)的女孩”?梢杂袃煞N理解。一種是描述一個(gè)女孩她喜歡說(shuō)話(huà),理解為“喜歡說(shuō)話(huà)”是用來(lái)修飾“女孩”的,此短語(yǔ)整體看是定中結構。另一種可能是某人喜歡的是說(shuō)話(huà)的女孩,而不是沒(méi)說(shuō)話(huà)的女孩,僅“說(shuō)話(huà)”這個(gè)詞修飾“女孩”,此短語(yǔ)整體看述賓結構。

  可見(jiàn),不同的理解句法分析標注的結構會(huì )出現不一致的現象。這就需要根據上下文語(yǔ)境,判斷應該是哪種標注結果。

  二、完全句法分析一致性檢驗策略

  完全句法分析一致性檢驗的目的是發(fā)現不一致現象,并修正錯誤的句法分析標注。引起不一致的原因是多元的,但是可以歸結為以上兩種,通過(guò)分析這些錯誤標注的不一致現象,我們發(fā)現需要選用不同的檢查方式來(lái)處理。

  (一)基于錯誤驅動(dòng)的單個(gè)標記不一致校驗

  針對單個(gè)句法分析標注不一致的問(wèn)題,可以使用基于錯誤驅動(dòng)的方法來(lái)發(fā)現不一致現象并修正。錯誤驅動(dòng)的方法是指分析提取錯誤標注的特征,編寫(xiě)相應的轉換規則,使用規則去檢查整個(gè)語(yǔ)料,自動(dòng)發(fā)現錯誤標注現象,并進(jìn)行修正。單個(gè)句法分析標注的問(wèn)題是結構標記和功能標記標注不同引起的。修改單個(gè)句法分析標注并不影響句法結構層次的變化,可以使用句法標記規則統一修改。

  具體的操作步驟可以通過(guò)一個(gè)例子進(jìn)行觀(guān)察。例如“陸出發(fā)”這個(gè)短語(yǔ),他是介詞加動(dòng)詞的結構,檢查上述結構類(lèi)型的句法和功能標記的標注問(wèn)題。當遍歷句法分析樹(shù)庫時(shí),如果發(fā)現有標錯的現象,即介詞加動(dòng)詞的結構,但沒(méi)有被標注成介詞短語(yǔ),介賓結構,就可以針對錯誤的標記,通過(guò)錯誤轉化方法,使用規則檢查并修改成正確的標記。用這個(gè)規則去檢查其他的標注錯誤現象并自動(dòng)修正。此方法可以歸納為三個(gè)步驟:找到錯誤,編寫(xiě)規則和修正錯誤。

  (二)句法分析結構標注不一致校驗策略

  完全句法分析剖析的是整個(gè)句子的結構。僅僅基于規則的句法標注檢查是不可靠的,基于大規模語(yǔ)料的統計的方法更為有效。張浩等人也是通過(guò)分析語(yǔ)境,選用中心詞作為切入點(diǎn),建立PCFG模型句法分析器,使得句法分析器的效果得到提升。此外,周強等人也提出通過(guò)分析句法結構中組合的先后次序,使用概論統計模型來(lái)判斷句法分析標注結果,使得句法分析的準確率得到提高。針對本文探索的問(wèn)題,如何判斷句法分析標注的層次標注問(wèn)題也是需要分析語(yǔ)境,根據句子的語(yǔ)義,詞語(yǔ)之間的關(guān)系,分析詞語(yǔ)是如何組成短語(yǔ),短語(yǔ)是如何組成句子的。針對句子層次結構組合的不一致不可能通過(guò)規則的方法修正,但是可以通過(guò)建立統計概率模型,發(fā)現可能出現句法層次結構標注錯誤的地方,然后進(jìn)行人工修正,這樣節省了時(shí)間和人力。

  句法層次結構和句中詞語(yǔ)之間的緊密程度有關(guān)。句中的某一個(gè)詞語(yǔ)是先和左邊的詞語(yǔ)結合,還是先和右邊的詞語(yǔ)結合,這是一個(gè)二選其一的問(wèn)題,除了句子的首個(gè)詞語(yǔ)和末尾詞語(yǔ)。我們通常認為,在語(yǔ)境相同的情況下應該有相同的結合順序。對于大規模完全句法樹(shù)庫,我們可以利用分類(lèi)的方法,支持向量機(SVM)來(lái)解決。核函數可以選擇高斯核函數。

  建立概率統計模型,需要選擇特征作為判斷的依據。完全句法分析樹(shù)庫的基層標注信息是分詞和詞性。Dan Klein等人提出了非詞匯的PCFG模型,取得的句法分析效果也較詞匯化模型更簡(jiǎn)單?梢(jiàn),詞語(yǔ)即詞的外部形態(tài)千變萬(wàn)化,不容易把握規律。但是詞性的標記卻能反映詞語(yǔ)內在的功能,影響功能標注和語(yǔ)法標注的結果。針對句法分析中左右組合的問(wèn)題,可以通過(guò)核心詞語(yǔ)及待判斷詞語(yǔ)它的詞性及其上下文詞性環(huán)境來(lái)做出統計,建立特征模型。

  首先要界定語(yǔ)境的范圍,通過(guò)實(shí)驗發(fā)現選用前后四個(gè)詞語(yǔ)進(jìn)行統計時(shí),計算的空間和時(shí)間代價(jià)比較合適。然后遍歷完全句法分析樹(shù)庫,通過(guò)概論統計的方法,計算這些詞語(yǔ)的詞性和詞語(yǔ)轉移概率,這樣可以看出詞語(yǔ)間優(yōu)先組合的頻率。訓練數據得到后,將核函數引入,通過(guò)參數的調節,尋找一個(gè)超平面將高維空間分割成兩半。用這個(gè)訓練得到的結果再去分析測試語(yǔ)料,就可以給出左右結合的判斷結果。如果樹(shù)庫語(yǔ)料的組合結果與概率模型的統計結果不一致,就需要人工進(jìn)行判斷,進(jìn)而修正標注。

  三、結論

  我們對10000句完全句法分析樹(shù)庫進(jìn)行測試,實(shí)驗結果顯示,單個(gè)句法分析標注不一致的現象占到整個(gè)檢測結果的31%,句法分析結構標注不一致的現象占到69%。句法分析不一致檢查的準確率為87.6%,召回率為94.8%。

  關(guān)于準確率的問(wèn)題,通過(guò)分析發(fā)現主要是有兩方面原因。針對單個(gè)句法分析標注不一致的問(wèn)題,使用的修正規則中有些是不適用的,有些問(wèn)題不能一刀切。針對句法分析結構標注不一致的檢查,我建立的統計概率模型考慮的特征還不夠多,沒(méi)能真正反映左右組合的規律。需要進(jìn)行深入反復的研究實(shí)驗。

  召回率的結果反映出,單個(gè)句法分析標注和句法分析結構標注的問(wèn)題確實(shí)是不一致現象的根源,通過(guò)錯誤驅動(dòng)的方法和概率統計模型的方法能較好地完成檢查不一致的任務(wù),對于單個(gè)句法標記的問(wèn)題可以查找并自動(dòng)修正,但是對于句法分析結構問(wèn)題仍需要人工修正。

  為了構建高質(zhì)量的完全句法分析樹(shù)庫,進(jìn)行句法分析的一致性檢查是一項必要的工作。如果樹(shù)庫存在大量的不一致現象,必然影響完全句法自動(dòng)分析器的訓練效果。針對漢語(yǔ)的語(yǔ)言現象進(jìn)行句法分析是一項較難的課題,由于漢語(yǔ)的語(yǔ)法形式豐富,語(yǔ)義多樣。如何提高句法分析的準確率,還需要進(jìn)一步研究。

【論述規則和統計相結合的句法分析一致性檢驗論文】相關(guān)文章:

醫學(xué)檢驗論文08-08

醫學(xué)檢驗論文[精華]08-09

醫學(xué)檢驗論文15篇(經(jīng)典)08-11

醫學(xué)檢驗論文15篇[熱門(mén)]08-12

(通用)醫學(xué)檢驗論文15篇08-16

醫學(xué)檢驗論文優(yōu)選(15篇)08-22

醫學(xué)檢驗論文15篇[精華]08-09

醫學(xué)檢驗論文必備15篇08-14

醫學(xué)檢驗的進(jìn)展與臨床應用論文10-22

醫學(xué)檢驗論文匯總[15篇]08-15

  • 相關(guān)推薦
一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看