- 相關(guān)推薦
生物醫學(xué)事件觸發(fā)詞識別研究畢業(yè)論文
引言

為了提高對海量文本信息管理的自動(dòng)化程度,許多研究學(xué)者在事件抽取領(lǐng)域投入了大量的精力.在生物醫學(xué)領(lǐng)域內,做好事件觸發(fā)詞的識別是事件抽取中比較關(guān)鍵的一步,有必要對生物醫學(xué)事件觸發(fā)詞的識別進(jìn)行深入研究.在進(jìn)行生物醫學(xué)事件抽取研究中,針對通用的特征很難找到,且對語(yǔ)料的要求和依賴(lài)性對總體識別準確率的影響.本文通過(guò)對生物醫學(xué)的領(lǐng)域知識進(jìn)行學(xué)習,把事件抽取的過(guò)程簡(jiǎn)化為分類(lèi)問(wèn)題,經(jīng)過(guò)文本信息的預處理、事件觸發(fā)詞的識別、事件元素識別、后處理,其中在事件觸發(fā)詞識別的過(guò)程中,采用支持向量機(SVM)多分類(lèi)任務(wù)來(lái)處理.通過(guò)實(shí)驗,該方法有效地實(shí)現了觸發(fā)詞的識別與抽取.
1生物醫學(xué)事件抽取的相關(guān)知識
1.1信息抽取
面對海量的信息,能夠對信息進(jìn)行自動(dòng)分類(lèi)、提取和重構,使人們快速從中獲得有價(jià)值的信息,這就稱(chēng)為信息抽取技術(shù),傳統的信息抽取系統在實(shí)現方法上與其他自然語(yǔ)言處理問(wèn)題的研究方法類(lèi)似,并且籠統地劃分為基于機器學(xué)習的統計方法和基于分析的方法.
1.2機器學(xué)習
機器學(xué)習是人工智能領(lǐng)域的一個(gè)重要研究方向,它能夠讓我們從數據集中受到啟發(fā),利用計算機來(lái)彰顯數據背后的真實(shí)含義,是機器學(xué)習的目的.分類(lèi)是機器學(xué)習的主要任務(wù).
1.3生物醫學(xué)事件抽取
事件抽取實(shí)質(zhì)上是指基于實(shí)體層面的信息抽取,它既抽取指定的一些動(dòng)作,還抽取動(dòng)作與實(shí)體之間的關(guān)系.
1.4SVM
SVM是建立在統計學(xué)習理論(STL)的VC維理論和結構風(fēng)險最小原理的基礎上的,它是根據有限的樣本信息在模型的復雜性之間尋求一個(gè)最佳的折中,來(lái)獲得好的推廣能力.SVM的基本思想主要是在向量空間中找到一個(gè)決策平面,找到的平面能“最好”地分割兩個(gè)分類(lèi)中的數據點(diǎn).而SVM分類(lèi)方法就是在訓練集中找到具有最大類(lèi)間界限的決策平面.假設給定ωTnew+b,標準支持向量機使用線(xiàn)性決策邊界來(lái)給新的對象進(jìn)行分類(lèi).將落在這條線(xiàn)一邊的對象分類(lèi)為tnew=1,另一邊對象分為tnew=-1(特別注意類(lèi)別標記為{1,-1}).由此可知支持向量機對一個(gè)新測試點(diǎn)new的判定函數定義為tnew=sign(ωTnew+b).學(xué)習的任務(wù)包括基于訓練數據選擇ω和b,這里我們主要是通過(guò)尋求最大化間隔的參數來(lái)實(shí)現的.
1.5句法分析
句子是由詞通過(guò)特定的形式組織起來(lái)的,如果能夠從句子中發(fā)現不同詞語(yǔ)間的句法關(guān)聯(lián),那么我們就能夠更好的理解句子的含義.經(jīng)過(guò)句法分析,我們就可以從字符串中去找到語(yǔ)義結構,那么如何找到一個(gè)合適的分類(lèi)決策成為句子分析的主要挑戰.Gdep(GENIADependencyparser)是由日本東京大學(xué)的KenjiSagae開(kāi)發(fā)的專(zhuān)門(mén)針對生物醫學(xué)文本的依存分析器,它是在GENIA語(yǔ)料庫下訓練的.
1.6評測方法
準確率(P)和召回率(R)是衡量評測效率的兩個(gè)重要指標.其中準確率衡量的是系統尋找到真正相關(guān)事件的可靠程度,而召回率衡量的則是系統尋找到相關(guān)事件的能力,二者緊密相關(guān),缺一不可.要尋找的事件的集合用A表示,系統找到的事件的集合用B表示,則準確率P=A∩BA,召回率R=A∩BB,其中:||表示集合的大小;F表示準確率和召回率的調和平均數,用公式表示為:F=2PRP+R.由于調和平均數強調的是較小的那個(gè)值,所以F更容易被較小的值影響,偏向較小值的方向,所以F值更適合對準確率P和召回率R來(lái)評價(jià).
1.7語(yǔ)料
本文采用的是標注的語(yǔ)料集,是BioNLP’13中GE(GeniaEvent)任務(wù)的語(yǔ)料集.GE語(yǔ)料中有“全文”和“摘要”兩個(gè)集合,全文是指新標注的全文論文,通過(guò)這種方法來(lái)增加語(yǔ)料的多樣性,這樣可以使訓練后的系統具有更強的泛化能力.全文主要由標題、摘要、方法和結果等部分組成,不同的部分所具有的目的也完全不同,從而造成獲取到不同的信息類(lèi)型.摘要中的數據與BioNLP’09中的評測數據相同.
2基于SVM方法的生物醫學(xué)事件觸發(fā)詞識別
事件是指關(guān)于某一主題的一組相關(guān)描述.事件抽取的任務(wù)主要分為元事件抽取和主題事件抽取.本文借鑒了基于HMM的生物醫學(xué)命名實(shí)體的識別與分類(lèi)、基于多類(lèi)型特征的生物醫學(xué)事件觸發(fā)詞識別中介紹的方法來(lái)對生物醫學(xué)事件的觸發(fā)詞進(jìn)行識別.當前觸發(fā)詞的識別方法主要有三類(lèi):基于規則的方法、基于字典的方法和機器學(xué)習的方法.本文利用豐富的上下文信息、語(yǔ)義信息,首先通過(guò)組織各種不同類(lèi)型的信息,然后把它們統一表示為SVM下的特征,最后利用多分類(lèi)方法解決觸發(fā)詞識別的問(wèn)題.
2.1語(yǔ)料預處理
BioNLP’13中的GE語(yǔ)料是以全文的一部分或每個(gè)摘要作為一組,每一組中都包含:“.txt”、“.a2”和“.a1”三個(gè)文件.例如:在文檔號為“PMC-1310901-00-TIAB.txt”、“PMC-1310901-00-TIAB.a1”、“PMC-1310901-00-TIAB.a2”文件中.這三個(gè)文件中,txt、a2和a1分別表示摘要原文本的內容、摘要文檔中觸發(fā)詞和摘要文檔中已標記的蛋白質(zhì).
2.1.1語(yǔ)料格式BioNLP共享任務(wù)(ST)數據使用格式類(lèi)似于2009和2011年的BioNLP共享文件格式.在語(yǔ)料格式表示中,文本文件是分開(kāi)注釋的.所有注釋文件格式遵循的相同基本結構,每一行包含一個(gè)注釋?zhuān)總(gè)注釋ID出現在第一行,其余的注釋隨類(lèi)型的不同而變化.
2.1.2語(yǔ)料預處理流程由于在總體事件中,跨句事件低于1%比例的事實(shí)情況,而同時(shí)在尋找跨句事件的過(guò)程中,通常也會(huì )引起過(guò)多的噪音.鑒于這些情況,我們在本文中只對一個(gè)句子中的事件進(jìn)行詳細研究.所以需要預處理GE語(yǔ)料.
(1)首先對GE語(yǔ)料中各文檔的txt文件進(jìn)行分句處理.
(2)由于在GE語(yǔ)料中,a2及a1文件中的觸發(fā)詞、蛋白質(zhì)都是標明的位置,如T84Binding28452850binds表示觸發(fā)詞“binds”在這個(gè)文檔中某種事件的標識為T(mén)84,類(lèi)型為“Binding”,所處理的對象是以文檔中起始位置開(kāi)始記錄的第2845個(gè)字符一直到其后面的5個(gè)字符之間的所有字符串.所以通過(guò)對文檔分句后,就要重新計算這些觸發(fā)詞、蛋白質(zhì)的位置,并讓它們轉化為分句處理后在各自句子的位置.
(3)由于按詞語(yǔ)進(jìn)行分析是Gdep分析器的主要功能,并且部分蛋白質(zhì)是由兩個(gè)或更多的詞構成,因此在進(jìn)行句法分析前,我們需要先替換蛋白質(zhì),統一以“protein+序號”的形式將語(yǔ)料中給出的蛋白質(zhì)替換掉,然后再對分句處理后的語(yǔ)料進(jìn)行分析.
(4)用Gdep句法分析器進(jìn)行句子的分析處理后,每個(gè)句子中的每個(gè)詞的依有關(guān)系及依有關(guān)系子節點(diǎn),另外還有詞干化結果、詞性等相關(guān)信息就會(huì )清晰呈現出來(lái).
(5)分析Gdep得出的結果,弄懂每行的基本信息,可以看出句子中的每一個(gè)詞分別占一行.每個(gè)詞的基本信息都在對應行清晰顯現.通過(guò)觀(guān)察分析可知:該詞的依存關(guān)系中父節點(diǎn)的位置是每行倒數第二個(gè)位置上的數字,該詞在句子中所處的位置則是該行最前面的數字.
(6)建立候選詞詞典.候選詞詞典在建立的過(guò)程中通常會(huì )引入大量噪音,進(jìn)而特征的可用性就會(huì )隨之降低.鑒于此種情況,候選詞詞典中只放入訓練集中出現的觸發(fā)詞,即將所有a2文件的觸發(fā)詞抽取到一個(gè)文件中,這樣就建立了候選詞的詞典.而對于候選詞,則必須要先在觸發(fā)詞詞典中進(jìn)行匹配,然后才能進(jìn)行提取特征.
2.2提取上下文特征
提取上下文特征主要是從處理后的語(yǔ)料中得到的.其原理是根據候選詞本身以及其所在的位置、詞干化和詞性等特征進(jìn)行提取.其具體的特征主要有:
(1)詞特征.它主要包括候選詞詞干化的結果、候選詞本身和候選詞詞性以及詞袋特征.其中N窗口表示與候選詞左側和右側相距最遠為N個(gè)詞的距離.由經(jīng)驗得知,N=5時(shí)效果最佳.所以實(shí)驗中窗口的大小我們也采用N=5.
(2)特定位置特征.對觸發(fā)詞的識別有重要影響的還有判斷候選詞周?chē)厥馕恢玫脑~.如果候選詞“transcription”左邊的第一個(gè)為“T-box”,右邊的第一個(gè)詞為“factor”.我們就會(huì )把該特征記錄為“Candicate_left=T-box”“Candicate_right=factor”.同樣也會(huì )考慮左右第二個(gè)詞.由經(jīng)驗可知,如果考慮太多位置,則會(huì )引入更多噪音,同時(shí)還會(huì )出現數據稀疏問(wèn)題.
(3)N-gram特征.N-gram特征更多的是考慮周?chē)~與候選詞的關(guān)系.由于這個(gè)特征,從而使得特征的可辨識度得到了進(jìn)一步提高,同樣是由經(jīng)驗可知,2-gram和3-gram時(shí)效果最好.如對于“Down-regulationofinterferonregulatorfact4geneexpressioninleukemiccellsduetohypermethylationofCpGnotifsinthepromoterregion.”的候選詞expression來(lái)表示,它的3-gram特征則表示為“3-gram-left=4geneexpression”,它還可以表示為“3-gram=geneexpressionin”或“3-gram-right=expressioninleukemic”.
(4)與給定蛋白質(zhì)的距離特征.已標識的蛋白質(zhì)對于判斷是否為觸發(fā)詞能起很大作用.因此我們可以利用蛋白質(zhì)及候選詞之間的單詞個(gè)數(距離信息),通過(guò)下邊的公式將兩者間的距離特征變?yōu)樘卣髦?在score(d)=iemax(d,β)-β+0.01公式中的d表示的是候選詞與蛋白質(zhì)之間的距離,β作為閥值進(jìn)行調節,從而確定出β取什么值時(shí)F的效果最好.
2.3提取語(yǔ)義特征
在語(yǔ)料預處理過(guò)程中,我們已經(jīng)通過(guò)Gdep句法分析器進(jìn)行了分析,分析結果可以用語(yǔ)義上下層關(guān)系表示出來(lái),從而得到一個(gè)樹(shù)形結構,即依存分析樹(shù),因而可以利用語(yǔ)義信息進(jìn)行特征的提取。
2.3.1語(yǔ)義特定位置特征由于父節點(diǎn)只有一個(gè),而子節點(diǎn)可能有多個(gè),考慮到語(yǔ)義特定位置的特殊性,需要提取子節點(diǎn)和父節點(diǎn)兩種特征.對子節點(diǎn)只提取子節點(diǎn)特征,而對父節點(diǎn)則需要提取父節點(diǎn)和父節點(diǎn)的父節點(diǎn)特征.
2.3.2語(yǔ)義N-gram特征為避免出現數據稀疏的現象,只取N=2時(shí)的特征,這里不僅需要考慮詞,還需要考慮是否有依存關(guān)系.比如對于候選詞“silencing”的2-gram特征表示為:
、俨豢紤]依存關(guān)系的子節點(diǎn)方向的特征為:“semantic-2gram=silencingthe”和“semantic-2gram=silencingof”;
、诓豢紤]依存關(guān)系的父節點(diǎn)方向的特征“semantic-2gram=ofsilencing”,考慮依存關(guān)系的父節點(diǎn)方向特征“semantic-2gram-dependency=ofPMODsilencing”;
、劭紤]依存關(guān)系的子節點(diǎn)方向的兩個(gè)特征分別為:“semantic-2gram-dependency=silencingNMODthe”和“semantic-2gram-dependency=silencingNMODof”.
2.3.3根路徑特征由上例的依存分析樹(shù)圖1可以看出,“rootremainedcauseofsilencingoflevelProtein206”是存在于root與指定蛋白質(zhì)“Protein206”之間的一條路徑,基于主要的節點(diǎn)都在這條路徑上,我們可以把它看作是句子中的一條關(guān)鍵路徑.我們之所以把該詞和其父節點(diǎn)是否在根路徑上作為一個(gè)特征,是因為通過(guò)在訓練集中的統計發(fā)現:觸發(fā)詞本身或其父節點(diǎn)出現在根路徑上對于觸發(fā)詞的判別有很大作用.例如“silencing”這一候選詞的根路徑特征可表示為:“semantic-in-rootpath=1”和“semantic-father-in-rootpath=1”.
3實(shí)驗結果與分析
3.1實(shí)驗
在BioNLP’13的GE語(yǔ)料中,我們發(fā)現有Geneexpression(基因表達)、Transcription(轉錄)、Proteincatabolism(蛋白質(zhì)分解代謝)、Phosphorylation(磷酸化)、Localization(定位)、Binding(綁定事件)、Regulation(調控)、Positiveregulation(正向調控)、Negativeregulation(負向調控)這9種類(lèi)型.如果我們把在候選詞中出現的每個(gè)詞都看作候選詞,然后對它的語(yǔ)義特征和上下文等特征進(jìn)行提取,將觸發(fā)詞的識別作為一個(gè)多分類(lèi)的過(guò)程任務(wù),則需要分成10類(lèi),因為這里還要考慮到判斷該候選詞是否為觸發(fā)詞這一任務(wù),所以多了1類(lèi).我們用SVMlight工具進(jìn)行分類(lèi)訓練。為了便于比較與說(shuō)明,在這里我們將上文中提到的各種特征進(jìn)行重新劃分和分類(lèi):SF類(lèi)特征、Base類(lèi)特征和RP特征.其中Base類(lèi)特征表示上下文特征,SF則表示除根路徑外的語(yǔ)義特征,RP表示的是根路徑特征.為了對本文方法的有效性進(jìn)行評估,對目前文獻中提出的主題詞抽取方法進(jìn)行了對比分析.不同算法下的性能對比Fig.2Performancecomparisonchartofdifferentalgorithms
3.2實(shí)驗分析
中可以看出,我們的系統在簡(jiǎn)單事件上取得了很好的效果,在4種系統中F值最高.在所有事件的比較中,我們的準確率很高,F值較最好的FAUST系統有一些差距,但與同樣基于分類(lèi)方法的UTurku系統和MSP-NLP系統相比,本文的SVM-BASED系統的結果要好很多.
4結束語(yǔ)
本文在前人關(guān)于生物醫學(xué)文獻的事件抽取進(jìn)行研究的基礎上,提出了基于SVM的生物醫學(xué)事件觸發(fā)詞識別探索.在生物醫學(xué)信息領(lǐng)域,觸發(fā)詞表示的是實(shí)體間的復雜關(guān)系,大部分觸發(fā)詞的識別都將轉化為觸發(fā)詞分類(lèi)問(wèn)題.基于SVM方法的生物醫學(xué)事件觸發(fā)詞的識別是能夠基于訓練集自動(dòng)學(xué)習的.它主要是利用特征集訓練出觸發(fā)詞識別的分類(lèi)器,從而進(jìn)行觸發(fā)詞的識別.本文主要研究了目前生物醫學(xué)事件抽取的研究背景、主要方法,闡述了生物醫學(xué)事件抽取的相關(guān)理論,并對語(yǔ)料進(jìn)行處理,利用SVM方法訓練出模型進(jìn)行觸發(fā)詞的識別,這種方法具有較強分類(lèi)能力.由于本文主要是基于標注數據進(jìn)行研究的,而在實(shí)際的生活中,標注數據的代價(jià)很大,所以利用未標注的數據進(jìn)行觸發(fā)詞的識別是以后工作研究的重點(diǎn)。
【生物醫學(xué)事件觸發(fā)詞識別研究畢業(yè)論文】相關(guān)文章:
10-08
10-09
10-09
10-09
06-09
06-14
10-08
04-07
10-09
06-22