一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看

生物醫學(xué)文本挖掘研究熱點(diǎn)

時(shí)間:2024-08-01 10:04:00 生物科學(xué)畢業(yè)論文 我要投稿
  • 相關(guān)推薦

生物醫學(xué)文本挖掘研究熱點(diǎn)

  隨著(zhù)生物醫學(xué)信息技術(shù)的飛速發(fā)展,生物醫學(xué)文獻呈“指數型”增長(cháng),單純依靠人工閱讀獲取和理解所需知識變得異常困難,如何從海量生物醫學(xué)文獻中整合已有知識、挖掘新知識成為當前研究熱點(diǎn)。下面是小編搜集整理的相關(guān)內容的論文,歡迎大家閱讀參考。

生物醫學(xué)文本挖掘研究熱點(diǎn)

  [摘要] 為了解生物醫學(xué)文本挖掘的研究現狀和評估未來(lái)的發(fā)展方向,以美國國立圖書(shū)館PubMed中收錄的2000年1月-2015年3月發(fā)表的生物醫學(xué)文本挖掘研究文獻記錄為樣本來(lái)源,提取文獻記錄的主要主題詞進(jìn)行頻次統計后截取高頻主題詞,形成高頻主題詞-論文矩陣,根據高頻主題詞在同一篇論文中的共現情況對其進(jìn)行聚類(lèi)分析,根據高頻主題詞聚類(lèi)分析結果和對應的類(lèi)標簽文獻,分析當前生物醫學(xué)文本挖掘研究的熱點(diǎn)。結果顯示,當前文本挖掘在生物醫學(xué)領(lǐng)域應用的主要研究熱點(diǎn)為文本挖掘的基本技術(shù)研究、文本挖掘在生物信息學(xué)領(lǐng)域里的應用、文本挖掘在藥物相關(guān)事實(shí)抽取中的應用3個(gè)方面。

  [關(guān)鍵詞] 文本挖掘;生物醫學(xué)研究;研究熱點(diǎn)

  1.隨著(zhù)生物醫學(xué)科學(xué)的飛速發(fā)展,生物醫學(xué)領(lǐng)域的實(shí)驗數據和文獻數量急劇增加。常用的檢索方式通常會(huì )消耗大量時(shí)間,并且需要對檢索詞進(jìn)行仔細篩選及恰當組合。文本挖掘是通過(guò)計算機發(fā)現以前未知的新信息,即在現有文獻資源中自動(dòng)提取相關(guān)信息,并揭示另外隱含的意義[1]。利用文本挖掘能夠有效地從生物醫學(xué)數據庫中提取相關(guān)知識進(jìn)行研究進(jìn)而提出新的實(shí)驗假設,得到新的科學(xué)結論,因此文本挖掘在生物科學(xué)領(lǐng)域具有很大的應用價(jià)值。

  2.以檢索詞“textmining”在PubMed檢索(2015年6月9日)相關(guān)文獻,結果顯示文獻累積數量隨著(zhù)年代的分布呈現典型的指數分布,說(shuō)明文本挖掘在生物醫學(xué)領(lǐng)域中正處在飛速發(fā)展中,是當前的研究熱點(diǎn);谝陨显,我們運用共詞分析的方法,對2000年1月至2015年3月MEDLINE數據庫收錄的有關(guān)文本挖掘在生物醫學(xué)領(lǐng)域應用的論文中的高頻主題詞進(jìn)行了共現聚類(lèi)分析,總結出當前國際上文本挖掘在生物醫學(xué)領(lǐng)域應用的研究熱點(diǎn),并對其進(jìn)行分析。

  一、資料與方法

  1.1數據樣本為MEDLINE數據庫收錄的生物醫學(xué)領(lǐng)域文本挖掘研究文獻。MEDLINE是國際上生物醫學(xué)領(lǐng)域的權威數據庫,迄今收錄文獻達2400萬(wàn)篇,通過(guò)該數據庫可以檢測到含有確切關(guān)鍵詞的文獻[2]。采用檢索策略為:“textmining”[tiab]AND((“2000/01/01”[PDAT]:“2015/03/31”[PDAT])ANDmedline[sb]),共得到879篇相關(guān)文獻記錄。以xml格式將全部相關(guān)文獻記錄套錄下來(lái),運用文獻計量學(xué)統計分析軟件BICOMB[3]抽取和統計以上文獻中的主要主題詞及副主題詞及每個(gè)詞在以上全部文獻中的出現頻次,按照它們的出現頻次由高到低進(jìn)行排序,選取其中出現頻次高于13次的40個(gè)主題詞/副主題詞作為高頻主題詞(表1)。

  1.2由于這些文獻的篇名或摘要中含有“文本挖掘”被檢出,且被收錄于MEDLINE,其主要內容都與生物醫學(xué)文本挖掘有關(guān),因此得到的主題詞和副主題詞可反映文本挖掘在生物醫學(xué)領(lǐng)域中的應用情況。對所有高頻主題詞做進(jìn)一步處理,統計每一個(gè)高頻詞在文獻中的出現情況,形成高頻詞-文獻矩陣,輸入到gCLUTO軟件,采用系統聚類(lèi)法對所得相似矩陣進(jìn)行聚類(lèi)分析,聚類(lèi)分析的結果可以反映出這些高頻詞之間的親疏關(guān)系,分析這些高頻主題詞能夠獲得生物醫學(xué)領(lǐng)域文本挖掘研究的熱點(diǎn)。聚類(lèi)結果如圖1所示,其中橫軸代表PubMed數據庫中文獻,縱軸代表進(jìn)行聚類(lèi)的主題詞/副主題詞。如果兩詞聚集到一起的距離短,說(shuō)明它們的關(guān)系越密切[4]。

  1.3首先,根據每一類(lèi)高頻主題詞的含義以及這些主題詞之間的語(yǔ)義關(guān)系,總結出每一類(lèi)主題詞所代表的研究熱點(diǎn),即當前醫學(xué)領(lǐng)域文本挖掘研究的熱點(diǎn)。例如,主題詞NaturalLanguageProcessing(自然語(yǔ)言處理)和PeriodicalsasTopic(期刊作為主題)距離較近,關(guān)系密切,首先聚成一類(lèi);ArtificialIntelli-gence(人工智能)再與前面兩個(gè)詞合成一類(lèi),這一類(lèi)再與MEDLINE組成的一類(lèi)再聚成一大類(lèi),以此類(lèi)推。通過(guò)分析這些主題詞的語(yǔ)義關(guān)系就能得出它們所代表的類(lèi)團含義標簽,綜合各個(gè)類(lèi)別的類(lèi)標簽可以得出當前醫學(xué)領(lǐng)域文本挖掘研究的熱點(diǎn)。其次,利用gCLUTO軟件計算各類(lèi)成員對聚類(lèi)貢獻率的指標(描述度Descriptive和區分度Descriminating),選取對每一類(lèi)形成貢獻最大的來(lái)源文獻作為表示該類(lèi)內容的類(lèi)標簽文獻,通過(guò)文獻內容進(jìn)一步闡釋該研究方向的具體內容。

  二、結果與分析

  通過(guò)對近2000-2015年MEDLINE收錄的生物醫學(xué)領(lǐng)域文本挖掘研究文獻的高頻主題詞和副主題詞進(jìn)行共現聚類(lèi)分析(圖1),我們將該領(lǐng)域的研究熱點(diǎn)分為以下3大方面,14個(gè)主題。

  2.1文本挖掘的基本技術(shù)

  2.1.1關(guān)于基因名稱(chēng)識別的研究

  該類(lèi)所含的主題詞有Genes;TerminologyasTopics;Vocabulary,Controlled。研究?jì)热萑绺鶕~表對基因符號消歧,評價(jià)生物醫學(xué)命名體識別的各種標準[5-8],整合多種資源以規范基因名稱(chēng)等。

  2.1.2文本分類(lèi)中高維特征的處理問(wèn)題

  該類(lèi)包含ArtificialIntelligence,Algorithms,PatternRecognition,Automated/methods等主題詞。研究?jì)热萑缋肨urku系統增強生物醫學(xué)事件抽取的新的特征選擇策略,Swanson的ABC研究中定量計算B詞的模型,如何把文本和手工構建通路聯(lián)系起來(lái)[9-12]。

  2.1.3文本挖掘中標引注釋問(wèn)題

  該類(lèi)包括的主題詞有NaturalLanguageProcessing;InformationStorageandRetrieval/methods;PeriodicalsasTopic;Databases,Bibliographic;AbstractingandIndexingasTopic/methods。如用于生物文本挖掘語(yǔ)義注釋的語(yǔ)料庫GENIA,對文章中圖例進(jìn)行標引和分類(lèi)的系統,從全文中抽取生物學(xué)信息的工具。以上都涉及到文本挖掘語(yǔ)料的庫建設,需要事先注釋好的語(yǔ)料庫[13-16]。

  2.1.4文本挖掘初級階段的輔助工具

  該類(lèi)包括DatabaseManagementSystems,MED-LINE,User-ComputerInterface等主題詞。研究?jì)热萑缤ㄟ^(guò)Web服務(wù)進(jìn)行文本處理的Whatizit系統,對MEDLINE/PubMed文獻記錄自動(dòng)挖掘的輔助性工具M(jìn)edKit,文本中自動(dòng)標記基因、蛋白質(zhì)和其他實(shí)體名字的開(kāi)源工具ABNER,支持生物本體開(kāi)發(fā)與分析的API:ONTO-PERL。其中,基于Web文本分析工具Whatizit是一種基于服務(wù)器的,用于分析文獻(如任何科學(xué)出版物或MEDLINE摘要)中所含信息的模塊,它可以辨認術(shù)語(yǔ)并將其與生物醫學(xué)數據庫(如UniProtKb/Swiss-Prot)中相應的條目和基因本體概念鏈接起來(lái)[17-19]。

  2.2文本挖掘在生物信息學(xué)研究中的應用

  2.2.1系統生物學(xué)的知識管理

  涉及的主題詞有SystemsBiology/methods;GeneExpressionProfiling/methods,KnowledgeBases。研究?jì)热萑缫愿咄縮iRNA監測作為生物系統擾動(dòng)和與復合物監測并存靶向通路的辨認的方法應用于轉化醫學(xué)的通用和可視化驅動(dòng)的框架,藥物基因組學(xué)領(lǐng)域中的關(guān)系抽取,用于分析、整合和可視化人類(lèi)轉錄組學(xué)[20-23]、蛋白質(zhì)組學(xué)和代謝組學(xué)的Web系統生物學(xué)工具。

  2.2.2生物學(xué)網(wǎng)絡(luò ):蛋白質(zhì)相互作用網(wǎng)絡(luò )的構建和分析

  涉及的主題詞有ProteinInteractionMapping/methods、Models,Biological和SignalTransduction/physiology。研究?jì)热萑缋梦谋就诰虻慕Y果來(lái)構建PPI網(wǎng)絡(luò ),生物網(wǎng)絡(luò )推理和分析信息融合平臺Bio-CAD;還有學(xué)者開(kāi)發(fā)出基于網(wǎng)絡(luò )-上下文的文獻檢索系統(NcDocReSy)作為Cytoscape的插件,可以通過(guò)間接相關(guān)的文獻幫助用戶(hù)手工構建網(wǎng)絡(luò ),該系統結合了用生物學(xué)網(wǎng)絡(luò )檢索文獻和根據網(wǎng)絡(luò )拓撲來(lái)排序檢索到的文獻[24-27]。

  2.2.3通過(guò)文本挖掘獲得蛋白質(zhì)相互作用網(wǎng)絡(luò )圖,并對該圖中節點(diǎn)間的關(guān)系進(jìn)行語(yǔ)義上的注釋

  涉及Proteins/metabolism,ProteinInteractionMapping,Semantics等主題詞。研究?jì)热萑缋蒙舷挛哪P秃途渥痈袷綄蛱崦右砸幏恫⑻崛∠嗷プ饔,把文獻挖掘和從各種來(lái)源的相互作用證據結合起來(lái)構建鼠蛋白相互作用網(wǎng)絡(luò ),語(yǔ)言特征在從PubMed中抽取相互作用時(shí)的有用程度,以及從文獻中抽取人類(lèi)蛋白質(zhì)因果關(guān)系的挖掘工具PPInterFinder[28-31]。

  2.2.4利用文本挖掘進(jìn)行的蛋白質(zhì)功能研究

  涉及的主題詞有Databases,Protein;Proteins/chemistry。研究?jì)热萑缁赪eb的蛋白質(zhì)序列功能注釋工具ProFat,利用圖雙字相關(guān)自動(dòng)抽取蛋白質(zhì)點(diǎn)突變,PPI與文本挖掘集成用于蛋白質(zhì)功能預測;用整合后的全局相關(guān)評分改善PPI對排序[32-35]等。

  2.2.5文本挖掘方法在生物信息學(xué)中應用的概述

  它涉及到DataMining/methods;ComputationalBiology/methods;Databases,Genetic等主題詞。文本挖掘是生物信息學(xué)的重要研究方法之一,有助于構建基因數據庫和知識庫。研究?jì)热萑鐝淖晕谋局谐槿∈聦?shí)的研究,文本挖掘是否能用成倍提高手工構建基因產(chǎn)品的效率。在OMIM中檢索臨床綱要的CSI-OMIM系統,利用PharmGKB訓練文本挖掘方法以在藥物基因組研究中確認潛在基因靶標的研究[36-39]。

  2.2.6圍繞PubMed的挖掘系統和工具

  涉及到的主題詞有Software,Internet,PubMed。本類(lèi)所研究系統和工具與文獻挖掘的輔助工具相似,都是基于文獻數據庫開(kāi)發(fā)的工具,但是輔助工具關(guān)注的是MEDLINE數據庫,而本類(lèi)則關(guān)注其網(wǎng)絡(luò )版,因此更具有網(wǎng)絡(luò )應用的性質(zhì)。眾多工具不再是輔助性的文本處理工具,而是針對PubMed的檢索和挖掘工具,尤其是基于Web的PubMed檢索工具,如GeneView,PPInterFinder等。與挖掘有關(guān)的工具則有書(shū)目分析工具,如PipelinePilot就是一種基于Web的PubMed書(shū)目分析工具等,可以進(jìn)行交互式的文本挖掘[31,40-42]。以上6個(gè)主題也可以歸為一個(gè)大類(lèi),即在生物信息學(xué)研究中的應用,側重系統生物學(xué)的挖掘分析,即通過(guò)蛋白質(zhì)相互作用網(wǎng)絡(luò )的分析來(lái)預測蛋白質(zhì)的功能。這是文本挖掘當前在生物醫學(xué)應用的主流,也是文本挖掘在生物醫學(xué)應用中的重中之重。

  2.3文本挖掘在事實(shí)抽取中的應用

  2.3.1如何從文本中抽取事實(shí)(關(guān)系),即從文獻中發(fā)現醫學(xué)知識的方法學(xué)研究

  涉及Databases,Factual;Publications;BiomedicalResearch等主題詞。研究?jì)热萑缋梦谋就诰蚪o文獻打分和排序,以改善毒理基因組學(xué)比較數據庫中藥物-基因-疾病關(guān)系的建立;利用用戶(hù)定制的支持互操作格式的Web服務(wù)來(lái)處理生物學(xué)文獻;無(wú)監督文本挖掘方法抽取生物醫學(xué)文獻中的關(guān)系等[43-46]。

  2.3.2利用文本挖掘幫助文獻檢索和整理,滿(mǎn)足用戶(hù)信息需求的研究

  涉及主題詞有ComputationalBiology,InformationStorageandRetrieval。文本挖掘應用于生物信息學(xué)的信息檢索,如利用生物醫學(xué)本體改善生物醫學(xué)文獻聚類(lèi)效果,利用計算機跟蹤知識與內容,利用文本挖掘開(kāi)展人類(lèi)重要疾病的整合基因組分析,藥物開(kāi)發(fā)中的信息需求與文本挖掘的作用等[47-50]。

  2.3.3利用文本挖掘方法(尤其是文獻計量學(xué)方法)構建藥物-基因-疾病等調節網(wǎng)絡(luò )該類(lèi)主題詞有DataMining和GeneRegulatoryNetworks。研究?jì)热萑缋梦谋就诰蚍椒◣椭鷺嫿‥.coliK-12菌株中OxyR蛋白的調節作用和生長(cháng)條件的數據庫,文獻計量學(xué)網(wǎng)絡(luò )重建應用程序和服務(wù)器Biblio-MetReS,比較性毒理基因組學(xué)數[51-54]據庫中藥物-基因-疾病網(wǎng)絡(luò )的文本挖掘和手工構建等。

  2.3.4臨床記錄中各種信息(特別是時(shí)間信息)的抽取涉及到MedicalInformatics/methods,ElectronicHealthRecords等主題詞。該研究?jì)热萑鐝呐R床記錄中抽取時(shí)間關(guān)系而生成患者時(shí)間軸,結合使用規則和機器學(xué)習方法從患者出院小結中抽取時(shí)間關(guān)系的TEMPTING系統,從臨床文本中自動(dòng)抽取巴士指數的研究,對瑞士語(yǔ)臨床文本的線(xiàn)索斷言分類(lèi),為pyConTextSwe系統開(kāi)發(fā)詞匯表等[55-58]。以上4類(lèi)的共同特征是偏重從文本中抽取事實(shí),尤其是與藥物和毒理(藥物副作用)有關(guān)的事實(shí)抽取方法的研究,同時(shí)也涉及到基因等信息。

  三、結論

  3.1通過(guò)對14個(gè)主題的高頻主題詞進(jìn)行梳理,可以看到文本挖掘在生物醫學(xué)領(lǐng)域應用主要在3個(gè)方面。一是文本挖掘的基本技術(shù)研究。研究?jì)热輳恼Z(yǔ)料庫建設中的標引注釋問(wèn)題到文本分類(lèi)中的特征提取,一直到這些技術(shù)在基因名稱(chēng)的命名體識別中的應用,最后涉及到可以在命名體識別等基本技術(shù)上幫助文本挖掘的工具。文本挖掘基本技術(shù)研究未來(lái)的發(fā)展應更加注重采用規范化和標準化的工具。

  3.2二是文本挖掘在生物信息學(xué)領(lǐng)域里的應用。該研究方向側重于將挖掘方法應用到系統生物學(xué)分析中,如在轉化醫學(xué)、藥物基因組學(xué)、人類(lèi)轉錄組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)等領(lǐng)域中的應用,利用免費而權威的PubMed文獻數據庫開(kāi)發(fā)挖掘系統和工具。其中通過(guò)蛋白質(zhì)相互作用網(wǎng)絡(luò )分析來(lái)預測蛋白質(zhì)的功能是當前文本挖掘在生物醫學(xué)領(lǐng)域應用中的重中之重。另外,對生物學(xué)網(wǎng)絡(luò )(尤其是蛋白質(zhì)相互作用PPI網(wǎng)絡(luò ))的屬性分析已經(jīng)成為一種新的生長(cháng)點(diǎn)。其中通過(guò)對文本挖掘獲得文獻網(wǎng)絡(luò ),由此獲得蛋白質(zhì)功能的信息,并將其與生物整合起來(lái)的研究也是值得注意的新動(dòng)向。

  3.3三是文本挖掘在相關(guān)事實(shí)抽取中的應用。文本挖掘也常用于從文本中抽取事實(shí),尤其是與藥物、毒理(藥物副作用)、疾病有關(guān)的事實(shí)抽取方法的研究,同時(shí)也涉及到基因信息研究。包括對從文獻中發(fā)現醫學(xué)知識的具體技術(shù)的探討,如構建各種生物醫學(xué)相關(guān)的數據庫和知識庫,Web服務(wù)器處理文獻;利用文本挖掘技術(shù)幫助用戶(hù)文獻檢索和整理文獻也是當前引起廣泛關(guān)注的服務(wù)。此外,在文本挖掘算法上比較突出的方向是利用文本挖掘方法以及文獻計量學(xué)方法構建藥物-基因-疾病等調節網(wǎng)絡(luò ),以及有關(guān)臨床記錄中各種信息(特別是時(shí)間信息)的抽取問(wèn)題。綜上所述,生物醫學(xué)文本挖掘研究熱點(diǎn)主要集中在文本挖掘基本方法和技術(shù)研究、生物信息學(xué)中的應用和在藥物相關(guān)研究中的應用,未來(lái)發(fā)展方向應當是以詞表標準、復雜網(wǎng)絡(luò )分析等方法為主。

  【參考文獻】

  [1]王浩暢,趙鐵軍.生物醫學(xué)文本挖掘技術(shù)的研究與進(jìn)展[J].中文信息學(xué)報,2008,22(3):89-98.

  [2]崔雷,劉偉,閆雷,等.文獻數據庫中數目信息共現挖掘系統的開(kāi)發(fā)[J].現代圖書(shū)情報技術(shù),2008(8):70-75.

  [3]張丹曄,崔雷.PBL教學(xué)模式的研究熱點(diǎn)分析[J].醫學(xué)教育探索,2010,9(8):1053-1057.

【生物醫學(xué)文本挖掘研究熱點(diǎn)】相關(guān)文章:

生物醫學(xué)信號研究概況03-18

生物醫學(xué)發(fā)展趨勢及特征研究12-11

基于WEB文本挖掘的統計分析VB+ACCESS03-08

文本文件壓縮算法研究Delphi03-08

基于粗糙集的文本分類(lèi)研究03-03

基于愛(ài)好的電子商務(wù)數據挖掘技術(shù)的研究12-08

空間數據挖掘技術(shù)研究分析03-22

文本研究中的版本考證:必要性和有限性03-03

論文提綱范例如何將文本研究和現實(shí)問(wèn)題研究有效結合05-24

Web挖掘在網(wǎng)絡(luò )營(yíng)銷(xiāo)中的應用研究03-23

一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看