一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看

數字環(huán)境下通用概念獲取方法

時(shí)間:2025-11-30 23:57:48 碩士畢業(yè)論文

數字環(huán)境下通用概念獲取方法

  數字環(huán)境下通用概念獲取方法

  摘要:在敘詞表、本體等知識組織體系構建過(guò)程中,需要獲取通用概念。

  筆者試驗了三種獲取通用概念的方法,一是繼承傳統知識組織體系通用概念,二是通過(guò)關(guān)鍵詞在文獻中詞頻分布情況確定通用概念,三是基于關(guān)鍵詞總詞頻與標準差二維信息獲得通用概念。

  研究結果表明:以上三種方法各有特點(diǎn)及使用范圍,在概念獲取時(shí)可以根據課題具備條件單獨使用或組合使用。

  關(guān)鍵詞:敘詞表 本體 通用概念 標準差 詞頻

  概念的獲取與分類(lèi)是知識組織體系構建的重要工作。

  例如,敘詞表的選詞主要由普通名詞與專(zhuān)有名詞構成,普通名詞主要包括具體事物名稱(chēng)和抽象事物名稱(chēng),具體事物名稱(chēng)例如“海洋”,抽象事物名稱(chēng)例如“鑄造”;專(zhuān)有名詞通常為人名、地名、產(chǎn)品名等,例如“孫中山”。

  在本體構建中,概念詞匯與實(shí)例詞匯也是本體構建的主要成分,例如,可以用“城市”代表一個(gè)概念,而“北京市”則是一個(gè)實(shí)例。

  在所有這些概念詞匯的研究中,通用概念具有一定的特征和應用價(jià)值,數量上也占有一定的份額。

  無(wú)論是綜合敘詞表,還是專(zhuān)業(yè)敘詞表,通常都有一個(gè)單獨的通用概念范疇,有的敘詞表命名為一般概念,有的敘詞表命名為通用詞,這些詞例如“研究”、“設計”、“應用”等,是在不同專(zhuān)業(yè)都有應用的泛指詞,在概念組配方面有重要價(jià)值。

  在國內圖書(shū)館學(xué)、情報學(xué)領(lǐng)域相關(guān)機構及領(lǐng)域專(zhuān)家的參與下,中國科學(xué)技術(shù)信息研究所2009年啟動(dòng)了《漢語(yǔ)主題詞表》(工程技術(shù)版)的編制與修訂工作,通用概念的選詞與詞間關(guān)系的建立,是該項目的重要工作之一。

  1、從傳統知識組織體系中繼承獲取

  1980年,《漢語(yǔ)主題詞表》(以下簡(jiǎn)稱(chēng)《漢表》)編制完成并出版,上世紀80至90年代,我國敘詞表的編制與應用達到了巔峰時(shí)期,編制了上百部的綜合及專(zhuān)業(yè)性敘詞表。

  人類(lèi)知識總是在繼承中不斷發(fā)展的,這些敘詞表概念可以作為重要的原始語(yǔ)料或參考詞匯,經(jīng)過(guò)遴選直接納入候選詞庫,根據修訂和重新編制的原則,進(jìn)行選詞、分類(lèi)、建立詞間關(guān)系等敘詞表編制工作。

  原《漢表》通用概念分自然科學(xué)一般概念與社會(huì )科學(xué)一般概念。

  自然科學(xué)一般概念的一級范疇號為92,下分為9個(gè)二級類(lèi)目,其中92A是一般概念,例如機理、計算、結論、現狀等概念。

  其他二級類(lèi)目包括92B形狀、尺寸,92C時(shí)間、方位等,共收集了475個(gè)通用概念。

  作為《漢表》修訂項目,這些詞在入選方面應該占有較大的權重,甚至根據這些詞匯的統計數據屬性重新進(jìn)行分類(lèi)。

  例如,“計算”一詞,需要統計在各級大類(lèi)中的詞頻情況,根據詞頻大小,確定是繼續放到通用概念下,還是放到0類(lèi)(數理科學(xué)與化學(xué))或TP類(lèi)(自動(dòng)化技術(shù)、計算機技術(shù))。

  另外,還有大量的專(zhuān)業(yè)敘詞表,例如《農業(yè)科學(xué)敘詞表》、《水利水電科技主題詞表》(以下簡(jiǎn)稱(chēng)《水表》)等,同樣有通用概念。

  《水表》一級范疇號20“通用詞”下設2個(gè)二級類(lèi)目,20A為“復合通用詞”,例如“安全管理”、“分布規律”等;20B為“一般通用詞”,例如成分、利用、應用等。

  2、基于詞頻分布人工獲取通用概念

  首先觀(guān)察一個(gè)具體的例子,“設計”是一個(gè)公認的通用概念,以“設計”作為關(guān)鍵詞檢索萬(wàn)方數據,在“工業(yè)技術(shù)”類(lèi)文獻下,檢索結果如截圖1所示:

  從圖1可以看出,“設計”一詞作為關(guān)鍵詞,出現在所有工業(yè)技術(shù)下的二級類(lèi)目中,而且詞頻數量巨大,對應的文獻量巨大,有典型的通用概念特征。

  使用“水庫”一詞進(jìn)行檢索,在“工業(yè)技術(shù)”類(lèi)下檢索結果如截圖2所示:

  從圖2可以看出,“水庫”一詞的詞頻特征也非常明顯,在“水利工程”類(lèi)目中詞頻上萬(wàn)次,而其他類(lèi)目中詞頻都非常低,直觀(guān)感覺(jué)有顯著(zhù)的差異。

  通過(guò)這樣的例子可以看出,“設計”是一個(gè)通用概念,“水庫”是一個(gè)屬于TV(水利工程)類(lèi)的專(zhuān)業(yè)概念。

  雖然以上兩個(gè)例子簡(jiǎn)單明了,但存在具體操作問(wèn)題。

  在傳統的敘詞表編制中,概念的獲取主要通過(guò)領(lǐng)域專(zhuān)家人工提供,耗時(shí)長(cháng),過(guò)度依賴(lài)領(lǐng)域專(zhuān)家個(gè)人隱性知識。

  雖然提供的概念本身是符合編制規范的,但不同人員可能會(huì )提供不同數量的概念,存在概念覆蓋面是否全面的問(wèn)題。

  通過(guò)統計關(guān)鍵詞詞頻分布獲取通用概念,不僅工作量大,而且同樣存在閾值把握問(wèn)題。

  例如,如果詞頻為漸變或等差數列式遞減,沒(méi)有顯著(zhù)差異,則如何判斷?另外,關(guān)鍵詞詞頻與不同類(lèi)目下文獻數量也有一定關(guān)系,假設萬(wàn)方數據中“水利工程”類(lèi)文獻收集的比較少,可以推斷“水庫”關(guān)鍵詞的詞頻也不會(huì )如此高,而萬(wàn)方數據各類(lèi)目下的文獻數肯定是不一樣的,所以基于詞頻會(huì )存在誤差。

  3、基于類(lèi)目間關(guān)鍵詞詞頻標準差大小機器輔助獲取

  針對以上問(wèn)題,本文試驗了機器輔助獲取、消除詞頻誤差的相對詞頻與標準差方法,獲取通用概念,統計方法與試驗結果如下。

  3.1 材料與方法

  試驗材料使用萬(wàn)方數據學(xué)術(shù)論文庫,該庫基本采用《中國圖書(shū)館分類(lèi)法》的分類(lèi)體系,文獻共分22個(gè)一級大類(lèi)。

  一級大類(lèi)“工業(yè)技術(shù)”下分16個(gè)二級大類(lèi)。

  抽取1987-2009年所有學(xué)術(shù)論文文獻數據,提取論文的關(guān)鍵詞,經(jīng)過(guò)去重、去掉詞頻為1的關(guān)鍵詞等數據清洗,得到總量約300多萬(wàn)個(gè)關(guān)鍵詞,從這些詞中隨機抽取1萬(wàn)個(gè)關(guān)鍵詞,用于完成本試驗。

  由于課題是《漢語(yǔ)主題詞表》(工程技術(shù)版)的編制,所以抽取的關(guān)鍵詞必須是在一級大類(lèi)“工業(yè)技術(shù)”下的文獻中出現過(guò)的關(guān)鍵詞。

  為了探索一個(gè)概念通常情況下出現在幾個(gè)類(lèi)目中,統計了這1萬(wàn)個(gè)關(guān)鍵詞在16個(gè)二級類(lèi)目文獻數據庫中的詞頻分布情況。

  包括:關(guān)鍵詞在各二級類(lèi)目文獻中的詞頻;在工業(yè)技術(shù)一級類(lèi)目下的總詞頻;計算了每個(gè)關(guān)鍵詞以上兩項統計值相除后的相對詞頻值;使用相對詞頻值,計算了每個(gè)關(guān)鍵詞相對詞頻值在16個(gè)二級類(lèi)目間的標準差。

  3.2 基于標準差排序獲取通用概念

  理論上講,關(guān)鍵詞首先應該在16個(gè)二級類(lèi)目文獻中都有詞頻,這樣的關(guān)鍵詞通常是通用概念,從試驗數據中提取的在所有類(lèi)目文獻中都有關(guān)鍵詞分布的詞匯見(jiàn)表1。

  從表1數據可以看出,19個(gè)關(guān)鍵詞基本上都屬于通用概念或是工業(yè)技術(shù)中的專(zhuān)業(yè)通用概念,標準差比較小的“設計”(0.0697)、“優(yōu)化”(0.0566)、“調節”(0.0509)等,都是典型的通用概念。

  隨著(zhù)標準差的增大,單個(gè)關(guān)鍵詞雖然可以應用到所有文獻中,但還是相對集中地出現在某一類(lèi)文獻中,例如,標準差為0.2121的“變壓器”,應該屬于TM類(lèi)(電工技術(shù)),標準差為0.1487的“可視化”應該屬于TP類(lèi)(自動(dòng)化技術(shù)、計算機技術(shù))。

  對于在15個(gè)類(lèi)目中都有分布的關(guān)鍵詞,同樣可以使用標準差分布表,從小到大排序,截取標準差比較小的關(guān)鍵詞,進(jìn)行人工判斷,選擇常見(jiàn)的通用概念。

  使用試驗數據,選出“解決辦法”(0.05)、“尺寸”(0.07)、“降溫”(0.07)等關(guān)鍵詞,也是非常典型的通用概念。

  同樣方法還可以考慮在14個(gè)類(lèi)目、13個(gè)類(lèi)目等文獻中分布的關(guān)鍵詞,具體考慮到多少個(gè)類(lèi)目為止,需要根據具體

  數據獲取經(jīng)驗值,并在大規模數據中進(jìn)行驗證與評價(jià)。

  3.3基于標準差與總詞頻二維信息獲取通用概念

  依據標準差判定通用概念時(shí),重點(diǎn)考察了關(guān)鍵詞的均勻分布問(wèn)題,總詞頻的特征沒(méi)有很好地體現,以表1中數據為例,關(guān)鍵詞“熱傳導”(0.0438)、“沖擊力”(0.0529)的標準差非常小,但對應的總詞頻分別為253、68,遠遠小于“設計”的總詞頻21252。

  從數據特征上看,在判斷優(yōu)質(zhì)通用概念時(shí),應該同時(shí)考慮標準差與總詞頻兩方面的信息,才能將在多數類(lèi)目中具有關(guān)鍵詞分布的通用概念細分和分塊考慮。

  本文借鑒管理學(xué)SW0T分析方法解決這個(gè)問(wèn)題,方法是制作關(guān)鍵詞二維分布圖,橫坐標為總詞頻,縱坐標為標準差,依據關(guān)鍵詞總體數據分布相對集中的區域,給定分區模型,如圖3所示:

  根據經(jīng)驗判斷,圖3基本假設為Ⅰ區,Ⅱ區偏向專(zhuān)業(yè)分類(lèi),Ⅲ區、Ⅳ區偏向通用類(lèi)。

  具體細分為:處于Ⅰ區的關(guān)鍵詞總詞頻低,標準差高,屬于概念專(zhuān)指度相對高的專(zhuān)業(yè)低頻概念,例如關(guān)鍵詞“分散”(628,0.1233);處于Ⅱ區的關(guān)鍵詞總詞頻高,標準差高,屬于使用范圍廣但更集中、可以歸入一個(gè)專(zhuān)業(yè)類(lèi)的專(zhuān)業(yè)概念,例如關(guān)鍵詞“變壓器”(4114,0.2121);處于Ⅲ區的關(guān)鍵詞總詞頻低,標準差低,屬于概念專(zhuān)指度相對低、無(wú)法具體歸類(lèi)的低頻通用概念,例如關(guān)鍵詞“熱傳導”(253,0.0438);處于Ⅳ區的關(guān)鍵詞總詞頻高,標準差低,屬于典型的通用概念,例如關(guān)鍵詞“設計”(2l252,0.0697)等。

  對15個(gè)類(lèi)目、14個(gè)類(lèi)目等關(guān)鍵詞統計的具體數據進(jìn)行觀(guān)察,發(fā)現總體特征符合以上規律。

  如果作為工程項目,在大規模數據計算實(shí)踐中,還需要進(jìn)一步確定兩個(gè)方面的指導值或經(jīng)驗值:①區分4個(gè)區交點(diǎn)的坐標點(diǎn)位置,而且不同的類(lèi)目數,交點(diǎn)位置也是變動(dòng)的;②關(guān)鍵詞類(lèi)目的適合數,例如關(guān)鍵詞在5―8個(gè)類(lèi)目中分布時(shí)是否還可以使用這樣的方法進(jìn)行判斷。

  4、討論

  4.1 通用概念與概念應用廣泛的區別

  在知識組織體系的概念分類(lèi)中,通常會(huì )涉及到學(xué)科和主題問(wèn)題,也涉及學(xué)科與應用問(wèn)題,例如本文統計的關(guān)鍵詞“變壓器”,普遍應用于所有工業(yè)技術(shù)中,但從分類(lèi)角度看,放到TM類(lèi)(電工技術(shù))更合理。

  也就是說(shuō),如果從應用角度分,可以是通用概念,但從學(xué)科角度分應該屬于專(zhuān)業(yè)概念。

  最典型的例子是“計算機”。

  當今信息時(shí)代,計算機已經(jīng)成為各行業(yè)普遍使用的工具,統計文獻的關(guān)鍵詞詞頻,也會(huì )出現在所有分類(lèi)文獻中,但按學(xué)科分類(lèi),“計算機”這一概念還是應該放到TP(自動(dòng)化技術(shù)、計算技術(shù))類(lèi)更合適。

  這樣一些概念,例如“設計”,各學(xué)科都通用,無(wú)法具體歸到某一個(gè)專(zhuān)業(yè)學(xué)科分類(lèi)中,是典型的通用概念;而類(lèi)似“計算機”這樣的概念,只能說(shuō)應用廣泛,而不是通用概念,所以通用概念與概念應用廣泛有著(zhù)不同的含義。

  4.2 通用概念、專(zhuān)業(yè)通用概念、專(zhuān)業(yè)概念之間的關(guān)系

  在數據處理中,通用概念與專(zhuān)業(yè)概念有時(shí)也不是涇渭分明的,在通用概念與專(zhuān)業(yè)概念間應該有一類(lèi)詞是專(zhuān)業(yè)通用概念,對應交點(diǎn)附近的那些語(yǔ)詞。

  在傳統的知識組織體系中,這種現象也是普遍存在的。

  原《漢表》的范疇類(lèi)目,除了一級大類(lèi)“自然科學(xué)一般概念”、“社會(huì )科學(xué)一般概念”外,43個(gè)一級大類(lèi)下,也同時(shí)設置了大類(lèi)下的一般概念,例如一級大類(lèi)“67機械工程”下設“67AA機械工程一般概念”,“69水利工程”下設“69A水利工程一般概念”。

  二級范疇"69B水文學(xué)”下有三級范疇“69BA水文學(xué)一般概念”,“地表水”是其一般概念。

  所以,在專(zhuān)業(yè)內為通用概念,在專(zhuān)業(yè)間又趨向于專(zhuān)業(yè)概念,這類(lèi)專(zhuān)業(yè)通用概念還是普遍存在的。

  知識組織體系應該將這些概念進(jìn)行明確區分,以有利于其分類(lèi)與應用。

  4.3 通用概念選詞范圍由知識組織系統的應用目的決定

  通常情況下,類(lèi)似“研究”、“應用”、“實(shí)踐”、“理論”等詞匯屬于典型的通用概念,這些詞的特征為專(zhuān)指度低、檢索意義不大,用戶(hù)檢索文獻時(shí)不會(huì )使用“研究”去檢索。

  但通用概念在概念組配方而具有重要意義,例如組成“問(wèn)題研究”、“對策研究”、“經(jīng)濟研究”、“科學(xué)研究”、“理論研究”等先組概念,這些詞多數也是通用概念。

  由于知識組織體系的應用不同,一些詞匯也可以放到專(zhuān)業(yè)范疇內,例如“經(jīng)濟問(wèn)題”,可以放到經(jīng)濟類(lèi)下作其專(zhuān)業(yè)通用概念,而不是與“研究”、“應用”等典型通用概念聚到一起。

  為了加強分類(lèi)導航功能,新版《漢表》范疇表主要參考了《中國圖書(shū)資料分類(lèi)法》的分類(lèi)體系,通用概念將時(shí)間、地區、民族、科學(xué)機構、科學(xué)理論等相關(guān)術(shù)語(yǔ)都認定為通用概念。

  所以除了典型的通用概念外,還需要考慮獲取那些偏向于某一專(zhuān)業(yè)的通用概念。

  5、結論

  在敘詞表、本體等知識組織體系構建中,需要獲取并區分出通用概念。

  本文研究了三種方法:第一種是知識繼承的方法,即繼承與參考已有知識組織體系的通用概念,這是知識積累方法,過(guò)度依賴(lài)傳統數據;第二種是依據關(guān)鍵詞在分類(lèi)文獻中的詞頻統計人工判定,凡是詞頻分布比較均勻、總詞頻比較大的基本上是通用概念,這種方法需要對數據分布均勻性進(jìn)行量化;第三種方法是同時(shí)考慮詞頻與標準差的方法,總詞頻高、標準差低是比較規范的通用概念。

  在具體的知識組織體系構建中,根據課題組的人力、時(shí)間、數據資源和詞表規模等情況,可以考慮分別使用這三種方法或組合發(fā)揮作用。

【數字環(huán)境下通用概念獲取方法】相關(guān)文章:

新概念學(xué)習方法08-22

獲取青春的夢(mèng)作文10-16

給孩子良好的家庭學(xué)習環(huán)境方法08-21

數字的教案12-10

復數的概念教案03-19

關(guān)于動(dòng)態(tài)環(huán)境下企業(yè)穩應變的方式07-13

數字謎語(yǔ)及謎底(通用180個(gè))09-18

數字媒體實(shí)習報告(通用10篇)11-10

數字寶寶教案11-18

數字教學(xué)方案08-21

一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看