王永勝 馮偉華 鄭新章 劉亞麗 賈 楠 王 銳 宗國浩 王 迪 杜 一
1(中國煙草總公司鄭州煙草研究院 河南 鄭州 450001) 2(中國科學(xué)院計算機網(wǎng)絡(luò )信息中心 北京 100190) 3(中國科學(xué)院大學(xué) 北京 100049)
一直以來(lái),煙草行業(yè)都非常重視對科技創(chuàng )新工作的投入,近些年其在科學(xué)研究、技術(shù)開(kāi)發(fā)和生產(chǎn)經(jīng)營(yíng)等活動(dòng)中,積累了海量的科技信息資源,如煙草類(lèi)科技文獻、煙草專(zhuān)利、煙草標準、煙草科技成果等數據,數據量已達到了百萬(wàn)條。這些科技信息資源數據蘊含著(zhù)豐富的知識,不僅包含了人員、機構、產(chǎn)出成果等基礎信息,還包括了科研工作的學(xué)術(shù)結構、科研熱點(diǎn)、合作關(guān)系等潛在的知識。但目前煙草行業(yè)還沒(méi)有一個(gè)整合煙草行業(yè)所有科技信息資源的知識服務(wù)系統,分布在各個(gè)業(yè)務(wù)系統的科技信息資源也缺乏高效的組織與管理,科研數據的寶貴價(jià)值還未充分發(fā)揮出來(lái),無(wú)法幫助人們高效、精準地從這些科技信息資源中獲取所需要的知識,也無(wú)法幫助煙草科研人員在宏觀(guān)層面掌握行業(yè)科研工作的發(fā)展態(tài)勢及科研合作的模式。
知識圖譜是一種用圖模型來(lái)描述知識和構建世界萬(wàn)物之間的關(guān)聯(lián)關(guān)系的技術(shù)方法[1]。從本質(zhì)而言,知識圖譜旨在從數據中識別、發(fā)現和推理事物之間的復雜關(guān)系,是事物關(guān)系的可計算模型[2-3]。采用知識圖譜技術(shù)可以為數據的共享、獲取、重用及應用創(chuàng )新提供自動(dòng)化的知識分析服務(wù)。自2012年Google正式提出“知識圖譜”的概念以來(lái),知識圖譜就一直是學(xué)術(shù)研究的重要方向。近幾年來(lái),知識圖譜在搜索引擎、智能問(wèn)答、語(yǔ)言理解、推薦系統和大數據決策分析等眾多領(lǐng)域得到廣泛的實(shí)際應用[4-6]。2017年7月,國家《新一代人工智能發(fā)展規劃》中提出“重點(diǎn)突破知識加工、深度搜索和可視交互核心技術(shù),實(shí)現對知識持續增量的自動(dòng)獲取,具備概念識別、實(shí)體發(fā)現、屬性預測、知識演化建模和關(guān)系挖掘能力,形成涵蓋數十億實(shí)體規模的多源、多學(xué)科和多數據類(lèi)型的跨媒體知識圖譜[7]”。針對煙草科研工作存在的上述問(wèn)題,基于知識圖譜技術(shù),構建一個(gè)面向煙草科研人員的煙草科技知識圖譜服務(wù)平臺,實(shí)現煙草科技信息資源的整理、融合與深度挖掘,已是提升煙草科研工作效率和質(zhì)量,助力煙草科技創(chuàng )新驅動(dòng)發(fā)展戰略的必由之路。
煙草科技知識圖譜服務(wù)平臺是面向煙草科研人員開(kāi)發(fā)的煙草科技領(lǐng)域知識服務(wù)系統。平臺基于煙草科研領(lǐng)域的項目、成果、論文、專(zhuān)利、標準、科研人員、科研單位等構建網(wǎng)絡(luò )實(shí)體,以“科研人員產(chǎn)出成果”“科研人員依托單位”等構建網(wǎng)絡(luò )關(guān)系,最終形成煙草科技信息資源知識網(wǎng)絡(luò )。在煙草科技信息資源知識網(wǎng)絡(luò )的基礎上,實(shí)現了煙草科技信息資源的多角度、全方位的知識檢索功能。針對所構建的知識網(wǎng)絡(luò ),平臺使用關(guān)聯(lián)分析等數據挖掘算法實(shí)現了科研人員之間和科研機構之間的合作網(wǎng)絡(luò )分析和關(guān)聯(lián)路徑分析;使用基于模塊度的社區發(fā)現算法等實(shí)現了科研合作社區和學(xué)術(shù)相似社區的智能發(fā)現。此外,平臺基于關(guān)鍵詞詞頻統計和大數據網(wǎng)絡(luò )的共詞聚類(lèi)分析,實(shí)現了煙草科學(xué)研究熱點(diǎn)的圖譜化分析和國內外研究熱點(diǎn)走勢分析。
煙草科技知識圖譜服務(wù)平臺基于B/S架構,采用SOA的設計思想,遵循J2EE開(kāi)發(fā)標準規范構建系統,通過(guò)組件式開(kāi)發(fā)模式,保證各功能模塊間是高內聚、低耦合模式。平臺采用基于Restful的Web Service服務(wù),以保證架構的先進(jìn)性、穩定性和可擴展性。在前端展示方面平臺主要采用Echarts、D3.js等可視化開(kāi)發(fā)庫,利用基于“Overview+Detail”和“Focus+Context”的分析模式,將煙草科技知識圖譜中抽取的實(shí)體和關(guān)聯(lián)關(guān)系以可視化的形式進(jìn)行呈現。煙草科技知識圖譜服務(wù)平臺的體系結構如圖1所示。
圖1 煙草科技知識圖譜服務(wù)平臺體系結構圖
煙草科技知識圖譜服務(wù)平臺的體系結構主要分為數據層、服務(wù)層和應用層。數據層主要是為構建煙草科技知識圖譜上層應用提供數據支撐的科研機構數據、科研人員數據、科研文獻資源(主要包括中文和外文科技論文數據、煙草技術(shù)專(zhuān)利數據、科研項目數據、煙草技術(shù)標準數據、煙草圖書(shū)專(zhuān)著(zhù)數據、煙草科技成果數據)等。服務(wù)層主要包括數據處理和知識服務(wù)兩部分,通過(guò)對煙草科技信息資源數據的匯聚、清洗、整合、加工以及構建RDF元數據資源模型等,完成煙草科技資源元數據的深度處理和煙草科技資源知識網(wǎng)絡(luò )的構建。針對構建的煙草科技資源知識網(wǎng)絡(luò ),通過(guò)封裝多維統計、關(guān)聯(lián)分析、知識挖掘等技術(shù),基于Restful方式為應用層提供API接口服務(wù)。應用層基于煙草科技資源知識網(wǎng)絡(luò )實(shí)現了煙草行業(yè)科技資源查詢(xún)、科研人員和科研機構畫(huà)像、合作網(wǎng)絡(luò )分析、關(guān)聯(lián)路徑發(fā)現、科研社區發(fā)現和研究熱點(diǎn)分析等功能。
煙草科技知識圖譜服務(wù)平臺是面向煙草科研人員開(kāi)發(fā)的知識服務(wù)系統,旨在通過(guò)梳理整合分布在行業(yè)不同科研系統中的科技信息資源,基于知識圖譜技術(shù),構建包含煙草科研論文、技術(shù)專(zhuān)利、科研項目、技術(shù)標準、圖書(shū)專(zhuān)著(zhù)、科技成果等煙草科技信息資源的知識網(wǎng)絡(luò ),實(shí)現對煙草科技信息資源的整理、融合與深度挖掘,為煙草科研人員準確把握研究方向、尋找潛在合作伙伴、提高科研活動(dòng)效率提供支持。煙草科技知識圖譜服務(wù)平臺的功能模塊如圖2所示。
圖2 煙草科技知識圖譜服務(wù)平臺功能模塊
(1) 基礎知識查詢(xún)模塊:該模塊通過(guò)對煙草行業(yè)的科研機構、科研人員、科研項目、論文、專(zhuān)利等科技信息資源的檢索,實(shí)現煙草科技基礎知識查詢(xún)的功能。例如,在科研人員檢索子模塊中,構建了科研人員畫(huà)像,不僅展示了科研人員的學(xué)歷、職稱(chēng)、研究領(lǐng)域、個(gè)人簡(jiǎn)介等基本情況,還借助可視化技術(shù)展示了科研人員的研究興趣圖譜、學(xué)術(shù)成果圖譜、個(gè)人影響力雷達圖、科研人員合作網(wǎng)絡(luò )關(guān)系、個(gè)人學(xué)術(shù)關(guān)鍵詞詞云等,圍繞科研人員科研信息以更直觀(guān)生動(dòng)的方式多維度、全方位地展示其科研知識圖譜。在科研論文檢索子模塊中,除了介紹了論文的摘要、作者、關(guān)鍵詞、被引次數等基本信息外,還根據論文的參考文獻和引證文獻構建了參考引證圖譜和關(guān)鍵詞詞云,并統計分析了論文每年的引用次數,構建了年度被引用趨勢圖。
(2) 合作網(wǎng)絡(luò )分析模塊:該模塊包括人員網(wǎng)絡(luò )分析和機構網(wǎng)絡(luò )分析兩部分功能?;陧椖?、成果(成果論文、成果專(zhuān)利、成果標準、成果圖書(shū)等)構建了需要分析的科研人員或科研機構的合作網(wǎng)絡(luò )圖,合作網(wǎng)絡(luò )圖中展示了合作者之間的關(guān)系和合作次數,并通過(guò)權重計算篩選出了關(guān)系最為緊密的合作者。
(3) 關(guān)聯(lián)路徑發(fā)現模塊:該模塊包括科研人員關(guān)聯(lián)路徑分析和科研機構網(wǎng)絡(luò )分析兩部分功能。通過(guò)限定關(guān)聯(lián)關(guān)系深度值,以可視化的形式構建科研關(guān)聯(lián)路徑網(wǎng)絡(luò )圖,實(shí)現了被查詢(xún)的兩個(gè)科研人員或兩個(gè)科研機構之間關(guān)聯(lián)路徑的分析。該模塊可以幫助用戶(hù)以更直觀(guān)的方式了解兩個(gè)被查詢(xún)主體的關(guān)聯(lián)路徑。
(4) 科研社區發(fā)現模塊:該模塊包括科研合作社區發(fā)現和學(xué)術(shù)相似社區發(fā)現兩部分功能?;跓煵菘萍贾R圖譜的圖數據,通過(guò)分析挖掘科研人員基于項目及成果的合作關(guān)系,將科研人員關(guān)系網(wǎng)絡(luò )圖分成關(guān)系比較緊密的不同子網(wǎng)絡(luò )圖,從而實(shí)現科研合作社區發(fā)現的功能。通過(guò)對煙草科研人員的論文共被引關(guān)系進(jìn)行深度挖掘,通過(guò)聚類(lèi)分析,實(shí)現相似學(xué)術(shù)方向的學(xué)術(shù)相似社區發(fā)現功能。
(5) 研究熱點(diǎn)分析模塊:該模塊包括國內外熱點(diǎn)圖譜、研究熱點(diǎn)搜索、國內外熱點(diǎn)走勢三部分功能。煙草科技文獻中關(guān)鍵詞之間的相關(guān)性在一定程度上可以揭示煙草領(lǐng)域不同研究方向或視角的內在聯(lián)系。煙草研究熱點(diǎn)分析是通過(guò)對中外論文、專(zhuān)利進(jìn)行關(guān)鍵詞的提取解析、詞頻統計、共現分析,獲得了高頻度出現的主題詞共詞網(wǎng)絡(luò ),從而實(shí)現煙草科學(xué)研究熱點(diǎn)圖譜分析、研究熱點(diǎn)搜索以及熱點(diǎn)走勢展示。
目前,知識圖譜的構建方式主要有自頂向下與自底向上兩種構建方式,結合煙草科研數據的實(shí)際情況,煙草科技知識圖譜服務(wù)平臺以現有的結構化知識庫為基礎知識庫,采用自頂向下的方式設計煙草科研數據的本體及數據模式。煙草科技知識圖譜服務(wù)平臺的業(yè)務(wù)構建流程包括了知識抽取、知識融合和知識應用三個(gè)方面,結合煙草科技信息資源的特點(diǎn),設計了煙草科技知識圖譜服務(wù)平臺。其業(yè)務(wù)構建流程如圖3所示。
圖3 煙草科技知識圖譜服務(wù)平臺業(yè)務(wù)構建流程
(1) 知識抽取:首先抽取多源異構系統中數據,并進(jìn)行初步數據清洗。整理出煙草科技信息資源中的論文、專(zhuān)利、標準、科研項目、成果所屬單位或機構、關(guān)鍵詞等各種實(shí)體類(lèi)型以及各實(shí)體類(lèi)型之間的關(guān)系,構建煙草科研知識圖譜的Schema模型,從本體構建上描述煙草領(lǐng)域相關(guān)概念與概念之間的關(guān)系及屬性表示。
(2) 知識融合:煙草科技信息資源來(lái)源于不同的系統,知識圖譜中的實(shí)體以及知識體系不可避免地存在重復、缺失、沖突等問(wèn)題,平臺設計過(guò)程中通過(guò)對抽取的數據進(jìn)行數據整合、知識加工、本體構建、質(zhì)量評估等,以提升數據的質(zhì)量并達到知識的更新。
(3) 知識應用:基于RDF三元組的知識表示和本體描述的基礎上,煙草科技信息資源采取知識圖譜的方式進(jìn)行表示,平臺采用基于圖深度優(yōu)先遍歷算法、社區發(fā)現算法、關(guān)聯(lián)挖掘算法以及可視化技術(shù)等實(shí)現煙草知識檢索、機構(人員)合作網(wǎng)絡(luò )分析、關(guān)聯(lián)路徑發(fā)現、科研社區發(fā)現、研究熱點(diǎn)分析等知識應用服務(wù)。
通過(guò)梳理整合分布在煙草行業(yè)內不同科研系統中的論文、專(zhuān)利、成果、標準、圖書(shū)等科技信息資源,結合行業(yè)的科研機構和科研人員信息,借助大數據流水線(xiàn)系統PiFlow平臺,完成數據清洗、概念識別、實(shí)體發(fā)現、實(shí)體融合、關(guān)系構建。目前,煙草科技知識圖譜服務(wù)平臺根據科技信息資源的特點(diǎn)抽取了19類(lèi)數據實(shí)體并建立了33類(lèi)實(shí)體關(guān)系。平臺從各類(lèi)實(shí)體以及實(shí)體之間的關(guān)系、屬性出發(fā),構建了煙草科技知識網(wǎng)絡(luò )如圖4所示。
圖4 煙草科技知識網(wǎng)絡(luò )
基礎知識查詢(xún)模塊可以實(shí)現煙草行業(yè)的科研機構、科研人員、科研項目、論文、專(zhuān)利等科技信息資源的檢索。當用戶(hù)輸入相關(guān)檢索條件進(jìn)行檢索時(shí),系統會(huì )返回相應的檢索結果列表,列表中每項檢索結果都有獨立的詳細知識主頁(yè)面?;A知識查詢(xún)模塊中的科技論文檢索如圖5、圖6所示。
圖5 煙草科研論文檢索結果展示
圖6 煙草科研論文詳情展示
平臺基于煙草科技信息資源,進(jìn)行科研數據實(shí)體融合、關(guān)聯(lián)關(guān)系抽取等構建煙草科研人員畫(huà)像。該模塊采用多標簽構建技術(shù)和精準畫(huà)像技術(shù),從多層級、多維度的應用分析出發(fā),全方位、立體化地展示煙草科研人員的學(xué)術(shù)成果信息??蒲腥藛T畫(huà)像功能模塊主要展示科研人員個(gè)人影響力分析、研究興趣圖譜、學(xué)術(shù)成果圖譜、個(gè)人學(xué)術(shù)關(guān)鍵詞等幾方面,如圖7所示。其中,個(gè)人影響力分析是根據領(lǐng)域專(zhuān)家研討的評分體系,通過(guò)計算各項指標得分,借助雷達圖進(jìn)行展示,雷達圖面積大小代表各項指標總得分情況,雷達圖中每個(gè)頂點(diǎn)表示影響力的一級指標,指標數值代表該項指標的具體分值。
通過(guò)對當前科研人員發(fā)表的學(xué)術(shù)論文進(jìn)行文本分析,統計分析其論文中高頻關(guān)鍵詞,采用輪播滾動(dòng)的可視化方式展示其近十年來(lái)的學(xué)術(shù)關(guān)鍵詞,結合學(xué)術(shù)關(guān)鍵詞,構建科研人員的研究興趣圖譜,揭示科研人員研究方向變化,如圖8所示??蒲腥藛T學(xué)術(shù)成果圖譜展示了當前科研人員按不同年度所產(chǎn)出的不同成果的數量和類(lèi)型,如圖9所示。圖中不同顏色代表科研人員不同的成果類(lèi)型,結合時(shí)間軸和數據說(shuō)明,可以更加直觀(guān)地顯示科研人員的學(xué)術(shù)成果。
圖8 煙草科研人員研究興趣圖譜
圖9 科研人員學(xué)術(shù)成果圖譜
科研人員合作社區發(fā)現是基于梳理整合的煙草科技信息資源,通過(guò)分析挖掘科研人員間項目及成果的合作關(guān)系,發(fā)現并識別合作緊密的科研人員團體。當通過(guò)導航進(jìn)入科研人員合作社區發(fā)現頁(yè)面后,頁(yè)面自動(dòng)分析加載默認的全部合作類(lèi)型的社區發(fā)現。社區網(wǎng)絡(luò )圖譜由不同簇區分不同的合作社區,網(wǎng)絡(luò )圖譜中節點(diǎn)大小和連線(xiàn)邊的粗細具有實(shí)際意義,節點(diǎn)大小代表科研人員影響力的大小、連線(xiàn)的粗細表示兩個(gè)科研人員合作關(guān)系的強弱,合作關(guān)系越強的科研人員在圖譜中的位置越靠近,子網(wǎng)絡(luò )圖中核心人員為科研學(xué)術(shù)高活躍度的科研人員,網(wǎng)絡(luò )圖右側表示總共發(fā)現的社區數量及各個(gè)社區人數。煙草科研人員合作社區如圖10所示。
圖10 煙草科研人員合作社區
學(xué)術(shù)關(guān)鍵詞之間的相關(guān)性往往揭示不同研究方向或視角的內在聯(lián)系。研究熱點(diǎn)知識發(fā)現圖譜通過(guò)關(guān)鍵詞共現關(guān)系來(lái)分析和判斷煙草科研熱點(diǎn)的發(fā)展變化。在平臺系統中,國內煙草科研熱點(diǎn)圖譜是基于對國內發(fā)表煙草科技文獻的關(guān)鍵詞頻次及共現關(guān)系進(jìn)行分析挖掘。圖譜中所有節點(diǎn)的大小表示當前關(guān)鍵詞共現頻次的多少。圖譜中的連線(xiàn)表示兩個(gè)關(guān)鍵詞間有共現關(guān)系,連線(xiàn)的粗細位置表示兩個(gè)關(guān)鍵詞間關(guān)聯(lián)度的強弱,關(guān)聯(lián)度越強的關(guān)鍵詞在圖譜中聚合得越緊密。國內煙草科研熱點(diǎn)圖譜如圖11所示。
圖11 國內煙草科研熱點(diǎn)圖譜
在煙草科研熱點(diǎn)搜索功能模塊中,用戶(hù)輸入需要查詢(xún)的煙草領(lǐng)域熱點(diǎn)詞匯,即可獲得該熱點(diǎn)詞匯的詳細信息并借助可視化圖形展示。主要包括四類(lèi)信息:該熱點(diǎn)關(guān)鍵詞年度出現次數統計圖、關(guān)鍵詞共現關(guān)系網(wǎng)絡(luò )圖、關(guān)鍵詞研究貢獻的top10機構和top10科研人員。煙草科研熱點(diǎn)搜索如圖12所示。
圖12 煙草科研熱點(diǎn)搜索
知識圖譜用來(lái)描述現實(shí)中的概念、實(shí)體與關(guān)系,它是一種基于圖的數據結構,由節點(diǎn)和邊組成。其中節點(diǎn)即實(shí)體,由一個(gè)全局唯一的ID標示,關(guān)系(也稱(chēng)屬性)用于連接兩個(gè)節點(diǎn)。通俗地講,知識圖譜就是把所有不同種類(lèi)的信息連接在一起而得到一個(gè)關(guān)系網(wǎng)絡(luò ),提供了從“關(guān)系”的角度去分析問(wèn)題的能力。
本平臺采用Neo4j作為圖模型的存儲方式,Neo4j是高性能的NoSQL圖數據庫,是目前知識圖譜系統中使用率最高的圖數據庫[8]。Neo4j的數據存儲形式主要是節點(diǎn)(node)和邊(edge)來(lái)組織數據。node可以代表知識圖譜中的實(shí)體,edge可以用來(lái)代表實(shí)體間的關(guān)系,關(guān)系可以有方向,兩端對應開(kāi)始節點(diǎn)和結束節點(diǎn)。
為了更好地呈現基于煙草科技信息資源構建的煙草科技知識圖譜平臺,使用D3.JS等底層可視化開(kāi)發(fā)庫,設計基于網(wǎng)絡(luò )查詢(xún)、挖掘分析結果的交互式可視化方法。平臺采用“Overview+Detail”和“Focus+Context”相結合的交互式可視化分析模式?!癘verview+Detail”的交互式可視化分析模式首先考慮使用可視化方法進(jìn)行整體的探查,在發(fā)現感興趣的內容之后,通過(guò)過(guò)濾、縮放等交互技術(shù)進(jìn)一步探查細節,從而發(fā)現數據的詳細情況;“Focus+Context”的交互式可視化分析模式則強調在關(guān)注某個(gè)特定的可視化區域的同時(shí),對區域的上下文信息也要給予關(guān)注。在煙草科技知識圖譜平臺構建過(guò)程中,結合交互式技術(shù)對圖譜的形狀、大小、顏色等進(jìn)行可視化展示,為煙草科研人員提供直觀(guān)生動(dòng)的用戶(hù)體驗。
關(guān)鍵詞是代表文本重要內容的一組詞,關(guān)鍵詞抽取是指抽取目標文本中的主要信息,涉及實(shí)體識別、屬性抽取、因果關(guān)系抽取等多項關(guān)鍵技術(shù)[9-10]。關(guān)鍵詞提取是知識圖譜領(lǐng)域的一個(gè)重要任務(wù),在信息檢索中,準確的關(guān)鍵詞提取可以大幅提升檢索效率;在智能問(wèn)答中,機器可以通過(guò)關(guān)鍵詞來(lái)理解用戶(hù)意圖;在知識推薦中,關(guān)鍵詞的發(fā)現有助于獲取主題思想。
在對煙草領(lǐng)域的科技信息資源進(jìn)行文本預處理階段,本平臺采用TextRank、LDA等關(guān)鍵詞提取算法通過(guò)抽取實(shí)體對象、屬性關(guān)系、主題詞等構建了領(lǐng)域知識網(wǎng)絡(luò ),為科研人員學(xué)術(shù)關(guān)鍵詞提取及研究熱點(diǎn)相關(guān)詞分析提供技術(shù)保障。
融合各類(lèi)煙草科技知識實(shí)體的人員合作關(guān)系網(wǎng)絡(luò )同其他實(shí)際網(wǎng)絡(luò )具有相同特性及社區結構,即整個(gè)網(wǎng)絡(luò )由若干個(gè)社區構成,每個(gè)社區內部的節點(diǎn)之間聯(lián)系相對緊密,各個(gè)社區之間的連接相對稀疏。在煙草科技知識圖譜服務(wù)平臺中,合作社區發(fā)現主要實(shí)現從科研人員出發(fā),基于煙草知識圖譜的圖數據,通過(guò)分析挖掘科研人員基于項目及成果的合作關(guān)系,從而實(shí)現發(fā)現合作緊密的科研人員社區團體。
本平臺采用Louvain算法作為實(shí)際的社區發(fā)現算法,實(shí)現了控制網(wǎng)絡(luò )規模及邊界情況下的合作社區發(fā)現,并在最終的可視化展示中取得了很好的可視化效果。Louvain算法是基于模塊度的社區發(fā)現算法,該算法在執行效率和效果上都表現較好,且能夠發(fā)現層次性的社區結構,實(shí)現最大化整個(gè)社區網(wǎng)絡(luò )的模塊度的目標[11]。
共詞分析法是內容分析法的一種,通過(guò)對文獻中共現的詞對(主題詞或關(guān)鍵詞)的關(guān)聯(lián)性進(jìn)行運算,將關(guān)系密切的詞聚集歸類(lèi),進(jìn)而分析這些詞所代表的學(xué)科和主題的結構變化趨勢[12]。針對文獻主題詞來(lái)說(shuō),文獻主題詞共現次數越多則代表兩主題關(guān)系越緊密,采用聚類(lèi)分析等多元統計方法,將眾多分析對象之間錯綜復雜的共詞網(wǎng)狀關(guān)系簡(jiǎn)化為若干群之間的關(guān)系并直觀(guān)地表達出來(lái),可以準確地歸納出該學(xué)科的研究熱點(diǎn)[13]。
在本平臺中,從煙草領(lǐng)域學(xué)術(shù)文獻中提取出關(guān)鍵詞或主題詞,設定閾值高于一定頻率的關(guān)鍵詞或主題詞作為代表某一學(xué)科或研究方向的高頻詞,通過(guò)統計高頻詞同時(shí)出現在同一篇學(xué)術(shù)文獻中的次數,構建共詞矩陣,進(jìn)而圍繞共詞矩陣進(jìn)行相關(guān)分析。
知識圖譜是提高知識獲取能力的有效服務(wù)手段,針對煙草領(lǐng)域科技信息資源的數據特點(diǎn)以及煙草科研工作知識獲取的工作需求,設計并實(shí)現了煙草科技知識圖譜服務(wù)平臺。該平臺梳理整合了分布在煙草行業(yè)不同科研系統中的科技信息資源,基于知識圖譜技術(shù)構建了包含科技項目、科技成果、科技論文、技術(shù)專(zhuān)利、技術(shù)標準等煙草科技信息資源知識網(wǎng)絡(luò ),結合煙草科研大數據知識畫(huà)像、關(guān)聯(lián)挖掘、煙草科研知識圖譜分析等,完成了煙草科技信息資源的深入挖掘分析和多角度多層級的可視化展示。煙草科技知識圖譜服務(wù)平臺的建設應用可為煙草科研人員準確把握研究方向、尋找潛在合作伙伴、提高科研活動(dòng)效率提供智力支持,對煙草科研領(lǐng)域的知識發(fā)現也具有十分重要的意義。
猜你喜歡科技知識科研人員煙草科技部等五部門(mén)聯(lián)合發(fā)文開(kāi)展減輕青年科研人員負擔專(zhuān)項行動(dòng)現代經(jīng)濟信息(2022年22期)2022-11-13科研人員揭示油桃果實(shí)表皮不長(cháng)毛的奧秘今日農業(yè)(2022年3期)2022-06-05科研人員破譯黑豬肉特征風(fēng)味物質(zhì)今日農業(yè)(2021年19期)2021-11-27自建企業(yè)科技知識管理系統的構建與探索軟件(2020年3期)2020-04-20廣東公安科研人員風(fēng)采廣東公安科技(2020年4期)2020-03-17高中學(xué)生新科技知識了解情況調查報告新課程·下旬(2019年4期)2019-05-10煙草依賴(lài)的診斷標準浙江中西醫結合雜志(2017年2期)2017-01-12煙草中茄酮的富集和應用當代化工研究(2016年9期)2016-03-20從社會(huì )性弱勢群體自身心理角度談接受科技知識新時(shí)代職業(yè)教育(2016年3期)2016-02-06煙草鏡頭與歷史真實(shí)聲屏世界(2014年6期)2014-02-28