楊孟翰 王方民 劉康甯 陳林
(重慶市地理信息和遙感應用中心,重慶 401147)
本文介紹了一種用于表示地理實(shí)體和社會(huì )實(shí)體的知識圖譜的本體設計和相關(guān)應用場(chǎng)景。傳統地理信息系統(GIS)在城市規劃、環(huán)境監測和災害管理等多個(gè)領(lǐng)域都扮演著(zhù)重要角色。然而,當今社會(huì )的高速發(fā)展和行業(yè)融合帶來(lái)了跨領(lǐng)域合作的必然趨勢,也給GIS系統帶來(lái)諸多挑戰。例如,處理日益復雜的空間數據(包括衛星影像、地圖和基于位置的服務(wù)等不同類(lèi)型的數據);
在整合其他領(lǐng)域各類(lèi)數據時(shí),遭遇越來(lái)越多的困難。通常在使用GIS 的同時(shí),還需借助其他領(lǐng)域的專(zhuān)家進(jìn)行輔助,才能實(shí)現較為復雜和跨領(lǐng)域的分析[1]。綜上所述,GIS 的實(shí)用性和應用范 圍受到了巨大限制。
為應對這些挑戰,研究人員開(kāi)始把目光投向知識圖譜。知識圖譜是一種靈活且可擴展的數據建模和應用方式,對于多源異構數據的整合、查詢(xún)和應用分析、知識服務(wù)等方向都有非常強大的能力。知識圖譜源自人工智能領(lǐng)域,并由谷歌和微軟等搜索引擎推廣[2]。在知識圖譜中,信息不再以一組組不相關(guān)的數據點(diǎn)的形式呈現,而是以更結構化、互聯(lián)的方式來(lái)表示,同時(shí),數據以節點(diǎn)及其關(guān)系和屬性的形式進(jìn)行表達,從而創(chuàng )造出圖形結構,實(shí)現更有效的數據處理和分析。知識圖譜已經(jīng)在各個(gè)領(lǐng)域展現了其價(jià)值,例如自然語(yǔ)言處理、數據集成和知識管理等[3]。
本文主要研究地理實(shí)體和社會(huì )實(shí)體知識圖譜的本體設計和應用方向。本體設計包括本體的構建方法、概念和關(guān)系的層級設計、本體設計的表達及本體的評估方法。同時(shí)本文還分析了地理實(shí)體和社會(huì )實(shí)體知識圖譜的應用方向。在研究多源異質(zhì)數據融合、空間查詢(xún)、城市規劃、災害評估管理等相關(guān)應用場(chǎng)景后,確認了地理實(shí)體和社會(huì )實(shí)體知識圖譜的意義和發(fā)展方向。
本體是對一定范圍內的概念和關(guān)系進(jìn)行知識表示的一種形式,是構建知識圖譜的關(guān)鍵。在知識圖譜中,本體主要用于定義和組織圖譜中所代表的實(shí)體和關(guān)系,以提供對不同領(lǐng)域的用戶(hù)和場(chǎng)景中實(shí)體和關(guān)系含義的共同理解,從而實(shí)現數據融合的功能[4]。本體的構建還可以確保圖譜中數據的一致性、準確性和完整性,并為有效的推理、推斷和決策提供支持[4]。所謂的 “本體庫”是指包含無(wú)數概念和概念關(guān)系的庫,本體是數據集成、共享和發(fā)現的主要工具,本體本身也可以被重復利用[5]。因此,本體設計需要相關(guān)領(lǐng)域的專(zhuān)業(yè)知識和專(zhuān)業(yè)的表達方式。
構建知識圖譜的本體設計目前包括自頂向下、自底向上和中間開(kāi)展的方法[6]。自頂向下的方法首先需要從領(lǐng)域的高層次概念入手,然后逐漸建立具體和詳細的概念和關(guān)系。當領(lǐng)域已經(jīng)被明確定義,且對需要表示的概念和關(guān)系有清晰認識時(shí),自頂向下的方法非常有效。自底向上的方法則是從具體的實(shí)例和關(guān)系入手,然后將其歸納為更抽象的概念和關(guān)系。這種方法通??梢园l(fā)現新的概念和關(guān)系。當領(lǐng)域復雜而不確定時(shí),自底向上方法的效果通常更為理想。中間開(kāi)展的方法,也被稱(chēng)為混合方法,結合了自頂向下和自底向上方法的特點(diǎn),從提供領(lǐng)域一般框架的中層概念開(kāi)始,隨著(zhù)發(fā)現新的概念和關(guān)系的增加,添加新的概念和關(guān)系[7]。本體設計不僅需要領(lǐng)域專(zhuān)業(yè)知識,還需要專(zhuān)業(yè)的知識表示技能,其目的是為了定義和組織知識圖譜中所代表的實(shí)體和關(guān)系,提供對不同領(lǐng)域的用戶(hù)和場(chǎng)景中實(shí)體和關(guān)系含義的共同理解,并確保知識圖譜中數據的一致性、準確性和完整性,為有效地推理、推斷和決策提供支持[4]。本體本身可以被重復利用,構建本體庫可以促進(jìn)數據集成、共享和發(fā)現[5]。
對于地理實(shí)體和社會(huì )實(shí)體知識圖譜而言,中間開(kāi)展的方法是最好的選擇。這種方法適用于建立地理實(shí)體和社會(huì )實(shí)體的一般框架,同時(shí)又能夠根據發(fā)現的新概念和關(guān)系,靈活地添加新的概念和關(guān)系。地理實(shí)體和社會(huì )實(shí)體知識圖譜包含一些定義明確的概念和關(guān)系(如空間關(guān)系),也可能包含一些更復雜、不太明確的概念和關(guān)系(如社會(huì )關(guān)系)。中間開(kāi)展的方法可以在本體中平衡這些不同類(lèi)型的概念和關(guān)系,同時(shí)充分考慮領(lǐng)域的復雜性和不確定性,提高本體的準確性和完整性。因此,中間開(kāi)展的方法在地理實(shí)體和社會(huì )實(shí)體知識圖譜的本體設計中具有很大的優(yōu)勢。
本研究的本體設計主要包含三個(gè)方面:實(shí)體對象的層級分類(lèi)設計、關(guān)系的類(lèi)別設計以及屬性的設計。
本研究使用了分類(lèi)法來(lái)設計實(shí)體對象的層級分類(lèi)。分類(lèi)法是一種基于實(shí)體共享特征或屬性進(jìn)行分類(lèi)和分組的方法[8]。在地理實(shí)體和社會(huì )實(shí)體知識圖譜中,對象通過(guò)分類(lèi)法分為地理實(shí)體和社會(huì )實(shí)體,這兩個(gè)分類(lèi)提供了對地理和社會(huì )現象的詳細描述。在地理實(shí)體的分類(lèi)中,實(shí)體分為地物實(shí)體和地理單元,并對這兩個(gè)大類(lèi)進(jìn)一步細分,構建了詳細明確的層級結構。而在社會(huì )實(shí)體中,則根據所屬領(lǐng)域進(jìn)行分類(lèi),如教育和法人領(lǐng)域等,并在每個(gè)領(lǐng)域進(jìn)一步搭建該領(lǐng)域的層級和分類(lèi)。這些分類(lèi)和層級的設計為知識圖譜的查詢(xún)、分析和演算提供了強有力的支持,也是知識圖譜能夠被任何知識背景的用戶(hù)所使用的重要原因之一。
在本體設計中,關(guān)系類(lèi)別的設計非常關(guān)鍵,它提供了實(shí)體對象間不同類(lèi)型關(guān)系的框架和層級。在地理實(shí)體和社會(huì )實(shí)體知識圖譜的本體設計中,關(guān)系類(lèi)別被設計為三個(gè)主要類(lèi)別,即空間關(guān)系、社會(huì )關(guān)系和承載關(guān)系,每個(gè)類(lèi)別又包含不同的子類(lèi)別。例如,空間關(guān)系類(lèi)別進(jìn)一步細分為拓撲、連接、方向和距離關(guān)系,且每個(gè)子類(lèi)別又包含多種具體關(guān)系,如拓撲關(guān)系包括包含、相鄰和相交等關(guān)系。這些子類(lèi)別的設計讓空間關(guān)系的表示更加精準。社會(huì )關(guān)系被分為上下級關(guān)系、行業(yè)管理關(guān)系和權屬關(guān)系等,每個(gè)關(guān)系類(lèi)別下都有具體的關(guān)系名稱(chēng),如上下級關(guān)系包括“上級單位”和“主管部門(mén)”等關(guān)系。地理實(shí)體和社會(huì )實(shí)體知識圖譜的關(guān)系設計還包含承載關(guān)系,該關(guān)系對于將社會(huì )實(shí)體連接到地理實(shí)體方面起著(zhù)至關(guān)重要的作用。承載關(guān)系主要展示了社會(huì )實(shí)體與所處地理實(shí)體之間的關(guān)系,是空間數據和其他社會(huì )、經(jīng)濟、人文等領(lǐng)域數據進(jìn)行融合的重要途徑,可在數據中完成對真實(shí)世界的映射。這些關(guān)系類(lèi)別和層級設計有助于用戶(hù)準確理解地理實(shí)體和社會(huì )實(shí)體之間的關(guān)系,并為知識圖譜的應用查詢(xún)和分析演算提供強有力的支持。部分關(guān)系設計如表1 所示。
表1 關(guān)系設計表(部分)
在地理實(shí)體和社會(huì )實(shí)體知識圖譜的本體設計中,屬性是最后一個(gè)關(guān)鍵。它提供了實(shí)體和關(guān)系的附加信息,可以是定量或定性信息,也可以是結構化或非結構化的屬性。例如,地理實(shí)體的屬性可以包括面積、長(cháng)度和高程等結構化屬性,同時(shí)也可關(guān)聯(lián)非結構化屬性,如圖片、視頻和網(wǎng)頁(yè)等。而社會(huì )實(shí)體的屬性則可依據實(shí)體對象所屬的領(lǐng)域,掛接各類(lèi)屬性,包括經(jīng)濟屬性、法人屬性和職能職責等。需要注意,關(guān)系也可以具有屬性,這些屬性也可以包括定量或定性信息。例如,距離關(guān)系可具有“遠”“近”等定性屬性,同時(shí)也可表示兩個(gè)實(shí)體間具體的距離數值等定量屬性。部分地理實(shí)體和社會(huì )實(shí)體知識圖譜本體設計如圖1所示。
圖1 地理實(shí)體和社會(huì )實(shí)體知識圖譜本體設計(部分)
在本體的構建過(guò)程中,選擇適當的語(yǔ)言和軟件是確保本體準確性、一致性和可重復使用性的關(guān)鍵。目前主流的本體開(kāi)發(fā)語(yǔ)言包括RDF、RDFS 和OWL 等[9]。其中,RDF 是一種用于表示元數據的簡(jiǎn)單語(yǔ)言,而RDFS 通過(guò)詞匯表定義類(lèi)和屬性擴展了RDF。而OWL 則是一種更具表現力的語(yǔ)言,允許定義復雜的關(guān)系和推理,因此對于復雜的概念層級和分類(lèi)而言,OWL 是相對于RDF 和RDFS 更佳的選擇[10]。此外,Protégé 是一種本體編輯器和知識管理系統,支持多種本體語(yǔ)言,包括RDF、RDFS 和OWL。
本研究選擇OWL 和Protégé 作為地理實(shí)體和社會(huì )實(shí)體知識圖譜的本體研究和設計工具。選擇OWL 的復雜關(guān)系和推理支持能力,可以更好地表示空間數據和社會(huì )知識領(lǐng)域的復雜關(guān)系。而Protégé 簡(jiǎn)單清爽的界面、廣泛的相關(guān)文檔以及對多種語(yǔ)言的支持,則使其成為管理和編輯地理和社會(huì )知識圖譜本體的理想選擇。
在初步的本體設計完成后,對本體進(jìn)行評估和完善非常重要,確保能準確表示知識層級類(lèi)別和關(guān)系,并滿(mǎn)足用戶(hù)和應用的需求。評估本體設計的方法有幾種,包括用戶(hù)反饋、真實(shí)數據測試以及將本體論與同一或相關(guān)領(lǐng)域的現有本體論進(jìn)行比較[11]。
常見(jiàn)的一種本體設計評估方法是用戶(hù)反饋,通過(guò)收集領(lǐng)域專(zhuān)家、利益相關(guān)者和最終用戶(hù)的意見(jiàn),以評估本體的清晰度、客觀(guān)性、一致性、可擴展性等[12]。通過(guò)調查訪(fǎng)談收集用戶(hù)反饋,可以確定需要改進(jìn)或擴展的領(lǐng)域。另一種評估方法是使用真實(shí)數據進(jìn)行測試,該方法涉及將本體論應用于實(shí)際數據集,以識別本體論中的任何不一致、錯誤或缺陷。此方法可以確保本體設計在實(shí)際應用中的實(shí)用性。
除了上述方法,將所設計的本體與同一或相關(guān)領(lǐng)域的現有本體進(jìn)行比較,對于地理實(shí)體和社會(huì )實(shí)體知識圖譜的本體設計評估最為有效:地理相關(guān)領(lǐng)域已經(jīng)有無(wú)數學(xué)者提供了非常優(yōu)秀和詳盡的設計,許多相關(guān)的社會(huì )領(lǐng)域也同樣如此,為了保證能與各行各業(yè)進(jìn)行跨域融合,地理實(shí)體和社會(huì )實(shí)體知識圖譜的本體設計必須要參考大量的現有本體設計。對比學(xué)習現有本體設計的方法不僅可以確定本體可能缺少的部分,而且可以使用其他本體設計中的概念或關(guān)系對所設計的本體進(jìn)行補充,可以有效促進(jìn)數據共享和集成[13]。
在地理相關(guān)領(lǐng)域,許多學(xué)者已經(jīng)通過(guò)研究地理要素與地理過(guò)程的空間格局、演化過(guò)程的相互作用,從而完成相關(guān)的本體設計。此外,在地理信息行業(yè),已經(jīng)存在相當成熟的層級設計,例如開(kāi)放地理空間信息聯(lián)盟(OGC)制定的《地理標記語(yǔ)言》(GML)標準,此標準提供了一種表示空間數據和關(guān)系的標準方法,可以作為重要的學(xué)習參考資源。在地理實(shí)體和社會(huì )實(shí)體知識圖譜本體設計中,對于地理實(shí)體的分類(lèi)層級和關(guān)系設計也應與這些標準兼容,以確保其專(zhuān)業(yè)性,同時(shí)也可以促進(jìn)與GIS 相關(guān)行業(yè)的數據共享[14]。
在各個(gè)社會(huì )領(lǐng)域,也有許多本體設計可供對比和借鑒。例如,Dan Brickley 和Libby Miller 發(fā)明的FOAF 詞匯表(Friend-of-a-Friend)作為本體設計的權威模板,提供了一種表示人際社交關(guān)系和連接的本體設計方法。此外,各行各業(yè)的官方文檔和研究,例如政府針對某個(gè)行業(yè)的專(zhuān)業(yè)指導文件,也是重要的對比和借鑒對象。通過(guò)對比學(xué)習,可以評估設計的本體的專(zhuān)業(yè)性和實(shí)用性[15]。通過(guò)參考、融合這些相關(guān)設計的概念和關(guān)系,地理和社會(huì )知識圖譜本體設計可以在實(shí)用性和專(zhuān)業(yè)性方面獲得保證,并提供與各行各業(yè)進(jìn)行知識融合的強大功能。隨著(zhù)地理實(shí)體和社會(huì )實(shí)體知識圖譜的不斷完善和發(fā)展,會(huì )不斷融合更多其他領(lǐng)域和實(shí)體知識,而本體設計作為知識圖譜的核心,決定了其質(zhì)量,需要不斷迭代和完善[16]。
地理實(shí)體和社會(huì )實(shí)體知識圖譜有廣泛的應用前景,可解決多種復雜問(wèn)題,如整合多源異質(zhì)數據、空間查詢(xún)、城市規劃、災害評估與管理等。在這些應用中,整合多源異質(zhì)數據和空間查詢(xún)是其他應用的基礎和支撐。
在傳統的地理信息系統(GIS)中,同一個(gè)實(shí)體可能在不同比例尺、圖層或產(chǎn)品中存在多種表示方式。這種多維數據結構使計算機難以理解這些不同圖層中的圖形其實(shí)表示同一個(gè)實(shí)體,只能通過(guò)專(zhuān)業(yè)人士的肉眼和大腦進(jìn)行分析理解。尤其對于非常專(zhuān)業(yè)的查詢(xún)和分析,傳統技術(shù)手段需要非常熟悉數據存儲的專(zhuān)業(yè)人員來(lái)操作,極大地提高了數據應用的門(mén)檻。而當空間數據需要與其他領(lǐng)域的數據進(jìn)行并行分析時(shí),傳統技術(shù)手段則需要將其他領(lǐng)域的數據進(jìn)行調整后形成新的圖層,才能與專(zhuān)業(yè)的空間數據一起分析比較。這些都對數據的應用和分析造成了相當多的困難。
相反,地理實(shí)體和社會(huì )實(shí)體知識圖譜將所有數據壓縮到一個(gè)平面維度,并將所有圖形、位置信息、影像和模型等與實(shí)體節點(diǎn)關(guān)聯(lián)。當觀(guān)察某個(gè)實(shí)體節點(diǎn)時(shí),可直接通過(guò)屬性或關(guān)系探索分析。此外,承載關(guān)系將來(lái)自其他領(lǐng)域表示相同實(shí)體的數據集成到知識圖譜中,將空間和社會(huì )信息綁定一起,使計算機能更有效地理解或推斷數據之間的關(guān)系,并以簡(jiǎn)潔易懂的方式呈現。
作為一種克服傳統GIS 行業(yè)瓶頸的新方法,地理和社會(huì )知識圖譜不僅具備傳統GIS 技術(shù)強大的空間查詢(xún)和運算能力,而且在基于豐富的空間關(guān)系的情境下,執行許多空間查詢(xún)和復雜分析更為簡(jiǎn)單和有效。例如,在查詢(xún)兩個(gè)地物之間的最短通達路徑時(shí),地理實(shí)體和社會(huì )實(shí)體知識圖譜可以像人類(lèi)一樣進(jìn)行思考和規劃:通過(guò)考慮起點(diǎn)和終點(diǎn)之間的相鄰關(guān)系,以及道路之間的連通關(guān)系和長(cháng)度屬性,規劃出一條距離最短的路徑。而假設需要進(jìn)行更加復雜的空間運算,例如“希望走一條經(jīng)過(guò)較多綠化的路線(xiàn)”,在傳統GIS 中進(jìn)行這樣的分析運算是相當復雜的。但在地理和社會(huì )知識圖譜中,僅需要在進(jìn)行空間查詢(xún)時(shí),將道路與商鋪之間的相鄰關(guān)系作為一個(gè)變量,加入分析查詢(xún)即可。
地理和社會(huì )知識圖譜具有為城市規劃提供全面和詳細視角的巨大潛力。由于具備強大的數據整合能力,它能夠將多個(gè)領(lǐng)域的數據通過(guò)屬性或者關(guān)系掛接到圖譜中的實(shí)體上。城市規劃設計者可以通過(guò)一個(gè)節點(diǎn),訪(fǎng)問(wèn)和分析相關(guān)的多種數據,如土地利用、交通、人口統計、社會(huì )和經(jīng)濟因素、環(huán)境因素等。通過(guò)整合這些數據,城市規劃設計者可以做出科學(xué)決策。
以公共交通為例,用戶(hù)可以將表示公共交通站點(diǎn)的節點(diǎn)添加到圖譜中,并創(chuàng )建與直接相鄰地理實(shí)體的空間關(guān)系,讓該節點(diǎn)正確融入圖中,然后就可以計算該公交站點(diǎn)的服務(wù)范圍和覆蓋人口,從而顯著(zhù)降低方案模擬的成本,并提供直觀(guān)的結果。同理,對于其他公共服務(wù)設施的選址,或現有城市設施的影響力測算等,地理和社會(huì )知識圖譜也具有強大的支撐能力。
由于整合了地理空間數據和社會(huì )各領(lǐng)域的相關(guān)數據,地理實(shí)體和社會(huì )實(shí)體知識圖譜在災害評估和管理中,可以提供受災區域的全局視角和細節分析。例如,在地震發(fā)生時(shí),地理和社會(huì )知識圖譜除了能夠迅速查詢(xún)受災區域建筑、設施和道路的具體信息,還能快速統計受災區域的人口分布和密度,以及應急機構、賑災資源和應急場(chǎng)所等信息,然后快速計算出最佳救援方案,如救援工作的任務(wù)分工、考慮到破損設施的最佳救援路線(xiàn),以及受災人群的安置方案等。
綜上所述,地理實(shí)體和社會(huì )實(shí)體知識圖譜在地理和社會(huì )數據的表示和分析方面有巨大潛力,為多元異質(zhì)數據整合、空間查詢(xún)、城市規劃和災害評估管理提供了強大工具。除了上述應用場(chǎng)景,地理實(shí)體和社會(huì )實(shí)體知識圖譜在理論上可為任何與地理位置相關(guān)的應用提供服務(wù),如生物事件、治安管理等。通過(guò)發(fā)揮地理實(shí)體和社會(huì )實(shí)體知識圖譜的力量,決策者可設計出更宜居、更安全的城市環(huán)境,更有效地應對各類(lèi)情況。
知識圖譜是地理信息行業(yè)所面臨挑戰的潛在解決方案,它提供了一種更靈活和可擴展的方式來(lái)建模和整合不同的源數據。本文探討了一種地理實(shí)體和社會(huì )實(shí)體知識圖譜本體設計實(shí)現方案和應用方向,詳細介紹了地理實(shí)體和社會(huì )實(shí)體知識圖譜本體設計,重點(diǎn)關(guān)注了實(shí)體對象類(lèi)型、關(guān)系類(lèi)型和屬性選擇,還討論了知識圖譜在解決傳統地理信息行業(yè)所面臨的挑戰以及未來(lái)研究方向的潛力??偟膩?lái)說(shuō),利用知識圖譜來(lái)關(guān)聯(lián)、展示和分析地理實(shí)體和社會(huì )實(shí)體是一個(gè)具有許多潛在應用和未來(lái)發(fā)展方向的研究領(lǐng)域。
猜你喜歡本體圖譜實(shí)體繪一張成長(cháng)圖譜少先隊活動(dòng)(2020年12期)2021-01-14前海自貿區:金融服務(wù)實(shí)體中國外匯(2019年18期)2019-11-25實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式哲學(xué)評論(2017年1期)2017-07-31補腎強身片UPLC指紋圖譜中成藥(2017年3期)2017-05-17兩會(huì )進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟“釘釘子”領(lǐng)導決策信息(2017年9期)2017-05-04振興實(shí)體經(jīng)濟地方如何“釘釘子”領(lǐng)導決策信息(2017年9期)2017-05-04基于本體的機械產(chǎn)品工藝知識表示制造業(yè)自動(dòng)化(2017年2期)2017-03-20主動(dòng)對接你思維的知識圖譜領(lǐng)導科學(xué)論壇(2016年9期)2016-06-05《我應該感到自豪才對》的本體性教學(xué)內容及啟示文學(xué)教育(2016年27期)2016-02-28專(zhuān)題圖書(shū)與情報(2013年1期)2013-11-16