曹鑫新
現首先介紹民國報紙資源建設的意義,其次對當前民國報紙數字化資源利用存在的難點(diǎn)進(jìn)行分析,再次總結數字化建設的方向,最后提出民國報紙數字化建設改造重點(diǎn)與知識資源建設實(shí)施路徑。希望對民國時(shí)期文獻知識資源建設提供參考。
近年來(lái),圖書(shū)館業(yè)務(wù)形態(tài)從傳統圖書(shū)館到數字圖書(shū)館再到智慧圖書(shū)館的轉變,促進(jìn)了圖書(shū)館相關(guān)業(yè)務(wù)的推陳出新。如何利用當前資源為讀者提供智慧化服務(wù),進(jìn)行智慧化轉型,成為圖書(shū)館在新階段需要思考的問(wèn)題。民國文獻是對民國時(shí)期政治、經(jīng)濟、文化、民生等方面的記載,在史料中有著(zhù)十分重要的地位。民國報紙具有覆蓋地域范圍廣、出版周期短等特點(diǎn),能夠從多方面立體地呈現出民國時(shí)期社會(huì )面貌及相關(guān)知識。因此,對民國報紙的加工與建設也成為民國文獻保護與利用的重要工作之一。
民國報紙資源建設的重要意義
為學(xué)科研究提供史料依據
筆者對中國知網(wǎng)“篇名=民國+報紙、篇名=民國+報刊”的中文文獻進(jìn)行搜索,截至2023年2月,共獲得相關(guān)文獻351篇。對其內容進(jìn)行分析研究發(fā)現,民國報紙的文獻研究涉及歷史、廣告、圖書(shū)館學(xué)等多學(xué)科,研究?jì)热莼痉譃閮纱箢?lèi)別,分別為報紙內容信息的利用和民國報紙館藏建設。數量龐大的民國報紙內容信息利用的文獻研究表明民國報紙在民國文獻中的重要價(jià)值,并從側面體現出各個(gè)學(xué)科的內容,挖掘民國報紙中的知識信息對歷史、文學(xué)、文化、藝術(shù)等方面具有的深遠意義。如陳雅莉以民國報紙對“國貨”意義的生產(chǎn)為例,闡釋了中國近代時(shí)尚觀(guān)念對民族意識的雙重構建問(wèn)題[1]。
充分揭示館藏資源
民國不同階段的報紙資源建設文獻研究側重點(diǎn)不同。2014年至2015年初,圖書(shū)館強調民國報紙的保護和開(kāi)發(fā),側重報紙實(shí)體的保護與修復,對民國報紙數字化等再生性保護進(jìn)行了初步探索,如上海圖書(shū)館、重慶圖書(shū)館等。2015年至2020年間,圖書(shū)館側重民國報紙的數字化工作,將縮微膠片進(jìn)行數字化轉換,分地區、分主題進(jìn)行數字化加工,有些圖書(shū)館開(kāi)始嘗試對標題、作者等信息進(jìn)行著(zhù)錄,如國家圖書(shū)館、首都圖書(shū)館等。在此期間還出現了專(zhuān)題特色文獻數據庫的探索性建設、影印資源建設。2021年,隨著(zhù)智慧圖書(shū)館概念的普及與推廣,圖書(shū)館開(kāi)始注重對數字資源的語(yǔ)義標注,并引入細粒度標引,強調知識的關(guān)聯(lián)與可視化。
當前民國報紙數字化資源利用存在的難點(diǎn)
關(guān)于民國報紙建設的研究,有的圖書(shū)館注重數據庫的建設,也有的圖書(shū)館注重知識化抽取的探索。在數字化形式上有PDF格式的全文數字化,也有標題OCR文字識別[2]。在數字化成品利用上應注重數據庫的建設,如大而全且覆蓋范圍較廣的綜合數據庫、圍繞某一專(zhuān)題建設的特色主題數據庫[3]。
目前,檢索的結果很大程度源于搜索者對搜索主題的認識,因此這種檢索在一定程度上難以充分展示相關(guān)主題的館藏資源。當前各圖書(shū)館都在開(kāi)展民國報紙數字化項目,該項目是建立在自身館藏資源與數字化建設基礎上的,在成品展現上各具特色?!鞍偌覡庿Q”雖然可以促進(jìn)建設的良性前進(jìn),但與此同時(shí)也造成了資源的浪費,重復的資源建設所體現出的“投入與產(chǎn)出”顯然不太合理。
在智能化時(shí)代,通過(guò)對數字資源進(jìn)行統計分析,在已有資源的基礎上進(jìn)行決策,為已完成建設或即將投入建設的數字資源賦予新的生命力,使原有的已完成建設的“信息孤島”式的數據成品轉變?yōu)殛P(guān)聯(lián)數據庫數據或者匯編資源,知識資源建設可以更好地實(shí)現從信息到知識網(wǎng)的螺旋式上升?!笆奈濉睍r(shí)期,我國圖書(shū)館信息資源建設需要實(shí)現從認識到實(shí)踐的多維度轉變,即信息資源從藏到用、從單一紙質(zhì)到多類(lèi)型資源以及從信息資源的組織到語(yǔ)義化組織、從信息表達到向詞表數據治理的轉變[4]。對民國報紙數字資源進(jìn)行知識抽取能夠最大限度地體現出民國報紙在民國歷史時(shí)期的作用,因此新時(shí)期民國報紙的建設要在原有的基礎上進(jìn)行細化。
數字化建設方向
智慧圖書(shū)館的智慧化管理、智慧化建設與服務(wù)突出了智慧圖書(shū)館更加全面與個(gè)性化的服務(wù)。圖書(shū)館對資源的建設工作更加側重資源的統籌與數據的關(guān)聯(lián)性建設。智慧圖書(shū)館對內容的建設已經(jīng)從最初的以收藏為主體轉變?yōu)橐栽鲋禐槟康腫5]。
資源從數據向知識轉化
通常數字資源可以通過(guò)自建、合作共建、征集等方式獲取,文獻類(lèi)型可以分為圖書(shū)、期刊、報紙等,體現了數字資源來(lái)源與建設內容的多樣化。以往數字化加工多針對某一主題的相關(guān)資源,在完成當前主題資源的加工與發(fā)布后,資源會(huì )進(jìn)入庫房得到長(cháng)期保存,變成一種“一次性數字資源”。王世偉指出,在數字圖書(shū)館建設基礎上,智慧圖書(shū)館使得以往文獻能夠按照一定的規則呈現給讀者,并為其提供豐富的服務(wù),使文獻“活化”且更加智能化,有利于讀者更加便捷地獲取所需資源[6]。因此,如何讓文獻“活化”與智能化這個(gè)問(wèn)題將成為智慧圖書(shū)館時(shí)代知識資源建設的核心工作。
知識資源共建化
智慧圖書(shū)館的檢索平臺主要提供知識的可視化與智慧服務(wù)。讀者不僅能夠一站式獲取相關(guān)資源,同時(shí)也為平臺帶來(lái)了產(chǎn)生更多信息增值的可能。讀者在享受精準化服務(wù)的同時(shí),也能參與數據建設,并在其中扮演數據建設方、質(zhì)檢方、文獻提供方等角色。依據用戶(hù)類(lèi)型標簽及需求進(jìn)行智能推送的同時(shí),邀請讀者參與知識資源建設服務(wù)與勘誤工作,并通過(guò)收集用戶(hù)平臺行為確定新的建設方向,指導下一步知識資源建設工作。知識資源建設不再是“一勞永逸”的工作,而是一項隨著(zhù)不同角色進(jìn)入、調整、更新形成的“至臻完美”的工作。
數據類(lèi)型多樣化
隨著(zhù)新媒體、新技術(shù)的不斷迭代更新,數字資源也有了相應的改變,除了以往原生數字資源、館藏實(shí)體資源的再生資源以外,還涉及針對某一主題建設形成的AR、VR、MR等類(lèi)型的新型數字資源。資源類(lèi)型的多樣化與知識資源建設的個(gè)性化密切相關(guān),需要在建設初期考慮后期閱讀推廣可能出現的問(wèn)題,例如推廣針對的人群、推廣的平臺以及實(shí)踐模式與策略等。
民國報紙數字化建設改造重點(diǎn)
對民國報紙資源進(jìn)行知識化加工,能夠在保護紙質(zhì)資源的前提下,達到對數字資源利用最大化的目的。在梳理知識化加工的工作環(huán)節后發(fā)現,開(kāi)展知識資源加工工作還面臨一些挑戰。
語(yǔ)料庫范圍的設定
民國報紙資源的語(yǔ)料庫主要以紙質(zhì)資源為基礎,在原有的數字化前提下進(jìn)行建設。因此,語(yǔ)料庫建設的批次與范圍需要具體斟酌,特色數據庫的建設是基于豐富的語(yǔ)料庫搭建的。就加工而言,需要區分不同內容主題文本篇目,如在文章分類(lèi)上分為廣告、新聞、文學(xué)作品等。不同的分類(lèi)元素是否需要加入語(yǔ)料庫則需要進(jìn)一步斟酌。
多類(lèi)型知識資源的描述
報紙的數字化涉及不同的文檔類(lèi)型。在進(jìn)行知識化加工時(shí),如何描述不同類(lèi)型的知識資源,以及在提質(zhì)增效的同時(shí)最大限度地展現知識資源內容也是需要進(jìn)一步思考的問(wèn)題。
建設語(yǔ)料庫解決的是從哪里抽取、從多大范圍內抽取的問(wèn)題,關(guān)鍵字段的抽取就是具體抽取誰(shuí),如何抽取的問(wèn)題。這涉及對不同類(lèi)型篇目的知識元分類(lèi),比如新聞性篇目的知識元分類(lèi)、廣告篇目的知識元分類(lèi)以及圖片篇目的知識元分類(lèi),一個(gè)好的知識元分類(lèi)能夠涉及民國報紙中所有類(lèi)型篇目的信息,并且能在不同類(lèi)型信息上完成非必備字段的標引?!白詣?dòng)抽取加人工描述”的運用使得知識資源的描述更加科學(xué)化,有助于最大限度地對資源進(jìn)行知識抽取。
識別準確率的把控
知識資源建設要基于全文內容進(jìn)行檢索與抽取。在報紙文章構成上,有純文字篇目、文字加配圖篇目、圖片篇與漫畫(huà)篇目。這就意味著(zhù)知識資源建設工作的要求要比以往的數字資源建設更加詳細與準確。不論是報紙信息的噪點(diǎn)處理、文字的識別工作,還是民國時(shí)期語(yǔ)言、語(yǔ)法的檢查等工作,都需要在標題識別的基礎上更加精準化。
民國報紙知識資源揭示與服務(wù)
知識資源數據類(lèi)型決定了知識資源建設的服務(wù)形態(tài),這意味著(zhù)在進(jìn)行知識資源建設的同時(shí)還需要考慮數字化成品的揭示與服務(wù)問(wèn)題。不論是知識網(wǎng)絡(luò )、知識圖譜等的可視化呈現,還是形成針對某一主題的專(zhuān)題庫、針對不同類(lèi)型讀者的有聲庫等,抑或是可以讓讀者身臨其境的VR資源,這些不同的服務(wù)形態(tài)資源的統籌與建設都是進(jìn)一步開(kāi)展知識資源加工需要考慮的問(wèn)題。
民國報紙知識資源建設實(shí)施路徑
引入深度學(xué)習識別技術(shù),提升識別準確率
傳統的OCR技術(shù)已經(jīng)無(wú)法滿(mǎn)足文字方向不定、紙張噪點(diǎn)較多、文檔類(lèi)型多樣的民國報紙知識資源建設的需求,因此應當引入深度學(xué)習識別技術(shù),對語(yǔ)料庫進(jìn)行更新與校正,降低人工成本,用機器識別代替大規模的人力投入,一方面能夠節省人力成本,另一方面也能最大限度地避免由于工作人員失誤所造成的資源提取缺失等問(wèn)題的發(fā)生。
知識資源深加工與共建整合,推陳出新
對知識內容、主題詞、分類(lèi)、作者、標題、地域、時(shí)間、事件等進(jìn)行標引,細化加工粒度,方便后續開(kāi)展資源的關(guān)聯(lián)性加工等工作。未來(lái)已經(jīng)建成的數字資源成品不再是以某一項目主題為單位的建設,而是更加注重知識內容的深度挖掘,通過(guò)前期對資源的精細化標引,針對某一主題將多項目資源、多類(lèi)型資源進(jìn)行整合,對項目的揭示注重關(guān)聯(lián)性建設,從某項目資源轉向專(zhuān)題數據庫建設、多庫聯(lián)合以及知識圖譜的建設,通過(guò)這樣的轉變完成對資源的深度揭示,以便為專(zhuān)題領(lǐng)域的研究提供相應的史料參考。當前國內開(kāi)展知識資源建設的單位應該聯(lián)合起來(lái),發(fā)揮各家特長(cháng),在數字化、知識化與技術(shù)化等不同領(lǐng)域中貢獻力量,合力促成知識資源的共建共享。
聯(lián)合讀者互動(dòng)建設,鼓勵創(chuàng )作
在智能時(shí)代,讀者不僅是知識的獲取者,也是知識的提供者,不同類(lèi)型讀者的加入使得知識網(wǎng)絡(luò )更加立體。文獻不再是建設完成后的“一潭死水”,而是源源不斷的“涓涓細流”。各個(gè)專(zhuān)題庫與平臺間的標準化設計與簡(jiǎn)易鏈接能夠助推讀者參與到知識資源建設當中。圖書(shū)館的讀者不乏具有各個(gè)專(zhuān)業(yè)特長(cháng)的“大家”,將“讀者、專(zhuān)家、學(xué)者”引入圖書(shū)館知識資源建設中來(lái),使其成為知識資源建設的一份子,幫助圖書(shū)館資源建設單位更精準、更客觀(guān)地呈現知識資源。
更新培養機制,識人善任
在智慧圖書(shū)館中,圖書(shū)館館員的角色也發(fā)生了變化,智慧圖書(shū)館館員在數據、數字人文、學(xué)術(shù)交流、出版、創(chuàng )客、智庫、閱讀推廣、健康信息等方面均能發(fā)揮作用[7]。在知識資源加工工作的每一個(gè)環(huán)節中,圖書(shū)館館員充當了決策者、執行者、質(zhì)檢者、驗收者、管理者等多個(gè)角色。簡(jiǎn)單來(lái)說(shuō),圖書(shū)館館員參與了知識資源建設工作的全流程,并在其中發(fā)揮了至關(guān)重要的作用。因此數字圖書(shū)館館員本身的素養,包括其學(xué)科背景與專(zhuān)業(yè)水平等在一定程度上影響著(zhù)數字化建設中資源整合與揭示的程度。
對知識資源建設人才的培養要從人才引進(jìn)策略、培養流程與機制以及激勵機制三方面著(zhù)手,在高效率完成數字化工作的同時(shí),保障長(cháng)效持久且吸引人才的政策,完善人員構成,制定人才配置規劃。
在智慧圖書(shū)館背景下,知識資源建設工作是在原有數字化的基礎上進(jìn)行深度整合,挖掘文獻知識信息,對相應節點(diǎn)進(jìn)行細粒度標引,建立文獻數據庫,將以往獨立的信息或項目通過(guò)關(guān)鍵詞或知識項關(guān)聯(lián)起來(lái),將不同類(lèi)型的資源按照知識體系匯總成庫,為讀者提供一站式知識服務(wù)。隨著(zhù)智慧圖書(shū)館的建設,未來(lái)知識資源建設工作必將有更加廣闊的發(fā)展空間。
注釋
[1]陳雅莉.中國近代時(shí)尚觀(guān)念對民族意識的雙重建構——以民國報紙對“國貨”意義的生產(chǎn)為例[J].新聞大學(xué),2022(09):60-72+119.
[2]任靜,林衛東,李洪梅.公共圖書(shū)館民國報刊數字化建設現狀研究[J].山東圖書(shū)館學(xué)刊,2021(03):88-92.
[3]姚昕.智慧圖書(shū)館環(huán)境下圖書(shū)館報紙專(zhuān)題庫建設探討[J].河南圖書(shū)館學(xué)刊,2022,42(05):96-100.
[4]蘇力.“十四五”時(shí)期圖書(shū)館信息資源建設的發(fā)展轉向[J].甘肅科技,2021,37(14):84-85.
[5]吳建中.從數字圖書(shū)館到智慧圖書(shū)館:機遇、挑戰和創(chuàng )新[J].圖書(shū)館雜志,2021,40(12):4-11.
[6]王世偉.圖書(shū)館智慧體是對圖書(shū)館有機體的全面超越[J].圖書(shū)館建設,2022(03):4-9.
[7]顧品浩.圖書(shū)館智慧化轉型中館員角色轉變研究[J].圖書(shū)館學(xué)刊,2023,45(01):1-6.
猜你喜歡民國報紙數字化家紡業(yè)亟待數字化賦能紡織科學(xué)研究(2021年6期)2021-07-15報紙少林與太極(2020年11期)2020-03-25高中數學(xué)“一對一”數字化學(xué)習實(shí)踐探索福建基礎教育研究(2019年1期)2019-09-10高中數學(xué)“一對一”數字化學(xué)習實(shí)踐探索福建基礎教育研究(2019年1期)2019-05-28他們?yōu)楹味紣?ài)民國?電影(2018年10期)2018-10-26賣(mài)報紙小學(xué)生導刊(2018年19期)2018-08-21可以吃的報紙小學(xué)生導刊(2018年19期)2018-08-21賣(mài)報紙小學(xué)生導刊(2018年16期)2018-07-02數字化制勝中國衛生(2016年2期)2016-11-12民國人愛(ài)刷朋友圈百家講壇(2016年6期)2016-09-28