在大語言模型技術日新月異的今天,大語言模型的飛速發(fā)展正深刻改變著各行各業(yè)的面貌,非物質文化遺產的數字化保護與傳承迎來了新的機遇。日前,在《中國世界級非遺文化悅讀系列》叢書發(fā)布會上,南京農業(yè)大學信息管理學院王東波教授團隊聯(lián)合南京大學“術語與翻譯跨學科研究”基地,推出非遺領域大語言模型,為非遺的保護與傳播開辟了新路徑。
非物質文化遺產傳承大多以口頭傳播為主,由于其內容豐富而形式多樣,在傳承過程中極易隨著時間流逝而丟失。非遺領域大語言模型的推出可以有效推動非遺的數字化保護,助力傳統(tǒng)故事、技藝、習俗等內容的數字化、知識化、系統(tǒng)化,從而建立非遺的長效保護體系,確保非遺的可持續(xù)發(fā)展。
在非物質文化遺產領域,數據的獨特性與復雜性成為了領域化大模型構建的關鍵挑戰(zhàn)。為確保非遺大模型能夠精準理解和運用文化遺產領域的獨特知識,研究團隊在數據收集階段深入中國非物質文化遺產網,從機構、政策、資源、咨詢、學術五大板塊獲取并整理了海量數據,涵蓋了政策通知、新聞專題、學術建設及項目介紹等多維度信息。此外,團隊還充分利用了學術文獻數據庫中的大量非遺相關期刊論文摘要,最終通過對網頁內容的分類解析和期刊論文摘要的整理,構建了一個內容豐富、體量龐大的非遺領域預訓練數據集。預訓練數據集的構建是非遺大語言模型獲取領域知識的必要條件,目前的通用領域大模型雖然在語言能力與通用知識上表現(xiàn)出色,但缺乏對特定領域知識的了解,通過在批量領域化數據上開展預訓練,能夠彌補通用大模型在非遺領域知識上的匱乏。
為使模型能夠更好地理解和響應非遺相關的問題,研究團隊結合前期獲取的非遺領域數據,通過對數據的量化統(tǒng)計和領域專家的分析,構建了面向非遺領域的知識實體標注方案。在此基礎上,經過長期的人工數據標注與校驗,實現(xiàn)了非遺數據知識實體的精細標注,為后續(xù)模型的進一步訓練提供了高質量數據基礎。此外,為進一步豐富訓練數據,研究團隊結合大語言模型時代下數據生成的特性,與南京大學“術語與翻譯跨學科研究”基地的魏向清教授團隊進行合作,融合《中國世界級非遺文化悅讀系列》叢書中蘊含的豐富知識,依托超大型語言模型,對已有非遺文本數據進行了轉換與增強,構建了高質量的領域知識對話數據。領域對話數據的構建,是大語言模型為非遺領域研究與學習人員提供基礎服務的需求,對話大模型能夠更好地服務于非遺傳播與研究。
依托南京農業(yè)大學高性能算力平臺,研究團隊在現(xiàn)有高性能大語言模型的基礎上訓練了非遺領域基座大模型,并進一步構建了非遺對話大模型?;竽P偷耐瞥鰹榇竽P图夹g在非遺領域的深入應用奠定了基礎,后續(xù),結合非遺領域特色,有望實現(xiàn)更多領域內特定任務,推動大語言模型技術在非遺領域的深入發(fā)展。對話大模型讓更多非遺知識的研究和學習者能夠更加便捷地獲取非遺相關知識,在非遺推廣與挖掘方面提供智能技術支持。
在非遺傳播過程中,非遺對話大模型可以實現(xiàn)非遺的自動化傳播與知識普及,并通過其強大的跨語言能力,將不同地域的非遺融合,打破語言障礙,更有助于非遺走向國際,為中華民族文化自信道路建設貢獻力量。在輔助非遺傳承方面,非遺大模型能夠為非遺傳承人提供更加便捷的技術支持,使非遺傳承人能夠更好地利用新技術實現(xiàn)非遺的創(chuàng)造性轉化。同時,借助大語言模型在非遺基礎上進行文化再創(chuàng)造,深入挖掘非遺中蘊含的精神財富,結合知識圖譜技術對非遺進行知識化存儲,有助于研究人員更系統(tǒng)地研究非遺的內在邏輯和傳承脈絡。
非遺大模型的推出,為非物質文化遺產的數字化保護提供了強有力的技術支撐,在此背景下,傳統(tǒng)文化與新質生產力的結合將為傳統(tǒng)文化的活化傳承與創(chuàng)新發(fā)展開辟新的途徑。未來,隨著技術的不斷進步和應用場景的持續(xù)拓展,我們有理由相信,非遺將在數字化浪潮中煥發(fā)出更加璀璨的光彩。
通訊員 趙志梟
新華日報·交匯點記者 楊頻萍
【交匯點】南農一團隊首推非物質文化遺產大語言模型
原文鏈接:
https://jhd.xhby.net/share-webui/detail/s671afb07e4b00cab55ab0b1e