記者今天(10月29日)從南京農(nóng)業(yè)大學(xué)了解到,該校信息管理學(xué)院王東波教授團(tuán)隊(duì)聯(lián)合南京大學(xué)“術(shù)語(yǔ)與翻譯跨學(xué)科研究”基地,推出全國(guó)非遺領(lǐng)域首個(gè)大語(yǔ)言模型,為非遺文化的保護(hù)與傳播開(kāi)辟了新路徑。去年底,王東波團(tuán)隊(duì)還發(fā)布了全國(guó)首個(gè)古籍大語(yǔ)言模型“荀子”。
非遺作為中華民族豐富多彩的精神財(cái)富,長(zhǎng)期以來(lái)主要依賴口頭傳播和經(jīng)驗(yàn)傳承。然而,伴隨著時(shí)間的推移,許多非遺形式正面臨消失的風(fēng)險(xiǎn)。王東波表示,項(xiàng)目旨在通過(guò)技術(shù)手段,推動(dòng)傳統(tǒng)文化的數(shù)字化、知識(shí)化和系統(tǒng)化,確保非物質(zhì)文化遺產(chǎn)能夠在新時(shí)代中重新煥發(fā)活力。
在非物質(zhì)文化遺產(chǎn)領(lǐng)域,數(shù)據(jù)的獨(dú)特性與復(fù)雜性成為了領(lǐng)域化大模型構(gòu)建的關(guān)鍵挑戰(zhàn)。為確保非遺大模型能夠精準(zhǔn)理解和運(yùn)用文化遺產(chǎn)領(lǐng)域的獨(dú)特知識(shí),研究團(tuán)隊(duì)在數(shù)據(jù)收集階段深入中國(guó)非物質(zhì)文化遺產(chǎn)網(wǎng),從機(jī)構(gòu)、政策、資源、咨詢、學(xué)術(shù)五大板塊獲取并整理了海量數(shù)據(jù),涵蓋了政策通知、新聞專(zhuān)題、學(xué)術(shù)建設(shè)及項(xiàng)目介紹等多維度信息。此外,團(tuán)隊(duì)還充分利用了學(xué)術(shù)文獻(xiàn)數(shù)據(jù)庫(kù)中的大量非遺相關(guān)期刊論文摘要,最終通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容的分類(lèi)解析和期刊論文摘要的整理,構(gòu)建了一個(gè)內(nèi)容豐富、體量龐大的非遺領(lǐng)域預(yù)訓(xùn)練數(shù)據(jù)集。
在實(shí)現(xiàn)非遺知識(shí)的系統(tǒng)標(biāo)注方面,團(tuán)隊(duì)建立了一個(gè)特殊的知識(shí)實(shí)體標(biāo)注方案。他們通過(guò)長(zhǎng)期的人工數(shù)據(jù)標(biāo)注和校驗(yàn),確保非遺數(shù)據(jù)知識(shí)的精細(xì)化標(biāo)注。此外,利用超大型語(yǔ)言模型對(duì)已有的非遺文本數(shù)據(jù)進(jìn)行轉(zhuǎn)換與增強(qiáng),團(tuán)隊(duì)成功構(gòu)建了一個(gè)高質(zhì)量的領(lǐng)域知識(shí)對(duì)話數(shù)據(jù),為大語(yǔ)言模型在非遺領(lǐng)域的深入應(yīng)用奠定了基礎(chǔ)。
依托南京農(nóng)業(yè)大學(xué)高性能算力平臺(tái),團(tuán)隊(duì)在現(xiàn)有高性能大語(yǔ)言模型的基礎(chǔ)上訓(xùn)練了非遺領(lǐng)域基座大模型,并進(jìn)一步構(gòu)建了非遺對(duì)話大模型。這兩個(gè)模型的推出不僅為非遺的傳播和知識(shí)普及提供了強(qiáng)大的技術(shù)支持,同時(shí),其跨語(yǔ)言能力也有助于打破語(yǔ)言障礙,推動(dòng)非遺走向國(guó)際化。
更為重要的是,該模型為非遺傳承人提供了更加便捷的技術(shù)支持,使其能夠更好地利用新技術(shù)實(shí)現(xiàn)非遺的創(chuàng)造性轉(zhuǎn)化。
“后續(xù),對(duì)話大模型有望讓更多非遺知識(shí)的研究和學(xué)習(xí)者能夠更加便捷地獲取非遺相關(guān)知識(shí),更系統(tǒng)地研究非遺的內(nèi)在邏輯和傳承脈絡(luò),助力非遺的現(xiàn)代化發(fā)展。”王東波表示。
(江蘇新聞廣播/劉正則 通訊員/趙志梟 編輯/玉潔)
【我蘇網(wǎng)】全國(guó)首推!南農(nóng)王東波團(tuán)隊(duì)發(fā)布非物質(zhì)文化遺產(chǎn)大語(yǔ)言模型
原文鏈接:
https://m.ourjiangsu.com/news/2024/10/26/1299692810804752384.html