近日,第九屆高等學??茖W研究優(yōu)秀成果獎(人文社會科學)揭曉。南京農(nóng)業(yè)大學黃水清教授的著作《數(shù)字圖書館信息安全管理標準規(guī)范》獲一等獎,同時,黃水清教授團隊成員王東波教授的著作《面向知識挖掘的平行句法語料庫構(gòu)建研究》也獲得了青年成果獎。
高等學??茖W研究優(yōu)秀成果獎(人文社會科學),一般稱之為教育部人文社科獎,是國內(nèi)人文社科領(lǐng)域最高級別的政府獎,自1995年以來總共評選了9屆,在人文社科領(lǐng)域舉足輕重。黃水清教授的這個一等獎,也是江蘇省在圖書館·情報與文獻學領(lǐng)域獲得的首個教育部人文社科一等獎。
產(chǎn)出這一重大成果的,是黃水清教授作為學科和團隊帶頭人的我校信息資源管理學科和研究團隊,該學科團隊在校內(nèi)與大農(nóng)學科相比屬于非主流,在校外與綜合性大學、師范大學同行相比也屬于非主流。迄今,我校仍然是全國除綜合性大學、師范大學之外取得信息資源管理一級學科博士授權(quán)的唯一行業(yè)高校。
20多年的時間,在黃水清教授帶領(lǐng)下,該學科從一個本科專業(yè)發(fā)展到現(xiàn)在的兩個本科專業(yè)、一個專業(yè)學位碩士授權(quán)點、一個一級學科碩士學位授權(quán)點、一個一級學科博士學位授權(quán)點、一個博士后流動站,人員規(guī)模從十多個人增加到現(xiàn)在連師資博士后計算在內(nèi)也才僅僅24人。該學科團隊帶頭人和核心成員不但在重大獎項方面取得佳績,還曾在同一個研究方向連續(xù)獲得國家社科基金3個重大、1個重點項目。作為雙重“非主流”的學科團隊,殊為不易,也說明該學科團隊從雙重“非主流”中成功地走出了一條適合自己的發(fā)展之路。
該學科與團隊如何從0到1組建壯大,如何從非農(nóng)強勢學科中脫穎而出,如何從“非主流”的氛圍中走向一流、從小團隊里走出大氣象,耐人尋味、值得借鑒。
搭好團隊的“復雜網(wǎng)絡”
“我們團隊的結(jié)構(gòu)是個‘復雜網(wǎng)絡’,人數(shù)不多,但能形成有效聚合。”黃水清用了信息技術(shù)領(lǐng)域的專有名詞做比團隊的內(nèi)部結(jié)構(gòu)。
信息資源管理學科全部教師包括雙肩挑干部和2名師資博士后在內(nèi)目前僅24人,體量不大,卻極具戰(zhàn)斗力。由于人數(shù)有限,黃水清教授非常重視效率和發(fā)揮每名成員的長處,強調(diào)研究方向的集中與聚焦,即“有限資源、有限目標”。
大團隊中的每個成員都是網(wǎng)絡上的節(jié)點,方向靠近的成員再組成小方向團隊,小方向的負責人類似于網(wǎng)絡中的中心結(jié)節(jié)。當特定科研任務出現(xiàn)時,團隊既可以以現(xiàn)有的小方向團隊承接任務,也可以以某成員為核心迅速組建任務團隊。
在負責人黃水清的統(tǒng)籌協(xié)調(diào)下,成員之間在研究特長上形成互補,相互支撐,緊密合作,都有承擔任務的機會。學科團隊中的核心團隊、也是黃水清教授本人所在的小方向團隊是文本信息處理團隊,既在同行中獨樹一幟,創(chuàng)出南農(nóng)品牌,也在技術(shù)方法、人才培養(yǎng)等方面支持整個團隊的研究與發(fā)展。
據(jù)學??茖W研究院的統(tǒng)計顯示,2012年到2023年的11年間,該團隊一共獲得了27項國家社科基金項目,其中重大項目3項、重點項目3項。此外還有5項國家自科基金管理學部項目。這樣的高產(chǎn)數(shù)據(jù)產(chǎn)生于如此體量的團隊,極為稀缺。
科學研究院副院長朱戰(zhàn)國介紹,團隊成員、特別是剛?cè)腙牭哪贻p教師,寫論文可以,但在申報項目上如果沒人點撥、團隊間難以形成合力的話,成功的機率是很小的。
“從入職的第一天,團隊的前輩們就叮囑我頭半年要把精力放在凝練研究方向上,他們手把手地帶我一起申報項目,比我自己都更關(guān)心我的未來。”3年前進入團隊的90后青年教師宋筱璇感慨,相比同期畢業(yè)入職其他高校的同學,自己非常幸運,走的每一步都有團隊前輩提攜。
入職半年不到的時間,她結(jié)合團隊與博士論文的方向,以受眾的“信息檢索行為特征”為切入點,在黃水清教授的悉心指導下,順利申請上了國家社科基金青年項目。
充分有效地團隊聚合還體現(xiàn)在專業(yè)布局和人才培養(yǎng)上。據(jù)黃水清介紹,信息資源管理學科下有3個主體二級學科:圖書館學、情報學、檔案學,但南農(nóng)一直沒有檔案學,目的就是為了能夠更好地聚焦圖書館學和情報學兩個二級學科。在圖書館學和情報學兩個二級學科中,南農(nóng)又側(cè)重于與信息技術(shù)相關(guān)的方向與領(lǐng)域,該方面無論是科研成果還是人才培養(yǎng)在全國同行中南農(nóng)都是有口皆碑。比如,在本科生的專業(yè)課程中,“信息檢索系統(tǒng)”這門偏向技術(shù)應用的課程從86級第一屆本科生起歷屆都開設,每屆都是黃水清給本科生講授。
“我們必須帶領(lǐng)學生回到源頭,了解‘文本信息處理’的基本理念、機制和方法。”在黃水清看來,作為雙重的“非主流”學科,要想在專業(yè)布局和人才培養(yǎng)上做出特色,出路就是順應并搶在社會發(fā)展的潮流與方向之前,具體到南農(nóng)的信息資源管理學科來說的就是聚焦技術(shù)。
“數(shù)字時代是由技術(shù)驅(qū)動的,要學會用技術(shù)來解決問題,”黃水清說團隊的特色是“小而精”,精的一個表現(xiàn)就是熟練運用技術(shù)做實證,培養(yǎng)的人才亦是如此,他要求南農(nóng)信息資源管理學科的本科生與研究生都能掌握信息加工、處理、檢索的各種技術(shù)手段,本科生能夠設計和開發(fā)檢索工具,研究生熟悉最新模型與算法,如最新的AIGC。
建好“語料”這一堪比“種質(zhì)”的關(guān)鍵資源
技術(shù)、方法、手段是核心能力,而這一切的關(guān)鍵還在于將核心能力應用于恰當?shù)膶ο?,黃水清的選擇是建設好“語料庫”。
“語料對于我們的重要意義好比育種學家眼中的‘種子’,”在黃水清看來,語料是團隊推進研究最為關(guān)鍵的基礎(chǔ)設施工程。
所謂語料,就是真實語言環(huán)境中產(chǎn)生的語言材料,而語料庫則由人工或機器標注好的真實語言材料組成的數(shù)據(jù)集。大規(guī)模、高質(zhì)量的語料是投喂機器學習的重要“飼料”,也是信息資源管理學科與包括人工智能在內(nèi)的各種信息技術(shù)嫁接、交叉、合作的途徑。
“和我們農(nóng)業(yè)育種學家的研究思路類似,一個高品質(zhì)的、大數(shù)據(jù)的語料庫是研究的基礎(chǔ),算法、模型則好比不同的育種栽培技術(shù),在這樣的‘種質(zhì)’(語料庫)+‘技術(shù)’(算法、模型)的基礎(chǔ)上,我們就能針對不同的文本對象解決多元的具體應用場景的科學問題?!秉S水清解釋道。
“基于《漢學引得叢刊》的典籍知識庫構(gòu)建及人文計算研究”“中國古代典籍跨語言知識庫構(gòu)建及應用研究”“先秦諸子典籍知識庫建設及詞典編纂”“雨花英烈文獻知識組織及智能內(nèi)容生成研究”,這些是黃水清本人所在的文本信息處理小方向團隊近年獲得國家社科基金資助的3個重大、1個重點項目,都與語料資源建設相關(guān)。但是,即便沒有項目經(jīng)費支持,只要選定了目標,黃水清也要求團隊堅持做下去。
北京大學俞士汶先生研制的1998年1月人民日報日報語料在自然語言處理領(lǐng)域廣受歡迎,自然語言處理的著名前輩專家馮志偉先生稱其為“我國計算語言學發(fā)展史上著名的‘語言特征工程’”,但由于20多年未更新和補充新語料,馮先生認為目前“顯得有些陳舊了”。
黃水清帶領(lǐng)團隊從2013年開始,對人民日報語料開展人工分詞標注,目前已完成2015年以后的10個月的《人民日報》全文標注,體量超過3000萬字,遠超北大98年1月人民日報語料的100萬字。馮志偉先生評價,這是“接過俞士汶先生點燃的火炬”,建設了“目前世界上規(guī)模最大的精加工現(xiàn)代漢語通用分詞語料庫”。由于受限項制約,人民日報分詞語料庫沒有資格申請實際也未獲得任務經(jīng)費支持,但黃水清認為此項任務對多個學科的意義重大,沒有經(jīng)費也要做成,而且要向?qū)W界免費開放共享。目前,該語料庫獲得了學界的廣泛好評,全球1000多個機構(gòu)申請獲得。
細觀團隊11年來的多項成果,語料對象從古籍文本到現(xiàn)代文本,類型從單語種到跨語言、多語種平行語料,的確是一場場“語料資源+技術(shù)方法”的精耕細作。
做語料庫、建資源,或許大家都意識到重要,可為什么別的團隊做不來,或者做著做著就放棄了?
“這是一場愚公移山式的長跑,沒什么訣竅,就是堅持?!眻F隊核心成員、南農(nóng)大信息管理學院教授王東波告訴記者。以人民日報語料為例,王東波疫情期間曾被封在家鄉(xiāng),他將100多萬字的語料進行了精細化人工標注,真的就是在浩如煙海的文本中做“繡花功夫”。半年的時間,他的視力下降了150度。
洞悉前沿,提前部署,長期堅持
“一流團隊的成長離不開一流的帶頭人,評判帶頭人的一項重要指標,就是看其在研究主題和方向的選擇上是否有引領(lǐng)性的前瞻眼光。”朱戰(zhàn)國表示,這個“眼光”起碼要超前看5年。
古代漢語文本中的歷代典籍是中華民族的文化根基,特別是先秦典籍,記載了中華文化的內(nèi)在基因,是中華民族思想、文化、文學、歷史的文獻源頭,也是中華民族性格鑄就過程的文獻實證。
據(jù)黃水清介紹,團隊從2012年開始關(guān)注古代典籍文本,在人工標注的基礎(chǔ)上,借助信息技術(shù)手段對典籍文本進行智能化處理。2013年12月30日,習近平總書記在主持政治局集體學習時指出,“要系統(tǒng)梳理傳統(tǒng)文化資源,讓收藏在禁宮里的文物、陳列在廣闊大地上的遺產(chǎn)、書寫在古籍里的文字都活起來”。黃水清敏銳地察覺了政策動向,認為團隊的研究完全可以契合中央精神,并迅速將團隊研究重心全面調(diào)整到以典籍文本為主要對象。2015年,團隊以古代典籍文本的知識庫構(gòu)建及人文計算研究為選題,首次申報國家社科基金重大項目即獲得立項。
2017年,黨的十九大報告正式提出了“推動中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化、創(chuàng)新性發(fā)展”的“兩創(chuàng)”方針,并寫入黨章。這對于已提前布局面向古籍文本計算人文研究的黃水清團隊而言,猶如注入了一股強心劑,大家凝成一鼓繩,雖然語料難、面向古籍的語料標注更難,但這個“硬骨頭”啃下來,價值和意義不言而喻。
2018年,王東波來到比利時魯文大學訪學,當?shù)赜⒄Z、法語、德語、比利時語通行,但他發(fā)現(xiàn),我們古代典籍鮮有對應的高質(zhì)量外文文本,更缺乏句、詞級別對應的多語種語料庫。一年的訪學結(jié)束了,王東波一回國就著手申請項目,他將方向鎖定在了“中國古代典籍跨語言知識庫構(gòu)建及應用研究”上,2021年該項目順利入選國家社科重大項目。
“習近平總書記在黨的十九大報告中提到,‘推動中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化、創(chuàng)新性發(fā)展,繼承革命文化,發(fā)展社會主義先進文化’,中華優(yōu)秀傳統(tǒng)文化、革命文化和社會主義先進文化3個詞出現(xiàn)在同一個句子中?!蓖瑸閳F隊核心成員的南農(nóng)大信息管理學院副院長何琳教授則將研究方向聚焦在了革命文化上。
雨花精神是南京革命文化的根與魂,協(xié)助南京雨花臺烈士紀念館做了幾年數(shù)字化檔案的她,將雨花英烈的生平、事跡進行細粒度的知識標注、知識組織,以智能技術(shù)生成的內(nèi)容則可用于黨史學習教育等場景。該項目也順利入選了2023年的國家社科重點項目。
“洞悉前沿,提前部署,長期堅持”,這是黃水清指導團隊的原則。在前瞻性地預判大的研究方向之后,團隊奉行的是板凳一坐十年冷、穩(wěn)扎穩(wěn)打、一步一個腳印的長期主義。
這次獲得教育部人文社科一等獎的成果根植于黃水清12年前拿到的國家社科基金重點項目,王東波、何琳在做的“以數(shù)字化手段賦能文化的傳承傳播”這一方向是從黃水清9年前的拿到的重大項目中生發(fā)出來的。
也是在12年前,黃水清帶著學生們開始做《春秋經(jīng)傳引得》的數(shù)字化和補遺工作,令他們吃驚的是,原文為9萬7千字的《春秋》經(jīng)和三傳編制成逐字、逐詞索引后共有410萬字。當年,燕京大學圖書館館長洪業(yè)先生僅帶著3個人以手工方式編完了這部400多萬字的古籍索引。黃水清和學生們用技術(shù)手段經(jīng)多輪校對后發(fā)現(xiàn),洪業(yè)先生團隊的差錯率只有令人瞠目的萬分之零點九,連萬分之一都不到,堪稱手工時代的奇跡!
正是典籍文本、革命文獻中處處展現(xiàn)的先輩、先烈的崇高與偉大,引來團隊成員心追手摹,成就了團隊如今的凝聚力與“愚公移山”式的精神密碼。
黃水清給團隊成員或?qū)W生們指導項目時,經(jīng)常問出一句話:“做這個的目的是什么?”他說,做我們這個學科要想把研究過程做得漂亮并不難,但我希望他們腦中想的、心中掛的,是這個項目的價值和意義。
“面向國家政策和社會需求做的研究才有意義,自然科學如此,人文社科同樣如此?!秉S水清說。
閱讀次數(shù):22
【 轉(zhuǎn)載本網(wǎng)文章請注明出處 】