9月28日,生物信息領(lǐng)域權(quán)威期刊Nucleic Acids Research在線發(fā)表了南京農(nóng)業(yè)大學(xué)人工智能學(xué)院計(jì)智偉教授課題組的題為“CircaKB: a comprehensive knowledgebase of circadian genes across multiple species”的研究論文。在這項(xiàng)工作中,研究人員開(kāi)發(fā)了一個(gè)跨物種的晝夜節(jié)律基因綜合知識(shí)庫(kù),提供了一套全基因水平上的基因表達(dá)振蕩模式注釋工具。
CircaKB 是第一個(gè)在全基因水平上提供基因表達(dá)振蕩模式系統(tǒng)注釋的知識(shí)庫(kù) (圖1)。目前,CircaKB 包含了 226 個(gè)時(shí)間過(guò)程轉(zhuǎn)錄組數(shù)據(jù)集,涵蓋各種組織、器官和細(xì)胞系,涉及15個(gè)代表性物種。此外,它集成了 12 個(gè)計(jì)算模型,以獲得可靠的數(shù)據(jù)分析并識(shí)別基因表達(dá)的振蕩模式及其變化。CircaKB還為用戶提供了強(qiáng)大的交互功能,包括便捷搜索、快速瀏覽、強(qiáng)大的數(shù)據(jù)可視化和自定義上傳。
圖1. CircaKB功能全景圖
作為一個(gè)全面的知識(shí)庫(kù),CircaKB為晝夜節(jié)律基因的資源和注釋提供了一個(gè)交互式平臺(tái) (圖2A)。首先,CircaKB 包含了豐富的數(shù)據(jù)資源,整合了來(lái)自多個(gè)國(guó)際公共數(shù)據(jù)庫(kù) (例如GEO,EBI,GEN,GTEX) 的226個(gè)時(shí)間過(guò)程轉(zhuǎn)錄組數(shù)據(jù)集,涵蓋15個(gè)物種和54種器官/組織的5577個(gè)樣本 (圖2B)。CircaKB 涵蓋的物種包括哺乳動(dòng)物、脊椎動(dòng)物、昆蟲、植物和微生物。其次,它集成了12個(gè)統(tǒng)計(jì)模型,在全基因水平上識(shí)別基因表達(dá)的振蕩模式。具體而言,七個(gè)模型用于晝夜節(jié)律振蕩檢測(cè),另外五個(gè)模型用于差異節(jié)律分析。通過(guò)CircaKB提供的Web交互界面,用戶可以輕松瀏覽統(tǒng)計(jì)數(shù)據(jù)并查詢有關(guān)任何基因的晝夜節(jié)律模式的注釋。
圖2. CircaKB平臺(tái)概覽 (A) CircaKB的整體框架;(B) CircaKB 數(shù)據(jù)庫(kù)的樣本統(tǒng)計(jì)
為了展示CircaKB提供的資源和注釋的可靠性,我們選擇了有關(guān)小鼠和人類的三個(gè)典型案例來(lái)展示該平臺(tái)的實(shí)用性。
應(yīng)用案例1。我們以小鼠肝臟為例,演示如何使用CircaKB實(shí)現(xiàn)晝夜節(jié)律振蕩檢測(cè) (圖3A)。首先,選取三個(gè)具有代表性的小鼠肝臟數(shù)據(jù)集,它們具有不同的采樣時(shí)間 (24h 或 48h)和采樣周期 (1h 或 2h)。由于算法的差異,這些計(jì)算模型識(shí)別出的具有顯著振蕩模式的基因數(shù)量差異很大(圖 3A(I))。JTK_CYCLE、Cosinor和ARSER具有出色的分析能力,可以獲得幾乎所有的晝夜節(jié)律參數(shù)。其次,使用數(shù)據(jù)集GSE11923來(lái)評(píng)估上述三個(gè)模型的分析結(jié)果是否存在顯著差異。如圖3A(II)所示,Cosinor與ARSER之間至少有85%的基因存在重疊。JTK_CYCLE檢測(cè)到的大多數(shù)振蕩基因也能被Cosionr識(shí)別出來(lái)。最后,比較了上述三個(gè)模型預(yù)測(cè)的核心時(shí)鐘基因Arntl的周期曲線。圖3A(III)顯示,這三個(gè)模型推斷出的Arntl的振蕩模式相似。
圖3. CircaKB 在單個(gè)數(shù)據(jù)集上研究晝夜節(jié)律模式的兩個(gè)案例研究 (A) 識(shí)別小鼠肝臟中基因表達(dá)的晝夜節(jié)律振蕩;
(B) 識(shí)別老年人和年輕人之間基因表達(dá)的晝夜節(jié)律模式的改變
應(yīng)用案例2。采用數(shù)據(jù)集 GSE71620,展示CircaKB如何助力研究衰老對(duì)于人類大腦中基因表達(dá)晝夜節(jié)律的影響。數(shù)據(jù)來(lái)自年輕和老年捐贈(zèng)者的BA11大腦區(qū)域。數(shù)據(jù)分析顯示,許多基因在老年人大腦中表現(xiàn)出節(jié)律差異,包括振幅變化、相移、基線和擬合度變化 (圖 3B(I))。特別是,我們發(fā)現(xiàn)AD相關(guān)生物標(biāo)志物BACE2具有兩種振蕩模式變化,這表明 BACE2可能通過(guò)晝夜節(jié)律改變調(diào)節(jié)正常衰老 (圖3B(II))。
圖4. 使用不同數(shù)據(jù)源研究特定基因的晝夜節(jié)律模式 (A) CircaKB的搜索功能;(B) 核心時(shí)鐘基因 Cry1 的搜索結(jié)果涉及不同的生物體;(C) 使用來(lái)自不同實(shí)驗(yàn)室的數(shù)據(jù)集預(yù)測(cè)小鼠心臟 Cry1的晝夜節(jié)律模式
應(yīng)用案例3。探索核心時(shí)鐘基因Cry1被選為代表案例。首先,用戶打開(kāi)搜索頁(yè)面,輸入基因名 (圖4A)。單擊“搜索”按鈕后,將執(zhí)行搜索功能以檢索CircaKB中所有匹配的數(shù)據(jù)集。搜索結(jié)果如圖4B所示,顯示了CircaKB中包含基因Cry1的物種。選擇感興趣的物種的特定組織并單擊“查看”圖標(biāo),將轉(zhuǎn)到詳細(xì)頁(yè)面以供進(jìn)一步探索。圖4C顯示了使用來(lái)自不同實(shí)驗(yàn)室的數(shù)據(jù)集預(yù)測(cè)的小鼠心臟中Cry1的晝夜節(jié)律模式。從不同數(shù)據(jù)源推斷出的Cry1 表達(dá)的晝夜節(jié)律模式非常接近。1) 所有晝夜節(jié)律曲線的周期都在24到27小時(shí)范圍內(nèi);2) 峰值出現(xiàn)在17.6小時(shí)到21.7小時(shí)之間。
另外,CircaKB提供快速的網(wǎng)頁(yè)響應(yīng)時(shí)間以實(shí)現(xiàn)高效訪問(wèn)。在上傳帶寬為30Mbps、下載帶寬為100Mbps、平均延遲為18ms的測(cè)試中,我們發(fā)現(xiàn)“晝夜節(jié)律”和“差異節(jié)律”網(wǎng)頁(yè)的平均加載時(shí)間分別僅為645.66ms和1548.24ms。除了晝夜節(jié)律的檢測(cè)以外,CircaKB還能有效檢測(cè)周期更短、頻率更高的超晝夜節(jié)律??傊?,我們相信 CircaKB 將對(duì)晝夜節(jié)律基礎(chǔ)研究和臨床醫(yī)學(xué)產(chǎn)生重大影響。
本文的第一作者為南京農(nóng)業(yè)大學(xué)人工智能學(xué)院2022級(jí)碩士生朱星臣,通訊作者為計(jì)智偉教授。來(lái)自UTHealth的Xiaobo Zhou, Seung-Hee Yoo和Zheng Chen三位教授參與了該項(xiàng)研究工作。UNC Chap Hill的Weiling Zhao教授為論文的撰寫提供了寶貴建議。
原文鏈接:https://doi.org/10.1093/nar/gkae817
知識(shí)庫(kù)連接:http://cdsic.njau.edu.cn/CircaKB