方法教程 | 如何上傳測序原始數據到GSA?
優(yōu)采云 發(fā)布時(shí)間: 2022-05-04 00:52方法教程 | 如何上傳測序原始數據到GSA?
一、什么是NGDC?
二、NGDC的發(fā)展歷程
三、什么是GSA?
四、為什么選擇上傳數據到GSA?
五、如何上傳測序原始數據到GSA?(重點(diǎn)??!附詳細步驟??!)
前言
在發(fā)表文章之前我們需要將測序的原始數據上傳到一個(gè)公共庫,并在文中提供accession number,實(shí)現數據的公開(kāi)共享,這是國際慣例。以前我們上傳數據時(shí)只能上傳到美國國立生物技術(shù)信息中心(NCBI)、歐洲生物信息學(xué)研究所(EBI)、日本核酸數據庫(DDBJ),現在中國科學(xué)院北京基因組研究所(國家生物信息中心)國家基因組科學(xué)數據中心 (CNCB-NGDC)—中國的 "NCBI" 已經(jīng)建立并日漸完善。組學(xué)原始數據歸檔庫(GSA)是組學(xué)原始數據匯交、存儲、管理與共享系統,是國內首個(gè)被國際期刊認可的組學(xué)數據發(fā)布平臺。GSA已獲得多個(gè)國際期刊認可,并已被國際著(zhù)名出版商Elsevier收錄為指定的基因數據歸檔庫,其權威性得到*敏*感*詞*100余家學(xué)術(shù)雜志的認可。GSA已通過(guò)FAIRsharing認證,獲得Wiley出版集團認可,因此我們不用擔心上傳數據到GSA不被期刊認可,也不用再舍近求遠上傳數據到NCBI,作為中國人,我們一定要支持我們NGDC中的數據庫。本文介紹了如何上傳測序原始數據到GSA,附詳細操作步驟。
一、什么是NGDC?
國家基因組科學(xué)數據中心(;NGDC)于2019年6月5日經(jīng)科技部、財政部通知公布,由鮑一明研究員作為學(xué)術(shù)帶頭人,以中國科學(xué)院北京基因組研究所(國家生物信息中心)作為依托單位,聯(lián)合中國科學(xué)院生物物理研究所和中國科學(xué)院上海營(yíng)養與健康研究所共同建設。中心面向我國人口健康和社會(huì )可持續發(fā)展的重大戰略需求,建立生命健康組學(xué)大數據儲存、整合與挖掘分析研究體系,研發(fā)生物多樣性與健康大數據匯交、應用與共享平臺,發(fā)展大數據系統解析與轉化應用的新技術(shù)和新方法,建設支撐我國生命科學(xué)發(fā)展、國際知名的基因組科學(xué)數據中心。
NGDC的主要致力于以下三方面的工作:①?lài)@中國人群普惠健康的精準醫學(xué)相關(guān)組學(xué)信息資源,完善建立中國人群基因組遺傳變異圖譜,形成中國人群精準醫學(xué)信息庫;②基于高通量測序的海量原始組學(xué)數據資源,建立符合國際標準的原始組學(xué)數據歸檔庫,形成中國原始組學(xué)數據的共享平臺;③圍繞國家重要戰略生物資源,建立海量組學(xué)數據的整合、挖掘與應用體系,形成綜合性的多組學(xué)數據庫系統。
常用資源:生物項目數據庫(BioProject):是收集與共享生物學(xué)研究項目信息的資源庫,涵蓋的項目類(lèi)型包括常規組學(xué)研究的基因組、轉錄組、表觀(guān)組和宏基因組等,并針對大型項目提供高效、安全、專(zhuān)業(yè)化的項目分級管理。生物樣本數據庫(BioSample):是收集與與共享生物樣品信息的資源庫,提供生物樣品單結構化描述信息遞交和發(fā)布,涵蓋的樣品類(lèi)型包括人、動(dòng)物、植物、微生物(含環(huán)境微生物)、病毒等,提供批量數據上傳和離線(xiàn)數據遞交服務(wù)。通常一個(gè)BioProjiect對應一個(gè)BioSample,如果多個(gè)樣本可以批量設置BioSample,也就是一個(gè)BioProject對應多個(gè)Biosample。組學(xué)原始數據歸檔庫(GSA):植物/動(dòng)物組學(xué)原始數據歸檔庫 (GSA-Human):人類(lèi)遺傳資源數據,需要備案多元數據歸檔庫(OMIX):如要共享的代謝組數據,影像,Excel等,上述兩個(gè)庫不能存放的,上傳到這個(gè)庫。生物工具庫(Biocode):存放代碼,部分替代github基因組序列數據庫(GWH):類(lèi)似于NCBI 的genebank, 基因組拼接組裝完的數據可以上傳到這里基因組變異庫(GVM):等同于NCBI DDSNP(19年后只接受人的),包括人動(dòng)物作物的單核苷酸多態(tài)性變異,call SNP 變異的數據上傳這里生物數據庫目錄(DBCommons ):根據引用(平均年引用)評價(jià)一些數據庫,如DVide和KEGG等基因表達數據庫(GEN):等同于國際上的GO甲基化數據庫(MethBank)
二、NGDC的發(fā)展歷程生物信息的數據要海量整合后才會(huì )有價(jià)值,割裂的數據庫只完成了“存”卻難以走向“使用”, 為了解決我國基因組數據存管用難、數據流失嚴重、核心基因組科學(xué)信息資源先“出口”再“*敏*感*詞*”的問(wèn)題,國家基因組科學(xué)數據中心應運而生。從2016年到2022年,短短6年的時(shí)間,NGDC已經(jīng)發(fā)展成為全球主要的生物數據中心。
三、什么是GSA?
組學(xué)原始數據歸檔庫(Genome Sequence Archive,簡(jiǎn)稱(chēng)GSA)是組學(xué)原始數據匯交、存儲、管理與共享系統,是國內首個(gè)被國際期刊認可的組學(xué)數據發(fā)布平臺, 主要匯交實(shí)驗信息(Experiment Metadata)、測序反應信息(Run Metadata)信息以及歸檔測序文件數據(Sequence Data file)。
GSA的系統建設遵循了國際核酸序列共享聯(lián)盟(InternationalNucleotide Sequence Database Collaboration,INSDC)的相關(guān)標準,并作為INSDC的補充,旨在減輕國際相關(guān)數據庫數據存貯及數據傳輸的壓力;立足中國,服務(wù)全球。由于中國國際網(wǎng)絡(luò )出口帶寬的瓶頸問(wèn)題,數據傳輸效率低下。以中國科學(xué)院北京基因組研究所的150Mbs出口帶寬為例,向NCBI數據庫遞交1TB的數據需要花費2周以上的時(shí)間。GSA的建立可以讓國人享受更快的傳輸速度,更貼心的服務(wù)!
截至2022年4月,GSA已為*敏*感*詞*多個(gè)單位提供免費數據存儲服務(wù),累計用戶(hù)遞交項目信息超過(guò)572,259個(gè),用戶(hù)提交的測序數據量超過(guò)13.23PB。
在這里插入圖片描述四、為什么選擇上傳數據到GSA?
上傳GSA數據庫的幾大理由:
1.符合數據戰略安全要求;2. 是國內首個(gè)被國際期刊認可的組學(xué)數據發(fā)布平臺;3.界面可切換為中文,契合大家閱讀習慣;4.人性化設置,例如公布日期可隨時(shí)修改,數據未公開(kāi)前可一鍵分享給審稿人查看,數據上傳信息修改、增添方便等等;5.多途徑協(xié)助數據上傳, 上傳數據快 (qq群全天候解答疑問(wèn),優(yōu)盤(pán)寄送或工作人員*敏*感*詞*拷貝等綠色上傳通道)。3. GSA立足于中國,極大方便了中國科學(xué)家的數據遞交,同時(shí)遵循INSDC聯(lián)盟數據標準,立心于服務(wù)全球,為全世界的科研領(lǐng)域共享貢獻數據。
簡(jiǎn)單來(lái)說(shuō)就是:有底氣、被認可、更快、更方便
五、如何上傳測序原始數據至GSA?(重點(diǎn)??!附詳細步驟?。。?. 準備要上傳的數據原始數據,fastq、bam文件,網(wǎng)站只接受gzip和bzip2壓縮格式
2. 計算MD5碼
MD5碼主要是用來(lái)校驗遞交的數據在網(wǎng)絡(luò )傳輸過(guò)程中是否損壞或丟包,它是由數字和英文字母組成的長(cháng)度為 32 的定長(cháng)字符串,一般測序公司返回的數據中會(huì )有。我們也可以通過(guò)以下方式進(jìn)行計算MD5碼:
代碼如下(示例):
md5sum D1-1_1.clean.fq.gz
<br />
3.進(jìn)入NGDC主頁(yè),登入賬戶(hù)
首先進(jìn)入我們NGDC主頁(yè):()--點(diǎn)擊登入;
在這里插入圖片描述如果是第一次使用要注冊賬戶(hù):
4. 填寫(xiě)數據信息
賬戶(hù)注冊完以后,就可以登入賬戶(hù)按照以下原則進(jìn)行數據信息錄入。簡(jiǎn)單來(lái)說(shuō)就是填寫(xiě)你要上傳數據的信息,分為以下三步①先創(chuàng )建BioProject ②創(chuàng )建BioSample ③創(chuàng )建GSA(先創(chuàng )建experiment 再創(chuàng )建run)。只填寫(xiě)*的必填部分即可??赡艽蠹也惶斫釨ioProject, BioSample,experiment, run。舉個(gè)例子,假如我有以四個(gè)時(shí)間點(diǎn)Ck,12h,24h,48h,每個(gè)時(shí)間點(diǎn)三個(gè)生物學(xué)重復,取樣測的轉錄組數據。那么我就有12個(gè)樣本BioSample,12個(gè)experiment,12個(gè)run,或者一個(gè)experiment對應多個(gè)run也可以。
第一步:建立Bioproject。依照以下步驟,進(jìn)入BioProject數據庫創(chuàng )建BioProject并完成相關(guān)信息的填寫(xiě)(要用英文填寫(xiě))。注意最后要設置一個(gè)Release Date,即設置公開(kāi)項目的時(shí)間,我們可以設置6 month-1 year后,然后在文章發(fā)表后手動(dòng)公布,但是最長(cháng)不要超過(guò)兩年。信息填寫(xiě)只用填寫(xiě)帶星號的必填項即可。
在這里插入圖片描述
在這里插入圖片描述
第二步:建立BioSample。建立完項目后,返回主頁(yè)點(diǎn)擊BioSample,按步驟填寫(xiě)相關(guān)信息。這里也要設置BioSample的發(fā)布日期,通常情況下可與Bioproject的發(fā)布日期保持一致。
示例:
說(shuō)明:
第三步:創(chuàng )建GSA。
進(jìn)入GSA數據庫 () --- 新建GSA ---下載表格---完成Experiment和Run相關(guān)信息填寫(xiě)并上傳。如果沒(méi)有創(chuàng )建Bioproject和BioSample或者創(chuàng )建了,也可以直接進(jìn)行這一步,會(huì )有跳轉鏈接,跳轉到創(chuàng )建Bioproject,BioSample。
進(jìn)入GSA數據庫
新建GSA
填寫(xiě)信息
下載表格文件
例如:
說(shuō)明:
網(wǎng)站更新之后,BioSample和GSA中Experiment 和run的信息以表格的形式填寫(xiě),比之前方便多了
5. 數據上傳:(1). 通過(guò)FTP軟件 上傳(上傳需要流量??!如果小數據可以用)可以下載 FTP 客戶(hù)端軟件(比如 FileZilla Client)登錄 FTP 服務(wù)器,用戶(hù)賬號與NGDC賬號一致。主機處輸入服務(wù)器地址:ftp:// ;輸入用戶(hù)名和密碼,即注冊NGDC的郵箱和密碼; 注意要先切換到GSA目錄下再上傳。
常見(jiàn)登錄問(wèn)題:登入問(wèn)題1: AUTH SSL 的報錯信息 無(wú)法連接服務(wù)器 文件----站點(diǎn)管理器-----設置協(xié)議為: ftp文件傳輸協(xié)議-----加密:選擇只使用明文FTP
登入問(wèn)題2:M*敏*感*詞* 的報錯,顯示“讀取目錄列表失敗”。Filezila –>編輯->設置--修改傳輸模式, 改為被動(dòng)模式
(2). 通過(guò)服務(wù)器上傳(推薦?。。?如果實(shí)驗室有服務(wù)器的話(huà),推薦服務(wù)器上傳,步驟如下:(服務(wù)器上要先安裝ftp )
代碼如下:
cd???/home/chenss/data????#進(jìn)入需要上傳數據的路徑下ftp submit.big.ac.cn #連接遠程服務(wù)器sisichen@bjfu.edu.cn #輸入用戶(hù)名(注冊用的郵箱);****** #輸入密碼;cd /GSA #切換到指定文件夾;binary #使用二進(jìn)制模式(binary mode)上傳prompt #關(guān)閉交互模式mput *.fq.gz #上傳數據
注意:登錄自己的 FTP 路徑后,一定要先 cd 到 /GSA 目錄下再上傳文件
?。?)郵寄硬盤(pán)
數據量大的話(huà)(超過(guò)1TB),可以郵寄硬盤(pán)到GSA協(xié)助上傳數據。具體可以聯(lián)系
6.等待審核
通常情況,數據文件審核歸檔約1-2天 (數據量越大響應所需時(shí)間越長(cháng)),歸檔成功后系統會(huì )以郵件發(fā)送插入文章中的GSA 的 Accession number 如CRA0016XX, 這個(gè)記錄好文章中要寫(xiě)。在數據審核歸檔期間,用戶(hù)如果需要修改或刪除數據信息,可以聯(lián)系 ,或者加群: 548170081.
總結
以上就是今天要講的內容,本文僅僅簡(jiǎn)單介紹了組學(xué)原始數據提交到GSA的方法,適用于新手,更簡(jiǎn)單的方法是,可以直接選擇GSA---提交數據,已有項目和樣本信息可以直接填寫(xiě)編號,沒(méi)有可以點(diǎn)擊跳轉到對應地方填寫(xiě)。此外NGDG還有生物工具庫 (Biocode)、多元數據歸檔庫 (OMIX)、基因組序列數據庫 (GWH)、基因組變異庫 (GVM)等、生物數據庫目錄 (DBCommons )、甲基化數據庫 (MethBank)、基因表達數據庫 (GEN)、生物信息在線(xiàn)分析平臺(BIT)。



















