2018年1月4日,国际核酸研究(Nucleic Acids Research)数据库专刊,连登四篇北京基因组所生命与健康大数据研究结果,包括生命组学数据资源建设结果(D14-20)、实时定量PCR内参基因知识库—ICG(Internal Control Genes;D121-126),甲基化数据库Methbank升级版(D288-295)以及基因组序列变异库—GVM(Genome Variation Map;D944-949)。四篇文章在核酸研究杂志的宣布,标记着我国综合型生物信息资源库建设获得国际同行进一步认可。
自上世纪60年代以来,国际生物信息学家建立了一系列的数据库。特别是上世纪90年代,随着人类基因组计划的展开以及网络在全球普及,数据库数量和体量迅猛增加,形成了以NCBI、EBI、DDBJ等为代表的多个国际大数据中心。随着测序技术不绝生长,我国已成为国际基因组数据最大产出国之一,但我国产出的组学数据绝大部分必须提交到外洋数据库才华获得认可。据Database Commons数据库统计,我国数据库资源总数已位居世界第二,但大部分数据库没有进行恒久运行维护,严重缺乏深度人工审编,数据库内容边沿化,最终结果是大宗数据库资源质量不高,利用率低。
中科院北京基因组研究所面向国家大数据生长战略和科技立异战略,建立生命与健康大数据中心,建立生物大数据贮存、整合与挖掘剖析研究体系,构建的GSA(Genome Sequence Archive)数据库已开展原始组学数据存储与共享效劳,并与国际接轨,存储的数据已支持Cell、Nature Communications、PNAS、Genome Research等杂志文章宣布,建成我国生物大数据汇交共享平台,成为继NCBI、EBI、DDBJ之后第四个综合基因组权威数据库。同时,还建成了生物大数据多条理组学层面的数据资源体系,包括基因组归档数据库Genome Warehouse、基因组变异数据库Genome Variation Map、基因表达数据库Gene Expression Nebulas、甲基化数据库Methylation Bank、生物知识库Science Wikis,对我国科学研究和工业立异生长起到了重要支撑作用。
该研究获得国家重点研发计划、国家自然基金委、球速体育战略性先导科技专项、球速体育国际大科学计划等项目基金的资助。