近日,球速体育生命与健康大数据中心开发了国际领先、海内首个规模最大的基因组序列变异库—GVM(Genome Variation Map)。该库基于人工审编整合了多个物种的大宗基因组序列单核苷酸多态位点和小的插入与删除变异信息,是基因组序列变异信息汇交、治理与检索的资源库。研究结果以“Genome Variation Map: a data repository of genome variations in BIG Data Center”为题在国际学术期刊Nucleic Acids Research在线宣布。
基因组序列变异是基因组DNA水平爆发的可遗传变异,是生物多样性的基础,是物种进化、分子育种、优良性状选育、人类疾病等研究最为名贵的遗传资源。近年来,随着测序技术生长,越来越多物种的基因组被精细解析;物种内遗传多态变异位点也通过大规模的群体测序获得,并广泛应用于庞大性状的关联解析。国际两大数据中心NCBI和EBI旗下的dbSNP和EVA是两个主要的基因组序列变异资源库。今年5月,NCBI宣布自2017年9月1日起,dbSNP和dbVar两大数据库停止接收非人物种的SNP提交信息,自2017年11月1日起停止非人物种的SNP在线盘问与提交。对基于序列变异研究的科研人员造成了极大未便。
为此,GVM作为生命与健康大数据中心的焦点数据资源库之一,搜集了以二代测序和芯片技术为主要检测手段的全基因组序列变异检测的原始数据,通过标准化的变异位点鉴定与注释,获得包括人、畜牧动物、主要农作物和其他资源物种在内的19个物种共约50亿的变异信息,8,884个个体的基因型数据,并通过人工审编收录了13,262条高质量非人物种的基因型与表型知识数据、整合了180,911条人变异位点的知识信息。其中,大熊猫、虎鲸、毛竹、橡胶、小麦是GVM数据库所特有的物种。
GVM开发了友好的数据提交、浏览、搜索和可视化功效。用户可通过基因组位置、变异影响、基因名称和基因功效等检索变异位点信息,下载数据,也可通过ftp效劳下载VCF和FASTA文件花样的全基因变异信息,可以在线或离线方法向系统提交数据,极大便当了科研人员的数据共享。
该研究获得了球速体育战略性先导科技专项、球速体育国际大科学计划、国家科技攻关计划、国家863计划、国家自然基金项目、中科院青年立异增进会等项目基金的资助。
论文链接
GVM数据库物种变异信息统计表