《深圳商报》：深圳先进技术研究院开发出一套基因分析软件基因大数据，有了它可快速解读----中国科学院深圳先进技术研究院

首页 > 媒体报道

媒体报道

《深圳商报》：深圳先进技术研究院开发出一套基因分析软件基因大数据，有了它可快速解读

时间：2018-11-02 来源：文本大小：【大 | 中 | 小】【打印】

　　一个人的全基因测序数据量有多大？答案是约300G。

　　“一个人有46条染色体，全部读取存储下来约3G。而在实际测序中通常需要复制50-100份，这样一来，一个人的数据量可达300G。”近日在接受记者采访时，深圳先进技术研究院魏彦杰博士称。

　　面对海量基因数据，传统电脑的分析工具已经远远无法满足高效分析的需求。如何破题？魏彦杰博士团队与华大基因及美国阿贡国家实验室合作，借助超级计算机，开发了一套快速分析基因大数据的软件算法，并将数据结果用于探寻自闭症等复杂疾病的病因。

　　把剪碎的基因片段拼起来

　　近年来，随着基因测序技术的快速发展，全球范围内产生了海量的基因数据。据悉，仅华大基因目前的基因数据总量就达到约50PB。假设一部1080P高清电影约20G，那么华大基因的数据量大约相当于262万部高清电影。如此庞大的规模，意味着不菲的分析费用。魏彦杰团队研发的软件系统借助超级计算机，实现了快速基因组组装。

　　什么是基因组组装？这要从第二代基因测序原理说起。据魏彦杰介绍，在第二代基因测序中，46条染色体在实验过程中被剪成很小的基因片段。

　　“正常的基因长度含几千甚至上万个碱基，而在测序中被剪成了约100个碱基的长度。”魏彦杰说，“就像给你一本剪碎的百科全书，拿到任何一个碎片都读不出它的全貌。而第二代基因测序给出的就是这样一堆碎片，现在要用计算机的方法将它的每页每章节恢复出来。”

　　据介绍，基于超级计算机Mira，魏彦杰团队研发的软件系统可在10分钟内处理4T的基因数据，数据量相当于204部高清电影。作为开源系统，这一系统可以在所有超算上运行。自2014年上线以来，下载量达600多次，已被阿贡国家实验室、俄亥俄州立大学等机构广泛使用。

　　强大的超算需要优质的软件

　　在对基因大数据的快速分析处理中，超级计算机扮演了重要角色。据魏彦杰介绍，由于数据量巨大，只有利用超算的分布式内存，通过联合使用的方式才能完成大数据的导入和计算。

　　也就是说，一台计算机无法完成的工作，现在通过多台计算机合作可以完成。如何提高计算机间的通讯效率，使每台计算机发挥最强计算能力，则需要通过算法设计来实现。

　　“现在我们有了E级超算，但怎么用是关键。这么多资源，这么大的机器，需要运行更高效的软件。”魏彦杰说，中国的超算硬件已经处于世界前沿，但软件相对滞后，尤其是众多超算的商业软件仍由国外主导，我国需要更多优质软件，以更好发挥超算的作用。

　　完成基因测序后，将测序结果用于复杂疾病的机理研究是主要应用方向之一。据介绍，复杂疾病不由单一基因决定，而受到多基因遗传和环境等复杂因素的影响，因此需要借助多种数据来研究复杂疾病病因。自闭症，就是其中一种。

　　魏彦杰介绍，自闭症是一种由多个基因决定的复杂性遗传疾病，如果能通过基因检测等手段，对自闭症患儿进行早期筛查，就能尽早进行康复训练。为此，魏彦杰团队与深圳市儿童医院等机构合作，从基因角度做分析。

　　《深圳商报》2018年10月18日报道http://szsb.sznews.com/PC/layout/201810/18/node_A05.html#content_484363

研究机构更多>

管理支撑更多>

创新平台更多>