独家 | 云蜂生物完成临床外显子分析和解读系统开发,一天之内给出分析报告


整理丨张楠

近日,2017中国精准医疗产业领袖峰会暨第七届Bio4P中国医健创新创业大会在杭州举行。24日上午,在精准测序和健康管理分论坛上,深圳云蜂生物的创始人李奇斌博士作了题为《临床级的基因数据分析和解读》的精彩报告。

以下为嘉宾全文整理:

我们2015年底创立了云蜂生物做临床级的基因数据分析。首先简单回顾一下外显子测序在临床应用发展的过程。2007年NimbleGen的科学家开发了基于芯片杂交技术的外显子测序技术。2009年华盛顿大学的几个科学家发表了第一篇将外显子成功应用到遗传病研究的科学论文——他们应用外显子测序技术成功检测到弗里曼-谢尔登综合征(FSS)的致病基因和突变。2011年华盛顿大学的EEE研究组通过对20个trio进行外显子测序,发现de novo突变是患自闭症的重要原因,有1/5的自闭症病人由de novo突变引起的。2013年贝勒医学院在新英格兰医学杂志上发表了外显子测序应用到250个病人的临床诊断结果,对25%的病人做了明确的分子诊断。到2014年他们又发表了2000例病人外显子测序的结果。随着测序的样本越来越多,数据库不断更新,现在大约30%的遗传病病人应用外显子测序能做出准确的分子诊断。

随着科学家逐步把外显子测序应用到临床,2015年美国医学遗传学与基因组学学会发布了变异解读的标准《ACMG指南》,指导大家如何把外显子测序应用在临床上诊断遗传病。2016年国内成立了CHPO,全称是中国人类表型标准用语联盟。测序这个工作本身比较简单,现在国内有两三百家测序公司;但是如何用测序数据回答临床问题,解释病人为什么得各种遗传病,为什么得自闭症、ALS等,还需要对表型做准确的描述,这样才能和基因做关联。我们病人去医院看病的时候,不同医生对病人的表型描述是不同的。CHPO的成立,很好的促进了基因测序在临床的应用。2017年,中国人类遗传学会遗传咨询分会将ACMG指南翻译成了中文,用来指导在中国该怎样将外显子测序应用到临床上。

前面讲了测序本身比较简单,但测序数据的分析和解读是非常复杂的一个流程。全外显子测序的分析解读流程,计算过程(包含数据预处理、基因组比对、变异检测和注释等步骤)通常需要在高性能服务器上运行五六个小时,变异的解读的过程是由人工完成。通过计算机分析我们通常可以筛选出十多个或者几十个候选变异,但到底是哪一个突变真的能导致疾病呢?计算机程序不能完全确定,需要有经验的遗传咨询师针对每个基因查找大量的数据库和文献,判断病人的表型是否能和基因关联起来。接下来找到候选变异用Sanger测序做家系验证,然后手工撰写报告,解读过程通常花费几天或者几周,整个周期通常是三个月左右。整个过程对分析和解读人员的要求高、分析流程长、速度慢,而且阳性率偏低;各个实验室之间的一致性也很低,最近的一年文章报道不同实验室的异质性在20%~70%。两家公司报道的致病基因和突变不一样,至少有一家是错的。医生也会担心,不知道是否应该做这个事情。

我们创业的时候定了目标,一定要把数据分析和解读这件事情在一天以内完成,做到标准化并保证准确,于是我们开发了一套自动化分析系统。现在测序越来越便宜,外显子测序明年可能可以做到一千元左右。我记得2009年做了大型科研项目,测了2000个糖尿病病人的外显子,花了四五千万经费;现在价格已经降了10倍以上,带来的好处是大量的遗传病人有机会得到明确的分子诊断。我国新生儿出生缺陷的发生率是5.6%,绝大多数是由基因缺陷造成的,其中只有小部分的人群能在临床上得到基因水平的确诊。所以遗传病的基因检测,从市场空间来讲潜力很大。测序后可以在我们的系统上做分析解读,最后出分析报告。

现在系统可以分析几个主要的外显子的测序类型,包括Agilent、Nimblgen和艾吉泰康的全外显子。在用户界面输入病人的表型,病人的候选疾病,经过五六个小时的分析就可以得到分析结果。明年我们要把分析时间压缩到两个小时之内,早上做完外显子测序下午就可以出报告。随着测序时间的进一步压缩,原来两三个月的工作很可能压缩到两三天内完成。

分析系统重点介绍几个方面:首先是我们开发了变异过滤的程序,将假的变异尽可能多的过滤掉,真的变异尽可能少的过滤掉——过滤太多真实的变异很可能会丢掉真的致病变异;第二,我们自己开发了变异注释系统,整合了十多个数据库,一个变异有五十多项注释;第三,为了提高检出率,我们自己建了一个致病突变数据库,整合了多个公共数据库的信息,并且对可能错误的致病突变进行校对,目前我们已经校对了两千多个,明年我们还要开展更大规模的校对。最核心的是,我们自己开发了一套算法来快速的锁定causative变异。开发这个算法是因为依靠简单的过滤不能快速确定患者致病基因。举例来说,通常测序一个人的外显子能找到差不多四五万个变异,过滤掉有问题的变异,再过滤内含子和同义变异,再按照频率、功能有害性、隐性遗传模型过滤,最后得到差不多十多个基因。如何从这些候选基因中确定患者的致病基因?我们建了一套统计学习的框架,首先是根据临床表型,得到病人候选的疾病列表,计算每一个疾病的可能性;得到疾病列表后,就知道哪些基因和这些疾病有关,列出候选基因;再借助已知基因相互作用数据库得到潜在致病基因。综合所有这些信息就可以在我们的模型中计算出一个基因是患病致病基因的可能性,并按大小从高到低排序。

举一个案例,有一个流产男胎,表型是脑积水以及胼胝体缺失。通过我们系统分析发现这个X染色体L1CAM基因上有一个突变,排在第一位。经过查询OMIM数据库我们得知L1CAM会导致脑积水、MASA/CRASH综合征和科尔普斯部分胼胝体发育不全等疾病,L1CAM突变的典型症状是脑积水,部分病人有胼胝体发育不全等症状,和病人的表型完全相符。

我们保证用户数据的高度安全。用户通过加密算法上传数据,系统上的数据也有严格的权限控制,只有用户自己或者授权用户才能查看自己的数据。数据有三个备份,本地两份,云端一份,不用担心数据丢失。我们承诺免费存放数据三年,用户随时可以通过帐号访问。

除此之外,我们开发了一个数据库Pubvar,包含目前公开发表的所有人类遗传变异,是目前世界上最全的一个人类遗传变异数据库。现在有3.4亿个变异,将在12月底上线,到时会免费给所有科研和企业用户使用。目前我们和国内外的很多医院和企业达成了合作,包括宣武医院、湘雅医院、艾吉泰康等。希望未来与更多的医院和企业合作,把我国的遗传病基因检测做的更快更好。

 

参考文献:

1.Albert T J, Molla M N, Muzny D M, et al. Direct selectionof human genomic loci by microarray hybridization. Nature Methods, 2007,4(11):903.

2.Ng S B, Turner E H, Robertson P D, et al. Targetedcapture and massively parallel sequencing of 12 human exomes. Nature, 2009,461(7261):272-6.

3.O'Roak B J, Deriziotis P, Lee C, et al. Exome sequencingin sporadic autism spectrum disorders identifies severe de novo mutations.Nature Genetics, 2011, 43(6):585-9.

4.Yang Y, Muzny D M, Xia F, et al. Molecular Findings AmongPatients Referred for Clinical Whole-Exome Sequencing. Jama, 2014,312(18):1870-9.

5.Yang Y, Muzny D M, Reid J G, et al. Clinical whole-exomesequencing for the diagnosis of mendelian disorders. New England Journal ofMedicine, 2013, 369(16):1502-1511.

分享到