BT和IT的深度联姻:全基因组测序智能化云端数据生产线正式发布


 

导语

增速放缓,存量转化,基因健康行业迈入新的起点。测序成本降低、政策和资本助力的设备竞赛下,每天可产生高达PB级基因数据。一个重大挑战来了:基因大数据的转化价值。除了加速行业标准建立之外,基因大数据的转化需追溯到数据源:智能化自动化数据生产、数据管理和数据安全等。这里需要BT(生物技术)和IT(信息技术)的深度协同。华大科技和GeneDock共建的智能化云端数据生产线就是这样的创新合作探索之一。
划重点
·  基因数据传统生产跨地区传输风险高,流程长,涉及人员广,资源效率利用低。·  平衡用户体验和计算资源利用率同时,需要深度浸润基因产业应用场景。

·  BPL智能化云端数据生产线实现跨地域交付,将交付时间由周级别降为天级别,单个样本成本可精确计量。

·  基因产业或将汇入数字健康大版图,那时数据本质和智能生产的价值愈发凸显。

1

图,来自网络授权

基因数据生产业务场景及痛点

把“基因数据生产”拆开来说,首先是基因数据,而后是生产。前者是刚刚从科研转化到产业仅十年的分子生物信息化,后者是工业化以来追求效率和简捷的流程化。两者的难以平衡,加上传统生产线的自动化和智能化尚不成熟,多流程多人员的繁琐流程以及人才储备不够,使得基因数据生产的成本控制和交付体验,成为各家企业都需要面临的挑战之一。

我们来看看华大科技——作为全球最大的测序机构的生产流程。

3

图,华大科技的生产流程,经授权提供

对于众多基因数据生产企业而言,在基因数据生产流程和业务场景上,存在着以下几点痛点之一或者全部:

1)多个数据生产站点,业务流程长。以行业龙头企业华大科技为例,国内外有多个自建和合作的测序实验室,在实际生产业务中,华大会将样本就近分发到测序实验室,再汇总下机数据到深圳,完成后续的数据质控、生信分析和结果数据交付。这在生产规模到一定程度的基因企业中都会出现此类情况,在多个物理站点的数据分析和管理过程中,存在多步骤的数据分发和整合等痛点。

2)涉及操作人员广,核心环节依赖人工协作。在基因数据管理环节,数据处理组把数据放入本地磁盘阵列,按照统一的数据规范整理并进行质控分析,通知生物信息分析人员,生物信息分析人员查看质控报告,把数据上传到集群,开始运行分析流程。分析完成后,数据下载到本地备份,通知项目管理人员,数据分析完成,然后把数据交付给客户。这其中涉及生物信息分析、项目管理和IT等多个岗位,对岗位的专业性要求严格,而目前具备专业背景的人才稀缺。在核心环节过度依赖人工协作将带来信息管理的重大风险。

3)依赖第三方物流,难管理,且有一定安全风险。在构建云端数据生产线之前,多个测序实验室将测序下机数据通过硬盘或网络传输的方式汇总。对于TB级别的项目数据而言,一般网络传输存在较大瓶颈,而硬盘传输目前往往依赖传统的第三方物流,缺乏数据物流过程的有效存储、实时追踪和信息安全保障等。

4)计算资源限制,交付不稳定。在每一年测序仪更新换代,测序价格以超摩尔定律下降情况下,数据生产需求与日俱增,而计算资源的价格短时间内无法快速下降,完全靠本地计算资源的扩充不仅需要较高成本,在非峰值时期造成资源浪费之外,过渡期的交付不稳定也影响交付体验。

BT和IT的深度联姻:全基因组测序智能化云端数据生产线

如何解决以上问题?是众多基因企业而言一直以来困扰的难题。

一方面,需要平衡用户体验和计算资源使用的效率,另一方面,缺乏专注于基因数据计算解决方案的供应商,这不仅需要有IT背景,更需要有对BT业务场景的浸润和上下游联动的资源能力。

成立于2014年的GeneDock,定位很专注,“可靠的精准医学数据技术伙伴”,核心成员来自阿里巴巴、华大基因等业界知名的IT和BT企业,同时有投资人经纬中国、普华资本、贝壳社、联想之星等知名投资机构的资源,在基因大数据智能化云端数据生产上可谓是拥有天时地利人和的条件。目前已为包括华大科技在内的国内数十家行业顶尖机构和企业提供组学数据平台服务;

2017年11月10日,深圳华大基因科技服务有限公司(以下简称“华大科技”)总经理高强博士与北京聚道科技有限公司(以下简称 “GeneDock”)CEO李厦戎博士在北京正式签署了基因组解码计划战略合作协议。 目前,双方已经完成了基于GeneDock BPL智能化云端数据生产线的开发和调试,以及数百个全基因组数据的压力测试,并投入生产。这是业界实现跨地域大规模组学数据交付及数据生信分析生产自动化的开创性实践。

智能化云端数据生产线【性能】

主要的性能指标✔️  缩短数据平均交付时间,由周级别降为天级别;

✔️  提升并发任务数,全基因组数据计算达到100个/天;

✔️  压力测试中任务失败率低于1%,失败原因均为非系统原因(输入数据没通过质控)。

满足业务和管理需求

✔️  跨地域交付数据;

✔️  细粒度权限控制保证安全性;

✔️  组学数据多层质控;

✔️  单个样本成本可精确计量。

智能化云端数据生产线【流程】

4

图,GeneDock和华大科技的智能化云端数据生产线

GeneDock的BPL产品方案基于以上的业务难点和痛点,和华大科技共建“智能化云端数据生产线”,实现智能化、自动化的高效基因数据生产:

  • 不同地域的测序实验室数据会直接通过GeneDock数据传输客户端将数据从多个区域的测序实验室上传到云端
  • 自动化完成云上下机数据质量控制、批量生物信息分析
  • 分析结果出来后,通过GeneDock的数据管理进行云上交付并同时使用专线进行本地备份。

智能化云端数据生产线【优势】

缩短交付周期

通过GeneDock BPL的云上组学数据管理和传输方案,替换掉物流快递硬盘,不仅有效缩短交付周期,还保证了数据的安全性。

自动化生产

通过GeneDock BPL进行了质量控制及后续数据分析,保证分析结果的可靠性,并省去了分析前数据二次下载准备工作。自动化流程则把生物信息工程师从繁琐重复的工作中解放出来

海量数据管理

经大规模压力测试,每天能同时稳定处理上百个全基因组

业务精细管理

生产线处理的每个样本都提供成本核算,并提供月底账单。对于传统的购买硬件自建环境的用户,不能满足资源弹性伸缩的场景需求,也不用考虑硬件折旧成本。

3GeneDock的BPL产品方案介绍
01、数据传输
测序数据下机后的组学数据需要经过传输才能到达数据所有者手中。GeneDock提供了图形化数据传输客户端和命令行客户端,测序数据下机后可直接批量上传 ,省去数据拷贝和硬盘邮寄的环节,提供了传输效率。同时传输过程中提供了数据压缩、加密和校验及用户权限控制等功能,确保数据的安全完整。
5

 图,GeneDock 客户端操作界面

根据不同地区实验室的网络条件,我们采取不同的就近传输方案。例如,从不同城市向深圳汇总测序下机数据。
1)云端跨域:北京测序实验室会先把数据通过云计算厂商高速通道传到云计算北京机房,之后再经过云计算北京到云计算深圳的高速通道,把数据迁移到深圳。2)数据直传:上海和南京的测序实验室使用互联网,直接把数据传输到云计算深圳机房。另外,配合聚道自主研发的基因数据压缩算法,数据的平均传输速度会高于带宽的传输上限,90G的全基因组数据大约在两小时内传完。

源地址              目的地          平均传输速度

  北京                深圳               14.22MB/s

  上海                深圳               13.98MB/s

  南京                深圳               14.09MB/s

图,GeneDock 客户端

02、数据质控
数据质控对数据的分析结果至关重要,是判定数据分析结果是否可靠的直接因素。一般在数据生产过程中会有专门的数据质控团队。GeneDock BPL系统把数据质控过程实现了自动化,数据从测序实验室上传完成之后系统会自动触发数据质控流程,对数据的规范和质量执行自动检测,节省了大量的人力。例如,用户可以对传输的文件设定一套命名规则,加入项目ID等关键信息;依照《临床分子病理实验室二代基因测序检测专家共识》和《二代测序(NGS)技术应用于临床肿瘤精准医学诊断的共识》的指标对FASTQ和BAM文件均进行统计,如果上传数据不符合质量标准,就会自动报警并发出通知邮件,以便生产人员第一时间进行检查。 GeneDock BPL的数据质量智能监控,减少了人为因素处理的中间等待环节,大大提高了数据交付验收和后续生产的工作效率。

6

图,FASTQ文件的基本测序质量统计,经授权提供

03、 数据分析
生物信息的一个重点就是组学数据的处理与分析,随着基因行业在临床和科研方面的应用逐步加深与扩大,样本数量的越来越多,加之分析过程本身也是高并发的过程,如何快速、高效、准确的获取分析结果变成了一个问题。GeneDock自主研发的调度系统,支持任务在多种计算框架(例如本地集群、阿里云、AWS等)中混合调度,为快速、高效的数据分析提供了强有力的底层保障。  
04、细粒度权限控制
组学数据实际的应用过程中,用户通常需要通过不同组织间来进行数据交付(例如,很多机构有多个跨地域的测序实验室),不同的部门间来合作完成数据的分析计算。
传统解决方案中,每个参与人员都可以直接触碰数据,安全性无法得到有效保证。GeneDock提供了完整的权限管理方案,可以实现细粒度的权限控制,管理员可以对不同的用户授予不同的操作权限,如上传读取数据、运行生信工作流权限等,通过控制不同角色的权限,管理员可以完善的保护数据及分析流程的安全,组织内责任划分也更加清晰。
7

图,BPL产品方案的细粒度权限控制

智能化云端数据生产线的持续优化

目前,智能化云端数据生产线正在持续优化的工作包括:

  • 增强云端数据生产线监控

包括任务状态监控、资源消耗监控以及统计报表。

  • 提供更为完整的人全基因组分析流程包括Germline 和Somatic 的人全基因组分析流程和运行记录以及质控报告。
  • 完善协作云迁移到专有云的部署流程减少部署时间,支持更多运行环境;
  • 增加GATK4等权威且开源的工作流降低运行成本和提升结果准确性。
  • 整合基因浏览器方便用户对BAM和VCF文件进行精细查看,准确判定变异结果。
  • 面向海外拓展拓展现有数据交付网络,以便支持海外业务。
编后记
笔者曾在2012年参与研发国内某企业的基因云计算系统,深知BT和IT的Gap,包括理念、技术和场景的区别。5年过去,随着基因数据大规模应用需求的到来,基因大数据在各家企业的快速生产和积累,数据管理仍是一块硬骨头。如同管理人需回溯到选人入口,管理数据需回溯到数据生产入口。仅仅自动化不足以,需要解决跨地区传输,跨专业人员操作的诟病,提升交付效率的本质;仅仅智能化不足以,需要回归到实现单样本的成本核算和提升用户体验的本质。二者的结合一定需要熟稔BT和IT的核心团队。君不见,世界互联网大会召开之际,全球健康大会正在同一个城市召开,规模虽有逊色,但成长速度之快,可以预见,健康产业的明天或将超过今天红火的互联网。所以,基因产业面临IT巨头的大浪扑面而来或将湿身共舞,IT企业也需把头扎进基因产业的内核“里应外合”。美人之美,美美与共,方天下大同,这个领域的天下终将汇入数字健康的洪流成为“平行宇宙"的一个版图,那时基因的数据本质和智能智造价值将愈发凸显出来。
分享到