深圳2020年7月13日 /美通社/ -- 单机解码全基因组,从需要几天到1小时,再到5分钟,中国生物医学原创技术究竟有多强?2020年6月,深圳承启生物科技有限公司(以下简称“承启生物”)利用自主研发的云平台Chi-Cloud及高精度算法FANSe3,实现单机5分钟分析完成一个人全基因组数据集,再度刷新世界纪录。
承启生物创始人、首席科学家张弓教授表示,“承启生物的解决方案Chi-Cloud+FANSe3在攻破了无数个难题后,成功提升基因检测分析速度。这一突破最值得关注的是全自主研发的FANSe算法,实现精准度之上的速度飞跃;此外,这项中国原创技术不依赖专用加速芯片,让基因测序不再被国外供应商‘扼住咽喉’,大幅降低成本,为精准医疗、普惠医疗贡献力量。”
全自主技术 基因测序不再被扼住咽喉
核心技术是国家与企业的安身立命之本,只有实现核心技术自主才能不被扼住命运的咽喉。承启生物历经6年自主研发的FANSe算法已进入第3代,张弓教授透露,这一算法不依赖专用加速硬件,从根本上避免芯片禁运风险,这项中国高端医学技术将不再受制于人。
承启生物开发人员正在一台高端家用电脑上调试Chi-Cloud
当前全球基因组测序大部分使用的基础算法为国外的BWA、Bowtie等系列算法,单机运行效率并不高。为提高单机运算速度,常见方案是采用GPU、FPGA等专用芯片进行加速。但受国内芯片技术局限,目前国内仅有自主CPU,而高性能通用计算GPU、FPGA等芯片依然被国外垄断。承启的FANSe3算法只使用CPU进行计算,不依赖专用加速芯片,可做到在国产硬件上高效运行。此外,单机5分钟分析全基因组的高效能,意味着在对数据保密性要求的特殊领域(如军事、公共安全、特定的医疗场景等),可直接采用单机分析方式(Chi-Cloud小云模式),无需连接互联网。算法针对国产测序仪进行特别适配和优化,保障精准医学的国家安全。
为应对国产CPU性能与国际顶尖水平的现实差距问题,FANSe3和承启云平台架构在设计之初便支持大规模分布式运算和自适应任务调度,扩展性强,可利用多个CPU共同运算一个任务。“单机的性能弱了怎么办?可以把2台、3台、4台甚至100台机器捆起来一起用,弥补单个CPU性能的不足,达到同样甚至更好的使用体验。”张弓教授说。
“单机5分钟”推动精准医学“更快、更便宜”
由于核心技术完全自主,承启生物团队可以对算法不断改进,使FANSe3代算法在运算速度上实现远超国外算法的飞跃。“单机5分钟”的意义不仅限于提升时间和效率,更在于助推精准医学普及。
目前先进的测序仪已能在一天内完成测序实验,但数据分析用单机通常需要几十个小时才能完成,但对许多临床急性病症,时间就是生命。使用国外算法,各大云服务提供商在使用几十上百台服务器的情况下,仅能将分析时间压缩至半小时到一小时,而使用FPGA等专用加速芯片,也只能实现1-2小时的分析时间,而这些都需要巨额的硬件投入和专业维护,能耗也居高不下。
本次承启生物实现的单机5分钟分析突破,可让大型测序中心摆脱超算集群和专业人员维护需求;硬件购置费用大大降低,能耗也大为降低,绿色环保。
单机5分钟的速度,网络传输是整体分析中的瓶颈。一个人全基因组测序数据文件可高达240GB以上,以千兆网的速度都需要传输40多分钟。为解决这一问题,承启为Chi-Cloud开发了独有的压缩算法,达到了1:10以上甚至1:20的压缩率,缩短原本漫长的传输时间,多节点间的任务调配也更得心应手;与FANSe3算法深度配合,无需解压即可直接运算。
使用高速的网络接入,将数据传输至承启生物的服务器上,测序中心甚至不需购买和维护服务器,基因组测序的分析成本降至几乎可以忽略不计的程度。
所有这些,都让全基因组测序分析“更快”。以超高速的运算助力重症患者“与死神赛跑”,尽力避免治疗“迟了一步”的遗憾,为医生、患者争取更多时间。
FANSe3算法+全链条稳健 实现“更精准”
与速度同样重要的是算法的准确性,张弓教授强调,“准确性是所有优势的前提。FANSe3是全球罕见的准确率有数学证明的算法,错误率已可稳定在十亿分之一以下。经大量实验表明,FANSe系列算法在基因组突变分析、转录组表达分析等应用上,准确度几乎为100%,秒杀国外基于BWA、Bowtie等算法方案,并在医学科研和临床应用中分析超过50万例样本。”
2014年,FANSe算法成为国际人类蛋白质组计划核心支柱的首选分析算法,为全面解析人类蛋白质组做出了关键贡献。2017年9月,在国际人类蛋白质组计划世界大会上,以张弓教授等为代表的广东科学家团队利用FANSe系列算法,发现数千个以往被认为不可能存在的人类“新蛋白质”。最近,承启云平台在中国自主研发的基因组测序标准数据集的评测上,突变鉴定准确性在全部几十个标准数据集上均明显高于国外主流算法。
算法足够准确了,但另一个无法回避的事实是要实现基因测序的准确性,算法只是一方面,另一方面,从采样、运输、前处理到测序的实验全过程必须万无一失,承启生物称之为“全链条稳健”。
张弓教授对“全链条稳健”进行解读:“为什么有些分析结果容易出问题?除部分算法不准确的因素,样本本身在采集、保存和运输过程中发生改变,也会导致误差出现。而分散、小型化测序由于高度依赖专业人员,在现有的经济条件下暂时无法大量推广,也就无法避免样品保存和长途运输,无形中增加精准医疗普及的难度。”正因为国内基因测序受限于各种技术的不稳定性,市场仍未实现真正发展。
而承启生物的“稳”,来源于对整个实验过程细节的精益求精和自主研发。承启生物通过自有的保存运输技术方案,在不使用干冰、冰袋的情况下,DNA和RNA样品可以经受住-55~45°C的温差波动三天而保持完好。在样本前处理和建库阶段,承启研发的实验方案与“标准实验方案”不同,即便样本发生降解,也能通过实验方法和算法容错等方法,实现近乎100%的准确性。原创技术带来的稳健性扩宽了基因检测的应用场景,让基因检测不再依赖大量专业人员,门槛大大降低。稳健的体系也减少了因中间步骤造成的重复测定,进一步压缩了时间、降低成本。
“快、稳、准”制定标准,助力精准医疗大爆发
当未来全基因组测序成为常规检验,全国每天处理的样本将达到海量。基于承启生物自主技术的超精准和超高速,可解决海量样本分析中的瓶颈与痛点,让基因测以低成本实现精准医学的落地,迎来广泛应用场景,为行业发展提供有力支撑。
当前,承启生物的自主化“快、稳、准”的技术体系,被认定为国家重点计划《医学生命主学观质量控制关键技术与示范应用》核酸组学部分的基础,也将成为今后国家相关质控标准的重要依据。标准的建立,将规范整个行业,助力精准医学应用的行业爆发,也为承启生物开启更广阔的发展前景。
关键词: