若论近30年人类生物医学基础研究,遗传密码的测量必定是最耀眼的成果之一。人类代代繁衍,靠什么实现遗传?遗传信息储存在哪里?它们是什么样子?
我们知道,遗传信息储存在DNA(脱氧核糖核酸)里,长长的DNA序列由四种碱基A、G、C、T排列组成,不同的序列段记载不同的信息。有些段落含有制造蛋白质的信息,这些段落就是我们常说的基因。一整套人类DNA序列被称作“人类基因组”,它不仅包含所有人类基因,还包含大量不用来编码蛋白质的其他有用信息。DNA在每个细胞的细胞核里组成染色体,DNA要释放的信息先转录产生mRNA(信使核糖核酸),mRNA再翻译制造蛋白质进而完成各种生物学功能,这就是著名的“中心法则”。
一个人的遗传密码到底有多长?约30亿个字符。如果一页打上3000个遗传密码,用A4纸打印出来装订成书,厚度能达到约100米,有30多层楼那么高。20世纪90年代初,“人类基因组计划”正式启动,开启人类在分子水平上认识自身遗传密码的新航程。2001年,人类基因组精细图谱及其初步分析结果发布,使我们看到由四种符号组成的一维人类遗传密码的真实面貌。人类基因组研究促成基因检测等一系列新技术出现,还带来基因诊断、基因治疗、靶向药物等医学新手段,生物医学进入建立在基因组大数据基础上的精准医学时代。
在分子水平上认识人类生命活动
“人类基因组计划”不仅找到了各种人类基因,积累了大量基因组数据,还积累了由基因组转录出来的各种RNA(核糖核酸)数据,以及由mRNA翻译产生的各种蛋白质数据。RNA的集合称为转录组,蛋白质的集合称为蛋白质组,机体所有代谢产物组成代谢组,此外还有表观遗传组等。通过大数据研究这些“组”及其相互关系的工作即称“组学大数据”研究,组学大数据的介入成为当代生物医学发展的典型特征。
有了这些大数据,就能够从分子水平上了解人体生长、发育、正常生理活动的本质和基础,还能够通过对健康人和病人组学大数据的比较找到各种疾病在分子水平的病因。我们已经知道,约有6000种以上的人类疾患是由各种基因突变引起的,比如有人估计与癌症相关的原癌基因约有上千个。大数据的分析还带来很多与疾病相关的新发现,比如发现人类基因组中不编码蛋白质的序列(非编码序列)的突变也可能导致疾病。
更多的疾病是环境(包括致病微生物)与人类基因及其产物相互作用的结果。在医学领域,由于组学大数据的应用,人们也开始关心其他相关数据的搜集、整理,共同形成医学领域的大数据。比如,记载病人基本情况的电子病历,可穿戴设备测量的生理指标,超声、核磁、CT等影像数据以及各种环境大数据等。当今人类面临的人口、健康、食物、环境、资源等重大问题都同生物医学大数据密切相关,研究生物医学大数据对人类健康与可持续发展具有重要意义。
为诊断治疗带来新技术新方法
当我们知道了人类全部基因在染色体上的位置、它们的序列特征及其表达规律和产物特征,就可以有效判定各种疾患的分子机制,进而发展合适的诊断和治疗手段。生物医学大数据研究为生物医学发展提供前所未有的机遇,为疾病诊断与治疗带来许多新技术、新方法,如基因诊断、基因治疗、靶向药物等。
基因诊断。伴随基因组大数据的收集、分析,人们发现很多疾病包括肿瘤是基因突变造成的,研究人员把遗传密码的变化记录下来并保存到数据库中,然后通过测序或基因芯片检查病人基因是否发生了这种变化,以帮助疾病确诊,这就是基因诊断。不同人得了同一种疾病,基因检测可能会发现他们基因突变的位点完全不同,因此对同种药物的反应也不同,必须因人而异地制定医疗方案,这种个性化治疗更加精准。
基因治疗。即将正常外源基因通过基因转移技术插入病人的适当受体细胞中,使外源基因制造的产物得以纠正或补偿因基因变异或基因表达异常引起的疾病。目前,基因治疗的对象已经由单基因遗传病逐步拓展到恶性肿瘤、感染性疾病、心血管疾病、自身免疫性疾病、代谢性疾病等重大疾病。
靶向药物。当我们知道哪些基因序列变化会导致疾病,就可以通过测量局部基因序列来鉴定导致疾病的基因。比如,特定基因的突变可引起癌症,这些突变了的基因就是肿瘤治疗的目标,也就是“靶向”,针对这些靶向设计的药物就是靶向药物,靶向药物的治疗目标是具体的、精确的。比如,赫赛汀就是以特定基因为靶向设计的乳腺癌治疗药物。
人类有望进入精准医学时代
基因组研究不断深入和基于大数据的新方法、新技术投入应用,将使医疗更加精准有效,人类有望进入精准医学时代。
精准医学是组学大数据与医学的结合。精准医学在使疾病诊断更加准确、治疗更加有效的同时,还能为医疗体系带来更加重要、更为本质的变化。尤其是,帮助人们在没有发病的情况下根据基因组序列的变化预测疾病发生的潜在风险,从而能对任何个人在其成长任何时期进行健康评估、预测,并制定相应干预方案,进而做到健康保障。所以,精准医学的长远意义是使医疗关口前移:从诊断治疗到健康保障。当前的医疗体系以病人为主体,以疾病诊断治疗为目的。将来的医疗体系则是面对所有社会成员,对社会成员整个生命周期进行监测,从而实现以健康评估、健康预测和健康干预为目标的健康保障。
实现精准是目标,我们现在离这一目标还有很大距离,存在多方面巨大挑战。比如人类基因组解译的挑战。人类基因组上编码蛋白质的区域,也就是基因,只占一小部分,不超过整个基因组的3%,其余97%左右的DNA序列统称为非编码DNA。近年来大量研究表明,占人类基因组97%的非编码序列具有重要的生物学功能,且与人类疾病直接相关。迄今为止,我们对这些非编码序列以及相关的非编码基因和非编码RNA的功能只有很少了解。在这种情况下,实现精准是困难的。
再比如大数据挖掘的挑战。生物医学相关的大数据不仅数量大,而且是多尺度、异质化、高度复杂的。这些数据小到分子、细胞,大到器官、整体,尺度相差甚远;这些数据有的是数字、符号,如基因组数据;有的是波形,如心电、脑电;有的是图像,如超声、核磁、CT。同时,生命活动和疾病发生是动态的,往往不是由一个基因决定,可能有多个基因参与。因此,大数据解析还必然涉及复杂网络。面对如此复杂的数据挖掘,人工智能技术将成为从海量、复杂的生物医学大数据中获取生命活动知识的有效工具。
基因组大数据发展路上的各种挑战,其实也为科学技术原始创新提供巨大机遇。现在作为临床分子标记的只是占人类基因组约3%的编码序列,如果把97%的非编码序列中与疾病相关的分子标记都挖掘出来,将会增加无数新的分子标记和药物设计的靶标。
精准医学是我们向往的目标,实现它还有很长的路要走。人类通过不断努力,遗传密码逐步破译,人类医学必将更加精准。期待这一天早日到来。
(作者为中国科学院生物物理所研究员、中国科学院院士)