第二节 长读长的NGS测序
1.简介
基因组是一个复杂的复合物,其中包含了多种重复序列、拷贝数变化和结构变异。这些与进化、适应以及疾病密切相关[6][7][8]。许多复合物元件过长,用短读长测序无法进行完整读取。而长读长测序的read可以达到数千个碱基,因此能对大的结构进行解析。长读长测序产生的单一长序列甚至可以跨越不同复合物或者重复序列。长读长测序在转录组的测序中也大有优势,因为长读长的read可以不需要拼接就跨越完整的mRNA转录本,能鉴定出更多的基因亚型。
长久以来,短读长测序都很难解决长链DNA中重复序列以及复合序列难以拼接的问题[9][10][11]。而Chaisson等应用长读长测序在GRC人类基因组数据库中提交了超过1 MB的新序列[12],这些长序列甚至弥补了曾经缺失的信息。不仅如此,Chaisson等还鉴定了至少26000个超过50bp大小的插入缺失(insertion-deletion, InDel), GRC人类基因组数据库也因此成为最具参考价值的基因组数据库之一。此外,长读长还能够为临床诊断提供更有效的依据[13][14][15]。
近来,研究人员开发出了两种长读长测序技术,分别是单分子实时测序法(single molecule real time sequencing, SMRT)和利用短读长技术在体外构建长读长的合成法。单分子测序又称为第三代测序技术,与短读长测序完全不同,可以不经过聚合酶链反应(polymerase chain reaction, PCR)扩增就能对每一条DNA分子做单独测序,测序过程中也不需要轮番添加dNTP。代表技术主要为单分子荧光技术,通过识别发光的单个核酸分子来进行实时读取。合成法则是利用条形码拼接来获得长片段,有别于常规长读长测序产生的原始read。
目前最常用的长读长测序是PacBio Biosciences(PacBio)的单分子实时测序法[16][17]。短读长SBS技术需要用聚合酶结合DNA,并沿DNA链进行扩增。PacBio采用了类似SBS的方法,不同的是先使用聚合酶捕获模板DNA并锚定在零模波导孔底部,然后让不同荧光标记的dNTP随机进入零模波导孔底部。荧光dNTP与DNA在酶作用下配对合成新的碱基,这时可根据荧光信号的颜色和存在时长来区分游离碱基与配对碱基,从而获得DNA序列。
2014年,第一台纳米孔(nanopore)测序仪——MinION诞生。与其他平台不同,Nanopore测序仪并不是检测与模板DNA结合或杂交的核糖核酸,而是直接读取天然的单链DNA分子。该过程是让DNA通过一个特殊的纳米蛋白孔,此时会产生特定的电压改变,由于不同碱基发出的电流信号强度有差异,由此可对DNA序列进行读取。该方法最突出的优点就是降低了测序成本,几乎没有试剂的耗费,也不像其他测序方式那样需要用到核苷酸、聚合酶等。并且由于不需要克隆、扩增的步骤,也极大地节省了时间。还有一点就是纳米孔测序能测得更长的read,降低了基因组组装的不确定性。但它也有诸多技术问题亟待解决。首先就是纳米孔的结构问题,理想情况应该是孔径仅容1个碱基通过,这样才能获得最大的信号区分度,但目前的技术水平尚无法做到这一点。另外就是DNA分子的穿孔速度过快导致了信号分辨率不高,这也是目前纳米孔测序准确率较低的原因之一。因此,虽然纳米孔测序相比二代测序有很多优势,但还不能完全取而代之。
合成法主要可通过两个系统来实施:Illumina长片段合成系统与10X Genomics乳液系统。Illumina系统不需要借助特殊仪器就能将DNA分隔到微孔板上。而10X Genomics乳液系统则需先使用微流体平台来进行测序前的准备工作,然后再用乳液分隔DNA。在DNA浓度低至1ng的情况下,10X Genomics乳液系统仍能将DNA分子切割成任意长度的片段(最大达100 KB)。
2.PacBio测序技术
现在最常用到的长读长测序设备是PacBio RS Ⅱ。该设备可以生成超过50 KB长度的单个read,长链建库的测序平均长度为10~15 KB。这对基因组拼接以及基因组结构的大范围应用都很有帮助[18][19]。不过其长链测序中单个碱基的错误率在15%左右[20],又让人们对该仪器的使用有所顾虑[21]。这些错误随机分布于每个read,必须通过足够高的覆盖度才能消除错误率的影响[22]。只要单个碱基的测序次数增多了,所得结果还是比较可靠的,实际上该方法的最高准确率可达到99.999%[23]。这点与Sanger法测序相似,因此该技术与Sanger法一样都被视为研究单核苷酸多态性(single nucleotide polymorphism, SNP)的方法[20]。PacBio RS Ⅱ的运行时间与通量会受到测序读长的影响,长的模板需要更长的时间。举例来说,1 KB的库运行4小时,每个分子可以产生约30000个碱基,期间可重复测序30次左右。而10 KB的库运行4小时,同样产生30000个碱基的情况下却只能重复测序3次左右。高成本(1000美元/GB)、低通量,加上需要较高的覆盖度,使得PacBio RS Ⅱ在一些较小的实验室难以开展应用。
不过PacBio新推出的Sequel系统,通量比RS Ⅱ高出了7倍,测序成本反而下降了一半。二代测序存在的读长较短的问题在Sequel上也得到了改善,其读长一般在9 KB以上,准确率超过85%。虽然Sequel的通量已有大幅提升,但仍较二代测序要低得多,一个细胞才产出5 GB左右,用于临床检测的话成本还是太高。
现阶段Pacbio的产品主要应用在两个方向:一个是基因组的组装;另一个是全长转录组测序。
3.MinION测序技术
MinION纳米孔测序仪的主件是2048个纳米孔,分成512组,由专用集成电路控制。测序原理:首先,待测DNA分子连接上引导接头(lead adaptor)、发夹接头(hairpin adaptor)和拖尾接头(trailing adaptor);由引导接头引领进入纳米孔,其后按照待测DNA、发夹接头、待测DNA互补链、拖尾接头的顺序依次通过。经双序列比对后,待测DNA与其互补链可组合成2D read。另外一种方法是不使用发夹接头,只测序待测DNA,这样形成的是1 D read。1 D测序方法通量更高,但是准确性要低于2D read。
ONT MinION是一个小型的USB设备(3cm×10cm),可以在个人电脑上运行,这也是目前最小的测序平台。尽管一些相应的设备必须要有固定场所来安置,如做文库准备的恒温器,但本身小体积仍使其操作极具便利性。不过MinION对测序片段的大小有一定限制。理论上,该设备能测序任意大小的DNA分子,但实际上,对长片段进行测序时还是会出现一定的错误率[24]。同样,如何有效地对核糖核酸复合物进行测序也是ONT MinION面临的一大问题。由于通过纳米孔时的电流信号存在时间很短,加上一些修饰的碱基也会改变原先设定的电压变化,当核糖核酸复合物较长时,也没法准确鉴定其通过纳米孔的顺序。但最近一系列对试剂和算法的改进使其准确率提高了不少[25]。
1)MinION相对于其他NGS测序平台的优势
(1)碱基修饰的检测。纳米孔测序技术可以检测4种胞嘧啶的碱基修饰,分别为5-甲基胞嘧啶、5-羟甲基胞嘧啶、5-甲酰胞嘧啶和5-羧基胞嘧啶,检测准确率为92%~98%。
(2)实时测序监控。临床实践中,传统的NGS测序要做到实时获取和分析DNA/RNA序列,是一件不容易的事情,但运用MinION则相对容易办到。首先是MinION体积小,方便携带;其次是当待测DNA分子穿过纳米孔时,其电流变化马上被检测并识别,能迅速给出结果。在不考虑错误率的情况下,可以说真正做到了实时监控,这对于一些特定目标的测序有着重要的作用。另外,还可利用这种技术特点实现目标序列的富集:当DNA片段通过纳米孔时,如电流变化与目标序列一致,则能通过;如呈现不同的电流变化,则片段不能通过纳米孔。这样能显著地减少测序时间,有利于野外操作和即时诊疗。
(3)测得更长的read。MinION测序仪可以生成300 KB长的1D read,以及60 KB长的2D read。这种长read,甚至帮助研究人员完善了人类基因组Xq24号染色体上一个长50 KB的间隔。
(4)结构变异的检测。由于只能检测短序列的缘故,NGS对结构变异的检测往往不准确,这个问题在肿瘤检测中尤为突出,因为肿瘤组织中充斥着各种结构变异。研究发现MinION通过几百个长reads测得的结构变异结果甚至比NGS所测的上百万reads的结果要更可靠。
(5)RNA表达分析。NGS平台测得的短序列都需要进行序列拼接才能得到转录本,通常情况下由于缺乏足够信息而无法区分形式各异的可变剪切。而MinION测序仪产生的长read,可以更好地解决这个问题。以果蝇的唐氏综合征细胞黏附分子1(down syndrome cell adhesion molecule 1, Dscam1)基因为例,其存在18612种可变剪切形式,MinION测序仪可以检测到其中7000种以上,这样的结果是NGS短序列测序不可能获得的。
2)MinION目前的应用领域
Nanopore测序仪的具体功能定位仍在探索当中,像快速文库制备、实时数据生产以及小体积等优势都有望转变为实际价值。
(1)即时检测传染源。纳米孔测序方法与NGS方法都可以用于院内传染源病菌的检测,而纳米孔技术在测序读长、便携性、检测时长等方面更具优势。文献记载MinION测序从样品准备到发现致病菌只要6小时,其中从样品放入机器到发现致病菌仅需4分钟。有英国的研究人员就将MinION用于监测沙门氏菌的爆发[26]。在2014年的埃博拉病毒爆发事件中,MinION测序仪也有出色的表现[27]。
(2)非整倍体检测。MinION在胎儿非整倍体产前检测中也发挥了重要作用。此检测在NGS平台通常需要1~3周时间才能获得结果,而文献报道使用MinION测序只需要4小时。