阅读:6436回复:0
技术讲座-外显子测序视频已征得原作者(陈巍)许可,有兴趣的,大家可以看一下。版权归原作者所有。 今天,我们会和大家谈一下人外显子组测序的方法原理。和它能够给我们带来哪些有用的生物信息。 那我们还是分两个部分来介绍,第一个部分呐,介绍外显子测序的技术方法。第二个部分,我们来介绍外显子测序可以得到哪些有用的生物信息。 实验原理 那么,我们先来说外显子测序的工作原理。 我们先来看这张图,外显子测序的核心技术呐,是这(些)个针对人外显子序列设计的捕获探针库,那么这些探针的序列呐,都和人外显子的DNA序列相互补。 在实验过程中呐,它可和人的外显子DNA序列进行杂交结合。同时呐,这些探针都标上了生物素。 有了这个捕获试剂盒呐,就可以进行建库、和捕获了。 第一步呐,是先把基因组DNA进行超声打碎,建成DNA文库。 第二步呐,是把建好的文库和探针库进行杂交。 杂交过程中,通过核酸序列的互补结合的原理,探针会和目标DNA片段进行结合。 然后呐,再用结合了链霉亲和素的磁珠,与这个杂交混合液呐进行混合。 因为链霉亲合素是会和生物素牢固结合的。 这样,就把我们要捕获的外显子目标片段,通过探针,间接地结合到了磁珠上。 然后呐,通过磁铁把这些磁珠给吸附下来。 而把上清液呐给去掉。 这样呐,也就把没有结合的DNA片段给洗掉了。 再接下来,用洗脱液,把我们要的DNA文库从磁珠上给洗脱下来。 那么这些文库呐,再经过PCR扩增,就可以上HiSeq测序仪进行测序了。 测完序以后,就可以进行生物信息学的处理了。 数据分析 那么先是把这些测序的DNA片段比对到人的基因组上。 然后呐,把这些比对到基因组的序列进行突变分析。 覆盖深度 一般用Agilent SureSelect 50M的试剂盒进行外显子建库、捕获。再用HiSeq 2500 V4 PE125的方法进行测序,测10个G的数据量。大约可以得到95X的“有效测序深度”。我们说的有效测序深度(effective sequencing depth)是相对于总测序深度来说的。 总的测序深度呐,是把所有测得的数据(量)去除以目标区域的大小。 举例来说,用Agilent 50M的这个试剂盒,我们测到10个G的数据。 去除以目标区域的50M的大小,那么得到的是200X的测序深度(10G/50M = 200X)。 但是这个200X的测序深度,对于做生物信息学分析来说呐,并没有太大的实在意义。 因为当中还要扣掉许多无用的数据,才能得到有效的数据。 在外显子测序中,要扣掉4种因素引起的无效数据。 第一个影响因素呐,就是因为杂交捕获的过程它不是十分精确的,基因组中的有许多序列, 是和外显子有一定的同源性的。那么这些片段呐,在杂交过程当中,也会被杂交捕获下来。而这些片段呐,不是基因的外显子。 所以,我们在分析过程当中,首先要把这些序列给去除掉。 第二个影响因素呐,是捕获下来的一个片段,很可能它(只有)一部分的序列是落在目标区域还有一部分序列呐,是突出在目标范围之外的。那么,这部分突出来的序列呐,它不是目标区域,所以,它也不计入外显子测序的“有效测序深度”。 这个落在目标区的数据,占全部被测到的数据的比例,我们用一个专业术语来称乎它,叫作 “捕获效率”(capture efficiency)。那么AgilentSureSelect这个试剂盒呐,它的捕获效率,大约是65~70%。 第3个影响有效数据比例的因素呐,是Duplication。那么所谓duplication呐,就是建库过程当中它的最后一步,是通过PCR扩增把原始的模板,扩增出几百倍来。那么由同一个模板分子扩增出来的子文库分子呐,是长得一模一样的那么这些多出来的这些分子,如果被重复地测到它并不能为我们提供太多有用的生物信息。所以,我们在生物信息分析的过程当中, 我们要去掉这些重复的片段。 那么要去掉这些重复的片段我们判断的依据是:2个DNA分子它们的5'起始位置、和3'的结束位置,完全一模一样,那么我们就认定这2个分子,是从同一个母分子,PCR出来的(2个)子分子。 然后呐,我们会比较这2个序列的数据质量,留下那个数据质量比较高的,去掉那个 数据质量比较低的,这也就是我们通常所说的“去Duplication"的过程。 用Agilent SureSelect试剂盒进行建库、捕获,实测10个G的数据,我们发现duplication大约在5%左右。 那么,我们说明一下,duplication的比例不是恒定不变的。而是会随着测序深度的增加、而增加,因为上机(测序)的文库是经过PCR扩增的文库。 随着测序量增大,那么测到源自同一个模板的PCR子分子的概率呐,就会提高。 第4个影响因素呐,是目前主流的测序方法是HiSeq V4 PE125这种方法。也就是:双端各测125个碱基,那么Agilent的建库方法中当呐,插入片段是150~200BP,这样一个大致范围的这些片段,那么它的平均片段长度呐,是180BP。那么我们用双端125的方法来测序就会导致左边的这个reads(序列)和右边的这个reads(序列),读到当中,会有一段,大概会有70BP的交叠。 那这个70BP的交叠的序列,是冗余的序列。也就是说,我们读了250个BP的序列,但是 其中大约有效的呢,是180个(BP)。有70个BP呐,是冗余的。 综合上述4项因素,我们可以看到,用AgilentSureSelect 50M的这个捕获试剂盒进行建库、捕获,并且用HiSeq V4 PE125的测序方法来测序,测10个G的数据量,那么可以得到,大约95X的有效测序深度,(10 * 0.7 * 0.95 * 180 / 250 / 50 = 95)。 覆盖均匀性 除了测到的有效数据量之外,还有一个因素会影响到后面的分析,这就是Reads的分布均匀情况,也就是说目标区域的每个碱基被覆盖的深度的均匀性。那么这个结果呐,是越均匀越好。 科学家经过实测,发现Agilent的SureSelect、和Roche的Nimblegen,这两个捕获试剂盒,所得到的覆盖均匀性是比较好的。 在肿瘤测序中的优势 外显子测序,可以测Germline突变(胚胎形成时就带有的突变),也可以测体细胞突变(Somatic Mutation),但是呐,随着Illumina推出HiSeq X10测序仪,把人全基因组测序的直接成本降到1000美元以下,那么Germline水平的突变呐,已经很少用外显子来测了。 目前,外显子测序的主要优势就体现在肿瘤基因测序方面,之所以外显子测序在肿瘤基因测序方面有优势呐,这是因为外显子测序,它的测序深度,可以比较容易地做到“深度”测序。那么呐,它可以比较轻易地达到100X、200X,甚至更深的测序深度。这个呐,就有利于测到 low allele frequency (低等位基因频名优新)的体细胞突变。 因为肿瘤中的突变呐,往往都是 low allele frequency 的体细胞突变。所以,外显子组测序就在测肿瘤基因组突变方面,显出比较明显的优势来。 那么如果是要测肿瘤中的体细胞突变呐,一般是拿手术切下来的肿瘤组织DNA、和病人外周血中的白细胞基因组DNA,进行外显子测序。 一般肿瘤的测100~200X的深度,白细胞的(DNA)测100X的深度。从白细胞DNA得到这个病人的Germline基因组序列,拿肿瘤的DNA序列与之做对比,找出其中的体细胞突变。 SNP信息 外显子组测序,主要能够得到的信息是点突变,也就是SNP信息,和插入缺失突变,也就是Indel信息。这张图呐,就是找到的体细胞突变的泡泡图。 在这个泡泡图中,突变频率越高的基因,就画一个大泡泡,放在图的中间。突变频率低一点的基因,就画一个相对小一点的泡泡,延着逆时针排列。再低频的突变,再画一个再小的泡泡,再在外面再排列下去。依此类推,就得到这样一个泡泡图。 泡泡图有利于我们非常直观地看到样本中体细胞突变的情况。 GO 和 Pathway 分析 找到突变之后,就可以进一步地做GO和Pathway分析。 关于GO和Pathway的定义,我们已经在前一期讲RNA-seq的节目当中,给大家介绍过了,想要了解的朋友可以在优酷中找一下:【陈巍学基因】视频7:《RNA-seq方法和应用》这一集。自己去看一下。 那么,我们来说GO分析。 这张图是GO分析的结果。 这是根据突变的点在肿瘤中的富集的情况做的分析。 分成“细胞组件”、“分子功能”、和“生物过程”3个大类,进行展示。 柱子越高,则表示这个亚类当中突变越多。 这是有向无环图,它把突变进一步一步富集到更精细的小概念当中进行展示。 这个图中,是越向下,它的功能就划分得越精细。同时颜色越深的块块,则表示突变在 这个小概念中富集程度越高。 这是Pathway的KEGG富集分析。它吶,可以帮助我们看到哪些通路发生了显著的变化。 更深一步的分解分析,则让我们深入地看到突变的基因在整个通路中所处的节点。 让我们更好地探索突变和病变之间的关系,我们要说明:在外显子测序的数据分析 当中,对基因组的结构变异是不敏感的。 不敏感的原因是外显子测序,只测了基因组上很小一部分区域,这个比例小到了只有1~2% ,所以当结构变异的断点,不落在外显子区域的时侯呐,外显子测序是看不到这些断点的,所以我们说:外显子测序对基因组的结构,变异--SV(Structure Variation)呐,是不敏感的。 对CNV不敏感 外显子测序对拷贝数变异(CNV,copy numbervariation),不是很敏感。不敏感的原因呐,是因为杂交捕获过程啊,是一个含了很高偶然性的过程。 也就是说,一个外显子片段上,它有多少个reads(序列)被捕获下来,样本和样本之间是有很大差异的。 或者说,它的覆盖度,本来就是忽高忽低的,因为有这种忽高忽低呐。 这就导致:一个外显子上测到的Reads数变高,或者变低。 我们很难判断,是因为这种偶然性呐,还是因为拷贝数发生了变异。所以,外显子测序,对于小片段的拷贝数变异,它本身是不敏感的。 但是,如果基因组上发生了大片段的拷贝数变异。比如说,长度在5M(5M base pair)以上的 片段发生了拷贝数变异。那么外显子测序呐,是可以发现的,这是因为这样长的片段当中呐,一般含有多个外显子。当多个外显子的测序Reads数都发生了改变,那么,它就会有统计上的显著性。通过这种统计上的显著性,我们可以来判断:基因组上的确发生了拷贝数变异。 因为外显子组测序对结构变异和拷贝数变异不敏感,所以,在实际的肿瘤基因测序中呐,科学家往往是这样做的:用全基因测序来找到肿瘤样本中的结构,变异(SV)和拷贝数变异(CNV),再用来外显子组测序来找肿瘤样本中的、低频的SNP和Indel体细胞突变。 捕获Panel测序 今天,我们在讲外显子组测序的同时呐。我们就顺带说一下针对某些疾病所设计的捕获Panel测序,所谓Panel,往往是指对若干个基因设计一个捕获试剂盒。 诊断公司为诊断特定的疾病,设计了许多特定的、针对性的Panel。 例如著名的肿瘤诊断公司Foundation Medicine就设计了“Foundation One”这个Panel。 它(Foundation One)是针对实体瘤的一个Panel,这个Panel包含了315个经常发生突变 的肿瘤相关基因。还包含了28个经常发生重排的基因。 这一类的Panel,它的建库、捕获、和测序原理,与外显子组测序是完全一样的。 但是因为它所选择的基因数远少于外显子,所以就可以用较少的测序量得到非常深的 测序深度。 同时因为测序数据量较小,所以数据分析的难度也会小许多,耗时也会更短。这对于临床诊断所需的快速响应呐,是有十分多的好处。 以上呐,就是本期节目的全部内容 [zjubell于2017-01-08 16:20编辑了帖子]
|
|