技术讲座-外显子测序

楼主^#

更多发布于：2017-01-08 15:39

视频已征得原作者（陈巍）许可，有兴趣的，大家可以看一下。版权归原作者所有。

今天，我们会和大家谈一下人外显子组测序的方法原理。和它能够给我们带来哪些有用的生物信息。

那我们还是分两个部分来介绍，第一个部分呐，介绍外显子测序的技术方法。第二个部分，我们来介绍外显子测序可以得到哪些有用的生物信息。

实验原理

那么，我们先来说外显子测序的工作原理。

我们先来看这张图，外显子测序的核心技术呐，是这（些）个针对人外显子序列设计的捕获探针库，那么这些探针的序列呐，都和人外显子的DNA序列相互补。

在实验过程中呐，它可和人的外显子DNA序列进行杂交结合。同时呐，这些探针都标上了生物素。

有了这个捕获试剂盒呐，就可以进行建库、和捕获了。

第一步呐，是先把基因组DNA进行超声打碎，建成DNA文库。

第二步呐，是把建好的文库和探针库进行杂交。

杂交过程中，通过核酸序列的互补结合的原理，探针会和目标DNA片段进行结合。

然后呐，再用结合了链霉亲和素的磁珠，与这个杂交混合液呐进行混合。

因为链霉亲合素是会和生物素牢固结合的。

这样，就把我们要捕获的外显子目标片段，通过探针，间接地结合到了磁珠上。

然后呐，通过磁铁把这些磁珠给吸附下来。

而把上清液呐给去掉。

这样呐，也就把没有结合的DNA片段给洗掉了。

再接下来，用洗脱液，把我们要的DNA文库从磁珠上给洗脱下来。

那么这些文库呐，再经过PCR扩增，就可以上HiSeq测序仪进行测序了。

测完序以后，就可以进行生物信息学的处理了。

数据分析

那么先是把这些测序的DNA片段比对到人的基因组上。

然后呐，把这些比对到基因组的序列进行突变分析。

覆盖深度

一般用Agilent SureSelect 50M的试剂盒进行外显子建库、捕获。再用HiSeq 2500 V4 PE125的方法进行测序，测10个G的数据量。大约可以得到95X的“有效测序深度”。我们说的有效测序深度（effective sequencing depth）是相对于总测序深度来说的。

总的测序深度呐，是把所有测得的数据（量）去除以目标区域的大小。

举例来说，用Agilent 50M的这个试剂盒，我们测到10个G的数据。

去除以目标区域的50M的大小，那么得到的是200X的测序深度（10G/50M = 200X）。

但是这个200X的测序深度，对于做生物信息学分析来说呐，并没有太大的实在意义。

因为当中还要扣掉许多无用的数据，才能得到有效的数据。

在外显子测序中，要扣掉4种因素引起的无效数据。

第一个影响因素呐，就是因为杂交捕获的过程它不是十分精确的，基因组中的有许多序列，
是和外显子有一定的同源性的。那么这些片段呐，在杂交过程当中，也会被杂交捕获下来。而这些片段呐，不是基因的外显子。

所以，我们在分析过程当中，首先要把这些序列给去除掉。

第二个影响因素呐，是捕获下来的一个片段，很可能它(只有）一部分的序列是落在目标区域还有一部分序列呐，是突出在目标范围之外的。那么，这部分突出来的序列呐，它不是目标区域，所以，它也不计入外显子测序的“有效测序深度”。

这个落在目标区的数据，占全部被测到的数据的比例，我们用一个专业术语来称乎它，叫作
“捕获效率”(capture efficiency)。那么AgilentSureSelect这个试剂盒呐，它的捕获效率，大约是65~70%。

第3个影响有效数据比例的因素呐，是Duplication。那么所谓duplication呐，就是建库过程当中它的最后一步，是通过PCR扩增把原始的模板，扩增出几百倍来。那么由同一个模板分子扩增出来的子文库分子呐，是长得一模一样的那么这些多出来的这些分子，如果被重复地测到它并不能为我们提供太多有用的生物信息。所以，我们在生物信息分析的过程当中，
我们要去掉这些重复的片段。

那么要去掉这些重复的片段我们判断的依据是：2个DNA分子它们的5'起始位置、和3'的结束位置，完全一模一样，那么我们就认定这2个分子，是从同一个母分子，PCR出来的（2个）子分子。

然后呐，我们会比较这2个序列的数据质量，留下那个数据质量比较高的，去掉那个
数据质量比较低的，这也就是我们通常所说的“去Duplication"的过程。

用Agilent SureSelect试剂盒进行建库、捕获，实测10个G的数据，我们发现duplication大约在5%左右。

那么，我们说明一下，duplication的比例不是恒定不变的。而是会随着测序深度的增加、而增加，因为上机（测序）的文库是经过PCR扩增的文库。

随着测序量增大，那么测到源自同一个模板的PCR子分子的概率呐，就会提高。

第4个影响因素呐，是目前主流的测序方法是HiSeq V4 PE125这种方法。也就是：双端各测125个碱基，那么Agilent的建库方法中当呐，插入片段是150~200BP，这样一个大致范围的这些片段，那么它的平均片段长度呐，是180BP。那么我们用双端125的方法来测序就会导致左边的这个reads（序列）和右边的这个reads（序列），读到当中，会有一段，大概会有70BP的交叠。

那这个70BP的交叠的序列，是冗余的序列。也就是说，我们读了250个BP的序列，但是
其中大约有效的呢，是180个（BP）。有70个BP呐，是冗余的。

综合上述4项因素，我们可以看到，用AgilentSureSelect 50M的这个捕获试剂盒进行建库、捕获，并且用HiSeq V4 PE125的测序方法来测序，测10个G的数据量，那么可以得到，大约95X的有效测序深度，（10 * 0.7 * 0.95 * 180 / 250 / 50 = 95）。

覆盖均匀性

除了测到的有效数据量之外，还有一个因素会影响到后面的分析，这就是Reads的分布均匀情况，也就是说目标区域的每个碱基被覆盖的深度的均匀性。那么这个结果呐，是越均匀越好。

科学家经过实测，发现Agilent的SureSelect、和Roche的Nimblegen，这两个捕获试剂盒，所得到的覆盖均匀性是比较好的。

在肿瘤测序中的优势

外显子测序，可以测Germline突变（胚胎形成时就带有的突变），也可以测体细胞突变（Somatic Mutation），但是呐，随着Illumina推出HiSeq X10测序仪，把人全基因组测序的直接成本降到1000美元以下，那么Germline水平的突变呐，已经很少用外显子来测了。

目前，外显子测序的主要优势就体现在肿瘤基因测序方面，之所以外显子测序在肿瘤基因测序方面有优势呐，这是因为外显子测序，它的测序深度，可以比较容易地做到“深度”测序。那么呐，它可以比较轻易地达到100X、200X，甚至更深的测序深度。这个呐，就有利于测到 low allele frequency （低等位基因频名优新）的体细胞突变。

因为肿瘤中的突变呐，往往都是 low allele frequency 的体细胞突变。所以，外显子组测序就在测肿瘤基因组突变方面，显出比较明显的优势来。

那么如果是要测肿瘤中的体细胞突变呐，一般是拿手术切下来的肿瘤组织DNA、和病人外周血中的白细胞基因组DNA，进行外显子测序。

一般肿瘤的测100~200X的深度，白细胞的（DNA）测100X的深度。从白细胞DNA得到这个病人的Germline基因组序列，拿肿瘤的DNA序列与之做对比，找出其中的体细胞突变。

SNP信息

外显子组测序，主要能够得到的信息是点突变，也就是SNP信息，和插入缺失突变，也就是Indel信息。这张图呐，就是找到的体细胞突变的泡泡图。

在这个泡泡图中，突变频率越高的基因，就画一个大泡泡，放在图的中间。突变频率低一点的基因，就画一个相对小一点的泡泡，延着逆时针排列。再低频的突变，再画一个再小的泡泡，再在外面再排列下去。依此类推，就得到这样一个泡泡图。

泡泡图有利于我们非常直观地看到样本中体细胞突变的情况。

GO 和 Pathway 分析

找到突变之后，就可以进一步地做GO和Pathway分析。

关于GO和Pathway的定义，我们已经在前一期讲RNA-seq的节目当中，给大家介绍过了，想要了解的朋友可以在优酷中找一下：【陈巍学基因】视频7：《RNA-seq方法和应用》这一集。自己去看一下。

那么，我们来说GO分析。

这张图是GO分析的结果。

这是根据突变的点在肿瘤中的富集的情况做的分析。

分成“细胞组件”、“分子功能”、和“生物过程”3个大类，进行展示。

柱子越高，则表示这个亚类当中突变越多。

这是有向无环图，它把突变进一步一步富集到更精细的小概念当中进行展示。

这个图中，是越向下，它的功能就划分得越精细。同时颜色越深的块块，则表示突变在
这个小概念中富集程度越高。

这是Pathway的KEGG富集分析。它吶，可以帮助我们看到哪些通路发生了显著的变化。

更深一步的分解分析，则让我们深入地看到突变的基因在整个通路中所处的节点。

让我们更好地探索突变和病变之间的关系，我们要说明：在外显子测序的数据分析
当中，对基因组的结构变异是不敏感的。

不敏感的原因是外显子测序，只测了基因组上很小一部分区域，这个比例小到了只有1~2%
，所以当结构变异的断点，不落在外显子区域的时侯呐，外显子测序是看不到这些断点的，所以我们说：外显子测序对基因组的结构，变异--SV（Structure Variation）呐，是不敏感的。

对CNV不敏感

外显子测序对拷贝数变异（CNV，copy numbervariation），不是很敏感。不敏感的原因呐，是因为杂交捕获过程啊，是一个含了很高偶然性的过程。

也就是说，一个外显子片段上，它有多少个reads(序列)被捕获下来，样本和样本之间是有很大差异的。

或者说，它的覆盖度，本来就是忽高忽低的，因为有这种忽高忽低呐。

这就导致：一个外显子上测到的Reads数变高，或者变低。

我们很难判断，是因为这种偶然性呐，还是因为拷贝数发生了变异。所以，外显子测序，对于小片段的拷贝数变异，它本身是不敏感的。

但是，如果基因组上发生了大片段的拷贝数变异。比如说，长度在5M(5M base pair)以上的
片段发生了拷贝数变异。那么外显子测序呐，是可以发现的，这是因为这样长的片段当中呐，一般含有多个外显子。当多个外显子的测序Reads数都发生了改变，那么，它就会有统计上的显著性。通过这种统计上的显著性，我们可以来判断：基因组上的确发生了拷贝数变异。

因为外显子组测序对结构变异和拷贝数变异不敏感，所以，在实际的肿瘤基因测序中呐，科学家往往是这样做的：用全基因测序来找到肿瘤样本中的结构，变异（SV）和拷贝数变异（CNV），再用来外显子组测序来找肿瘤样本中的、低频的SNP和Indel体细胞突变。

捕获Panel测序

今天，我们在讲外显子组测序的同时呐。我们就顺带说一下针对某些疾病所设计的捕获Panel测序，所谓Panel，往往是指对若干个基因设计一个捕获试剂盒。

诊断公司为诊断特定的疾病，设计了许多特定的、针对性的Panel。

例如著名的肿瘤诊断公司Foundation Medicine就设计了“Foundation One”这个Panel。

它（Foundation One）是针对实体瘤的一个Panel，这个Panel包含了315个经常发生突变
的肿瘤相关基因。还包含了28个经常发生重排的基因。

这一类的Panel，它的建库、捕获、和测序原理，与外显子组测序是完全一样的。

但是因为它所选择的基因数远少于外显子，所以就可以用较少的测序量得到非常深的
测序深度。

同时因为测序数据量较小，所以数据分析的难度也会小许多，耗时也会更短。这对于临床诊断所需的快速响应呐，是有十分多的好处。

以上呐，就是本期节目的全部内容

[zjubell于2017-01-08 16:20编辑了帖子]

喜欢0

发帖

« 返回列表

您需要登录后才可以回帖，登录或者注册

返回顶部

技术讲座-外显子测序

最新喜欢：