zjubell
管理员
管理员
  • UID7
  • 注册日期2016-07-19
  • 最后登录2024-04-16
  • 粉丝29
  • 发帖数349
  • 论坛成员
  • 忠实会员
  • 喜欢达人
  • 原创写手
阅读:5210回复:0

全外显子分析(WES)的格式-bam文件

楼主#
更多 发布于:2018-02-27 21:33





bam文件是一个压缩文件,占用空间小,但记录了所有比对的信息,可以用samtools view来查看
至于 samtools view 的用法,自己敲完命令看就行。我来说说这两个文件的格式
1.  QNAME,比对片段的(template)的编号;


2.  FLAG,位标识,template mapping情况的数字表示,每一个数字代表一种比对情况,这里的值是符合情况的数字相加总和;


3.  RNAME,参考序列的编号,如果注释中对SQ-SN进行了定义,这里必须和其保持一致,另外对于没有mapping上的序列,这里是’*‘;


4.  POS,比对上的位置,注意是从1开始计数,没有比对上,此处为0;


5.  MAPQ,mappint的质量;


6.  CIGAR,简要比对信息表达式(Compact Idiosyncratic Gapped Alignment Report),其以参考序列为基础,使用数字加字母表示比对结果,比如3S6M1P1I4M,前三个碱基被剪切去除了,然后6个比对上了,然后打开了一个缺口,有一个碱基插入,最后是4个比对上了,是按照顺序的;100M,就表示序列100bp,全部都刚刚好比对上了。


7.  RNEXT,下一个片段比对上的参考序列的编号,没有另外的片段,这里是’*‘,同一个片段,用’=‘;


8.  PNEXT,下一个片段比对上的位置,如果不可用,此处为0;


9.  TLEN,Template的长度,最左边得为正,最右边的为负,中间的不用定义正负,不分区段(single-segment)的比对上,或者不可用时,此处为0;


10. SEQ,序列片段的序列信息,如果不存储此类信息,此处为’*‘,注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度;


11. QUAL,序列的质量信息,格式同FASTQ一样。


|0x0001 (1)| the read is paired in sequencing |读段序列是成对的
|0x0002 (2)| the read is mapped in a proper pair |读段定位在适当位置
|0x0004 (4)| the query sequence itself is unmapped |读段序列自身没有定位
|0x0008 (8)| the mate is unmapped |与其配对的读段为定位
|0x0010 (16)| strand of the query (1 for reverse) |读段对应链
|0x0020 (32)| strand of the mate |配对链
|0x0040 (64)| the read is the first read in a pair |读段是读段对的第一个
|0x0080 (128)| the read is the second read in a pair |读段是读段对的第二个
|0x0100 (256)| the alignment is not primary |定位不是最优选
|0x0200 (512)| the read fails platform/vendor quality checks |读段质量未生成
|0x0400 (1024)| the read is either a PCR or an optical duplicate |读段是PCR或者光学重复
这里就非常有意思了,需要自己去计算。比如值是1121
那这个值其实是由1024+64+32+1组成,这是唯一的,只能这一组的和。
然后分别就代表了 这只是一段PCR扩增产物1024+是read1序列64+ 正义链32+这是一个双端序列1
因此说bam文件记录了所有需要的信息。
游客

返回顶部