SAM(Sequence Alignment Map,可直译为“序列比对地图”)是生物信息学中一种用于储存已比对到基因组上的序列信息的文件格式。SAM格式是在千人基因组计划期间由李恒等人为了取代过去的MAQ格式开发出来的[1]。SAM这一名称是参与这一项目的犹他大学教授加博尔·马思决定的。他在现在的SAM格式开发出来以前就开发出了一种同名的结构文件,不过当时他开发的SAM格式更接近于BLAST算法的输出结果[2]。现在SAM格式已成为学界与工业界都广泛接受的生物信息学格式之一,经过数次修正之后,目前的SAM格式甚至也可以储存没有比对到基因组上的序列信息。SAM格式不仅可以储存第二代测序中的短长度序列的比对信息,也可以储存长至128MB的长序列的比对信息[3]。
SAM格式压缩后以二进制格式表示产生的文件称为BAM格式(Binary Alignment Map)[4]。
格式
SAM格式由头部(header)和比对(alignment section)两部分组成[1],可以使用SAMtools软件进行分析和编辑。如果存在头部部分,它必须位于比对部分之前。头部部分以'@'符号开头,以区别于比对部分。比对部分有11个必需字段以及可变数量的可选字段[1]。
列
|
名称
|
数据类型
|
说明
|
1
|
QNAME
|
字符
|
查询模板名称
|
2
|
FLAG
|
整数
|
比对FLAG数字之和
|
3
|
RNAME
|
字符
|
序列比对上的参考序列的名称,在真核生物中一般指染色体编号
|
4
|
POS
|
整数
|
序列上第一个碱基比对到参考序列上的位置,如没有比对上会记为0
|
5
|
MAPQ
|
整数
|
比对品质的评分,数值越大代表比对品质越高
|
6
|
CIGAR
|
字符
|
CIGAR值
|
7
|
RNEXT
|
字符
|
双端测序另一端序列比对上的参考序列的名称,在真核生物中一般指染色体编号。单端测序数据中此处会被记为“*”
|
8
|
PNEXT
|
整数
|
双端测序另一端序列比对到参考序列上的位置,如没有比对上会记为0
|
9
|
TLEN
|
整数
|
读长比对到参考序列上的长度,如果和参考序列完全比对,数值上等于读长本身的长度
|
10
|
SEQ
|
字符
|
读长序列信息
|
11
|
QUAL
|
字符
|
读长的测序品质,以Phred-33分数表示
|
参见
参考资料
- ^ 1.0 1.1 1.2 1.3 Li, H.; Handsaker, B.; Wysoker, A.; Fennell, T.; Ruan, J.; Homer, N.; Marth, G.; Abecasis, G.; Durbin, R. The Sequence Alignment/Map format and SAMtools (PDF). Bioinformatics. 2009, 25 (16): 2078–2079 [2023-07-19]. ISSN 1367-4803. PMC 2723002 . PMID 19505943. doi:10.1093/bioinformatics/btp352. (原始内容存档 (PDF)于2021-12-26).
- ^ Play it again, SAMtools. Q&A with the SAMtools team on 12 years of providing bioinformatics "glue" - GigaBlog. gigasciencejournal.com. [2021-03-20]. (原始内容存档于2023-05-20) (英语).
- ^ Dörpinghaus, J.; Weil, V.; Schaaf, S.; Apke, A. Computational Life Sciences: Data Engineering and Data Mining for Life Sciences. Studies in Big Data. Springer International Publishing. 2023: 447 [2023-07-19]. ISBN 978-3-031-08411-9. (原始内容存档于2023-07-19).
- ^ SAM/BAM Format Specification (PDF). samtools.github.io. [2023-07-19]. (原始内容存档 (PDF)于2017-04-06).