FASTQ格式

FASTQ格式是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。

该格式最初由维尔康姆基金会桑格研究所开发,旨在将FASTA格式序列及其质量数据整合在一起。而目前,FASTQ格式已经成为了保存高通量测序结果的事实标准。[1]

格式

FASTQ文件中,一个序列通常由四行组成:

  • 第一行以@开头,之后为序列的标识符以及描述信息(与FASTA格式的描述行类似)
  • 第二行为序列信息
  • 第三行以+开头,之后可以再次加上序列的标识及描述信息(可选)
  • 第四行为质量得分信息,与第二行的序列相对应,长度必须与第二行相同

以下为一个包含单个序列的FASTQ文件示例:

@SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

其中!为最低质量、~则为最高质量。以下字符从左到右代表从低到高的质量得分的:

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

字符与对应的ASCII码如下:

十进制图形
33!
34"
35#
36$
37%
38&
39'
40(
41)
42*
43+
44,
45-
46.
47/
480
十进制图形
491
502
513
524
535
546
557
568
579
58:
59;
60<
61=
62>
63?
64@
十进制图形
65A
66B
67C
68D
69E
70F
71G
72H
73I
74J
75K
76L
77M
78N
79O
80P
十进制图形
81Q
82R
83S
84T
85U
86V
87W
88X
89Y
90Z
91[
92\
93]
94^
95_
96`
十进制图形
97a
98b
99c
100d
101e
102f
103g
104h
105i
106j
107k
108l
109m
110n
111o
112p
十进制图形
113q
114r
115s
116t
117u
118v
119w
120x
121y
122z
123{
124|
125}
126~


最初桑格研究所的FASTQ格式允许序列与质量信息分成多行保存。但一般不推荐采用这种方式,因为第一、第三行开头的@与+符号同样也可能出现在质量信息中,可能会造成信息提取的困难。

参见

参考文献