关于测序数据文件「FASTA 与 FASTQ」

2024-09-16T15:16:37Z | 3 分钟阅读 | 更新于 2024-09-16T15:16:37Z

@ Pepper

fastq和fasta这两种储存sequence是后续分析主要处理的两种数据格式：
双序列比对（pairwise alignment）
进化树构建（phylogenetic tree）
高通量分析的回贴（mapping）数据的原始输入

FASTA

fasta格式可以储存核酸序列（DNA/RNA）也可以储存蛋白质的氨基酸序列（Amino Acid sequence，简称AA序列）

是以“>”为开始的一行主要储存的是序列的描述信息；
剩下的是序列部分，中间，前后都可以有空格。序列部分按照官方文档的说明应该是小于120就行，一般70到80左右。
实际操作中，程序处理的时候都是自动去掉空格和换行符，把序列读成1行再处理

氨基酸序列

>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHG
KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTP
AVHASLDKFLASVSTVLTSKYR

UniRef数据库中下载的人类血红蛋白α亚基的序列。

P69905是这个序列在UniRef中的编号
HBA_HUMAN是这个序列的简称，Hemoglobin subunit alpha是全称
OS=Homo sapiens是物种
GN=HBA1是指基因的名字为HBA1
后面的内容就是这个HBA1基因对应的蛋白的序列

A  alanine               P  proline       
B  aspartate/asparagine  Q  glutamine      
C  cystine               R  arginine      
D  aspartate             S  serine      
E  glutamate             T  threonine      
F  phenylalanine         U  selenocysteine      
G  glycine               V  valine        
H  histidine             W  tryptophan        
I  isoleucine            Y  tyrosine
K  lysine                Z  glutamate/glutamine
L  leucine               X  any
M  methionine            *  translation stop
N  asparagine            -  gap of indeterminate length

核酸序列

从NCBI RefSeq数据库中下载的人类血红蛋白a亚基对应的mRNA序列

>gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGG
GGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCA
CCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAA
GGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGC
GACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGA
CCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTC
TGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTG
G

所有来自于NCBI的序列都有一个gi号，就是数据库中的流水号，具有唯一性。
gb|AF349571.1是genebank编号的信息。
后面是对序列的一个通俗的描述。这里使用的是mRNA，包含完整的CDS（Coding sequence）区域。

为了下游的方便分析处理，无论RNA序列还是DNA序列都是使用T而不是U。对于核苷酸序列的信息，一般使用下面的对应表

A  adenosine          C  cytidine             G  guanine
T  thymidine          N  A/G/C/T (any)        U  uridine
K  G/T (keto)         S  G/C (strong)         Y  T/C (pyrimidine)
M  A/C (amino)        W  A/T (weak)           R  G/A (purine)        
B  G/T/C              D  G/A/T                H  A/C/T      
V  G/C/A              -  gap of indeterminate length

基本上FASTA不适合储存测序数据。一个很重要的原因就是，它没有序列的质量信息。 那一般带有测序质量信息的FASTQ格式就成了储存测序数据的常用格式啦！

FASTQ

下面是一个Illumina平台测序的真实数据，其中包含了1条reads的信息。

@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
+
FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,

FASTQ格式储存的序列信息，每1条reads的信息，可以分成4行。

第1行主要储存序列测序时的坐标等信息

@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
@	开始的标记符号			
ST-E00126:128:HJFLHCCXX	测序仪唯一的设备名称
2	lane的编号				
1101	tail的坐标
7405	在tail中的X坐标
1133	在tail中的Y坐标

第2行就是测序得到的序列信息，一般用ATCGN来表示，其中N表示荧光信号干扰无法判断到底是哪个碱基。
第3行以“+”开始，可以储存一些附加信息，一般是空的。
第4行储存的是质量信息，与第2行的碱基序列是一一对应的，其中的每一个符号对应的ASCII值成为phred值，可以简单理解为对应位置碱基的质量值，越大说明测序的质量越好。 不同的版本对应的不同。

详细谈谈FASTQ质量值的计算方法

在测序仪进行测序的时候，会自动根据荧光信号的强弱给出一个参考的测序错误概率（error probility，P）根据定义来说，P值肯定是越小越好。

1.将P取log10之后再乘以-10，得到的结果为Q。

比如，P=1%，那么对应的Q=-10*log10（0.01）=20

2.把这个Q加上33或者64转成一个新的数值，称为Phred，最后把Phred对应的ASCII字符对应到这个碱基。

如Q=20，Phred = 20 + 33 = 53，对应的符号是”5”

这样就可以用1个符号与1个碱基一一对应

上一页 Illumina测序数据研究