关于测序数据文件「FASTA 与 FASTQ」

2024-09-16T15:16:37Z | 3 分钟阅读 | 更新于 2024-09-16T15:16:37Z

@ Pepper
关于测序数据文件「FASTA 与 FASTQ」

fastq和fasta这两种储存sequence是后续分析主要处理的两种数据格式:
双序列比对(pairwise alignment)
进化树构建(phylogenetic tree)
高通量分析的回贴(mapping)数据的原始输入


FASTA

fasta格式可以储存核酸序列(DNA/RNA)也可以储存蛋白质的氨基酸序列(Amino Acid sequence,简称AA序列)

  1. 是以“>”为开始的一行主要储存的是序列的描述信息;
  2. 剩下的是序列部分,中间,前后都可以有空格。序列部分按照官方文档的说明应该是小于120就行,一般70到80左右。
  3. 实际操作中,程序处理的时候都是自动去掉空格和换行符,把序列读成1行再处理

氨基酸序列

>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHG
KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTP
AVHASLDKFLASVSTVLTSKYR

UniRef数据库中下载的人类血红蛋白α亚基的序列。

  • P69905是这个序列在UniRef中的编号
  • HBA_HUMAN是这个序列的简称,Hemoglobin subunit alpha是全称
  • OS=Homo sapiens是物种
  • GN=HBA1是指基因的名字为HBA1
  • 后面的内容就是这个HBA1基因对应的蛋白的序列
A  alanine               P  proline       
B  aspartate/asparagine  Q  glutamine      
C  cystine               R  arginine      
D  aspartate             S  serine      
E  glutamate             T  threonine      
F  phenylalanine         U  selenocysteine      
G  glycine               V  valine        
H  histidine             W  tryptophan        
I  isoleucine            Y  tyrosine
K  lysine                Z  glutamate/glutamine
L  leucine               X  any
M  methionine            *  translation stop
N  asparagine            -  gap of indeterminate length

核酸序列

从NCBI RefSeq数据库中下载的人类血红蛋白a亚基对应的mRNA序列

>gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGG
GGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCA
CCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAA
GGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGC
GACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGA
CCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTC
TGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTG
G
  • 所有来自于NCBI的序列都有一个gi号,就是数据库中的流水号,具有唯一性。
  • gb|AF349571.1是genebank编号的信息。
  • 后面是对序列的一个通俗的描述。这里使用的是mRNA,包含完整的CDS(Coding sequence)区域。

为了下游的方便分析处理,无论RNA序列还是DNA序列都是使用T而不是U。对于核苷酸序列的信息,一般使用下面的对应表

A  adenosine          C  cytidine             G  guanine
T  thymidine          N  A/G/C/T (any)        U  uridine
K  G/T (keto)         S  G/C (strong)         Y  T/C (pyrimidine)
M  A/C (amino)        W  A/T (weak)           R  G/A (purine)        
B  G/T/C              D  G/A/T                H  A/C/T      
V  G/C/A              -  gap of indeterminate length

基本上FASTA不适合储存测序数据。一个很重要的原因就是,它没有序列的质量信息。 那一般带有测序质量信息的FASTQ格式就成了储存测序数据的常用格式啦!

FASTQ

下面是一个Illumina平台测序的真实数据,其中包含了1条reads的信息。

@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
+
FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,

FASTQ格式储存的序列信息,每1条reads的信息,可以分成4行。

  • 第1行主要储存序列测序时的坐标等信息
@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
@	开始的标记符号			
ST-E00126:128:HJFLHCCXX	测序仪唯一的设备名称
2	lane的编号				
1101	tail的坐标
7405	在tail中的X坐标
1133	在tail中的Y坐标
  • 第2行就是测序得到的序列信息,一般用ATCGN来表示,其中N表示荧光信号干扰无法判断到底是哪个碱基。
  • 第3行以“+”开始,可以储存一些附加信息,一般是空的。
  • 第4行储存的是质量信息,与第2行的碱基序列是一一对应的,其中的每一个符号对应的ASCII值成为phred值,可以简单理解为对应位置碱基的质量值,越大说明测序的质量越好。 不同的版本对应的不同。

详细谈谈FASTQ质量值的计算方法

在测序仪进行测序的时候,会自动根据荧光信号的强弱给出一个参考的测序错误概率(error probility,P)根据定义来说,P值肯定是越小越好。

1.将P取log10之后再乘以-10,得到的结果为Q。

比如,P=1%,那么对应的Q=-10*log10(0.01)=20

2.把这个Q加上33或者64转成一个新的数值,称为Phred,最后把Phred对应的ASCII字符对应到这个碱基。

如Q=20,Phred = 20 + 33 = 53,对应的符号是”5”

这样就可以用1个符号与1个碱基一一对应

comments powered by Disqus

© 2024 Pepper的博客

🌱 Powered by Hugo with theme Dream.

Zheng Shuang
Tsinghua University

Incoming PhD student at School of Pharamaceutical Sciences

📖 Educations

2019.09 - now, PhD of Science in Structural Biology, School of Pharmacy of Tsinghua University, Beijing, China

Supervised by Dr. Xiangyu Liu

2015.09 - 2019.07, Bachelor of Biology, Wuhan University, Wuhan, China

关于博客

The content covered includes but is not limited to:

🧬Structure Biology

I will write conclusion about my GPCRs work.

🧪Protein generation design

I will update my protein design learning process.

💻AI4S/ Deep Learing

I will share about some interesting journals or tools about it.

💻 Internships
Securities

德邦证券医药组

Department · Biopharmaceuticals · Intern Analyst | Industry Research Report · Securities Daily

  • Advised by Mrs. Yan Wang
  • Mar. 2023 - July. 2023
  • Health CRO

    IQVIA Consumer Health

    Department · Drug Access · Management Consulting Online Intern| Write Meeting Minutes · private reserch

  • Advised by Mrs. Zhe Yang
  • July. 2023 - Dec. 2023