setting
Font Type: Arial Georgia Verdana
Font Size: Aa Aa Aa
Line Spacing:
Background:

Mengenal Sequence formats [FASTA & FASTQ]

Sequence formats

Merupakan format file untuk menyimpan sequence nukleotida dan/atau urutan asam amino (protein).

FASTA

Format file FASTA merupakan format berbasis teks untuk mewakili atau merepresentasikan sequences asam nukleat protein menggunakan kode satu huruf untuk nukleotida atau asam amino. File FASTA dapat berisi satu sequence atau beberapa sequence. Jika file FASTA berisi banyak sequence, terkadang disebut sebagai file "multi-FASTA". Pada umumnya setiap sequence, ada dua baris:
  1. Yang pertama adalah pengidentifikasi sequence, yang berisi informasi tentang sequence, didahului dengan simbol “>” (lebih besar dari), diikuti dengan deskripsi atau pengidentifikasi sequence. Sequence sebenarnya dimulai pada baris setelah deskripsi tersebut. Jika Anda mengambil urutan dari GenBank, SWISS-PROT, BLAS, atau database lain, pengidentifikasi akan mengikuti format standar.
  2. Baris kedua dalam file FASTA adalah sequence nukleotida atau asam amino, menggunakan kode IUPAC satu huruf.
Contoh file FASTA:
>KX580312.1 Homo sapiens truncated breast cancer 1 (BRCA1) gene, exon 15 and partial cds
GTCATCCCCTTCTAAATGCCCATCATTAGATGATAGGTGGTACATGCACAGTTGCTCTGGGAGTCTTCAG
AATAGAAACTACCCATCTCAAGAGGAGCTCATTAAGGTTGTTGATGTGGAGGAGTAACAGCTGGAAGAGT
CTGGGCCACACGATTTGACGGAAACATCTTACTTGCCAAGGCAAGATCTAG
>KRN06561.1 heat shock [Lactobacillus sucicola DSM 21376 = JCM 15457]
MSLVMANELTNRFNNWMKQDDFFGNLGRSFFDLDNSVNRALKTDVKETDKAYEVRIDVPGIDKKDITVDY
HDGVLSVNAKRDSFNDESDSEGNVIASERSYGRFARQYSLPNVDESGIKAKCEDGVLKLTLPKLAEEKIN
GNHIEIE
File fasta dapat berisi banyak sequence. Setiap sequence akan dipisahkan oleh baris header, dimulai dengan >.
Contoh:
>KRN06561.1 heat shock [Lactobacillus sucicola DSM 21376 = JCM 15457]
MSLVMANELTNRFNNWMKQDDFFGNLGRSFFDLDNSVNRALKTDVKETDKAYEVRIDVPGIDKKDITVDY
HDGVLSVNAKRDSFNDESDSEGNVIASERSYGRFARQYSLPNVDESGIKAKCEDGVLKLTLPKLAEEKIN
GNHIEIE
>3HHU_A Chain A, Human Heat-Shock Protein 90 (Hsp90)
MPEETQTQDQPMEEEEVETFAFQAEIAQLMSLIINTFYSNKEIFLRELISNSSDALDKIRYESLTDPSKL
DSGKELHINLIPNKQDRTLTIVDTGIGMTKADLINNLGTIAKSGTKAFMEALQAGADISMIGQFGVGFYS
AYLVAEKVTVITKHNDDEQYAWESSAGGSFTVRTDTGEPMGRGTKVILHLKEDQTEYLEERRIKEIVKKH
SQFIGYPITLFVEK
Jenis file ini, dilambangkan dengan .fas extension, ada juga yang diakhiri dengan ekstensi .fasta. Ekstensi ini arbitrer, karena konten file menentukan formatnya, bukan ekstensinya. Ekstensi nama file yang lebih deskriptif dapat digunakan sebagai pengganti .fasta, yang berguna karena menjelaskan jenis sequence dalam file secara sekilas. Contoh ekstensi khusus untuk file FASTA:

.fna digunakan untuk FASTA nucleic acids
.ffn digunakan untuk FASTa nucleotide coding regions
.faa digunakan untuk FASTA amino acids
.frn digunakan untuk FASTA non-coding RNA

Seperti contoh diatas file FASTA dapat berisi satu atau banyak sequence. Seperti tool ClustalW dapat mengambil file FASTA dengan beberapa sequence untuk menghasilkan keselarasan. Konversi antara format FASTA dan format lainnya dapat dilakukan dengan program seperti Seqret dan MView. Format file sequence sederhana lainnya yang mungkin Anda temui antara lain GCG dan IG.

FASTQ

FASTQ merupakan format berbasis teks untuk mewakili urutan nukleotida yang dikembangkan untuk dan digunakan dengan instrumen sequencing generasi berikutnya dan dibangun dari kesederhanaan format FASTA. FASTQ berisi informasi tentang kualitas dari setiap nukleotida ("Q" dalam "FASTQ" berarti kualitas) dari pembacaan sequence dan base call adalah komponen penentu format file FASTQ. Huruf urutan dan skor kualitas dikodekan dengan satu karakter untuk singkatnya. FASTQ merupakan standar untuk menyimpan output dari instrumen pengurutan throughput tinggi seperti mesin Illumina.

File FASTQ biasanya menggunakan empat baris per sequence:
  • Baris 1 yang diawali dengan @ diikuti oleh pengidentifikasi urutan dan deskripsi opsional (seperti baris keterangan di dalam file FASTA)
  • Baris 2 adalah huruf sequence mentah
  • Baris 3 dimulai dengan +, terkadang diikuti dengan keterangan yang sama dengan baris pertama
  • Baris 4 yang menyandikan nilai kualitas untuk sequence di baris 2, dengan jumlah simbol yang sama dengan huruf di sequence

Contoh urutan dalam format FASTQ:
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCC65
Kualitas (Quality)
Skor kualitas pada baris keempat adalah skor Phred (Q), diformat sebagai karakter ASCII tunggal, memetakan ke kualitas biasanya dari 0 hingga 40. Q dihitung dengan cara dan rentang yang berbeda, bergantung pada platform yang digunakan untuk sequencing, dan probabilitas bahwa base call tertentu dalam sequence mentah incorrect. Dalam perhitungannya yang paling sederhana, yang digunakan untuk Sanger sequencing:

Q= -log10p di mana "p" adalah probabilitas bahwa base call is incorrect.

Semakin besar Q, semakin tinggi akurasi base call. Sebagai contoh, Q dari 20 berarti base call is incorrect diidentifikasi setiap 100 base pair. A Q 30 berarti base call is incorrect diidentifikasi setiap 1000 pasangan basa. Format file FASTQ biasanya memiliki ekstensi file .fastq, .sanfastq, atau .fq, meskipun tidak ada standarnya.

Phred Quality ScoreProbability of incorrect base callBase call accuracy
101 in 1090%
201 in 10099%
301 in 100099.9%
401 in 10,00099.99%
501 in 100,00099.999%
601 in 1,000,00099.9999%

Referensi

  1. File formats. File Formats - Bioinformatics Tutorials. (n.d.). Retrieved December 29, 2022, from https://www.hadriengourle.com/tutorials/file_formats/
  2. File formats used in bioinformatics. Bioinformatics Notebook. (n.d.). Retrieved December 29, 2022, from https://rnnh.github.io/bioinfo-notebook/docs/file_formats.html#sequence-formats
  3. Roughan, J. (2022, September 27). Bioinformatic file types & their use cases: Form Bio. Bioinformatic File Types & Their Use Cases | Form Bio. Retrieved December 29, 2022, from https://www.formbio.com/blog/your-essential-guide-different-file-formats-bioinformatics#:~:text=What%20are%20the%20common%20file,VCF%2C%20GFF%2C%20and%20GTF.
Posting Lebih Baru
Posting Lebih Baru
Posting Lama
Posting Lama