Sequence formats
Merupakan format file untuk menyimpan sequence nukleotida dan/atau urutan asam amino (protein).FASTA
Format file FASTA merupakan format berbasis teks untuk mewakili atau merepresentasikan sequences asam nukleat protein menggunakan kode satu huruf untuk nukleotida atau asam amino. File FASTA dapat berisi satu sequence atau beberapa sequence. Jika file FASTA berisi banyak sequence, terkadang disebut sebagai file "multi-FASTA". Pada umumnya setiap sequence, ada dua baris:-
Yang pertama adalah pengidentifikasi sequence, yang berisi informasi tentang sequence, didahului dengan simbol
“>”
(lebih besar dari), diikuti dengan deskripsi atau pengidentifikasi sequence. Sequence sebenarnya dimulai pada baris setelah deskripsi tersebut. Jika Anda mengambil urutan dari GenBank, SWISS-PROT, BLAS, atau database lain, pengidentifikasi akan mengikuti format standar. - Baris kedua dalam file FASTA adalah sequence nukleotida atau asam amino, menggunakan kode IUPAC satu huruf.
>KX580312.1 Homo sapiens truncated breast cancer 1 (BRCA1) gene, exon 15 and partial cds GTCATCCCCTTCTAAATGCCCATCATTAGATGATAGGTGGTACATGCACAGTTGCTCTGGGAGTCTTCAG AATAGAAACTACCCATCTCAAGAGGAGCTCATTAAGGTTGTTGATGTGGAGGAGTAACAGCTGGAAGAGT CTGGGCCACACGATTTGACGGAAACATCTTACTTGCCAAGGCAAGATCTAG
>KRN06561.1 heat shock [Lactobacillus sucicola DSM 21376 = JCM 15457] MSLVMANELTNRFNNWMKQDDFFGNLGRSFFDLDNSVNRALKTDVKETDKAYEVRIDVPGIDKKDITVDY HDGVLSVNAKRDSFNDESDSEGNVIASERSYGRFARQYSLPNVDESGIKAKCEDGVLKLTLPKLAEEKIN GNHIEIEFile fasta dapat berisi banyak sequence. Setiap sequence akan dipisahkan oleh baris
header
, dimulai dengan >
.Contoh:
>KRN06561.1 heat shock [Lactobacillus sucicola DSM 21376 = JCM 15457] MSLVMANELTNRFNNWMKQDDFFGNLGRSFFDLDNSVNRALKTDVKETDKAYEVRIDVPGIDKKDITVDY HDGVLSVNAKRDSFNDESDSEGNVIASERSYGRFARQYSLPNVDESGIKAKCEDGVLKLTLPKLAEEKIN GNHIEIE >3HHU_A Chain A, Human Heat-Shock Protein 90 (Hsp90) MPEETQTQDQPMEEEEVETFAFQAEIAQLMSLIINTFYSNKEIFLRELISNSSDALDKIRYESLTDPSKL DSGKELHINLIPNKQDRTLTIVDTGIGMTKADLINNLGTIAKSGTKAFMEALQAGADISMIGQFGVGFYS AYLVAEKVTVITKHNDDEQYAWESSAGGSFTVRTDTGEPMGRGTKVILHLKEDQTEYLEERRIKEIVKKH SQFIGYPITLFVEKJenis file ini, dilambangkan dengan
.fas extension
, ada juga yang diakhiri dengan ekstensi .fasta
. Ekstensi ini arbitrer, karena konten file menentukan formatnya, bukan ekstensinya. Ekstensi nama file yang lebih deskriptif dapat digunakan sebagai pengganti .fasta
, yang berguna karena menjelaskan jenis sequence dalam file secara sekilas. Contoh ekstensi khusus untuk file FASTA:
.fna
digunakan untuk FASTA nucleic acids.ffn
digunakan untuk FASTa nucleotide coding regions.faa
digunakan untuk FASTA amino acids.frn
digunakan untuk FASTA non-coding RNASeperti contoh diatas file FASTA dapat berisi satu atau banyak sequence. Seperti tool ClustalW dapat mengambil file FASTA dengan beberapa sequence untuk menghasilkan keselarasan. Konversi antara format FASTA dan format lainnya dapat dilakukan dengan program seperti Seqret dan MView. Format file sequence sederhana lainnya yang mungkin Anda temui antara lain GCG dan IG.
FASTQ
FASTQ merupakan format berbasis teks untuk mewakili urutan nukleotida yang dikembangkan untuk dan digunakan dengan instrumen sequencing generasi berikutnya dan dibangun dari kesederhanaan format FASTA. FASTQ berisi informasi tentang kualitas dari setiap nukleotida ("Q" dalam "FASTQ" berarti kualitas) dari pembacaan sequence dan base call adalah komponen penentu format file FASTQ. Huruf urutan dan skor kualitas dikodekan dengan satu karakter untuk singkatnya. FASTQ merupakan standar untuk menyimpan output dari instrumen pengurutan throughput tinggi seperti mesin Illumina.File FASTQ biasanya menggunakan empat baris per sequence:
- Baris 1 yang diawali dengan
@
diikuti oleh pengidentifikasi urutan dan deskripsi opsional (seperti baris keterangan di dalam file FASTA) - Baris 2 adalah huruf sequence mentah
-
Baris 3 dimulai dengan
+
, terkadang diikuti dengan keterangan yang sama dengan baris pertama - Baris 4 yang menyandikan nilai kualitas untuk sequence di baris 2, dengan jumlah simbol yang sama dengan huruf di sequence
Contoh urutan dalam format FASTQ:
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCC65Kualitas (Quality)
Skor kualitas pada baris keempat adalah skor Phred (Q), diformat sebagai karakter ASCII tunggal, memetakan ke kualitas biasanya dari 0 hingga 40. Q dihitung dengan cara dan rentang yang berbeda, bergantung pada platform yang digunakan untuk sequencing, dan probabilitas bahwa base call tertentu dalam sequence mentah incorrect. Dalam perhitungannya yang paling sederhana, yang digunakan untuk Sanger sequencing:
Q= -log10p
di mana "p" adalah probabilitas bahwa base call is incorrect.
Semakin besar Q, semakin tinggi akurasi base call. Sebagai contoh, Q dari 20 berarti base call is incorrect diidentifikasi setiap 100 base pair. A Q 30 berarti base call is incorrect diidentifikasi setiap 1000 pasangan basa. Format file FASTQ biasanya memiliki ekstensi file
.fastq
, .sanfastq
, atau .fq
, meskipun tidak ada standarnya.Phred Quality Score | Probability of incorrect base call | Base call accuracy |
---|---|---|
10 | 1 in 10 | 90% |
20 | 1 in 100 | 99% |
30 | 1 in 1000 | 99.9% |
40 | 1 in 10,000 | 99.99% |
50 | 1 in 100,000 | 99.999% |
60 | 1 in 1,000,000 | 99.9999% |
Referensi
- File formats. File Formats - Bioinformatics Tutorials. (n.d.). Retrieved December 29, 2022, from https://www.hadriengourle.com/tutorials/file_formats/
- File formats used in bioinformatics. Bioinformatics Notebook. (n.d.). Retrieved December 29, 2022, from https://rnnh.github.io/bioinfo-notebook/docs/file_formats.html#sequence-formats
- Roughan, J. (2022, September 27). Bioinformatic file types & their use cases: Form Bio. Bioinformatic File Types & Their Use Cases | Form Bio. Retrieved December 29, 2022, from https://www.formbio.com/blog/your-essential-guide-different-file-formats-bioinformatics#:~:text=What%20are%20the%20common%20file,VCF%2C%20GFF%2C%20and%20GTF.
Tidak ada komentar:
Posting Komentar