FASTA format

Format FASTA – format zapisu sekwencji kwasów nukleinowych oraz białek używany w bioinformatyce. Nukleotydy (dla DNA i RNA) oraz aminokwasy (dla białek) oznaczone są jednoliterowymi skrótami. Format FASTA uwzględnia również możliwość dodawania opisów i komentarzy do sekwencji.

Format

Dane zapisane w formacie FASTA składają się z pojedynczej linii tekstu zawierającej opis sekwencji oraz z kolejnych linii zawierających samą sekwencję. Linia z opisem rozpoczyna się od znaku "większe niż" (">"). Pierwsze słowo po tym znaku służy jako identyfikator sekwencji. Dalej w tej samej linii umieszczany jest opis. W kolejnych liniach znajduje się ciąg znaków składający się na sekwencję. Przykładowa sekwencje w formacie FASTA wygląda tak:

>Keratyna 5, egzon 2, Homo sapiensGTGCGGTTCCTGGAGCAGCAGAACAAGGTTCTGGACACCAAGTGGACCCTGCTGCAGGAGCAGGGCACCAAGACTGTGAGGCAGAACCTGGAGCCGTTGTTCGAGCAGTACATCAACAACCTCAGGAGGCAGCTGGACAGCATCGTGGGGGAACGGGGCCGCCTGGACTCAGAGCTGAGAAACATGCAGGACCTGGTGGAAGACTTCAAGAACAA

Oznaczenia literowe

Nukleotydy są oznaczane za pomocą:

SymbolZnaczenie
Aadenozyna
Ccytozyna
Gguanina
Ttymidyna
Uuracyl
RG A (puryna)
YT C (pirymidyna)
KG T (grupa ketonowa)
MA C (grupa aminowa)
SG C (silne oddziaływanie)
WA T (słabe oddziaływanie)
BG T C (nie A, B jest po A)
DG A T (nie C, D jest po C)
HA C T (nie G, H jest po G)
VG C A (nie T, V jest po U)
NA G C T (którykolwiek, od ang. any)
Xzamaskowany
-przerwa nieokreślonej długości

Aminokwasy są określane za pomocą:

SymbolZnaczenie
Aalanina
Bkwas asparaginowy lub asparagina
Ccysteina
Dkwas asparaginowy
Ekwas glutaminowy
Ffenyloalanina
Gglicyna
Hhistydyna
Iizoleucyna
Klizyna
Lleucyna
Mmetionina
Nasparagina
Opirolizyna
Pprolina
Qglutamina
Rarginina
Sseryna
Ttreonina
Uselenocysteina
Vwalina
Wtryptofan
Ytyrozyna
Zkwas glutaminowy lub glutamina
Xktórykolwiek
*koniec translacji
-przerwa nieokreślonej długości