Un fichier au format FASTA contient une ou plusieurs séquences de nucléotides dans l'ADN . Le format FASTA origine avec le progiciel FASTA pour le séquençage d'ADN , même si elle est devenue un format standard pour la représentation des séquences d'ADN en bioinformatique . FASTA est un format simple qui le rend facile à analyser des séquences utilisant des langages de script tels que Perl et Python. Présentation
La base d'un fichier est une ligne commençant par le caractère «>» et suivi d'un texte d'identifier l'origine de la séquence. La ligne d'en-tête est généralement inférieure à 80 caractères . La ligne suivant cette ligne d'en-tête contient une série de caractères représentant nucléotides dans l'ADN ou de résidus d'acides aminés dans une séquence peptidique .
Caractères autorisés d'ADN
Seuls les caractères significatifs sont autorisés en tant que partie d'une séquence FASTA . Séquences peuvent être constituées de A, C , T, G ou U, correspondant aux nucléotides adénosine , la cytosine , la thymidine , la guanine ou uracile respectivement . Cependant, l'identité exacte du nucléotide peut pas toujours être présents à partir de séquençage. FASTA contient également des codes représentant les nucléotides possibles lorsque l'incertitude est présente. Le code de N est utilisé en l'absence de détermination peut être faite et X quand le nucléotide est masqué par d'autres molécules . Le code "-" est utilisé pour représenter un écart d'une durée indéterminée
caractères autorisés peptidiques
Un code alphanumérique peut également être utilisé pour représenter . les 24 acides aminés présents dans une séquence peptidique . Si un peptide ne peut être déterminée , le code X est utilisée , de manière similaire à une séquence d'ADN . Un «*» est utilisé pour indiquer le terminus ou une séquence d' arrêt de la traduction d'un peptide . Un «-». Est également utilisé pour représenter une lacune dans le séquençage des données pour les peptides
Autres informations
Le NCBI établit une séquence ID standard, ou SEQID , pour une utilisation dans les lignes d'en-tête FASTA , mais il n'existe pas de norme définitive pour l'inclusion dans la ligne d'en-tête FASTA . Un fichier FASTA contenant des séquences multiples est connu comme un fichier multi- FASTA . Fichiers FASTA peuvent avoir l'extension de fichier " . FASTA », « . Fna ", " . FFN , " . " FAA ", " . FRN " ou " . Fas . " < Br >