-
Les intercalaires cds-cds positifs chez les procaryotes
Modèles de diagrammes
pmq 400 pour agrandir
pmq 40 pour agrandir
Introduction
Cet article est issu du projet collaboratif de wikipédia, "Les clusters de gènes tRNA et rRNA chez les procaryotes", au chapitre des diagrammes 400.
Matériel et méthode
Modèles de calcul des intercalaires après suppression des commentaires dans NCBI
*Modèle de calculs, avec mja dans la base NCB, des intercalaires entre CDS, c+ c- x+ x-, et entre autres gènes. repeat_region 378..2126 gene complement(2216..3343) CDS complement(2216..3343) gene complement(3340..4071) CDS complement(3340..4071) gene <4252..4566 CDS <4252..4566 gene 4911..5381 CDS 4911..5381 après mise en forme, j'obtiens repeat_region 378..2126 intercalaire ax+ = 2216 - 2126 - 1 = 89 pbs intercalaire type autre-cds discontinu comp CDS 2216..3343 intercalaire c- = 3340 - 3343 - 1 = -4 pbs intercalaire type cds-cds négatif continu comp CDS 3340..4071 intercalaire x+ = 4252 - 4071 - 1 = 182 pbs intercalaire type cds-cds positif discontinu CDS 4252..4566 intercalaire c+ = 4911 - 4566 - 1 = 346 pbs intercalaire type cds-cds positif continu CDS 4911..5381 * Modèle de calcul avec eco présentant 2 pseudo gènes où la ligne "gene" n'est pas suivie de la ligne "CDS" comp gene 238257..238736 comp CDS 238257..238736 comp gene 238746..239084 /pseudo gene 239190..239378 /pseudo comp gene 239419..240189 comp CDS 239419..240189
Traitement d'un génome entier extrait de la base de données NCBI
Légende des diagrammes
Légende des diagrammes 400
- x+ et c+ pour intercalaires cds-cds positifs (I cds-cds) des discontinus et continus.
- flex: abscisse du point d’inflexion en effectif
- 1-400: effectif des intercalaires de 1 à 400 pbs de long.
- abscisse: I cds-cds, c'est le total des effectifs de 10 fréquences successives en commençant par 1 jusqu'à 10 pour l'abscisse 10, puis 11 jusqu'à 20 pour 20.
- ordonnée: taux en ‰ du total des intercalaires de l’abscisse par rapport au total du diagramme. Pour pmq c+ 1-400, le total du diagramme de 1 à 400 est de 4164. Le reste, c'est le total des CDS c+ du génome moins le total du diagramme. Pour les diagrammes 31-400, les taux en ordonnée sont ceux de 1-400.
- Courbes de tendance: polynome de d° 3 comparé à une droite.
- R2, coefficient de détermination de la courbe de tendance.
Légende des diagrammes 40
- eff pour effectif
- fre pour fréquence. Les abscisses sont les fréquences unitaires.
- diagr pour total des CDS du diagramme de la fréquence 1 à la fréquence 40.
- R2, coefficient de détermination de la courbe de tendance.
- Courbes de tendance: polynome de d° 15.
Les diagrammes
abra 400 abra 40 ade 400 ade 40 afn 400 afn 40 ant 400 ant 40
ase 400 ase 40 blo 400 blo 40 bsu 400 bsu 40 cbei 400 cbei 40
cbn 400 cbn 40 cvi 400 cvi 40 eco 400 eco 40 mba 400 mba 40
mja 400 mja 40 myr 400 myr 40 pmg 400 pmg 40 pmq 400 pmq 40
pub 400 pub 40 rru 400 rru 40 rtb 400 rtb 40 spl 400 spl 40
Les intercalaires cds-cds positifs continus
Les diagrammes de 1 à 400 pbs
Les diagrammes de 1 à 40 pbs
Les intercalaires cds-cds positifs discontinus
Les diagrammes de 1 à 400 pbs
Les diagrammes de 1 à 40 pbs
Les intercalaires privilégiés
Parmi les séquences de 1 à 40 pbs
parmi les séquences plus grandes que 40 pbs
Traitement par lot
Sauvegarder le NCBI sans ses commentaires
- Afficher le NCBI et relever taille et date
- Copier dans un txt puis dans un calc temporaire pour faciliter les sélections début ou fin.
- Sélectionner la 1ère cellule puis select ctrl+Maj+fin et trier croissant. Le curseur est à la fin. Rechercher (ctrl+H) " tRNA " précédent.
- Descendre le curseur d'une cellule puis select ctrl+Maj+fin et supprimer
- Se posirionner au début ctrl+début et rechercher (ctrl+H) " CDS " suivant sans les cotes
- Monter le curseur d'une cellule et puis le mettre loin à droite et effacer le début, ctrl+Maj+début.
- Le curseur est au début rechercher CDS suivant puis sélectionner ctrl+Maj+fin et coller au début de la feuille en H9.
- Le fichier est alors sauvegardé dans un txt en remplaçant la tabulation par le caractère de séparation § (ctrl+H, remplacer \t par §). Au moment de la récupération ne doit exister qu'un seul caractère de séparation, ici le §. J'ai sauvegarder plusieurs génomes dans un même lien de wikipédia comme suite:
Formatage en 4 colonnes: complement gène adresse1 adresse2
- Retour au tableur. Rechercher "join(", résoudre ses adresses en adresses uniques et sauvegarder le join sur la même ligne.
- Sans sélection remplacer CDS gene rRNA tRNA en ajoutant (;)
- Rechercher tRNA; suivant, vérifier s’il n’y a pas d’autres gènes entre "CDS;" et "gene;" et les suffixer avec ";", comme ncRNA misc regulatory...
- Supprimer la ligne où le gène est ‘source’ puis tri croissant sur la colonne gène à partir de la ligne au-dessus de "source".
- Sélectionner tout ctrl+Maj+fin, copier dans txt puis dans le calc temporaire: à ce moment j'ai 3 colonnes, une contenant le nom du gène, CDS tRNA ..., à côté la colonne des adresses et à côté la note de join sauvegardée au 1er alinéa. Sauvegarder la note join dans le commentaire de la cellule correspondante de la colonne des gènes. Supprimer la note.
- Pour la discontinuité "complement-non complement", ajouter une colonne à gauche contenant comp pour les adresses avec "complement".
- Enlever les blancs dans le fichier, ctrl+H et remplacer " " par rien.
- Sélectionner la colonne contenant les adresses, ctrl+H et enlever les caractères ( <)> et les caractères alphabétiques avec l'expression régulière [:alph:].
- Remplacer les 2 points des adresses .. en ; en copiant la colonne dans txt et ctrl H . Il ne doit y avoir qu'un seul caractère de séparation qui est le ;.
- Puis copier le tout en 2 colonnes dans calc en écrasant la colonne des adresses modifiée.
Traitement des pseudo gènes
- Sur la colonne à gauche de comp, numéroter en séquence gene puis CDS puis le reste: à la 1ère occurrence écrire 1 puis, à la 2ème, écrire la formule, cellule de la 1ère occurrence + 1. Couper la formule et select la plage, coller et couper coller format.
- Trier d’abord sur la colonne 1 des numéros, puis trier sur 1ère et 2ème adresse. A ce moment gene et CDS sont dans ce sens pour la même adresse.
- Dans certains cas la ligne gene n'est pas suivie par sa ligne CDS. A droite de la colonne 2ème adresse je crée une colonne de formule, "1ère adresse de la ligne suivante - (moins) celle de la ligne de la formule". Pour un couple "gene CDS" qui se suivent la différence est nulle. Pour un couple "CDS gene" ou "gene gene" qui se suivent la différence n'est pas nulle. Ensuite je fais la même chose sur la colonne suivante mais pour les 2ème adresses. Couper les 1ères cellules des 2 dernières colonnes puis select ctrl+H+fin à partir de ces cellules coupées, coller et couper coller format.
- En triant sur les 2 dernières colonnes à droite, toutes les lignes "gene" avec 0 et 0 dans les 2 dernières colonnes sont à supprimer.
- Supprimer les 2 colonnes des différences ainsi que la 1ère colonne de numérotation.
Calcul des intercalaires
- Trier le reste sur 1ère et 2ème adresse. Calculer les intercalaires avec la formule, 1ère adresse de la ligne suivante moins 2ème adresse de la ligne moins 1. Couper la formule, sélecter ctrl+Maj+fin, coller puis couper et coller format.
- Rechercher et colorer les CDS de la colonne des gènes, "ctrl+H CDS". Les gènes différents de CDS apparaissent en clair.
Marquage des intercalaires types
- Marquage des discontinus: Soit G9 la cellule de la colonne comp, G, et de ligne 9, que je vais tester dans une cellule L9 dont la colonne est libre.
- + Initialiser la cellule L9 avec la fonction =SI(G9=G10,1,0). Couper la formule, sélecter ctrl+Maj+fin, coller puis couper et coller format.
- + Sélectionner la colonne résultat et supprimer les 1 avec ctrl+H, remplacer 1 par rien. La colonne des discontinus doit être en 1er et l'écraser par la colonne des * (autres gènes ci-dessous) en ignorant les cellules vides (choix dans ctrl+v).
- Marquage des gènes autres que CDS:
- + On peut marquer les gènes différents de CDS dans la cellule M9 avec la fonction =SI en comparant le contenu de la cellule H9 à la cellule contenant, $CDS$: =SI(($CDS$=H9) et (H9=H10),0,2). Avec cette formule un CDS suivi d'un autre gène a pour résultat un 2 qui sera correspondra plus loin au deb (pour début du pavé clair).
- + Faire sur la colonne adjacente N9, la formule =SI(($CDS$=H9) et (H9=H8),0,3). Avec cette formule un CDS précédé d'un gène différent de CDS a pour résultat un 3 qui correspondra plus loin à fin (pour fin du pavé clair).
- Cadrage des types "autres gènes" par une colonne deb-fin:
- + Dans la cellule F9 tester les cellules H9 et M9, =SI(($CDS$=H9) et (M9=2),7,0). Un résultat 7 correspond au résultat 2 de la colonne L.
- + Dans la cellule E9 tester les cellules M9 et N9, =SI((M9=0) et (N9=3),9,0). Un résultat 9 correspond au résultat 3 de la colonne N.
- + Supprimer les 0 des colonnes E et F, couper coller la colonne E sur F en ignorant les cellules vides et remplacer 7 par deb et 9 par fin.
- Compléter la colonne des intercalaires types: Compléter la colonne L pour les types d'intercalaires x+ x- c+ c- et * pour discontinus positifs négatifs, continus positifs négatifs et autres intercalaires. Pour cela supprimer les 0 de la colonnes M et effacer la colonne N. Remplacer les 2 dans la colonne M par * et couper coller M sur L en ignorant les cellules vides.
Calcul de la fréquence des intercalaires
- Le tri: En triant dans l'ordre croissant, la colonne de marquage puis la colonne des intercalaires, apparaissent les discontinus négatifs suivis des discontinus positifs. Je colorie, pour repérer les erreurs lors des contrôles, les x- en vert et les x+ en cyan. Pour les x- je remplace les 0 par des 1. Ainsi après les mêmes tris j'obtiens les 0 qui sont des x+ colorés en cyan, les x- colorés en vert, les * en clair, les c- que je colorie en jaune sans caractère sur la colonne de marquage et les c+ que je laisse en clair en clair, sans caractère sur la colonne de marquage.
- Les fréquences: sur ces plages j'applique la fonction "fréquence" de calc pour créer les diagrammes 400 et les diagrammes 40.
Traitement des "autres gènes", deb-fin
- Plusieurs "autres gènes" peuvent être en une séquence longue comme pour les tRNA. Ces pavés sont encadrés la colonne deb-fin.
- Sur la totalité du génome, trier les colonnes F G H adresse1 adresse2 intercalaire type, en 1er sur la colonne deb-fin (F) et en 2ème la colonne CDS (H),
- Copier les lignes avec deb et fin en supprimant les intercalaires (K) des lignes "fin", et les sauvegarder plus loin.
- Copier les lignes en clair qui se trouvent à la fin du génome et les coller sous les lignes du pavé deb-fin sauvegardé. Trier ce pavé sur adresse 1 puis 2.
- Les tableaux deb-fin sont publiés dans les chapitres "autres intercalaires" de chaque génome.
-
Commentaires