• Les intercalaires cds-cds positifs chez les procaryotes

    Modèles de diagrammes

    pmq 400  pour agrandir

    pmq 40  pour agrandir

    Introduction

    Cet article est issu du projet collaboratif de wikipédia, "Les clusters de gènes tRNA et rRNA chez les procaryotes", au chapitre des diagrammes 400.

    Matériel et méthode

    Modèles de calcul des intercalaires après suppression des commentaires  dans NCBI

    *Modèle de calculs, avec mja dans la base NCB, des intercalaires entre CDS, c+ c- x+ x-, et entre autres gènes.
         repeat_region  378..2126
         gene           complement(2216..3343)
         CDS            complement(2216..3343)
         gene           complement(3340..4071)
         CDS            complement(3340..4071)
         gene           <4252..4566
         CDS            <4252..4566
         gene           4911..5381
         CDS            4911..5381
    après mise en forme, j'obtiens
         repeat_region  378..2126   intercalaire ax+ = 2216 - 2126 - 1 = 89  pbs  intercalaire type autre-cds discontinu
    comp CDS            2216..3343  intercalaire c-  = 3340 - 3343 - 1 = -4  pbs  intercalaire type cds-cds négatif continu
    comp CDS            3340..4071  intercalaire x+  = 4252 - 4071 - 1 = 182 pbs  intercalaire type cds-cds positif discontinu
         CDS            4252..4566  intercalaire c+  = 4911 - 4566 - 1 = 346 pbs  intercalaire type cds-cds positif continu
         CDS            4911..5381
    		
    * Modèle de calcul avec eco présentant 2 pseudo gènes où la ligne "gene" n'est pas suivie de la ligne "CDS"
    comp gene           238257..238736
    comp CDS            238257..238736
    comp gene           238746..239084		/pseudo
         gene           239190..239378		/pseudo
    comp gene           239419..240189
    comp CDS            239419..240189

    Traitement d'un génome entier extrait de la base de données NCBI

    Légende des diagrammes

    Légende des diagrammes 400

    • x+ et c+ pour intercalaires cds-cds positifs (I cds-cds) des discontinus et continus.
    • flex: abscisse du point d’inflexion en effectif
    • 1-400: effectif des intercalaires de 1 à 400 pbs de long.
    • abscisse: I cds-cds, c'est le total des effectifs de 10 fréquences successives en commençant par 1 jusqu'à 10 pour l'abscisse 10, puis 11 jusqu'à 20 pour 20.
    • ordonnée: taux en ‰ du total des intercalaires de l’abscisse par rapport au total du diagramme. Pour pmq c+ 1-400, le total du diagramme de 1 à 400 est de 4164. Le reste, c'est le total des CDS c+ du génome moins le total du diagramme. Pour les diagrammes 31-400, les taux en ordonnée sont ceux de 1-400.
    • Courbes de tendance: polynome de d° 3 comparé à une droite.
    • R2, coefficient de détermination de la courbe de tendance.

    Légende des diagrammes 40

    • eff pour effectif
    • fre pour fréquence. Les abscisses sont les fréquences unitaires.
    • diagr pour total des CDS du diagramme de la fréquence 1 à la fréquence 40. 
    • R2, coefficient de détermination de la courbe de tendance.
    • Courbes de tendance: polynome de d° 15.

    Les diagrammes

    abra 400      abra 40       ade 400        ade 40       afn 400        afn 40        ant 400        ant 40

    ase 400        ase 40        blo 400        blo 40        bsu 400        bsu 40        cbei 400       cbei 40 

    cbn 400       cbn 40        cvi 400         cvi 40         eco 400        eco 40       mba 400      mba 40    

    mja 400        mja 40       myr 400       myr 40       pmg 400       pmg 40      pmq 400       pmq 40      

    pub 400        pub 40       rru 400        rru 40         rtb 400        rtb 40          spl 400         spl 40      

    scc 400        scc 40                            fc 40    

    Les intercalaires cds-cds positifs continus

    Les diagrammes de 1 à 400 pbs

    Les diagrammes de 1 à 40 pbs

    Les intercalaires cds-cds positifs discontinus

    Les diagrammes de 1 à 400 pbs

    Les diagrammes de 1 à 40 pbs

    Les intercalaires privilégiés

    Parmi les séquences de 1 à 40 pbs

    parmi les séquences plus grandes que 40 pbs

    Traitement par lot

    Sauvegarder le NCBI sans ses commentaires

    1. Afficher le NCBI et relever taille et date
    2. Copier dans un txt puis dans un calc temporaire pour faciliter les sélections début ou fin.
    3. Sélectionner la 1ère cellule puis select ctrl+Maj+fin et trier croissant. Le curseur est à la fin. Rechercher (ctrl+H) " tRNA " précédent.
    4. Descendre le curseur d'une cellule puis select ctrl+Maj+fin et supprimer
    5. Se posirionner au début ctrl+début et rechercher (ctrl+H) " CDS " suivant sans les cotes
    6. Monter le curseur d'une cellule et puis le mettre loin à droite et effacer le début, ctrl+Maj+début.
    7. Le curseur est au début rechercher CDS suivant puis sélectionner ctrl+Maj+fin et coller au début de la feuille en H9.
    8. Le fichier est alors sauvegardé dans un txt en remplaçant la tabulation par le caractère de séparation § (ctrl+H, remplacer \t par §). Au moment de la récupération ne doit exister qu'un seul caractère de séparation, ici le §. J'ai sauvegarder plusieurs génomes dans un même lien de wikipédia comme suite:

    Formatage en 4 colonnes: complement gène adresse1 adresse2

    1. Retour au tableur. Rechercher "join(", résoudre ses adresses en adresses uniques et sauvegarder le join sur la même ligne.
    2. Sans sélection remplacer CDS gene rRNA tRNA en ajoutant (;)
    3. Rechercher tRNA; suivant, vérifier s’il n’y a pas d’autres gènes entre "CDS;" et "gene;" et les suffixer avec ";", comme ncRNA misc regulatory...
    4. Supprimer la ligne où le gène est ‘source’ puis tri croissant sur la colonne gène à partir de la ligne au-dessus de "source".
    5. Sélectionner tout ctrl+Maj+fin, copier dans txt puis dans le calc temporaire: à ce moment j'ai 3 colonnes, une contenant le nom du gène, CDS tRNA ..., à côté la colonne des adresses et à côté la note de join sauvegardée au 1er alinéa. Sauvegarder la note join dans le commentaire de la cellule correspondante de la colonne des gènes. Supprimer la note.
    6. Pour la discontinuité "complement-non complement", ajouter une colonne à gauche contenant comp pour les adresses avec "complement".
    7. Enlever les blancs dans le fichier, ctrl+H et remplacer " " par rien.
    8. Sélectionner la colonne contenant les adresses, ctrl+H et enlever les caractères ( <)> et les caractères alphabétiques avec l'expression régulière [:alph:].
    9. Remplacer les 2 points des adresses .. en ; en copiant la colonne dans txt et ctrl H . Il ne doit y avoir qu'un seul caractère de séparation qui est le ;.
    10. Puis copier le tout en 2 colonnes dans calc en écrasant la colonne des adresses modifiée.

    Traitement des pseudo gènes

    1. Sur la colonne à gauche de comp, numéroter en séquence gene puis CDS puis le reste: à la 1ère occurrence écrire 1 puis, à la 2ème, écrire la formule, cellule de la 1ère occurrence + 1. Couper la formule et select la plage, coller et couper coller format.
    2. Trier d’abord sur la colonne 1 des numéros, puis trier sur 1ère et 2ème adresse. A ce moment gene et CDS sont dans ce sens pour la même adresse.
    3. Dans certains cas la ligne gene n'est pas suivie par sa ligne CDS. A droite de la colonne 2ème adresse je crée une colonne de formule, "1ère adresse de la ligne suivante - (moins) celle de la ligne de la formule". Pour un couple "gene CDS" qui se suivent la différence est nulle. Pour un couple "CDS gene" ou "gene gene" qui se suivent la différence n'est pas nulle. Ensuite je fais la même chose sur la colonne suivante mais pour les 2ème adresses. Couper les 1ères cellules des 2 dernières colonnes puis select ctrl+H+fin à partir de ces cellules coupées, coller et couper coller format.
    4. En triant sur les 2 dernières colonnes à droite, toutes les lignes "gene" avec 0 et 0 dans les 2 dernières colonnes sont à supprimer.
    5. Supprimer les 2 colonnes des différences ainsi que la 1ère colonne de numérotation.

    Calcul des intercalaires

    1. Trier le reste sur 1ère et 2ème adresse. Calculer les intercalaires avec la formule, 1ère adresse de la ligne suivante moins 2ème adresse de la ligne moins 1. Couper la formule, sélecter ctrl+Maj+fin, coller puis couper et coller format.
    2. Rechercher et colorer les CDS de la colonne des gènes, "ctrl+H CDS". Les gènes différents de CDS apparaissent en clair.

    Marquage des intercalaires types

    1. Marquage des discontinus: Soit G9 la cellule de la colonne comp, G, et de ligne 9, que je vais tester dans une cellule L9 dont la colonne est libre.
      + Initialiser la cellule L9 avec la fonction =SI(G9=G10,1,0). Couper la formule, sélecter ctrl+Maj+fin, coller puis couper et coller format.
      + Sélectionner la colonne résultat et supprimer les 1 avec ctrl+H, remplacer 1 par rien. La colonne des discontinus doit être en 1er et l'écraser par la colonne des * (autres gènes ci-dessous) en ignorant les cellules vides (choix dans ctrl+v).
    2. Marquage des gènes autres que CDS:
      + On peut marquer les gènes différents de CDS dans la cellule M9 avec la fonction =SI en comparant le contenu de la cellule H9 à la cellule contenant, $CDS$: =SI(($CDS$=H9) et (H9=H10),0,2). Avec cette formule un CDS suivi d'un autre gène a pour résultat un 2 qui sera correspondra plus loin au deb (pour début du pavé clair).
      + Faire sur la colonne adjacente N9, la formule =SI(($CDS$=H9) et (H9=H8),0,3). Avec cette formule un CDS précédé d'un gène différent de CDS a pour résultat un 3 qui correspondra plus loin à fin (pour fin du pavé clair).
    3. Cadrage des types "autres gènes" par une colonne deb-fin:
      + Dans la cellule F9 tester les cellules H9 et M9, =SI(($CDS$=H9) et (M9=2),7,0). Un résultat 7 correspond au résultat 2 de la colonne L.
      + Dans la cellule E9 tester les cellules M9 et N9, =SI((M9=0) et (N9=3),9,0). Un résultat 9 correspond au résultat 3 de la colonne N.
      + Supprimer les 0 des colonnes E et F, couper coller la colonne E sur F en ignorant les cellules vides et remplacer 7 par deb et 9 par fin.
    4. Compléter la colonne des intercalaires types: Compléter la colonne L pour les types d'intercalaires x+ x- c+ c- et * pour discontinus positifs négatifs, continus positifs négatifs et autres intercalaires. Pour cela supprimer les 0 de la colonnes M et effacer la colonne N. Remplacer les 2 dans la colonne M par * et couper coller M sur L en ignorant les cellules vides.

    Calcul de la fréquence des intercalaires

    1. Le tri: En triant dans l'ordre croissant, la colonne de marquage puis la colonne des intercalaires, apparaissent les discontinus négatifs suivis des discontinus positifs. Je colorie, pour repérer les erreurs lors des contrôles, les x- en vert et les x+ en cyan. Pour les x- je remplace les 0 par des 1. Ainsi après les mêmes tris j'obtiens les 0 qui sont des x+ colorés en cyan, les x- colorés en vert, les * en clair, les c- que je colorie en jaune sans caractère sur la colonne de marquage et les c+ que je laisse en clair en clair, sans caractère sur la colonne de marquage.
    2. Les fréquences: sur ces plages j'applique la fonction "fréquence" de calc pour créer les diagrammes 400 et les diagrammes 40.

    Traitement des "autres gènes", deb-fin

    1. Plusieurs "autres gènes" peuvent être en une séquence longue comme pour les tRNA. Ces pavés sont encadrés la colonne deb-fin.
    2. Sur la totalité du génome, trier les colonnes F G H adresse1 adresse2 intercalaire type, en 1er sur la colonne deb-fin (F) et en 2ème la colonne CDS (H),
    3. Copier les lignes avec deb et fin en supprimant les intercalaires (K) des lignes "fin", et les sauvegarder plus loin.  
    4. Copier les lignes en clair qui se trouvent à la fin du génome et les coller sous les lignes du pavé deb-fin sauvegardé. Trier ce pavé sur adresse 1 puis 2.
    5. Les tableaux deb-fin sont publiés dans les chapitres "autres intercalaires" de chaque génome. 
    « articles à lireLe dialogue entre l'inconscient et le conscient »

  • Commentaires

    Aucun commentaire pour le moment

    Suivre le flux RSS des commentaires


    Ajouter un commentaire

    Nom / Pseudo :

    E-mail (facultatif) :

    Site Web (facultatif) :

    Commentaire :