• GC content

    23.5.16  Paris

    Du concept global au GC content          Revue du GC content dans la littérature        Matériel et méthodes       Résultats et discussion       Références     

  • 23.5.16 Paris

    Il s'agit dans un premier temps d'accumuler des références au fur et à mesure de leur rencontre, et de les classer par thèmes.


    votre commentaire
  • 23.5.16  Paris

    Résultats

    • Le diagramme de chaque codon et aa,
    • Le classement des codons et aa suivant les valeurs propres des matrices des corrélations
    • Statistiques de la répétition des bases

    Discussion

    • GC content versus corrélation entre codons et entre aas
    • Différence du comportement des répétitions en G et C, et des répétitions en A et T
    • Le concept global: interaction direct ADN/aas (c'est à dire avec le milieu extérieur) au moyen de la résonance électronique à l'intérieur de l'ADN.
    • Les premières structures organisées dans le liposome prébiotique sont faites de groupements d'aas et de monomères d'ADN.

    24.5.16

    D'abord les tableaux en codon/GC ont été élaborés dans le temps comme suite:

    • de grosses protéines cumulées,6 pour 111 bactéries: ceci pour déceler un comportement moyen pour chaque codon. Aussi les protéines sont normalisées à une longueur moyenne ou en référence à celle d'E.Coli. : feuille(GC code 110) dans repete110.ods de NCBI-GC. Diagrammes.

    • Comparaison du même type de tableau pour 10 protéines du métabolisme central pour 39 bactéries: feuille(39-prot ) dans repete39-1.ods de NCBI-GC. Comparaison avec les 6 protéines précédentes mais sur 39 bactéries, feuille(39-dna). Comparaison entre 39-prot et dna dans la feuille (dna-prot). Diagrammes.

    • Tableaux des codons en protéines individuelles:  repete110-2.ods de NCBI-GC
      • 6 protéines sur 111 bactéries, feuille (prot111) avec diagramme feuille(prot111dg)
      • 10 protéines pour 39 bactéries,feuille(prot39)
      • 5 protéines pour plus de 50 bactéries pour les protéines du métabolisme central avec diagrammes, feuille(prots-longs)
      • premières corrélations, feuille(corrélats).
    • Étude étendue des corrélations pour les comparaisons entre protéines. Les fichiers porte le même nom dans 3 dossiers différents suivant l'affinement de la corrélation: proteines memb-compare-xxx.ods dans tanger010516.

      •  dans data-eepc: spectres des corrélations effectués par la fonction Si() de "calc" puis par la fonction Loiexponentielle() de "calc". Regroupement des codons "additions". Aussi illustration des corrélations avec le diagramme de 3 codons corrélés ou non, fichier "proteines memb2.ods".
      • dans data-ssd: calculs matriciels sur le tableau des corrélations avec SciPy (science python au terminal), valeurs propres plus vexteurs propres pour les aas seulement.
      • dans tanger010516: calculs matriciels avec matlab, valeurs et vecteurs propres pour les codons aussi.

    29.5.16  Paris

    Résultats, ajout des tableaux :

    • Eucaryotes avec 5 protéines pour comparaison avec les bactéries dans le but de discuter sur l'apport des tRNAs dans la problématique du GC content:fichier "codons.ods" dans dossier eucaryotes. Le classement par rapport au GC content global comme pour les bactéries ne peut plus se faire. Aussi:
    • Classement des codons par rapport GC content du gène lui-même. Ce qui m'a amener à classer aussi les codons bactériens de la même façon: feuille "%GC par gène" dans repete110-2.ods et recapg dans matlab-propres.ods.
    • Il faut ajouter les archées.
    • Il faut comparer les valeurs propres racines (r1) par rapport à la somme des valeurs absolues d'un codon. Est-ce le même classement?

    Discussion suite au problème posé par les eucaryotes pour le classement des codons par rapport au GC content:

    • La résonance dans l'ADN des bactéries doit se faire au niveau d'un opéron et non d'un gène. En effet l'unité de résonance est définie d'abord au niveau de l'unité de transcription qui est souvent l'opéron et traitée telle quelle par la polymérase avec initiation au 5'LTR et terminaison au 3'LTR. En plus dans un opéron avec une seule unité de transcription les gènes sont contigus et le début du gène peut chevaucher avec le codon du gène qui le précède (voir plasmides dans les résultats).
    • La résonance chez les eucaryotes doit se faire au niveau aussi de l'opéron qui est toujours réduit à un seul gène. Mais ce sera le gène au niveau de l'ADN et non au niveau de l'ARN messager remanié (splicing).
    • Le splicing introduit des contraintes au niveau de l'ARN messager qui font intervenir des codons différents. D'où l'importance des 2 codons glutamate que j'ai relevé pour les eucaryotes. La résonance au niveau du RNA n'est pas la même qu'au niveau du DNA. La sélection naturelle agissant toujours sur le produit fini.
    • Comparaison maintenant entre, la composition en tRNAs des eucaryotes et des bactéries, et les classements des codons dans les 2 domaines. Origine du GC content, la résonance ou la composition des jeux de tRNAs? Certainement les 2 puisque les tRNAs imposent une contrainte forte sur l'ADN (GC content).
    • Cependant la séquence d'ADN qui code pour une protéine, que ça soit un exon ou un gène bactérien, reste la principale unité de résonance. C'est elle qui apparaîtra en 1er dans l'évolution moléculaire, d'abord grâce aux groupements d'aas puis définitivement avec les liaisons covalentes.
    • Je dis définitivement, car dans le concept de la résonance de l'ADN, une fois les liaisons covalentes établies entre bases nucléiques, la résonance devient maximale, et le remplacement d'une base par une autre doit obéir à de fortes contraintes, d'où le GC content. Une mutation ponctuelle doit aussi répondre à cette contrainte. Elle ne se fait pas au hasard. S'il n'y a pas résonance la transcriptase ou la réplicase ne peuvent pas continuer leur progression et la mort est fatale s'il n'y a pas correction. Une mutation ponctuelle est d'abord la création d'une possibilité physique qui sera soumise ensuite à la sélection naturelle.
    • Il ne faut pas oublier le concept de contrainte \ liberté dans le cas de la résonance maximale dans une séquence codante. La contre partie liberté de ce concept devient une forte contrainte pour l'évolution moléculaire. Elle se traduit par une obligation d'échange entre séquences d'ADN d'où les transposons, la recombinaison et en fait de compte la sexualité. On comprend mieux maintenant la raison d'être de la sexualité. La sexualité (tout sorte d'échange entre ADNs) devient une nécessité après la première étape de l'évolution moléculaire où les monomères sont libres, peu résonants mais capable de se combiner librement. Car à la 2ème étape, établissement des liaisons covalentes, il n'y a plus possibilité de combinaisons libres.
    • Les parties codantes des séquences d'ADN sont le fruit de cette première étape et peuvent alors évoluer lentement par mutation ponctuelle obéissant au GC content pour répondre très finement et progressivement à une infinité d'interactions avec le milieu extérieur.

     

     


    votre commentaire
  • 23.5.16  Paris

    • Le choix des bactéries,
    • Les bases de données utilisées,
    • Les moulinettes en Perl pour la compilation et
    • Les types de compilations choisis,
    • Les protéines à étudier,
    • Les diagrammes et les courbes de tendance,
    • Les coefficients de corrélation,
    • Les calculs matriciels.

    24.5.16  Paris

    111 bactéries    ordre alphabétique

    %GC KEGG   %GC KEGG   %GC KEGG   %GC KEGG  
    53.0 apt Acetobacter pasteurianus 54.1 cgq corynebacterium glutamicum 37.1 liv Listeria ivanovii 61.9 sus Solibacter
    35.7 axl Amphibacillus 42.4 cbd Coxiella burnetii 48.7 mah Methylomicrobium 49.0 ssm Spirochaeta
    71.3 amd Amycolatopsis mediterranei 63.4 ddr Deinococcus deserti 70.3 mts Microbacterium 32.1 sep Staphylococcus epidermidis
    48.0 amo Anaerobaculum 66.2 dpt Deinococcus proteolyticus 55.4 mcu Mobiluncus 26.3 smf Streptobacillus
    74.9 ade Anaeromyxobacter dehalogenans 54.5 dal Desulfatibacillum 23.7 mcac Mycoplasma capricolum 38.3 spi streptococcus pyogenes
    43.5 aae Aquifex aeolicus 58.6 dba Desulfomicrobium 41.1 nse Neorickettsia 73.3 salb Streptomyces albus
    69.4 age Archangium 63.0 dvl Desulfovibrio vulgaris 39.7 nis Nitratiruptor 70.7 sma Streptomyces avermitilis
    43.2 bae Bacillus atrophaeus 56.1 din Desulfurispirillum 70.0 opr Oceanithermus profundus 72.2 sgr Streptomyces griseus
    43.5 bsu Bacillus subtilis 34.9 dte Desulfurobacterium 45.5 ppoy Paenibacillus polymyxa 72.0 sho Streptomyces hygroscopicus
    51.7 bvs Barnesiella 55.1 eno Enterobacter cloacae 45.1 pdi Parabacteroides 56.8 say Sulfobacillus acidophilus
    36.8 bbd Belliella 49.7 eal Escherichia albertii 29.7 pub Pelagibacter 59.1 synd Synechococcus sp.
    60.5 bla Bifidobacterium animalis 50.8 eco Escherichia coli 59.6 pgd Phaeobacter gallaeciensis 36.0 thl Tetragenococcus
    27.4 bfl Blochmannia 27.1 fnc Fusobacterium nucleatum 48.3 pgi Porphyromonas gingivalis 63.8 tai Thermanaerovibrio
    57.2 bmf Brucella abortus 42.0 gva Gardnerella vaginalis 31.1 pmh Prochlorococcus marinus 31.4 tme Thermosipho
    68.1 bmv Burkholderia mallei 64.3 gau Gemmatimonas 24.2 ssdc Profftella 46.2 tma Thermotoga maritima
    33.3 cff Campylobacter fetus 41.8 hhd Halobacillus 60.0 pac Propionibacterium acnes 47.1 tli Thermovirga
    30.5 cje Campylobacter jejuni 32.5 hhl Halobacteroides 66.6 pae Pseudomonas aeruginosa 68.6 tos Thermus thermophilus
    16.6 crp Candidatus Carsonella ruddii 22.5 hcr Hepatoplasma 61.3 ret Rhizobium etli 37.9 tde Treponema denticola
    36.3 lat Candidatus Liberibacter asiaticus 37.5 hmr Hippea 67.4 roa Rhodococcus opacus 52.8 tpas Treponema pallidum
    26.2 ple Candidatus Portiera aleyrodidarum 44.0 hth Hydrogenobacter 65.4 rru Rhodospirillum rubrum 39.2 tsu Treponema succinifaciens
    13.5 zin Candidatus Zinderia insecticola 33.9 ial Ignavibacterium 29.0 rpr Rickettsia prowazekii 25.1 sbw U. Enterobacteria
    40.3 cmn Chlamydia muridarum 74.2 ksk Kitasatospora 28.5 rip Riesia 46.5 fbt U. Flammeovirgaceae
    39.1 chp Chlamydia psittaci 57.5 kpn Klebsiella pneumoniae 51.3 sbz Salmonella bongori 25.5 uur Ureaplasma parvum
    41.3 cta Chlamydia trachomatis 58.4 aba Koribacter 52.1 sty Salmonella Enterica 38.6 vpr Veillonella
    72.7 cmi Clavibacter 34.5 ljf Lactobacillus johnsonii 46.3 sbn Shewanella baltica 68.9 vin Vulgatibacter
    29.9 cad Clostridium acidurici 44.5 lpl Lactobacillus plantarum 39.1 spl Shewanella pealeana 65.0 xcb Xanthomonas campestris
    28.3 cbl Clostridium botulinum 35.3 lla Lactococcus lactis 62.3 saci Singulisphaera 47.6 ype Yersinia pestis
    53.6 caa Coraliomargarita 50.0 lfc Leptospirillum 62.7 smk Sinorhizobium meliloti      

     

    111 bactéries    %GC croissant

     

    %GC KEGG   %GC KEGG   %GC KEGG   %GC KEGG  
    13.5 zin Candidatus Zinderia insecticola 36.3 lat Candidatus Liberibacter asiaticus 47.6 ype Yersinia pestis 61.3 ret Rhizobium etli
    16.6 crp Candidatus Carsonella ruddii 36.8 bbd Belliella 48.0 amo Anaerobaculum 61.9 sus Solibacter
    22.5 hcr Hepatoplasma 37.1 liv Listeria ivanovii 48.3 pgi Porphyromonas gingivalis 62.3 saci Singulisphaera
    23.7 mcac Mycoplasma capricolum 37.5 hmr Hippea 48.7 mah Methylomicrobium 62.7 smk Sinorhizobium meliloti
    24.2 ssdc Profftella 37.9 tde Treponema denticola 49.0 ssm Spirochaeta 63.0 dvl Desulfovibrio vulgaris
    25.1 sbw U. Enterobacteria 38.3 spi streptococcus pyogenes 49.7 eal Escherichia albertii 63.4 ddr Deinococcus deserti
    25.5 uur Ureaplasma parvum 38.6 vpr Veillonella 50.0 lfc Leptospirillum 63.8 tai Thermanaerovibrio
    26.2 ple Candidatus Portiera aleyrodidarum 39.1 chp Chlamydia psittaci 50.8 eco Escherichia coli 64.3 gau Gemmatimonas
    26.3 smf Streptobacillus 39.1 spl Shewanella pealeana 51.3 sbz Salmonella bongori 65.0 xcb Xanthomonas campestris
    27.1 fnc Fusobacterium nucleatum 39.2 tsu Treponema succinifaciens 51.7 bvs Barnesiella 65.4 rru Rhodospirillum rubrum
    27.4 bfl Blochmannia 39.7 nis Nitratiruptor 52.1 sty Salmonella Enterica 66.2 dpt Deinococcus proteolyticus
    28.3 cbl Clostridium botulinum 40.3 cmn Chlamydia muridarum 52.8 tpas Treponema pallidum 66.6 pae Pseudomonas aeruginosa
    28.5 rip Riesia 41.1 nse Neorickettsia 53.0 apt Acetobacter pasteurianus 67.4 roa Rhodococcus opacus
    29.0 rpr Rickettsia prowazekii 41.3 cta Chlamydia trachomatis 53.6 caa Coraliomargarita 68.1 bmv Burkholderia mallei
    29.7 pub Pelagibacter 41.8 hhd Halobacillus 54.1 cgq corynebacterium glutamicum 68.6 tos Thermus thermophilus
    29.9 cad Clostridium acidurici 42.0 gva Gardnerella vaginalis 54.5 dal Desulfatibacillum 68.9 vin Vulgatibacter
    30.5 cje Campylobacter jejuni 42.4 cbd Coxiella burnetii 55.1 eno Enterobacter cloacae 69.4 age Archangium
    31.1 pmh Prochlorococcus marinus 43.2 bae Bacillus atrophaeus 55.4 mcu Mobiluncus 70.0 opr Oceanithermus profundus
    31.4 tme Thermosipho 43.5 aae Aquifex aeolicus 56.1 din Desulfurispirillum 70.3 mts Microbacterium
    32.1 sep Staphylococcus epidermidis 43.5 bsu Bacillus subtilis 56.8 say Sulfobacillus acidophilus 70.7 sma Streptomyces avermitilis
    32.5 hhl Halobacteroides 44.0 hth Hydrogenobacter 57.2 bmf Brucella abortus 71.3 amd Amycolatopsis mediterranei
    33.3 cff Campylobacter fetus 44.5 lpl Lactobacillus plantarum 57.5 kpn Klebsiella pneumoniae 72.0 sho Streptomyces hygroscopicus
    33.9 ial Ignavibacterium 45.1 pdi Parabacteroides 58.4 aba Koribacter 72.2 sgr Streptomyces griseus
    34.5 ljf Lactobacillus johnsonii 45.5 ppoy Paenibacillus polymyxa 58.6 dba Desulfomicrobium 72.7 cmi Clavibacter
    34.9 dte Desulfurobacterium 46.2 tma Thermotoga maritima 59.1 synd Synechococcus sp. 73.3 salb Streptomyces albus
    35.3 lla Lactococcus lactis 46.3 sbn Shewanella baltica 59.6 pgd Phaeobacter gallaeciensis 74.2 ksk Kitasatospora
    35.7 axl Amphibacillus 46.5 fbt U. Flammeovirgaceae 60.0 pac Propionibacterium acnes 74.9 ade Anaeromyxobacter dehalogenans
    36.0 thl Tetragenococcus 47.1 tli Thermovirga 60.5 bla Bifidobacterium animalis      

     

    5-7-16  Tanger

    Pour les 111 bactéries du 24-5-16 le %GC est celui du chromosome entier de la bactérie.

    Pour comparer les corrélations entre codons (voir méthodes) j'ai du recompter le %GC dans la séquence d'ADN de chaque protéine en utilisant la moulinette adéquate ( à ajouter au matériel). Cette comparaison est nécessaire car la séquence des bases chez les eucaryotes et les archées est celle obtenue après épissage et ne représente plus la résonance de la séquence dans le chromosome même qui est mon objectif premier.

    Les protéines étudiées: (codes de KEEG)

    Le nombre des espèces chez les eucaryotes et les archées étant très faible par rapport à celui des bactéries j’ai du limiter leur nombre à une trentaine d’espèces ( pour quelque protéines je suis allé jusqu’à 40 espèces). En plus la liste des espèces par protéine n’est pas la même car souvent une espèce n’a pas nécessairement toutes les protéines que j’ai prévues d’ étudier. Aussi je donne ici la liste des espèces par protéine pour les archées et les eucaryotes. Pour les bactéries la liste étant longue, je me réfère à la liste du 24.5.16 et je mentionne les manquants seulement.

    Protéines eucaryotes

    @noms=(acs, aly, apla, ath, ecb, bta, cal, chx, cic, cme, cre, ehx, fab, gga, gla, hsa, lcm, lth, mcc, mmu, mus, myb, mze, ndi, ngi, oas, ota, pbi, pic, ppa, pper, pss, pti, sce, sly, tca, ttt, tup, umr, xma); # 2777A

    @noms=(aag, aly, asn, ath, bfu, bsc, cal, chx, cic, cme, cmt, cre, dfa, dpe, fab, fgr, gtr, hsa, lth, mcc, mmu, mus, myd, mze, ndi, nfi, oas, pbi, pco, ppa, pper, sce, sly, spo, spu, ttt, tup, umr, ure, zma); # 2776A1

    @noms=(act, aly, asn, ath, bsc, cic, cmt, cre, dme, fgr, gtr, hsa, loa, mbr, mcc, mmu, mde, mze, ncr, osa, pda, ppa, pper, sce, shr, sla, sly, spo, tca, umr); # 6115

    @noms=(act, aly, ath, bze, cal, cic, cmt, dsq, ela, fgr, gtr, hir, lth, mbe, mlr, ncr, ncs, osa, pda, pfj, ppa, ppp, sbi, sce, sla, smp, spo, tms, ttt, ure); # 6355

    @noms=(apla, asn, ath, chx, cic, cmt, cre, dgr, dme, dre, hsa, loa, mbr, mcc, mmu, pif, pkn, ppa, pper, pss, sbi, sce, shr, sla, sly, spo, tca, ttt, tva, ure); # 27140

    @noms=(aag, aly, asn, ath, bfu, bsc, cal, chx, cic, cme, cmt, cre, dfa, dpe, fab, fgr, gtr, hsa, lth, mcc, mmu, mus, myd, mze, ndi, nfi, oas, pbi, pco, ppa, pper, sce, sly, spo, spu, ttt, tup, umr, ure, zma); #2776A2

    @noms=(acs, aly, apla, ath, bacu, bta, cal, chx, cic, cme, cre, ecb, ehx, fab, gga, gla, hsa, lcm, lth, mcc, mmu, mus, myb, mze, ndi, ngi, oas, ota, pbi, pic, ppa, pper, pti, sce, sly, tca, ttt, tup, xma, xtr); #2777E1

    @noms=(act, aly, asn, ath, bsc, cic, cmt, dme, fgr, gtr, hsa, loa, mbr, mcc, mde, mmu, mpp, mze, ncr, osa, pda, ppa, pper, sce, shr, sla, sly, spo, tca, umr); #6114

    @noms=(act, aly, ath, cal, cic, cmt, dsq, ela, fgr, gtr, hir, lth, mbe, mlr, ncr, ncs, osa, pda, pfj, pno, ppa, ppp, sbi, sce, sla, smp, spo, tms, ttt, ure); #63552

    @noms=(act, aly, asn, ath, bsc, cel, cic, cmt, cre, dme, fgr, gtr, hsa, mbr, mcc, mde, mmu, mze, ncr, osa, pda, ppa, pper, sce, shr, sla, sly, spo, tca, umr); #4213

    Protéines archées

    @noms=(afg, arg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mja, mls, mma, mmao, mmp, mpl, msz, mth, mtp, nat, nin, pho, pyn, sali, taa, tgy, thm); # 27772

    @noms=(afg, arg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mja, mls, mma, mmao, mmp, mpl, mru, msz, mtp, nat, nin, pho, pyn, sali, taa, tgy, thm); # 2776A1

    @noms=(afg, arg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mja, mls, mma, mmao, mmp, mpl, msz, mth, mtp, nin, pho, pyn, sali, sol, taa, tgy, thm); # 6115

    @noms=(afg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mls, mma, mmao, mmp, mpl, msz, mtp, nat, nin, pas, pyn, sali, sir, sis, sol, sto, taa, tuz); # 6355

    @noms=(acj, fac, hal, hla, loki, mba, mem, mev, mhor, mhu, mja, mls, mma, mmao, mmp, msz, nat, pas, pho, pyn, sali, sir, sis, sol, sto, tag, tga tgy, thm, tuz); # 27140

    @noms=(afg, arg, asc, fac, hab, hal, hla, loki, mba, mem, mfc, mhor, mif, mja, mls, mmp, mpl, mru, mtp, nat, nin, pas, pyn, sir, sol, sis, taa, tag, tgy, tuz); # 27771

    @noms=(afg, arg, hab, hal, hhb, hla, hmu, hsu, mba, mel, mem, mev, mfc, mfs, mhor, mif, mja, mls, mma, mmao, mmp, mmz, mpl, mru, msz, mtp, mvo, nat, sali, sso); # 2776B1

    @noms=(afg, arg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mfs, mhor, mja, mls, mma, mmp, mpl, msi, mth, mtp, nin, pho, pyn, sali, sol, taa, tgy, thm); # 6114

    @noms=(afg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mls, mma, mmao, mmp, mpl, msz, mtp, nat, nin, pas, pyn, sali, sir, sis, sol, sto, taa, tuz); # 63552

    @noms=(asc, fac, hab, hal, hhb, hla, hmu, hsf, loki, mba, mear, mev, mhor, mls, mma, msz, mtp, nat, nga, nin, pai, pog, pyn, sai, sali, sir, sis, sol, taa, tuz); # 4213

    Protéines bactéries

     Liste 111 bactéries

    @noms=(aae, aba, ade, age, amd, amo, apt, axl, bae, bbd, bfl, bla, bmf, bmv, bsu, bvs, caa, cad, cbd, cbl, cff, cgq, chp, cje, cmi, cmn, crp, cta, dal, dba, ddr, din, dpt, dte, dvl, eal, eco, eno, fbt, fnc, gau, gva, hcr, hhd, hhl, hmr, hth, ial, kpn, ksk, lat, lfc, liv, ljf, lla, lpl, mah, mcac, mcu, mts, nis, nse, opr, pac, pae, pdi, pgd, pgi, ple, pmh, ppoy, pub, ret, rip, roa, rpr, rru, saci, salb, say, sbn, sbw, sbz, sep, sgr, sho, sma, smf, smk, spi, spl, ssdc, ssm, sty, sus, synd, tai, tde, thl, tli, tma, tme, tos, tpas, tsu, uur, vin, vpr, xcb, ype, zin);

    #2777A 111 27761 111 27762 111 6114 111 6115 111

    #27771 107 : crp, ple, rip, zin

    # 27140 97 :aae, crp, dte, hth, lfc, mcac, nse, pgi, ple, pub, rpr, ssdc, tpas, zin

    #secA 109 :crp, zin

    # 4213 84 :amo, bfl, bvs, chp, cmn, crp, cta, fnc, gva, hcr, ljf, lpl, mcac, pgi, ple, rip, sbw, smf, spi, tde, thl, tma, tme, tpas, uur, vpr, zin

    # 63551 93 :aae, axl, chp, cmn, cta, hcr, hth, mcac, mcu, rip, rpr, smf, ssdc, tde, tme, tpas, uur, zin

    # 63552 94 :axl, chp, cmn, cta, hcr, mcac, mcu, rip, rpr, smf, ssdc, tai, tde, tme, tpas, uur, zin

    # 1653L 58 :aae, aba, ade, age, amd, apt, bfl, bmf, bmv, bvs, caa, cbd, cff, cje, ddr, din, dte, eal, eco, eno, fbt, gau, hmr, hth, ial, kpn, ksk, lfc, mcu, nis, nse, opr, pac, pae, pgd, ple, pub, ret, roa, rpr, rru, saci, salb, say, sbw, sbz, sgr, sho, sma, smk, ssdc, sty, sus, tos, vin, xcb, ype, zin (liste directe).

    # 1653M 58 : idem 1653L 

    # 1653N 58 :idem 1653L .

    Nomenclature des protéines d’après KEEG

    4213 : K01681 aconitate hydratase [EC:4.2.1.3]

    secA : K03070 preprotein translocase subunit SecA

    27140 : K00873 pyruvate kinase [EC:2.7.1.40]

    63551 : K01955 carbamoyl-phosphate synthase large subunit [EC:6.3.5.5]

    63552 : K01956 carbamoyl-phosphate synthase small subunit [EC:6.3.5.5]

    1653L : K00341 NADH-quinone oxidoreductase subunit L [EC:1.6.5.3]

    1653M :K00342 1653N : K00343

    6114 : K01869 leucyl-tRNA synthetase [EC:6.1.1.4]

    6115 : K01870 isoleucyl-tRNA synthetase [EC:6.1.1.5]

    2777A : K02337 DNA polymerase III subunit alpha [EC:2.7.7.7] dnaE(eco)

    2777E1 : K02324 DNA polymerase epsilon subunit 1 [EC:2.7.7.7] polE (hsa)

    27772 : K02322 DNA polymerase II large subunit [EC:2,7,7,7] polA2 (hal)

    27771 : K02335 DNA polymerase I [EC:2.7.7.7] polA (eco)

    27761 : K03043 DNA-directed RNA polymerase subunit beta [EC:2.7.7.6] rpoB(eco)

    27762 : K03046 DNA-directed RNA polymerase subunit beta' [EC:2.7.7.6] rpoC(eco)

    2776A1 : K02999 DNA-directed RNA polymerase I subunit RPA1 [EC:2.7.7.6] polR1A(hsa)

    2776A1 : K03041 DNA-directed RNA polymerase subunit A' [EC:2.7.7.6] rpoA1(hal)

    2776A2 : K03002 DNA-directed RNA polymerase I subunit RPA2 [EC:2.7.7.6] polR1B(hsa)

    2776B1 : K03044 DNA-directed RNA polymerase subunit B' [EC:2.7.7.6] rpoB’(hal)

     

    17-07-16 Tanger

    Méthodes

    Calculs des valeurs propres des matrices des coéfficients de corrélation entre codons.

    Le coefficient de corrélation entre 2 codons fait participer ces 2 codons de façon équivalente. D’où la symétrie de la matrice carrée de ces coefficients. Pour attribuer une valeur à la participation de chaque codon je me réfère à la définition statistique du coefficient de corrélation qui est un produit des 2 paramètres caractéristiques de chaque variable aléatoire représentée ici par un codon. (réf.).

    L’équivalence de participation fait que, celle d’un codon, est égale à la racine carrée du coéfficient de corrélation entre ces 2 codons. La racine carrée implique l’utilisation des nombres complexes quand le coéfficient est négatif.

    Obtention de la matrice :

    La matrice des coefficients sera en fait la matrice complexe des racines carrées des coefficients de corrélation entre codons. Pour l’obtenir avec un tableur (ici Calc de Libreoffice) il suffit de faire dans une cellule:

    =SI(CO585<0;-RACINE(-CO585);RACINE(CO585)).

    Pour obtenir un nombre complexe il suufit de remplacer (ctrl+H) -0. par 1j*0. (python2.7).

     Formatage de la matrice pour python2.7 :

    • Copier la matrice de Calc vers Writer (ctrl+Maj+v, texte non formaté).
    • Remplacer (ctrl+H) : \t en ‘, ‘ (expression régulière et sélection).
    • Remplacer (ctrl+H) : $ en ‘],\n[ ‘ (expression régulière et sélection).
    • Mettre ‘[‘ au début de la matrice et ‘]’ à la fin de la matrice.

    Si la copie de la matrice dans le terminal se passe mal, copier en plusieurs morceaux chacun se terminant par ‘], ‘.

     Calculs des valeurs propres avec python2.7 (ubuntu 16.04):

    Dans un terminal passer les commandes suivantes :

    ****

    python2.7

    • >>> import numpy as np
    • >>> from numpy import linalg
    • >>> from numpy.linalg import eig
    • >>> u = np.array([ "coller"
    • ...], "coller" "coller"
    • , 1]

    ajouter à la suite

    • ])

    entrée

    Si la matrice est acceptée passer la commande

    • >>> u

    pour l’afficher.

    Le calcul des valeurs propres se fait de la façon suivante :

    • >>> D, V = eig(u)

    D est la diagonale des valeurs propres en nombres complexes. C’est son module (nombre réel) qu’on peut comparer aux coefficients de corrélation des codons. Pour obtenir ce module je multiplie la valeur propre complexe par son conjugué et j’extrais sa racine carrée. Dans python2.7 je passes les commandes suivantes :

    • >>> z=np.conj(D)
    • >>> c=z*D
    • >>> c

    S’affiche alors la liste des modules au carré qu’il suffit de nettoyer du nombre complexe j dans Writer et extraire la racine carrée [=racine()] dans Calc.

    ****

    L’inverse du module de la valeur propre est comparable à l’ordre du classement des codons par leurs coefficients de corrélation :

    C’est en regroupant les codons semblables ayant le même signe de corrélation (exemple cgt+cga, tct+tca, ctc+ctg….) que j’obtenais des coefficients très élevés. Que deviennent alors les valeurs propres de telles matrices ? J’ai alors construit une matrice artificielle à partir de la matrice réelle de la protéine 63551 en gardant les signes + et – des coefficients et en remplaçant ceux-ci tous par un nombre inférieur ou égale à 1. Pour cela il suffit, dans Calc, d’exécuter la fonction [=impair()] pour une cellule donnée de la matrice. On obtient des ‘1’ et des ‘-1’. Il suffit alors de remplacer 1 par un nombre inférieur tout en protégeant la diagonale qui doit rester égale à ‘1’.

    La matrice artificielle avec une valeur ‘1’ comme coefficient de corrélation donne 18 valeurs propres supérieures à ‘1’ et toutes les autres sont très proche de ‘0’ mais toutes différentes entre elles. Avec 0,5 0,8 et 0,98 on obtient toujours 18 valeurs supérieures à ‘1’ mais les autres valeurs sont toutes identiques entre-elles et sont respectivement de 0,5 0,2 et 0,02.

    Il est clair que si on veut comparer coefficient de corrélation et valeur propre il faut plutôt prendre l’inverse de la valeur propre.

    Il faut noter que les 2 premières valeurs propres croissent avec le coefficient de corrélation artificiel. J’en tiendrai compte dans ‘ résultats et discussion’.

    Voir ‘proteines memb-compare-6355.ods’ pour récupérer ces tableaux.

    Classement des codons par leurs coéfficients de corrélation.

    Introduction sur la résonance d’un codon qu’on souhaite déterminer ou plus prosaïquement en avoir une quelconque estimation.

    Pourquoi suis-je arrivé là, à classer les codons par leurs coefficients de corrélation ? Ma théorie sur la résonance des bases dans l’ADN m’a conduit par simplicité à recenser les bases multiples qui seraient la caractéristique des séquences de contrôle (opérons, promoteurs, treminateurs...). Les compilations que j’ai faites en fonction du %GC d’un génome entier m’ont réconforté dans mon idée : les répétitions de A et les répétions de T se comportent de façons tout à fait différentes de celles de G et celles de C. Pour confirmer j’ai commencé à regarder les répétitions dans les gènes protéiques. A ma grande surprise c’est que les zones de contrôle chez les bactéries sont très peu étendues et les répétitions que j’ai comptabilisées sont en fait dans les gènes protéiques.

    L’idée m’est venue alors de rechercher la résonance des codons en étudiant les diagrammes (nombre de codons) en fonction du %GC de l’organisme. Les résultats sont réconfortants. C’est à dire que les diagrammes sont tous différents et leur allure reste la même quelque soit la protéine étudiée. Mais 2 points litigieux me tracassaient :

    • - la résonance d’un codon dans une séquence n’a pas de sens puisque le codon n’a d’existence que par l’intermédiaire de la traduction. Dans le gène il n’y a pas de frontières entre les bases et les triplets qui ne sont pas des codons n’interviennent pas dans les diagrammes. Ma théorie de la résonance n’est valable que pour le gène entier.
    • - le fait même de tenir compte du %GC de l’organisme entier veut que ça soit ce pourcentage qui soit à l’origine de la répartition des codons et non les propriétés des codons (ou plus particulièrement la résonance des bases) qui soient à l’origine du dit pourcentage. C’est la théorie de l’évolution qui est avancée dans la polémique de l’origine du %GC. Les études de mes diagrammes n’apportent que de la confusion.

    La confusion a commencé à se dissiper quand, petit à petit, en essayant de classer les codons avec leurs diagrammes, je me suis intéressé aux coefficients de corrélation entre les codons. Ces coefficients ne font plus intervenir le fameux %GC de la polémique. Il m’est apparu alors évident que la matrice 64x64 des corrélations représentait plus ou moins la signature de la résonance du gène. C’est une matrice symétrique de nombres réels donc elle a 64 valeurs propres portées par 64 vecteurs propres. La matrice définie par les vecteurs propres est une matrice diagonale des valeurs propres. Le problème qui se pose alors c’est comment relier codon et valeur propre. Car l’ordre des valeurs propres est indéterminé.

    Reste le point litigieux de la résonance d’un codon dans un gène. Mais revenons sur l’argumentaire de la traduction qui attribue le concept de codon uniquement à la machinerie de la traduction. Le codon est défini avant tout par le sens de lecture sur un ARNm qui est simple brin. Or l’ADN est double brin et n’est pas en translation. Cependant quand les protéines qui gèrent l’ADN (protection, réparation, reconfiguration lors de la transcription et de la réparation et surtout interaction avec les facteurs de transcription) entrent en interaction avec lui, elles interagissent avec la structure physique : les 2 brins ne sont pas accessibles de la même façon dans le petit et le grand sillon, ils n’ont pas la même énergie quand l’ADN est déroulé ou comprimé lors des réparations ou de la transcription. Donc pour ces protéines, sur une courte distance, un des brins est accessible dans une direction donnée. C’est ainsi qu’on comprend que la transcriptase lit un brin donné dans un sens et lit la séquence qui suit dans l’autre sens, c’est la lecture dans le sens direct et dans le sens complément.

    Donc la résonance d’un triplet peut se concevoir dans l’ADN comme si c’était un simple brin. Mais pour qu’on puisse parler des mêmes codons que pour la traduction il faut alors supposer qu’un triplet donné constitue une onde fixe en vibration avec 2 nœuds et un ventre chacun constitué d’une seule base nucléique. Les triplets en résonance sont alors les mêmes que les codons. On imagine bien que cette résonance continue d’être effective, même partiellement, dans l’ARNm et qu’elle ait un rôle dans la machinerie trauctionnelle.

    Les triplets en résonance sont peut être les ondes minimales qui constituent des ondes plus grandes qui seraient les gènes délimités par les 2 nœuds qui seraient le codon d’initiation et le codon stop eux-mêmes définis comme tels par les promoteurs et les terminateurs qui ont des séquences beaucoup plus grandes que 3 bases et qui doivent avoir leur résonance propre.

    Tanger 25-7-16

    Classement par le coéfficient de corrélation entre un codon et le %GC de la protéine.

    Nous avions dit que le %GC d’un gène est le résultat de l’interaction des codons entre eux et non l’inverse. Le coéfficient de corrélation de ce pourcentage avec un codon donné représente son interaction avec tout le gène comme la valeur propre d’une matrice représente une caractéristique de toute la matrice. On peut donc mettre en parallèle (comparer) valeur propre et ce coéfficient de corrélation.

    Il est imporatnt de noter que le %GC définit de façon unique le gène et les interactions entre codons. Ceci n’a de sens que parce que l’appariement dans l’ADN est stricte. Ce n’est plus le cas si on s’interessait aux coéfficients de corrélations entre aas par exemple dans une protéine. On peut définir aussi une résonance (de nature différente de celle de l’ADN) pour une protéine et la composition de cette protéine est la résultante des coéfficients de corrélation entre aas. Seulement les valeurs propres de la matrice des corrélations ne peuvent plus être mis en parallèle avec des coéfficients de corrélation entre une caractéristique de la protéine et un aa. Cette caractéristique n’est pas unique, car avec 20 aas et la longueur de la protéine on peut en définir un nombre astronomique.

    Nous touchons là la problématique même des premières étapes de l’évolution moléculaire ou autrement dit le paradoxe de l’oeuf et de la poule. Une protéine est en interaction permanente avec son environnement qui fluctue énormément et donc sa conformation change tout le temps tout en ayant toujours la même séquence d’aas. Le gène par contre est confiné solidement à l’intérieur de l’ADN qui est maintenu dans sa conformation par une multitude de protéines. La résonance du gène peut être ainsi maintenue dans une game restreinte avec même des modifications dans la séquence des bases et définir donc une fonction. C’est ce que nous observons dans les corrélations entre codons.

    Reste comment passer de la fonction de la protéine à la séquence de son gène. Ou vis-versa.J’ai abordé ce sujet en introduisant ma théorie sur la résonance et les origines de la vie. Je reprendrai ce sujet au moment de la discussion et de la présentation des résultats. Mon hypothèse c’est que la résonance entre bases nucléiques (futur ADN) peut se faire grâce aux contraintes imposées par la structure établie par le liposome, les aas libres et les bases nucléiques libres aussi , avant même qu’aucune liaison covalente ne soit établie. J’ai voulu insister, ici, sur le choix de la méthode en relation avec cette hypothèse.

     Classement par la somme des valeurs absolues des coéfficients de corrélation dans une protéine et comparaison avec les autres protéines.

    C’est la méthode qu’on aborde avant toute réflexion. C’est ce que j’ai fait au début pour les codons et que je ferai pour les aas, là où, comme je l’ai dit au classement précédent, on ne peut faire de parallèle entre valeur propre et coéfficient de corrélation. Les valeurs absolues des coéfficients de corrélation ignorent le signe, alors que valeur propre et coéfficient de corrélation avec %GC en tiennent compte. La somme des coéfficients reste une addition de parties qui ne rprésente pas la relation du codon avec le tout qu’est le gène.

    J’utilise la somme des valeurs absolues pour les codons et les aas dans un seul cas pour les comparer avec le coéfficient avec %GC.

    Mise en parallèle des valeurs propres et de l’ordre des codons effectué sur leurs coefficients de corrélation avec %GC.

    Inverse

    regroupement et définition de 3 types de résonance

    Total des valeurs propres : corrélations fortes et faibles

    les 2 1ères valeurs propres

    variations entre protéines et entre domaines

     

     


    votre commentaire
  • 23.5.16  Paris

    Beaucoup de travaux ont été faits sur le contenu en GC de l'ADN depuis les années 1950. L'aspect physique de l'ADN y est abordé mais pas du point de vue résonance comme je l'ai fait dans le concept global.


    votre commentaire
  • 23.5.16 Paris

    Comment je suis arrivé à étudier le contenu en GC de l'ADN dans ma réflexion sur les origines de la vie. Cela sera l'introduction et la définition du cadre de l'article à publier sous le titre de "les états vibratoires de l'ADN et la sélection naturelle".


    votre commentaire


    Suivre le flux RSS des articles de cette rubrique
    Suivre le flux RSS des commentaires de cette rubrique