• Marériel et méthodes

    23.5.16  Paris

    • Le choix des bactéries,
    • Les bases de données utilisées,
    • Les moulinettes en Perl pour la compilation et
    • Les types de compilations choisis,
    • Les protéines à étudier,
    • Les diagrammes et les courbes de tendance,
    • Les coefficients de corrélation,
    • Les calculs matriciels.

    24.5.16  Paris

    111 bactéries    ordre alphabétique

    %GC KEGG   %GC KEGG   %GC KEGG   %GC KEGG  
    53.0 apt Acetobacter pasteurianus 54.1 cgq corynebacterium glutamicum 37.1 liv Listeria ivanovii 61.9 sus Solibacter
    35.7 axl Amphibacillus 42.4 cbd Coxiella burnetii 48.7 mah Methylomicrobium 49.0 ssm Spirochaeta
    71.3 amd Amycolatopsis mediterranei 63.4 ddr Deinococcus deserti 70.3 mts Microbacterium 32.1 sep Staphylococcus epidermidis
    48.0 amo Anaerobaculum 66.2 dpt Deinococcus proteolyticus 55.4 mcu Mobiluncus 26.3 smf Streptobacillus
    74.9 ade Anaeromyxobacter dehalogenans 54.5 dal Desulfatibacillum 23.7 mcac Mycoplasma capricolum 38.3 spi streptococcus pyogenes
    43.5 aae Aquifex aeolicus 58.6 dba Desulfomicrobium 41.1 nse Neorickettsia 73.3 salb Streptomyces albus
    69.4 age Archangium 63.0 dvl Desulfovibrio vulgaris 39.7 nis Nitratiruptor 70.7 sma Streptomyces avermitilis
    43.2 bae Bacillus atrophaeus 56.1 din Desulfurispirillum 70.0 opr Oceanithermus profundus 72.2 sgr Streptomyces griseus
    43.5 bsu Bacillus subtilis 34.9 dte Desulfurobacterium 45.5 ppoy Paenibacillus polymyxa 72.0 sho Streptomyces hygroscopicus
    51.7 bvs Barnesiella 55.1 eno Enterobacter cloacae 45.1 pdi Parabacteroides 56.8 say Sulfobacillus acidophilus
    36.8 bbd Belliella 49.7 eal Escherichia albertii 29.7 pub Pelagibacter 59.1 synd Synechococcus sp.
    60.5 bla Bifidobacterium animalis 50.8 eco Escherichia coli 59.6 pgd Phaeobacter gallaeciensis 36.0 thl Tetragenococcus
    27.4 bfl Blochmannia 27.1 fnc Fusobacterium nucleatum 48.3 pgi Porphyromonas gingivalis 63.8 tai Thermanaerovibrio
    57.2 bmf Brucella abortus 42.0 gva Gardnerella vaginalis 31.1 pmh Prochlorococcus marinus 31.4 tme Thermosipho
    68.1 bmv Burkholderia mallei 64.3 gau Gemmatimonas 24.2 ssdc Profftella 46.2 tma Thermotoga maritima
    33.3 cff Campylobacter fetus 41.8 hhd Halobacillus 60.0 pac Propionibacterium acnes 47.1 tli Thermovirga
    30.5 cje Campylobacter jejuni 32.5 hhl Halobacteroides 66.6 pae Pseudomonas aeruginosa 68.6 tos Thermus thermophilus
    16.6 crp Candidatus Carsonella ruddii 22.5 hcr Hepatoplasma 61.3 ret Rhizobium etli 37.9 tde Treponema denticola
    36.3 lat Candidatus Liberibacter asiaticus 37.5 hmr Hippea 67.4 roa Rhodococcus opacus 52.8 tpas Treponema pallidum
    26.2 ple Candidatus Portiera aleyrodidarum 44.0 hth Hydrogenobacter 65.4 rru Rhodospirillum rubrum 39.2 tsu Treponema succinifaciens
    13.5 zin Candidatus Zinderia insecticola 33.9 ial Ignavibacterium 29.0 rpr Rickettsia prowazekii 25.1 sbw U. Enterobacteria
    40.3 cmn Chlamydia muridarum 74.2 ksk Kitasatospora 28.5 rip Riesia 46.5 fbt U. Flammeovirgaceae
    39.1 chp Chlamydia psittaci 57.5 kpn Klebsiella pneumoniae 51.3 sbz Salmonella bongori 25.5 uur Ureaplasma parvum
    41.3 cta Chlamydia trachomatis 58.4 aba Koribacter 52.1 sty Salmonella Enterica 38.6 vpr Veillonella
    72.7 cmi Clavibacter 34.5 ljf Lactobacillus johnsonii 46.3 sbn Shewanella baltica 68.9 vin Vulgatibacter
    29.9 cad Clostridium acidurici 44.5 lpl Lactobacillus plantarum 39.1 spl Shewanella pealeana 65.0 xcb Xanthomonas campestris
    28.3 cbl Clostridium botulinum 35.3 lla Lactococcus lactis 62.3 saci Singulisphaera 47.6 ype Yersinia pestis
    53.6 caa Coraliomargarita 50.0 lfc Leptospirillum 62.7 smk Sinorhizobium meliloti      

     

    111 bactéries    %GC croissant

     

    %GC KEGG   %GC KEGG   %GC KEGG   %GC KEGG  
    13.5 zin Candidatus Zinderia insecticola 36.3 lat Candidatus Liberibacter asiaticus 47.6 ype Yersinia pestis 61.3 ret Rhizobium etli
    16.6 crp Candidatus Carsonella ruddii 36.8 bbd Belliella 48.0 amo Anaerobaculum 61.9 sus Solibacter
    22.5 hcr Hepatoplasma 37.1 liv Listeria ivanovii 48.3 pgi Porphyromonas gingivalis 62.3 saci Singulisphaera
    23.7 mcac Mycoplasma capricolum 37.5 hmr Hippea 48.7 mah Methylomicrobium 62.7 smk Sinorhizobium meliloti
    24.2 ssdc Profftella 37.9 tde Treponema denticola 49.0 ssm Spirochaeta 63.0 dvl Desulfovibrio vulgaris
    25.1 sbw U. Enterobacteria 38.3 spi streptococcus pyogenes 49.7 eal Escherichia albertii 63.4 ddr Deinococcus deserti
    25.5 uur Ureaplasma parvum 38.6 vpr Veillonella 50.0 lfc Leptospirillum 63.8 tai Thermanaerovibrio
    26.2 ple Candidatus Portiera aleyrodidarum 39.1 chp Chlamydia psittaci 50.8 eco Escherichia coli 64.3 gau Gemmatimonas
    26.3 smf Streptobacillus 39.1 spl Shewanella pealeana 51.3 sbz Salmonella bongori 65.0 xcb Xanthomonas campestris
    27.1 fnc Fusobacterium nucleatum 39.2 tsu Treponema succinifaciens 51.7 bvs Barnesiella 65.4 rru Rhodospirillum rubrum
    27.4 bfl Blochmannia 39.7 nis Nitratiruptor 52.1 sty Salmonella Enterica 66.2 dpt Deinococcus proteolyticus
    28.3 cbl Clostridium botulinum 40.3 cmn Chlamydia muridarum 52.8 tpas Treponema pallidum 66.6 pae Pseudomonas aeruginosa
    28.5 rip Riesia 41.1 nse Neorickettsia 53.0 apt Acetobacter pasteurianus 67.4 roa Rhodococcus opacus
    29.0 rpr Rickettsia prowazekii 41.3 cta Chlamydia trachomatis 53.6 caa Coraliomargarita 68.1 bmv Burkholderia mallei
    29.7 pub Pelagibacter 41.8 hhd Halobacillus 54.1 cgq corynebacterium glutamicum 68.6 tos Thermus thermophilus
    29.9 cad Clostridium acidurici 42.0 gva Gardnerella vaginalis 54.5 dal Desulfatibacillum 68.9 vin Vulgatibacter
    30.5 cje Campylobacter jejuni 42.4 cbd Coxiella burnetii 55.1 eno Enterobacter cloacae 69.4 age Archangium
    31.1 pmh Prochlorococcus marinus 43.2 bae Bacillus atrophaeus 55.4 mcu Mobiluncus 70.0 opr Oceanithermus profundus
    31.4 tme Thermosipho 43.5 aae Aquifex aeolicus 56.1 din Desulfurispirillum 70.3 mts Microbacterium
    32.1 sep Staphylococcus epidermidis 43.5 bsu Bacillus subtilis 56.8 say Sulfobacillus acidophilus 70.7 sma Streptomyces avermitilis
    32.5 hhl Halobacteroides 44.0 hth Hydrogenobacter 57.2 bmf Brucella abortus 71.3 amd Amycolatopsis mediterranei
    33.3 cff Campylobacter fetus 44.5 lpl Lactobacillus plantarum 57.5 kpn Klebsiella pneumoniae 72.0 sho Streptomyces hygroscopicus
    33.9 ial Ignavibacterium 45.1 pdi Parabacteroides 58.4 aba Koribacter 72.2 sgr Streptomyces griseus
    34.5 ljf Lactobacillus johnsonii 45.5 ppoy Paenibacillus polymyxa 58.6 dba Desulfomicrobium 72.7 cmi Clavibacter
    34.9 dte Desulfurobacterium 46.2 tma Thermotoga maritima 59.1 synd Synechococcus sp. 73.3 salb Streptomyces albus
    35.3 lla Lactococcus lactis 46.3 sbn Shewanella baltica 59.6 pgd Phaeobacter gallaeciensis 74.2 ksk Kitasatospora
    35.7 axl Amphibacillus 46.5 fbt U. Flammeovirgaceae 60.0 pac Propionibacterium acnes 74.9 ade Anaeromyxobacter dehalogenans
    36.0 thl Tetragenococcus 47.1 tli Thermovirga 60.5 bla Bifidobacterium animalis      

     

    5-7-16  Tanger

    Pour les 111 bactéries du 24-5-16 le %GC est celui du chromosome entier de la bactérie.

    Pour comparer les corrélations entre codons (voir méthodes) j'ai du recompter le %GC dans la séquence d'ADN de chaque protéine en utilisant la moulinette adéquate ( à ajouter au matériel). Cette comparaison est nécessaire car la séquence des bases chez les eucaryotes et les archées est celle obtenue après épissage et ne représente plus la résonance de la séquence dans le chromosome même qui est mon objectif premier.

    Les protéines étudiées: (codes de KEEG)

    Le nombre des espèces chez les eucaryotes et les archées étant très faible par rapport à celui des bactéries j’ai du limiter leur nombre à une trentaine d’espèces ( pour quelque protéines je suis allé jusqu’à 40 espèces). En plus la liste des espèces par protéine n’est pas la même car souvent une espèce n’a pas nécessairement toutes les protéines que j’ai prévues d’ étudier. Aussi je donne ici la liste des espèces par protéine pour les archées et les eucaryotes. Pour les bactéries la liste étant longue, je me réfère à la liste du 24.5.16 et je mentionne les manquants seulement.

    Protéines eucaryotes

    @noms=(acs, aly, apla, ath, ecb, bta, cal, chx, cic, cme, cre, ehx, fab, gga, gla, hsa, lcm, lth, mcc, mmu, mus, myb, mze, ndi, ngi, oas, ota, pbi, pic, ppa, pper, pss, pti, sce, sly, tca, ttt, tup, umr, xma); # 2777A

    @noms=(aag, aly, asn, ath, bfu, bsc, cal, chx, cic, cme, cmt, cre, dfa, dpe, fab, fgr, gtr, hsa, lth, mcc, mmu, mus, myd, mze, ndi, nfi, oas, pbi, pco, ppa, pper, sce, sly, spo, spu, ttt, tup, umr, ure, zma); # 2776A1

    @noms=(act, aly, asn, ath, bsc, cic, cmt, cre, dme, fgr, gtr, hsa, loa, mbr, mcc, mmu, mde, mze, ncr, osa, pda, ppa, pper, sce, shr, sla, sly, spo, tca, umr); # 6115

    @noms=(act, aly, ath, bze, cal, cic, cmt, dsq, ela, fgr, gtr, hir, lth, mbe, mlr, ncr, ncs, osa, pda, pfj, ppa, ppp, sbi, sce, sla, smp, spo, tms, ttt, ure); # 6355

    @noms=(apla, asn, ath, chx, cic, cmt, cre, dgr, dme, dre, hsa, loa, mbr, mcc, mmu, pif, pkn, ppa, pper, pss, sbi, sce, shr, sla, sly, spo, tca, ttt, tva, ure); # 27140

    @noms=(aag, aly, asn, ath, bfu, bsc, cal, chx, cic, cme, cmt, cre, dfa, dpe, fab, fgr, gtr, hsa, lth, mcc, mmu, mus, myd, mze, ndi, nfi, oas, pbi, pco, ppa, pper, sce, sly, spo, spu, ttt, tup, umr, ure, zma); #2776A2

    @noms=(acs, aly, apla, ath, bacu, bta, cal, chx, cic, cme, cre, ecb, ehx, fab, gga, gla, hsa, lcm, lth, mcc, mmu, mus, myb, mze, ndi, ngi, oas, ota, pbi, pic, ppa, pper, pti, sce, sly, tca, ttt, tup, xma, xtr); #2777E1

    @noms=(act, aly, asn, ath, bsc, cic, cmt, dme, fgr, gtr, hsa, loa, mbr, mcc, mde, mmu, mpp, mze, ncr, osa, pda, ppa, pper, sce, shr, sla, sly, spo, tca, umr); #6114

    @noms=(act, aly, ath, cal, cic, cmt, dsq, ela, fgr, gtr, hir, lth, mbe, mlr, ncr, ncs, osa, pda, pfj, pno, ppa, ppp, sbi, sce, sla, smp, spo, tms, ttt, ure); #63552

    @noms=(act, aly, asn, ath, bsc, cel, cic, cmt, cre, dme, fgr, gtr, hsa, mbr, mcc, mde, mmu, mze, ncr, osa, pda, ppa, pper, sce, shr, sla, sly, spo, tca, umr); #4213

    Protéines archées

    @noms=(afg, arg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mja, mls, mma, mmao, mmp, mpl, msz, mth, mtp, nat, nin, pho, pyn, sali, taa, tgy, thm); # 27772

    @noms=(afg, arg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mja, mls, mma, mmao, mmp, mpl, mru, msz, mtp, nat, nin, pho, pyn, sali, taa, tgy, thm); # 2776A1

    @noms=(afg, arg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mja, mls, mma, mmao, mmp, mpl, msz, mth, mtp, nin, pho, pyn, sali, sol, taa, tgy, thm); # 6115

    @noms=(afg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mls, mma, mmao, mmp, mpl, msz, mtp, nat, nin, pas, pyn, sali, sir, sis, sol, sto, taa, tuz); # 6355

    @noms=(acj, fac, hal, hla, loki, mba, mem, mev, mhor, mhu, mja, mls, mma, mmao, mmp, msz, nat, pas, pho, pyn, sali, sir, sis, sol, sto, tag, tga tgy, thm, tuz); # 27140

    @noms=(afg, arg, asc, fac, hab, hal, hla, loki, mba, mem, mfc, mhor, mif, mja, mls, mmp, mpl, mru, mtp, nat, nin, pas, pyn, sir, sol, sis, taa, tag, tgy, tuz); # 27771

    @noms=(afg, arg, hab, hal, hhb, hla, hmu, hsu, mba, mel, mem, mev, mfc, mfs, mhor, mif, mja, mls, mma, mmao, mmp, mmz, mpl, mru, msz, mtp, mvo, nat, sali, sso); # 2776B1

    @noms=(afg, arg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mfs, mhor, mja, mls, mma, mmp, mpl, msi, mth, mtp, nin, pho, pyn, sali, sol, taa, tgy, thm); # 6114

    @noms=(afg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mls, mma, mmao, mmp, mpl, msz, mtp, nat, nin, pas, pyn, sali, sir, sis, sol, sto, taa, tuz); # 63552

    @noms=(asc, fac, hab, hal, hhb, hla, hmu, hsf, loki, mba, mear, mev, mhor, mls, mma, msz, mtp, nat, nga, nin, pai, pog, pyn, sai, sali, sir, sis, sol, taa, tuz); # 4213

    Protéines bactéries

     Liste 111 bactéries

    @noms=(aae, aba, ade, age, amd, amo, apt, axl, bae, bbd, bfl, bla, bmf, bmv, bsu, bvs, caa, cad, cbd, cbl, cff, cgq, chp, cje, cmi, cmn, crp, cta, dal, dba, ddr, din, dpt, dte, dvl, eal, eco, eno, fbt, fnc, gau, gva, hcr, hhd, hhl, hmr, hth, ial, kpn, ksk, lat, lfc, liv, ljf, lla, lpl, mah, mcac, mcu, mts, nis, nse, opr, pac, pae, pdi, pgd, pgi, ple, pmh, ppoy, pub, ret, rip, roa, rpr, rru, saci, salb, say, sbn, sbw, sbz, sep, sgr, sho, sma, smf, smk, spi, spl, ssdc, ssm, sty, sus, synd, tai, tde, thl, tli, tma, tme, tos, tpas, tsu, uur, vin, vpr, xcb, ype, zin);

    #2777A 111 27761 111 27762 111 6114 111 6115 111

    #27771 107 : crp, ple, rip, zin

    # 27140 97 :aae, crp, dte, hth, lfc, mcac, nse, pgi, ple, pub, rpr, ssdc, tpas, zin

    #secA 109 :crp, zin

    # 4213 84 :amo, bfl, bvs, chp, cmn, crp, cta, fnc, gva, hcr, ljf, lpl, mcac, pgi, ple, rip, sbw, smf, spi, tde, thl, tma, tme, tpas, uur, vpr, zin

    # 63551 93 :aae, axl, chp, cmn, cta, hcr, hth, mcac, mcu, rip, rpr, smf, ssdc, tde, tme, tpas, uur, zin

    # 63552 94 :axl, chp, cmn, cta, hcr, mcac, mcu, rip, rpr, smf, ssdc, tai, tde, tme, tpas, uur, zin

    # 1653L 58 :aae, aba, ade, age, amd, apt, bfl, bmf, bmv, bvs, caa, cbd, cff, cje, ddr, din, dte, eal, eco, eno, fbt, gau, hmr, hth, ial, kpn, ksk, lfc, mcu, nis, nse, opr, pac, pae, pgd, ple, pub, ret, roa, rpr, rru, saci, salb, say, sbw, sbz, sgr, sho, sma, smk, ssdc, sty, sus, tos, vin, xcb, ype, zin (liste directe).

    # 1653M 58 : idem 1653L 

    # 1653N 58 :idem 1653L .

    Nomenclature des protéines d’après KEEG

    4213 : K01681 aconitate hydratase [EC:4.2.1.3]

    secA : K03070 preprotein translocase subunit SecA

    27140 : K00873 pyruvate kinase [EC:2.7.1.40]

    63551 : K01955 carbamoyl-phosphate synthase large subunit [EC:6.3.5.5]

    63552 : K01956 carbamoyl-phosphate synthase small subunit [EC:6.3.5.5]

    1653L : K00341 NADH-quinone oxidoreductase subunit L [EC:1.6.5.3]

    1653M :K00342 1653N : K00343

    6114 : K01869 leucyl-tRNA synthetase [EC:6.1.1.4]

    6115 : K01870 isoleucyl-tRNA synthetase [EC:6.1.1.5]

    2777A : K02337 DNA polymerase III subunit alpha [EC:2.7.7.7] dnaE(eco)

    2777E1 : K02324 DNA polymerase epsilon subunit 1 [EC:2.7.7.7] polE (hsa)

    27772 : K02322 DNA polymerase II large subunit [EC:2,7,7,7] polA2 (hal)

    27771 : K02335 DNA polymerase I [EC:2.7.7.7] polA (eco)

    27761 : K03043 DNA-directed RNA polymerase subunit beta [EC:2.7.7.6] rpoB(eco)

    27762 : K03046 DNA-directed RNA polymerase subunit beta' [EC:2.7.7.6] rpoC(eco)

    2776A1 : K02999 DNA-directed RNA polymerase I subunit RPA1 [EC:2.7.7.6] polR1A(hsa)

    2776A1 : K03041 DNA-directed RNA polymerase subunit A' [EC:2.7.7.6] rpoA1(hal)

    2776A2 : K03002 DNA-directed RNA polymerase I subunit RPA2 [EC:2.7.7.6] polR1B(hsa)

    2776B1 : K03044 DNA-directed RNA polymerase subunit B' [EC:2.7.7.6] rpoB’(hal)

     

    17-07-16 Tanger

    Méthodes

    Calculs des valeurs propres des matrices des coéfficients de corrélation entre codons.

    Le coefficient de corrélation entre 2 codons fait participer ces 2 codons de façon équivalente. D’où la symétrie de la matrice carrée de ces coefficients. Pour attribuer une valeur à la participation de chaque codon je me réfère à la définition statistique du coefficient de corrélation qui est un produit des 2 paramètres caractéristiques de chaque variable aléatoire représentée ici par un codon. (réf.).

    L’équivalence de participation fait que, celle d’un codon, est égale à la racine carrée du coéfficient de corrélation entre ces 2 codons. La racine carrée implique l’utilisation des nombres complexes quand le coéfficient est négatif.

    Obtention de la matrice :

    La matrice des coefficients sera en fait la matrice complexe des racines carrées des coefficients de corrélation entre codons. Pour l’obtenir avec un tableur (ici Calc de Libreoffice) il suffit de faire dans une cellule:

    =SI(CO585<0;-RACINE(-CO585);RACINE(CO585)).

    Pour obtenir un nombre complexe il suufit de remplacer (ctrl+H) -0. par 1j*0. (python2.7).

     Formatage de la matrice pour python2.7 :

    • Copier la matrice de Calc vers Writer (ctrl+Maj+v, texte non formaté).
    • Remplacer (ctrl+H) : \t en ‘, ‘ (expression régulière et sélection).
    • Remplacer (ctrl+H) : $ en ‘],\n[ ‘ (expression régulière et sélection).
    • Mettre ‘[‘ au début de la matrice et ‘]’ à la fin de la matrice.

    Si la copie de la matrice dans le terminal se passe mal, copier en plusieurs morceaux chacun se terminant par ‘], ‘.

     Calculs des valeurs propres avec python2.7 (ubuntu 16.04):

    Dans un terminal passer les commandes suivantes :

    ****

    python2.7

    • >>> import numpy as np
    • >>> from numpy import linalg
    • >>> from numpy.linalg import eig
    • >>> u = np.array([ "coller"
    • ...], "coller" "coller"
    • , 1]

    ajouter à la suite

    • ])

    entrée

    Si la matrice est acceptée passer la commande

    • >>> u

    pour l’afficher.

    Le calcul des valeurs propres se fait de la façon suivante :

    • >>> D, V = eig(u)

    D est la diagonale des valeurs propres en nombres complexes. C’est son module (nombre réel) qu’on peut comparer aux coefficients de corrélation des codons. Pour obtenir ce module je multiplie la valeur propre complexe par son conjugué et j’extrais sa racine carrée. Dans python2.7 je passes les commandes suivantes :

    • >>> z=np.conj(D)
    • >>> c=z*D
    • >>> c

    S’affiche alors la liste des modules au carré qu’il suffit de nettoyer du nombre complexe j dans Writer et extraire la racine carrée [=racine()] dans Calc.

    ****

    L’inverse du module de la valeur propre est comparable à l’ordre du classement des codons par leurs coefficients de corrélation :

    C’est en regroupant les codons semblables ayant le même signe de corrélation (exemple cgt+cga, tct+tca, ctc+ctg….) que j’obtenais des coefficients très élevés. Que deviennent alors les valeurs propres de telles matrices ? J’ai alors construit une matrice artificielle à partir de la matrice réelle de la protéine 63551 en gardant les signes + et – des coefficients et en remplaçant ceux-ci tous par un nombre inférieur ou égale à 1. Pour cela il suffit, dans Calc, d’exécuter la fonction [=impair()] pour une cellule donnée de la matrice. On obtient des ‘1’ et des ‘-1’. Il suffit alors de remplacer 1 par un nombre inférieur tout en protégeant la diagonale qui doit rester égale à ‘1’.

    La matrice artificielle avec une valeur ‘1’ comme coefficient de corrélation donne 18 valeurs propres supérieures à ‘1’ et toutes les autres sont très proche de ‘0’ mais toutes différentes entre elles. Avec 0,5 0,8 et 0,98 on obtient toujours 18 valeurs supérieures à ‘1’ mais les autres valeurs sont toutes identiques entre-elles et sont respectivement de 0,5 0,2 et 0,02.

    Il est clair que si on veut comparer coefficient de corrélation et valeur propre il faut plutôt prendre l’inverse de la valeur propre.

    Il faut noter que les 2 premières valeurs propres croissent avec le coefficient de corrélation artificiel. J’en tiendrai compte dans ‘ résultats et discussion’.

    Voir ‘proteines memb-compare-6355.ods’ pour récupérer ces tableaux.

    Classement des codons par leurs coéfficients de corrélation.

    Introduction sur la résonance d’un codon qu’on souhaite déterminer ou plus prosaïquement en avoir une quelconque estimation.

    Pourquoi suis-je arrivé là, à classer les codons par leurs coefficients de corrélation ? Ma théorie sur la résonance des bases dans l’ADN m’a conduit par simplicité à recenser les bases multiples qui seraient la caractéristique des séquences de contrôle (opérons, promoteurs, treminateurs...). Les compilations que j’ai faites en fonction du %GC d’un génome entier m’ont réconforté dans mon idée : les répétitions de A et les répétions de T se comportent de façons tout à fait différentes de celles de G et celles de C. Pour confirmer j’ai commencé à regarder les répétitions dans les gènes protéiques. A ma grande surprise c’est que les zones de contrôle chez les bactéries sont très peu étendues et les répétitions que j’ai comptabilisées sont en fait dans les gènes protéiques.

    L’idée m’est venue alors de rechercher la résonance des codons en étudiant les diagrammes (nombre de codons) en fonction du %GC de l’organisme. Les résultats sont réconfortants. C’est à dire que les diagrammes sont tous différents et leur allure reste la même quelque soit la protéine étudiée. Mais 2 points litigieux me tracassaient :

    • - la résonance d’un codon dans une séquence n’a pas de sens puisque le codon n’a d’existence que par l’intermédiaire de la traduction. Dans le gène il n’y a pas de frontières entre les bases et les triplets qui ne sont pas des codons n’interviennent pas dans les diagrammes. Ma théorie de la résonance n’est valable que pour le gène entier.
    • - le fait même de tenir compte du %GC de l’organisme entier veut que ça soit ce pourcentage qui soit à l’origine de la répartition des codons et non les propriétés des codons (ou plus particulièrement la résonance des bases) qui soient à l’origine du dit pourcentage. C’est la théorie de l’évolution qui est avancée dans la polémique de l’origine du %GC. Les études de mes diagrammes n’apportent que de la confusion.

    La confusion a commencé à se dissiper quand, petit à petit, en essayant de classer les codons avec leurs diagrammes, je me suis intéressé aux coefficients de corrélation entre les codons. Ces coefficients ne font plus intervenir le fameux %GC de la polémique. Il m’est apparu alors évident que la matrice 64x64 des corrélations représentait plus ou moins la signature de la résonance du gène. C’est une matrice symétrique de nombres réels donc elle a 64 valeurs propres portées par 64 vecteurs propres. La matrice définie par les vecteurs propres est une matrice diagonale des valeurs propres. Le problème qui se pose alors c’est comment relier codon et valeur propre. Car l’ordre des valeurs propres est indéterminé.

    Reste le point litigieux de la résonance d’un codon dans un gène. Mais revenons sur l’argumentaire de la traduction qui attribue le concept de codon uniquement à la machinerie de la traduction. Le codon est défini avant tout par le sens de lecture sur un ARNm qui est simple brin. Or l’ADN est double brin et n’est pas en translation. Cependant quand les protéines qui gèrent l’ADN (protection, réparation, reconfiguration lors de la transcription et de la réparation et surtout interaction avec les facteurs de transcription) entrent en interaction avec lui, elles interagissent avec la structure physique : les 2 brins ne sont pas accessibles de la même façon dans le petit et le grand sillon, ils n’ont pas la même énergie quand l’ADN est déroulé ou comprimé lors des réparations ou de la transcription. Donc pour ces protéines, sur une courte distance, un des brins est accessible dans une direction donnée. C’est ainsi qu’on comprend que la transcriptase lit un brin donné dans un sens et lit la séquence qui suit dans l’autre sens, c’est la lecture dans le sens direct et dans le sens complément.

    Donc la résonance d’un triplet peut se concevoir dans l’ADN comme si c’était un simple brin. Mais pour qu’on puisse parler des mêmes codons que pour la traduction il faut alors supposer qu’un triplet donné constitue une onde fixe en vibration avec 2 nœuds et un ventre chacun constitué d’une seule base nucléique. Les triplets en résonance sont alors les mêmes que les codons. On imagine bien que cette résonance continue d’être effective, même partiellement, dans l’ARNm et qu’elle ait un rôle dans la machinerie trauctionnelle.

    Les triplets en résonance sont peut être les ondes minimales qui constituent des ondes plus grandes qui seraient les gènes délimités par les 2 nœuds qui seraient le codon d’initiation et le codon stop eux-mêmes définis comme tels par les promoteurs et les terminateurs qui ont des séquences beaucoup plus grandes que 3 bases et qui doivent avoir leur résonance propre.

    Tanger 25-7-16

    Classement par le coéfficient de corrélation entre un codon et le %GC de la protéine.

    Nous avions dit que le %GC d’un gène est le résultat de l’interaction des codons entre eux et non l’inverse. Le coéfficient de corrélation de ce pourcentage avec un codon donné représente son interaction avec tout le gène comme la valeur propre d’une matrice représente une caractéristique de toute la matrice. On peut donc mettre en parallèle (comparer) valeur propre et ce coéfficient de corrélation.

    Il est imporatnt de noter que le %GC définit de façon unique le gène et les interactions entre codons. Ceci n’a de sens que parce que l’appariement dans l’ADN est stricte. Ce n’est plus le cas si on s’interessait aux coéfficients de corrélations entre aas par exemple dans une protéine. On peut définir aussi une résonance (de nature différente de celle de l’ADN) pour une protéine et la composition de cette protéine est la résultante des coéfficients de corrélation entre aas. Seulement les valeurs propres de la matrice des corrélations ne peuvent plus être mis en parallèle avec des coéfficients de corrélation entre une caractéristique de la protéine et un aa. Cette caractéristique n’est pas unique, car avec 20 aas et la longueur de la protéine on peut en définir un nombre astronomique.

    Nous touchons là la problématique même des premières étapes de l’évolution moléculaire ou autrement dit le paradoxe de l’oeuf et de la poule. Une protéine est en interaction permanente avec son environnement qui fluctue énormément et donc sa conformation change tout le temps tout en ayant toujours la même séquence d’aas. Le gène par contre est confiné solidement à l’intérieur de l’ADN qui est maintenu dans sa conformation par une multitude de protéines. La résonance du gène peut être ainsi maintenue dans une game restreinte avec même des modifications dans la séquence des bases et définir donc une fonction. C’est ce que nous observons dans les corrélations entre codons.

    Reste comment passer de la fonction de la protéine à la séquence de son gène. Ou vis-versa.J’ai abordé ce sujet en introduisant ma théorie sur la résonance et les origines de la vie. Je reprendrai ce sujet au moment de la discussion et de la présentation des résultats. Mon hypothèse c’est que la résonance entre bases nucléiques (futur ADN) peut se faire grâce aux contraintes imposées par la structure établie par le liposome, les aas libres et les bases nucléiques libres aussi , avant même qu’aucune liaison covalente ne soit établie. J’ai voulu insister, ici, sur le choix de la méthode en relation avec cette hypothèse.

     Classement par la somme des valeurs absolues des coéfficients de corrélation dans une protéine et comparaison avec les autres protéines.

    C’est la méthode qu’on aborde avant toute réflexion. C’est ce que j’ai fait au début pour les codons et que je ferai pour les aas, là où, comme je l’ai dit au classement précédent, on ne peut faire de parallèle entre valeur propre et coéfficient de corrélation. Les valeurs absolues des coéfficients de corrélation ignorent le signe, alors que valeur propre et coéfficient de corrélation avec %GC en tiennent compte. La somme des coéfficients reste une addition de parties qui ne rprésente pas la relation du codon avec le tout qu’est le gène.

    J’utilise la somme des valeurs absolues pour les codons et les aas dans un seul cas pour les comparer avec le coéfficient avec %GC.

    Mise en parallèle des valeurs propres et de l’ordre des codons effectué sur leurs coefficients de corrélation avec %GC.

    Inverse

    regroupement et définition de 3 types de résonance

    Total des valeurs propres : corrélations fortes et faibles

    les 2 1ères valeurs propres

    variations entre protéines et entre domaines

     

     

    « Revue du GC content dans la littératureRésultats et discussion »

  • Commentaires

    Aucun commentaire pour le moment

    Suivre le flux RSS des commentaires


    Ajouter un commentaire

    Nom / Pseudo :

    E-mail (facultatif) :

    Site Web (facultatif) :

    Commentaire :