Les répétitions des bases dans l'ADN des procaryotes

Par mekali dans Publications le 12 Janvier 2017 à 19:46

Paris le 12.01.17 revu.

Paris le 8.9.16

Précision sur le titre.

Il s'agit des répétitions de la même base et de leurs longueurs dans le génome entier d'un procaryote donné. Exemple: A répétée 6 fois AAAAAA et non la répétition 6 fois de la paire AT comme suite, ATAATT, par exemple.

Paris le 21.12.16: cet article s'intègre dans une longue réflexion sur les origines de la vie que j'ai amorcée dès 2005. Les réflexions quasi quotidiennes sont consignées depuis le 23.08.12 dans mon blog. Début mars 2015 j'avais entrepris de rédiger un concept global dont les prémisses, et le concept de la résonance de l'ADN, ont été consignés dans un dossier spécial du blog [4].

Résumé
Dans cet article j'ai étudié les taux des répétitions supérieures à 4 des 4 bases A T G C en fonction du contenu en GC (%GC) des chromosomes de quatre groupes de procaryotes ( cyanobactéries, autre-bactéries, euryarcheota et crenarcheota), de 2 lots de gènes protéiques 1 pour les cyanobactéries et 1 pour les autre-bactéries, de 2 lots de plasmides un lot chacun pour ces 2 groupes et enfin un lot de gènes de rRNA 23S du groupe autre-bactéries. Ces répétitions sont de la forme AAAAA.. TTTTT.. GGGGG.. CCCCC... . Ces taux sont calculés en %00 de paires de bases.
J'ai pu démontrer ainsi qu’une séquence de paires de bases est déterminée par l'interaction de l'ADN avec ses protéines. L'action/réaction de l'ADN dans cette interaction se ferait par le processus vibratoire sous-tendu par les nuages électroniques des paires de bases comme décrit dans la littéraure physique de l'ADN. Une des manifestations de ce processus serait représentée par le comportement des taux de répétitions étudiés ici. J'ai utilisé ces comportements pour différencier ce processus vibratoire d'autres processus intervenant sur l'ADN avec lesquels il peut être confondu.Ainsi:

Le fait que ces répétitions font parties du contenu en GC et que leurs taux varient en fonction de ce contenu, montre que ce sont les processus de maintenance de l'ADN par ses protéines qui sont à l'origine de ces répétitions.
Les comportements d'ensemble très différents de ces répétitions dans les 4 groupes et dans leurs gènes protéiques et leurs plasmides montrent que les processus de maintenance par les protéines de l'ADN sont différents dans les 4 groupes.
Le comportement de ces taux de répétitions ne peut pas être expliqué par les taux des codons des acides aminés Gly (GGG), Pro (CCC), Lys (AAA) et Phe (TTT) dans les gènes de protéines qui constituent plus de 80% du génome d'un procaryote. D'abord il y a une grande variation des taux de répétitions entre les 4 groupes alors que les taux de ces 4 acides aminés ne devraient pas y varier beaucoup d'après les statistiques faites sur les protéines. Ensuite les rRNAs n'étant pas structurés en triplets affichent des comportements analogues de ces taux de répétitions.
La variation des comportements des taux de répétition entre les plasmides d'un même organisme et ceux de son chromosome démontre que:
- Dans le cas où les plasmides seraient issus du chromosome hôte, leur détachement ne se fait pas au hasard mais se fait avec une transformation de leur état vibratoire. En effet les plasmides des cyanobactéries et du groupe homogène des autre-bactéries ont chacun un comportement d'ensemble différent l'un de l'autre.
- Le processus vibratoire à l'origine du comportement des répétitions est distinct de la maintenance de l'ADN puisque les protéines de celle-ci sont les mêmes pour le chromosome hôte et ses plasmides.
- De même la machinerie de la traduction, dont la sélection des codons par des tRNAs performants, n'impacte pas le processus vibratoire puisque cette machinerie est commune au chromosome hôte et à ses plasmides.
- Le processus vibratoire n'impacte pas l'appariement des bases puisque les 2 taux A ou T et G ou C des plasmides, varient dans les 2 sens par rapport au chromosome, en diminution et en augmentation.
- Dans le cas où les plasmides seraient acquis par transfert horizontal, la propriété de compatibilité, décrite dans la littérature, nécessaire entre-eux et le chromosome hôte prouve que leur séquence et donc leur état vibratoire doit être compatible avec les protéines de maintenance de l'hôte. Ceci montre encore que les variations des taux des répétitions observées entre les plasmides et le chromosome concernent le processus vibratoire et non une autre propriété de ces plasmides étrangers.

Introduction − 1

  Les répétitions de la même base doivent avoir un impact physique particulier sur l'ADN et donc influer sur son interaction avec les acides aminés et les protéines. Ces répétitions dans les gènes de protéines des procaryotes sont très limitées, et très rares sont les peptides contenant de longues séquences d'un seul acide aminé Lys ou Phe ou Gly ou Pro. Par contre on s'attend à retrouver ces répétitions dans les séquences non protéiques ou de contrôle.
  Les propriétés des bases non liées et répétées doivent jouer de la même façon un grand rôle au début de l'évolution moléculaire ( origine de la vie) quand elles se trouvent regroupées et organisées dans un liposome en présence d'acides aminés aussi non liés, regroupés et organisés comme elles par le liposome. J'ai proposé cette hypothèses des acides aminés et des bases nucléiques libres regroupés dans un liposome comme étape initiale de l'évolution moléculaire dans 4 articles publiés dans wikipédia : pétrole prébiotique, chimio-osmose prébiotique, chiralité prébiotique et évolution de la membrane prébiotique. L'article, prebiotic petroleum dans springer [5], propose une synthèse de ces 4 articles. L'étude présente et une étude plus approfondie de la corrélation entre les codons dans les gènes de protéines sont la suite de cette réflexion sur les premières étapes de l'évolution moléculaire à l'origine de la vie (PEEMOV).
  La variation du contenu en GC (%GC) d'un génome, grâce aux mutations silencieuses, offre l'opportunité d'étudier la fréquence des bases répétées en fonction de ce taux. Cette étude nous permettrait de comparer les comportements physiques des 4 bases dans les chromosomes des procaryotes qui sont de petite taille. Au fur et à mesure des découvertes j'ai étudié ces répétitions dans les cyanobactéries, les autres bactéries sans ces dernières, les archées, les plasmides, les gènes de protéines et les rRNA.

Matériels et méthodes − 2

Constitution des fichiers contenant le génome des procaryotes − 2.1

Les noms des génomes sont ceux codés dans la base de données KEGG: 3 à 4 lettres.
Les fichiers contenant la séquence du génome sont ceux de NCBI sous le format FASTA de 70 caractères. Pour y accéder depuis KEGG suivre ainsi:

- allez à "genome" puis
- "Enter KEGG organism code or use Organism button to select"
- mettre le nom KEGG en 3 ou 4 lettres puis entrez
- retrouver la ligne contenant la référence à la séquence du chromosome commençant par "GB:",
- "Sequence RS: NC_000913 (GB: U00096)"
- cliquer sur "GB: U00096" on obtient une entrée de NCBI qui est dans ce cas u00096:
- cliquer alors sur FASTA puis copier la séquence du gène dans un fichier en ".txt",
- En fin de fichier supprimer les lignes à blanc s'il y a lieu. Puis sauvegarder.

Les listes de procaryotes servant à faire les diagrammes − 2.2

Les listes sont les suivantes:

49 Cyanobactéries

nota: le code ccmp n'existe pas dans KEGG, c'est pour les programmes en perl utilisés plus loin. Renommer le fichier cmp.txt, récupéré comme ci-dessus, en ccmp.txt

amr, ana, anb1, awa, calo, can, ceo, cep, cgc, ccmp, csg, cthe, cya, cyh, cytc, cyu, dsl, fis, gei, gen, glp, gvi, hao, lep, len, mar, mic, naz, non, oac, oni, plp, pma, pmg, pmh, pmm, pmt, pmb, riv, scs, syc, syf, syn, synd, synp, syp, syq, tel, ter.

192 Autre-bactéries

nota: bmf1 et bmf2 sont les 2 chromosomes du code KEGG bmf. Aussi récupérer les 2 chromosomes dans 2 fichiers différents bmf1.txt bmf2.txt.

aae, aba, acp, ade, afw, age, amd, amo, ams, amt, ank, apt, asd, asf, bae, bla, blo, bmf1, bmf2, bmv, bpn, bsu, buc, cac, cad, cbd, cbl, ccx, cdf, cff, cft, cfv, cgl, cgq, chp, cje, cjr, cko, cle, clo, cmi, cmn, cnt, cpb, cpy, crp, cru, cta, cth, ctr, cvi, dba, dda, ddr, dge, dpd, dpt, dvl, eal, ebf, ebt, eca, ecla, eco, ecs, eha, eic, eno, ent, esa, eta, fnc, fra, gau, gba, gdi, gva, hav, ipa, kin, koy, kpn, ksa, ksk, lat, lhk, liv, ljf, lla, lpl, mcac, men, mhd, mrb, msv, mts, mxa, nfa, opr, pac, pae, pak, pam, pdo, pes, pfq, pgd, pge, pgi, phm, ple, plu, pmr, ppk, ppm, ppoy, psi, pst, ral, raq, req, rer, ret, rha, rho, rip, roa, ror, rpa, rpr, rpw, rri, rru, rty, saci, salb, sall, salu, sap, say, sbh, sbn, sbo, sbz, scb, scl, sco, sct, sect, sep, sepp, ser, sfl, sfo, sgr, sho, sma, smk, sms, smx, spe, spi, spl, spq, ssx, sti, stm, sty, sur, sus, tai, tde, tma, tme, tos, tpas, tra, tro, tsc, tsu, tth, ttl, tts, uur, vin, wbr, xac, xbo, xcb, ype, ypg, zin.

87 Archées

nota: hma1 est le 1er chromosome du code KEGG hma. Aussi rechercher hma dans KEGG et récupérer le 1er chromosome dans hma1.txt .

abi, afu, aho, ape, asc, clg, cma, csu, dka, ffo, fpl, gac, hal, hbo, hbu, hla, hlr, hma1, hmu, hru, hsu, htu, hut, hvo, hwa, hxa, iag, iho, kcr, mac, marc, mba, mbg, mbn, mbu, mear, mel, mer, mev, mfe, mfv, mhu, mhz, mig, mka, mla, mmh, mmp, mok, mpd, mpi, mpl, mpy, mse, msi, mst, mth, mtp, mzh, nbv, neq, nga, nge, nkr, nmg, nmr, nou, nph, pai, pdl, pfm, pho, ppac, pto, sali, smr, sso, taa, tac, tag, tar, thg, tko, ton, tpe, tuz, vdi.

52 cyanobactéries et leurs plasmides

ana, ana1, ana2, ana3, ana4, ana5, ana6, anb1, anb2, anb3, anba, anbb, can, can1, cyt1, cyt2, cyt3, cyt4, cytc, cytl, syn, syn1, syn2, syn3, syn4, len, len1, len2, len3, mic, mic1, mic2, mic3, mic4, mic5, mic6, mic7, mic8, oac, oac1, oac2, oni, oni1, oni2, oni3, oni4, oni5, syf, syf1, synp, synp1, synp2.

35 autres bactéries et leurs plasmides

cac, cac1, cje, cje1, ecs, ecs1, ecs2, ent, ent1, kpn, kpn3, kpn4, kpn5, kpn6, kpn7, pst, pst1, pst2, sco, sco1, sco2, sfl, sfl1, stm, stm1, tos, tos1, tos2, xac, xac1, xac2, ype, ype1, ype2, ype3.

Le codage des plasmides, suffixés par un nombre comme ci-dessus, n'est pas le codage de KEGG. Je l'ai utilisé pour faciliter la lecture des diagrammes mettant en jeu les plasmides.

Tableau des correspondances entre le codage KEGG et la liste des plasmides: (Attention!! réduire le zoom si l'affichage est mauvais)

code    plasmide Bactérie       code    plasmide Bactérie       *       code    plasmide cyanobactérie  code    plasmide cyanobactérie  code    plasmide   cyanobactérie
cac1    pSOL1    cac            sco1    pscp1    sco            *       ana1    panaa      ana          cyt3    pcytC     cyt           oac1    pOSCIL63041     oac
cje1    pCJ419   cje            sco2    pscp2    sco            *       ana2    panab      ana          cyt4    pcytD     cyt           oac2    pOSCIL63042     oac
ecs1    pO157    ecs            sfl1    pCP301   sfl            *       ana3    panac      ana          cytc+   cytc      cyt           oni1    pOSC71121       oni
ecs2    pOSAK1   ecs            stm1    pSLT     stm            *       ana4    panad      ana          cytl    cytl      cyt           oni2    pOSC71122       oni
ent1    pENT01   ent            tos1    pTHEOS01 tos            *       ana5    panae      ana          len1    AP017309  len           oni3    pOSC71123       oni
kpn3    pKPN3    kpn            tos2    pTHEOS02 tos            *       ana6    panaf      ana          len2    AP017310  len           oni4    pOSC71124       oni
kpn4    pKPN4    kpn            xac1    pXAC33   xac            *       anb1    panbA01    anb          len3    AP017311  len           oni5    pOSC71125       oni
kpn5    pKPN5    kpn            xac2    pXAC64   xac            *       anb2    panbA02    anb          mic1    pMIC71131 mic           syf1    CP000101        syf
kpn6    pKPN6    kpn            ype1    pCD1     ype            *       anb3    panbA03    anb          mic2    pMIC71132 mic           syn1    pSYSA           syn
kpn7    pKPN7    kpn            ype2    pPCP1    ype            *       anba+   anb1       anb          mic3    pMIC71133 mic           syn2    pSYSG           syn
pst1    pDC3000A pst            ype3    pMT1     ype            *       anbb    anb2       anb          mic4    pMIC71134 mic           syn3    pSYSM           syn
pst2    pDC3000B pst                                            *       can1    pCYAN10605 can          mic5    pMIC71135 mic           syn4    pSYSX           syn
                                                                *       cyt1    pcytA      cyt          mic6    pMIC71136 mic           synp1   pSYN75021       synp
                                                                *       cyt2    pcytB      cyt          mic7    pMIC71137 mic           synp2   pSYN75022       synp
                                                                *       −       −          −            mic8    pMIC71138 mic           −       −               −
                                anba+ et cytc+: chromosomes principaux de anb et cyt ayant pour code KEGG anb1 et cytc respectivement.

73 protéines de 7 autre-bactéries et 75 protéines de 7 cyanobactéries

Les protéines ont été choisies pour leur longueur et communes aux 7 bactéries. Quand une est manquante, elle est remplacée par une autre de longueur équivalente. Voici la liste des différentes protéines suivant le code orthologique de KEGG KO:

Les protéines

Protéines utilisées dans la recherche des répétitions des bases

abrégé	IUBMB Enzyme	Dénomination KEGG	code KO	*	abrégé	IUBMB Enzyme	Dénomination KEGG	code KO
acnA	EC 4.2.1.3	aconitate hydratase	K01681	*	mfd	EC 3.6.4.-	transcription-repair coupling factor	K03723
aldo	EC 2.2.1.2	transaldolase	K13810	*	mukB	−	chromosome partition protein	K03632
carB	EC 6.3.5.5	carbamoyl-phosphate synthase	K01955	*	nuoG	EC 1.6.5.3 G	NADH-quinone oxidoreductase	K00336
cox1	EC 1.9.3.1	cytochrome c oxidase subunit I	K02274	*	nuoL	EC 1.6.5.3 L	NADH-quinone oxidoreductase	K00341
cox3	EC 1.10.3.10	cytochrome o ubiquinol oxidase	K02298	*	pdhA	EC 1.2.4.1	pyruvate dehydrogenase E1	K00163
dnaE	EC 2.7.7.7	DNA polymerase alpha subunit A	K02337	*	recB	EC 3.1.11.5	exodeoxyribonuclease V beta subunit	K03582
dnaE1	EC 2.7.7.7	DNA polymerase III subunit alpha	K02337	*	recC	EC 3.1.11.5	exodeoxyribonuclease V gamma subunit	K03583
ftsK	−	DNA segregation ATPase	K03466	*	rpoB	EC 2.7.7.6	RNA polymerase subunit beta	K03043
gyrB	EC 5.99.1.3	DNA gyrase subunit B	K02470	*	rpoC	EC 2.7.7.6	RNA polymerase subunit beta'	K03046
iars	EC 6.1.1.5	isoleucyl-tRNA synthetase	K01870	*	sbcC	−	exonuclease SbcC	K03546
lars	EC 6.1.1.4	leucyl-tRNA synthetase	K01869	*	secA	−	preprotein translocase subunit	K03070
lhr	EC 3.6.4.-	ATP-dependent helicase	K03724	*	topA	EC 5.99.1.2	DNA topoisomerase I	K03168
metE	EC 2.1.1.14	homocysteine transmethylase	K00549	*	PolA	EC 2.7.7.7	DNA polymérase I	K02335

Les autre-bactéries et leurs protéines

bmv:   lars, iars, carB, secA, rpoC, rpoB, dnaE1, ftsK, mfd, lhr, recB, recC
cft:      lars, iars, carB, ftsK, rpoC, rpoB, recB, secA, dnaE, mfd
eco:   dnaE, ftsK, lhr, mfd, mukB, recB, recC, rpoB, rpoC, sbcC
mhd:   dnaE, rpoB, rpoC, secA, sbcC, mfd, ftsK, pdhA, topA, nuoG, cox1
sti:      ftsK, rpoC, rpoB, cox1, aldo, acnA, sbcC, secA, dnaE, mfd
tos:   dnaE, ftsK, secA, rpoB, rpoC, lars, iars, carB, sbcC, mfd
zin:   dnaE, rpoB, rpoC, nuoG, nuoL, lars, iars, cox3, metE, gyrB

Choix d'une protéine parmi un ensemble ayant le même code KO "orthology" de KEGG. 3 cas se sont présentés parmi les protéines du tableau précédent.

mhd     cox1    Marky_0361,             sti     cox1    Sthe_0631,              zin      rpoC    rpoC2.

Les cyanobactéries et leurs protéines

can:carB, cox1, dnaE, dnaE1, ftsK, iars, lars, rpoB, rpoC, mfd, sbcC, secA
cgc:carB, cox1, dnaE, iars, lars, mfd, recB, rpoB, rpoC, sbcC, secA
cya:carB, cox1, dnaE, iars, lars, mfd, rpoB, rpoC, sbcC, secA
mar:carB, cox1, dnaE, dnaE1, iars, lars, mfd, rpoB, rpoC, sbcC, secA
pmm:carB, dnaE, gyrB, iars, lars, mfd, recB, rpoB, rpoC, secA
syn:carB, cox1, dnaE, dnaE1, iars, lars, mfd, rpoB, rpoC, sbcC, secA
tel:carB, cox1, dnaE, dnaE1, iars, lars, mfd, rpoB, rpoC, sbcC, secA

Notes:can, mar, syn et tel ont un dnaE en 2 parties avec le même code KO de KEGG k02337. Ces 2 parties font à peu près la même longueur que les autres k02337. Ces cas sont différents de la bactérie bmv dont le gène ne porte pas le même nom que dnaE, mais dnaE1.

35 rRNA 23S (1 seul par bactérie)

ade, bla, bsu, cbl, cgq, cje, crp, cta, eco, fnc, kpn, lla, pgd, ple, roa, sall, sbh, sbn, ser, sgr, sma, smv, spi, tth, tos, bmv, zin, wbr, tra, tai, mrb, mcac, mhd, rpr, uur

Les tRNA de 3 bactéries pour le contenu en GC:

ade: KEGG NCBI

cbl: KEGG NCBI

crp: KEGG NCBI

Sélection des procaryotes − 2.3

   L'objectif du choix des procaryotes, a été dès le début, de pouvoir représenter les courbes des effectifs des codons de gènes de protéines et des répétitions des bases dans le génome entier en fonction de son contenu en GC (%GC). Il fallait surtout ne pas sur-représenter certaines valeurs de %GC. Ce ne sont pas des valeurs statistiques que je cherchais mais la forme de la courbe, ou la tendance, qui caractériserait un codon donné. Cette courbe en serait sa caractéristique physique. Je me restreignais, au début exclusivement, aux bactéries me paraissant plus simples, aux espèces plus nombreuses et plus étudiées que les archées.
   La découverte de la dissymétrie entre les répétitions A ou T et G ou C chez les bactéries m'a conduit, pour la conforter, à chercher des taux de répétition hors norme. C'est ce qui m'a conduit à étudier les cyanobactéries à part. D'autres valeurs hors norme sont apparues mais n'étaient pas propres à certains groupes. D'où le nombre élevé de bactéries étudiées spécialement pour les répétitions des bases. Les courbes de tendance caractéristiques des codons auront elles des valeurs de %GC assez régulières, couvrant tout l’intervalle d'étude et sans redondance. Cette dernière étude est publiée sous le titre de Corrélations entre les codons dans les gènes de protéines et comprendra les eucaryotes aussi.
   Après la découverte de la dissymétrie des répétitions dans le génome des bactéries, je l'ai recherchée naturellement pour comparaison chez les archées. Mais j'ai cherché aussi le comportement de cette dissymétrie dans les plasmides. Est-ce que les plasmides se comportent-ils de la même façon que pour le contenu en GC qu'on a montré qu'il était le même que celui du génome hôte ^[1]? Ensuite je me suis intéressé aux protéines et aux rRNA bien que les longueurs étudiées soient 1 000 fois plus petites que les génomes. Il fallait que je puisses différencier entre régions de contrôle et protéines, ces dernières occupant 80% et plus du génome. Mais les régions de contrôle proprement dites, c'est à dire les promoteurs, les séquences de fixations des protéines, etc, je ne les ai pas étudiées parce qu'il faut des outils informatiques beaucoup plus puissants que les programmes que j'ai écrits ici.

Les programmes en Perl pour compiler les codons et les bases répétées − 2.4

Compilations des codons
Décompte des répétitions
Les répétitions aléatoires

Les répétitions aléatoires − 2.4.1

Les répétitions aléatoires
Le spectre des fréquences des répétitions n'a de sens que si on le compare à une distribution aléatoire des répétitions des 4 bases nucléiques. Pour cela j'ai écrit la même procédure de décompte que pour le génome, mais au lieu de déchiffrer base par base, j'exécute la fonction de randomisation de Perl "int rand(variable)" autant de fois qu'il faut pour obtenir un nombre différent du précédent. Suivant le pourcentage qu'on veut atteindre le numérateur et le dénominateur sont divisés, chacun, en 2 tranches égales de nombres. Chaque tranche correspond à une base nucléique. Une fois la répétition d'un nombre donné obtenue, elle est stockée comme pour les bases. Il suffit d'exécuter ce programme plusieurs fois avec des tailles de chromosome différentes pour obtenir les 2 équations des courbes A+T et G+C aléatoire. Les intervalles des erreurs sont très réduits étant donné la grande longueur des chromosomes qui va de 100 000 à 10 000 000 de pbs.
Si on veut comparer un chromosome donné seulement, d'une taille donnée et d'un contenu en GC (%GC) donné, il suffit de trouver le numérateur et le dénominateur convenable qui donne un %GC aussi proche que l'on veut, et l'on exécute le programme. Les 2 distributions, aléatoire et réelle, peuvent être alors comparées avec des chromosomes de même longueur.

Décomptes des répétitions − 2.4.2

Décompte des répétitions: voir la documentation du programme.

Le contrôle:

Le programme ne traite que les répétitions inférieures ou égales à 20. Au début du programme les enregistrements de 70 caractères sont lus itérativement et leur nombre est multiplié par 70, au produit duquel j'ajoute la longueur du dernier. Ce total moins le décompte des répétitions qui ne comptent que les lettres A G C T, donne une différence qui sert de contrôle. Si le contrôle est différent de zéro, 3 cas peuvent se produire et doivent être résolus manuellement dans le fichier préfixé ".txt":

Le chromosome contient des lettres autres que A G C T. Ceci est du au fait que le séquençage n'est pas total. S’il y a une lettre ou 2, ou une seule séquence, on peut garder le chromosome.
La fin du fichier peut contenir des lignes à blancs.
Il y a des répétitions dont la longueur dépasse 20 caractères. Il faut les récupérer manuellement. Les distributions de ces chromosomes seront présentées au chapitre "Résultats".
Enfin vérifier dans ce cas que la longueur du chromosome est la même que dans les bases de données.

Les 2 fichiers des résultats:

Fichier des distributions des répétitions de chaque chromosome. Il peut être copié dans un tableur et donc être traité. Il peut être consulté pour illustrer telle ou telle distribution.
Fichier des tableaux numériques: donne une ligne par chromosome contenant

Le contrôle
la longueur du chromosome
Le %GC calculé par le programme
La somme des répétitions supérieures à 4, pour chaque base (limitées à 20).
La somme des répétitions 2 et 3, pour chaque base.
La répétition 4 pour chaque base.

L'écriture en Perl des programmes:

Ils sont documentés et contiennent les recommandations nécessaires pour leur exécution. Ils sont stockés dans l'Annexe/Perl dont le lien est affiché au début du sous-chapitre.

Compilation des codons − 2.4.3

Compilations des codons : voir la documentation du programme.
Ce programme décompte les 64 codons d'un gène d'une protéine d'un organisme donné. Les fichiers décomptés sont ceux de KEGG obtenus avec le code orthologique de KEGG KO. Voir ci-dessus le sous-chapitre de la liste des protéines étudiées pour leur code KO. Copier la séquence de nucléotides à la section "NT seq". C'est un fichier en minuscules de 60 caractères. Le programme traite 3 lettres par 3 lettres, ne pas donner donc en entrée des fichiers de 70 caractères.

Le fichier en sortie, résultat du comptage des codons est codonsc.txt: Il contient les tableaux "1 gène/n procaryotes" et "1 procaryote/ n gènes".
Le fichier en sortie, sommation des codons en acides aminés: codonsa.txt: Il contient les tableaux "1 gène/n procaryotes" et "1 procaryote/ n gènes".

Ce programme est utilisé ici pour illustrer les codons des procaryotes ayant des répétitions en G et C hors norme comparés aux procaryotes ayant un taux de répétition G et C normal. Ces fichiers sont consignés dans les tableaux numériques et les tableaux des répétitions dans le chapitre "protéines".
Ce programme sera la base de travail pour l'article "Corrélation entre les codonss de gènes de protéines". On peut néanmoins voir le détails de son fonctionnement dans sa documentation.

Résultats − 3

Les tableaux numériques, en annexe, sont utilisés ici, sous forme de textes séparés par des points virgules, à la place de tableaux formatés pour alléger la présentation et permettre au lecteur, avec un tableur, de manipuler les diagrammes à sa guise. Les diagrammes utilisés plus loin, utilisant ces tableaux numériques, sont issus du tableur Calc de LibreOffice, exportés sous format d’image .png .
Les distributions des répétitions par organisme sont consignées dans l'annexe/Repetitions. Elles permettent de vérifier mes allégations et illustrations par la suite dans ce chapitre. Le lecteur pourra en outre étendre la manipulation de ces données.
L'essentiel de cette présentation est de pouvoir reproduire tout résultat avec un ordinateur.

Les répétitions − 3.1

Tableaux numériques − 3.2

Diagrammes − 3.3

Galerie 1

Répétition de + de 4 bases dans l'ADN des cyanobactéries, d'autres bactéries et des archées
Répétition des bases A et T dans l'ADN des bactériesRépétition des bases G et C dans l'ADN des bactériesRépétition des bases A et T dans l'ADN des cyanobactériesRépétition des bases G et C dans l'ADN des cyanobactériesRépétition des bases A et T dans l'ADN des archéesRépétition des bases G et C dans l'ADN des archées

Galerie 2

Répétition de + de 4 bases dans l'ADN des plasmides des cyanobactéries et d'autre-bactéries
Répétition des bases A et T dans les plasmides des autre-bactériesRépétition des bases G et C dans les plasmides des autre-bactériesRépétition des bases A et T dans les plasmides des cyanobactériesRépétition des bases G et C dans les plasmides des cyanobactéries

Analyse des résultats − 3.4

Méthode d'analyse − 3.4.1

Ce que je présente ici c'est la méthode de présentation d'un ensemble hétéroclite de résultats et non une méthode de recherche. Pendant la recherche, à chaque résultat non attendu pour un objectif donné, je passais à un autre sujet tout en cherchant toujours les répétitions des bases. Une présentation de tableaux numériques de grande dimension étant fastidieuse j'ai opté pour des représentations d'ensembles statistiques, de classements et de cas hors-normes. Le lecteur pourra vérifier ou procéder à d'autres analyses en copiant les résultats bruts qui sont dans les annexes, dans un tableur. Je procède ainsi d'abord pour les bactéries autres que les cyanobactéries étant donné que c'était l'objectif principal de me restreindre à un domaine homogène, simple et contenant de nombreuses études. Puis je présenterai les cyanobactéries qui se sont détachées rapidement de l'ensemble des bactéries. La recherche sur les archées s'est faite plus tardivement pour comparaison. Enfin je présenterai de façon succincte l'étude des rRNAs chez les bactéries que j'ai entreprise dès le début pour différencier entre séquences de contrôle et séquences codantes; C'est seulement une tentative d'illustration car les rRNAs ne sont pas des séquences de contrôle et qu'ils sont cependant différents des séquences codant pour les protéines qui représentent plus de 80% du génome des procaryotes. Le plan est le suivant pour les 4 groupes d'études:

Les statistiques:

Je présente d'abord les équations des courbes de l'aléa servant de repère pour toutes les études,
Les diagrammes avec leurs courbes de tendance et leurs équations,
Les écarts par rapport à l'aléa qui différencient des groupes entre eux,

Les modèles de distributions et les distributions hors-normes,
Les regroupements, surtout dans les bactéries autres que les cyanobactéries étant donné leur grand nombre.

Les équations des courbes de l'aléa − 3.4.2

C'est l'exécution du programme perl repete-alea.pl qui permet d'avoir les résultats sous la même forme que pour les répétitions réelles. Il est dans Les répétitions aléatoires

Les équations − 3.4.2.1

Les effectifs et les %GC nécessaires à la construction des courbes des aléas se trouvent dans le tableau numériques Aléas.
>4AT c'est la somme de toutes les répétitions supérieures à 4 et inférieures à 21 des bases A et T, divisée par la longueur du chromosome (effectif) et multipliée par 10 000. De même, pour >4GC.

>4AT = (répétions supérieures à 4 de A +T)*10 000/effectif.
>4GC = (répétions supérieures à 4 de G +C)*10 000/effectif.

L'équation des 2 courbes >4AT et >4GC sont 2 polynômes du 3ème degré en fonction du %GC (x).

>4AT(%GC) = − 0.000732x³ + 0.1607x² − 11.96x + 302.4
>4GC(%GC) = 0.000747x³ − 0.0609x² + 1.869x − 19.90

Les coefficients des polynômes ont été évalués dans 3 autres itérations avec des longueurs de chromosome fixes. Ci-dessous la moyenne et la fourchette d'erreur de ces évaluations.

Les diagrammes faits avec toutes ces évaluations, ainsi que celle utilisée dans les équations précédentes se confondent complètement.

   Chromosomes  Nombre       74            10        13        29       moyenne    erreur
                Longueur    variable       2 mb      10 mb     5 mb     −          −
                         
  >4AT     x3 (x1000)       -0.732       -0.807    -0.810    -0.738    -0.77       ± 0.04
                 x2          0.1607       0.1720    0.1730    0.1637    0.167      ± 0.006
                 x          -11.97       -12.51    -12.57    -12.20    -12.3       ± 0.3
                 c           302.4        311.0     311.6     307.56    308        ± 4
                        
  >4GC     x3 (x1000)        0.747        0.615     0.676     0.747     0.68       ± 0.06
                 x2         -0.0609      -0.0425   -0.0497   -0.0590   -0.052      ± 0.009
                 x           1.869        1.045     1.303     1.675     1.46       ± 0.04
                 c          -19.90       -8.29     -11.08    -15.49    -13.7       ± 5

Ecart-types relatifs de %GC, >4AT et >4GC − 3.4.2.2

Les écarts types relatifs à la moyenne ( en %), >4GC% et >4AT%, ont été calculés sur 10 itérations pour les mêmes paramètres %GC et effectif sur 14 chromosomes (tirés du tableau des aléas ), avec le programme Perl des Répétitions aléatoires.
L'intérêt du tableau ci-dessous est de nous permettre de distinguer les faibles effectifs de >4AT quand le %GC est supérieur à 60% de ceux de l'aléa. De même pour >4GC quand le %GC est inférieur à 43%.

dénom.  numer.   %    effectif   %GC  >4GC% >4AT%
6       1       16.7  159,662    0.4  96.4  1.5
17      4       23.5  1,017,293  0.2  13.5  1.2
7       2       28.6  3,992,906  0.1  3.3   0.8
3       1       33.3  1,800,764  0.1  6.7   1.0
47      18      38.3  1,937,111  0.1  3.6   1.2
37      16      43.2  4,168,266  0.0  1.2   1.0
29      14      48.3  2,343,476  0.1  1.9   1.5
17      9       52.9  1,139,203  0.1  2.5   3.0
22      13      59.1  2,572,069  0.0  1.3   2.7
43      27      62.8  3,820,344  0.0  0.7   1.7
19      12      63.2  3,462,887  0.0  0.8   2.6
22      15      68.2  3,497,479  0.0  0.8   5.4
15      11      73.3  6,841,649  0.0  0.4   5.9
4       3       75.0  5,013,479  0.0  0.6   4.3

Les bactéries − 3.4.3

Les 192 autre-bactéries
1er et 2ème diagrammes dans Galerie 1 Tableaux numériques Répétitions Tableau des diagrammes

A−T et C−G : A est équivalent à T, et C est équivalent à G. D'où le choix de présenter les sommes A+T et G+C pour les répétitions.

Cette équivalence peut se comprendre par le fait que le système de protéines qui font varier le contenu en GC (réparation, protection, binding proteins, transcription, réplication) de l'ADN double-brin ne distingue pas entre les paires AT et TA d'une part, et, GC et CG d'autre part. J'ai calculé la variation en % entre les 2 paires respectivement pour leur total de nombre de répétitions supérieures à 4. Le résultat pour les 192 bactéries, est le suivant:

>4(A−T) Moyenne(2*100*ABS((>4A − >4T)/(>4A + >4T))) = 4.5% Ecart-type 5.4% (192 bactéries)
>4(C−G) Moyenne(2*100*ABS((>4C − >4G)/(>4C + >4G))) = 8.0% Ecart-type 11.3% (192 bactéries).

Les diagrammes − 3.4.3.1

Les diagrammes des répétitions− 3.4.3.1.1

Diagramme >4AT

Galerie 1, 1er diagramme

− Un très bon coefficient de régression, R² = 0.94; d'où une homogénéité des points. On n'arrive pas à distinguer des groupements.

− L'équation de la courbe de tendance est un polynôme du 3ème degré comme l'aléa. Le coefficient de x³ est largement supérieur à celui de l'aléa, -0.00206 contre -0.00073. Ce qui fait que quasiment tous les points sont au-dessus de l'aléa sauf à partir de 62% GC qui s'expliquent par des effectifs très faibles comme indiqué dans le chapitre de l'aléa.

>4AT(%GC) = − 0.00206x³ + 0.3769x² − 24.42x + 572.0. R² = 0.94.

Diagramme >4GC

Galerie 1, 2ème diagramme

− L'équation de la courbe de tendance n'est pas un polynôme de 3ème degré si l'on veut un coefficient de régression maximal. Celui-ci est atteint avec une fonction puissance, R² = 0.73.

>4GC(%GC) = 0.00018x^2.73. R² = 0.73. 192 bactéries.

Une courbe de tendance avec une fonction polynomiale du 3ème degré donne un R² = 0.33, et avec une exponentielle on a un R² identique à la fonction puissance, 0.73. L'intérêt de la fonction puissance est qu'elle est comparable à la fonction polynomiale de l'aléa. Nous remarquons, alors, que la courbe réelle s'éloigne encore plus que si elle était un polynôme du 3ème degré, puisque l'exposant de x est inférieur à 3. Le comportement des GC est donc de nature spécifiquement différente de celui des AT. Cette spécificité s'accentue avec l'apparition de groupes différents tout en gardant une grande homogénéité en dehors de ces groupes.

− Les groupes:

1. − J'ai déjà mis à part les cyanobactéries, et en enlevant les 12 bactéries (opr, msv, mrb, tai, tsc, sur, mhd, tra, tos, tts, ttl, tth) aux alentours de 68 %GC ayant un >4GC supérieur à 38 nous améliorons à peine l'homogénéité des 180 bactéries restantes avec un R² = 0.78 d'une fonction puissance encore plus accentuée, exposant de 2.50 par rapport à 2.73.

>4GC(%GC) = 0.00040x^2.50. R² = 0.78. 180 bactéries.

La fonction exponentielle de ces 180 bactéries donne à peu près le même R² = 0.77. Par contre la fonction polynomiale se rapproche spectaculairement de la fonction puissance avec un R² qui passe de 0.33 à 0.65. Donc la spécificité de la fonction exponentielle semblerait être due à ce groupe de 12 bactéries et peut être encore plus puisqu'on a surchargé l'effectif autour de 68 %GC. Et la spécificité des >4GC se réduirait à la grande dissymétrie par rapport aux >4AT et à l'apparition de 2 groupes, l'un autour de 33%GC (cyanobactéries) et l'autre autour de 68%GC.

>4GC(%GC) = 0.00014x³ − 0.0124x² + 0.522x − 5.89. R² = 0.65. 180 bactéries.

2. − Si on enlève, outre les 12 précédentes, les bactéries qui ont plus de 20 comme valeurs de >4GC, un %GC entre 56 et 75, et qui semblent se détacher nettement des autres puisque le >4GC passe de 16.98 (cmi) à 20.94 (scl):

afw, age, ccx, dge, dpt, dvl, ebt, fra, gdi, ipa, ksk, mts, mxa, pdo, phm, rru, saci, salb, sall, salu, sap, say, sbh, scb, scl, sco, sct, sgr, sho, sma, ssx

nous obtenons les mêmes courbes que précédemment avec des R² de 0.65 pour la polynomiale, 0.76 pour la puissance et 0.71 pour l'exponentielle. Nous voyons alors que la spécificité, fonction puissance de >4GC est bien réelle et constante, avec un coefficient de régression élevé et constant autour de 0.74.

>4GC(%GC) = 0.00126x^2.18. R² = 0.76. 149 bactéries.

>4GC(%GC) = 0.00003x³ − 0.0023x² + 0.266x − 4.07. R² = 0.65. 149 bactéries.

En conclusion, pour les groupes, nous pouvons dire qu'il y en a plusieurs sur toute la gamme de pourcentage en GC et que leur >4GC caractéristique suit une courbe de tendance d'une fonction puissance au-delà de 50% en GC.

Les diagrammes des écarts des répétitions, relatifs à l'aléa− 3.4.3.1.2

Galerie 9, diagrammes 1 et 2. Tableau des 2 diagrammes des écarts

Tableau des taux relatifs de répétitions significativement différents de l'aléa.

Tableau montrant les taux relatifs par rapport à l'aléa ( >4GC% et >4AT% ) quand les effectifs comptés sont faibles (>4GCe et >4ATe). Quand le taux en GC (%GC) du génome est faible (effectif: >4GCe) ou extrême (effectif: >4ATe) les valeurs de l'aléa peuvent êtres très petites ou nulle rendant les dépassements non significatifs. Ce tableau est restreint aux 1ères et dernières bactéries (suivant un %GC croissant) car les écart-types relatifs de l'aléa par rapport à sa moyenne ( écart%) restent très faibles et ne dépassent pas les 10% en valeur absolue entre ces 2 extrêmes.

(>4AT%)= 100*((>4AT) − (>4ATa))/(>4ATa) (>4GC%) = 100*((>4GC) − (>4GCa))/(>4GCa)

où (>4AT) et (>4GC) sont les taux en %00 de la bactérie, (>4ATa) et (>4GCa) sont les taux des mêmes répétitions supérieures à 4 de l'aléa, du tableau des diagrammes des répétitions.

KEGG    %GC     >4GCe   >4GCa   >4GC%   écart%          KEGG    %GC     >4ATe    >4ATa   >4AT%   écart%
zin     13.54   17      0       −       −               bmv     68.15   1971    5.64    -91     5.4
cru     13.98   6       0       −       −               gba     72.56   136     0.85    -70     −
crp     16.56   4       0       −       96.4            cmi     72.66   133     0.83    -51     −
wbr     22.48   64      0       −       −               sct     72.94   334     0.77    -31     −
mcac    23.66   65      0.10    541     13.5            phm     73.29   226     0.70    -15     −
sms     24.00   65      0.18    1791    −               salb    73.32   313     0.69    -34     5.9
uur     25.50   84      0.52    116     −               afw     73.53   174     0.65    -49     −
ple     26.17   77      0.66    225     −               ksk     74.20   336     0.51    -25     −
buc     26.31   87      0.69    96      −               acp     74.72   138     0.40    -32     −
fnc     27.12   393     0.86    101     −               ank     74.84   128     0.38    -33     −
cbl     28.31   1199    1.12    169     3.3             ade     74.91   142     0.36    -22     4.3
cft     33.21   210     2.31    -49     6.7

Pour les diagrammes des écarts relatifs à l'aléa les seuls procaryotes à être écartées sont les bactéries: zin, cru, crp, wbr, mcac, sms qui ont des valeurs relatives dépassant les 300%. Les cyanobactéries et les archées qu'on étudiera aux prochains chapitre ont des contenus en GC (%GC) supérieurs à 25% et ne posent pas de problème d'effectif faible.

Il reste pour le diagramme des écarts relatifs des autre-bactéries que 186 sur 192 où ces écarts peuvent être comparés à ceux de l'aléa. C'est ainsi que j'ai pu mettre en évidence 2 nouveaux groupes aux valeurs extrêmes du %GC et dont les écarts relatifs par rapport à ceux de l'aléa sont significativement différents.

2 nouveaux groupes chez les autre-bactéries: Galerie 9, diagrammes 1 et 2.

Tableau des 2 diagrammes des écarts

Groupe %GC < 43% au-dessus de l’aléa GC et AT   22              Groupe %GC > 60% sous l’aléa GC et AT   33                              
                                                                                                                                                
KEGG    >4GC%   >4AT%          KEGG     >4GC%   >4AT%   *       KEGG     >4GC%   >4AT%          KEGG    >4GC%   >4AT%           KEGG    >4GC%   >4AT%
amt     98      63              cjr     31      141     *       acp     -82     -32             gba     -86     -70             sall    -65     -27
asf     122     25              cle     47      37      *       ade     -82     -22             ksk     -68     -25             salu    -66     -26
bpn     63      50              cmn     65      125     *       afw     -74     -49             mts     -64     -64             sbh     -65     -32
buc     96      117             fnc     101     77      *       age     -57     -36             mxa     -66     -39             scb     -62     -45
cac     46      48              lat     48      100     *       amd     -82     -26             nfa     -80     -62             sco     -69     -52
cad     60      28              ple     225     67      *       ams     -83     -27             phm     -70     -15             sct     -65     -31
cbd     34      198             pmr     35      84      *       ank     -82     -33             req     -78     -75             sgr     -61     -50
cbl     169     47              psi     22      96      *       asd     -71     -14             rer     -79     -43             sho     -68     -50
cdf     67      39              rip     24      126     *       bla     -78     -14             rha     -74     -61             sma     -67     -44
chp     18      87              tme     164     117     *       ccx     -67     -39             roa     -75     -64             ssx     -65     -47
cje     32      142             uur     116     64      *       cmi     -79     -51             salb    -60     -34             sti     -72     -58

Dans le diagramme 1 de la Galerie 9 on distingue bien les bactéries entassées du groupe de 33 sous l'aléa du diagramme >4AT, il est signalé par la bactérie ade-22. Voir le tableau du groupe 33 pour les détails.

Dans le diagramme 2, le groupe 22 au dessus de l'aléa du diagramme >4GC, 13 bactéries sont signalées par leur code KEGG et chp est signalé par son écart relatif 18%, pour indiquer que le groupe est significativement différent de l'aléa. L'écart relatif inférieur suivant est celui de aae avec 5%. Voir le tableau du groupe 22 pour les détails.

Quand on trie le tableau des diagrammes des bactéries suivant le %GC croissant, le nombre de bactéries de 25 à 42 %GC est de 45. Le complément du groupe précédent de 22 bactéries constitue un nouveau groupe de 23. A part leur position par rapport à l'aléa les 2 groupes sont très semblables avec, cependant, une nette augmentation simultanée des taux >4GC (position par rapport à l'aléa oblige, moyenne de 3.8 contre 2.6) et >4AT (pourquoi? moyenne de 111 contre 88) pour le groupe 22, malgré 5 chromosomes de très petite taille (DNA). Voir le tableau du groupe 23 pour les détails.

Les 5 groupes des autre-bactéries selon l'écart relatif par rapport à l'aléa.

Ils sont placés dans le tableau

des groupes des écarts relatifs: Groupe 22, Groupe 23, Groupe 33, Groupe 41 et Groupe 67.

   Groupe 22    %GC     >4GC    >4AT    DNA                Groupe 23    %GC     >4GC    >4AT    DNA                Groupe 67    %GC     >4GC    >4AT    DNA
   25-42 %GC                                               25-42 %GC                                               43-59 %GC
        moyen.  32      3.8     111     2,335,119               moyen.  36      2.6     88      2,264,375               moyen.  52      8.5     35      4,070,018
        écartt  5       2       39      1,542,011               écartt  4       2       24      1,200,989               écartt  5       5       13      1,332,214
        %       17      65      35      66                      %       12      67      27      53                      %       9       53      35      33
                                                                                                                                                        
   Groupe 41    %GC     >4GC    >4AT    DNA                Groupe 33    %GC     >4GC    >4AT    DNA                
   60-70 %GC                                               60-74 %GC
        moyen.  65      30      6.9     4,202,165               moyen.  71      21      0.8     7,191,057                                                       
        écartt  3       30      4       2,530,326               écartt  3.5     7.0     0.8     2,694,790                                                       
        %       5       98      58      60                      %       5       34      102     37

Aux groupes 22, 23 et 33, qu'on a décrits au paragraphe précédent, il faut ajouter le groupe 41 au-dessus de l'aléa >4AT symétrique du groupe 33 . Le 5ème groupe, groupe 67, est celui au-dessus de l'aléa >4AT sans équivalent en dessous. Ce récapitulatif traite de la moyenne (moyen.), de l'écart type (écartt) et de l'écart type relatif à la moyenne (%), du contenu en GC (%GC), des taux de >4GC et >4AT en %00 du nombre de bases du chromosome (DNA).

La bonne homogénéité du %GC (5 -17%) des 5 groupes est le fait de la répartition régulière voulue pour cette étude.
La longueur moyenne des chromosomes varie avec le %GC ( de 2 M ps vers 35 %GC à 7 M pbs à 70 %GC) et avec la position du groupe par rapport à l'aléa (le groupe 41 fait la moitié du groupe 33). Son homogénéité traduit les comportements combinés des 2 taux de répétitions étudiés.
Dans les groupes 22 et 23 le taux >4GC faible est combiné à un taux >4AT très fort et homogène. Ce déséquilibre se traduit par des chromosomes petits de longueur hétérogène.
Le groupe 67 au contenu %GC moyen, avec les 2 taux moyens et assez homogènes, a une longueur de chromosome moyenne et très homogène pour 67 bactéries. Cette homogénéité a été renforcée certainement par le fait qu'il n'a pas son symétrique au-dessus d'un des 2 aléas >4ATa ou >4GCa.
Les 2 groupes 33 et 41 auraient pu se ressembler comme les groupes 22 et 23, étant symétriques et à fort taux >4GC. Mais c'est là la différence entre les répétitions AT et GC du point de vue physique de l'ADN et non d'un point de vue évolutif.
- Le taux >4GC très fort du groupe 41 est le plus hétérogène de toutes les moyennes des 5 groupes, alors que celui de >4AT des groupes 22 et 23, beaucoup plus fort encore, est très homogène. Au niveau 65 %GC, le groupe 41 subit une progression fulgurante du taux >4GC qu'une seule fonction hyperbole peut traduire à ce niveau de %GC. Le taux >4AT, relativement faible, et la longueur du chromosome suivent le même mouvement d’hétérogénéité.
- Le groupe 33 a un taux >4AT très faible qui ne rentre certainement pas en concurrence avec la longueur du chromosome ou le taux fort du taux >4GC. Est-ce que c'est ce taux >4GC relativement équilibré et homogène qui agit sur la taille du chromosome, double de celle du groupe 41, et sur son homogénéité? Ou bien est-ce l'inverse?

Les 5 groupes des autre-bactéries selon le taux de >4GC− 3.4.3.1.3

Les groupes sont placés dans le tableau des groupes du taux >4GC : Groupes 2 7, Groupes 14 25 68.

Diagramme simplifié avec les groupes du taux >4GC.

   Groupe 2      %GC    >4GC    >4AT    DNA         |   Groupe 7        %GC     >4GC    >4AT    DNA         |   Groupe 14       %GC     >4GC    >4AT    DNA
38 b, 1−4                                           | 74 b, 5−10                                            | 31 b, 11−18 
  moyen.         34     2.3     100     2,334,524   |   moyen.          52      6.8     37      4,104,170   |   moyen.          63      13.8    12.1    4,597,594
  ecartt         7      1       38      1,345,668   |   ecartt          8       1       24      1,639,023   |   ecartt          8       2       15      2,043,599
  %              19     44      38      58          |   %               16      19      66      40          |   %               13      16      126     44
-----------------------------------------------------------------------------------------------------------------------------------------------------------------
   Groupe 25     %GC    >4GC    >4AT    DNA         |   Groupe 68       %GC     >4GC    >4AT    DNA         |
31 b, 21−33                                         | 12 b, 38−116                                          |   
  moyen.         68     25.3    5.2     6,916,863   |   moyen.          67      68      8.1     3,030,788   |
  ecartt         5      3       8       3,238,795   |   ecartt          3       27      5       2,339,315   |
  %              8      12      159     47          |   %               4       39      67      77          |

Les groupes du taux >4GC s'étendent sur de grandes proportions de l'étendue du contenu en GC (%GC), et de façon irrégulière. Les étendues des groupes 7 et 14 , respectivement 34 et 28 %GC sont les plus grandes et laissent penser que le taux >4GC est constant de 25 à 60 %GC. Les groupes des taux >4AT s’étendent sur des proportions moyennes, inférieures à 20 %GC et de façon régulière. Ce qui fait que le taux >4AT progresse régulièrement. Voir les diagrammes simplifiés de ces taux en tête de ce sous-chapitre et du suivant. Le tableau ci-dessous donne la synthèse de ces étendues.

        Etendues en %GC des groupes                                        
GC      bande   %GC             %GC     bande   AT
                                                
2       20      25-45           25-41   16      V
7       34      35-69           27-45   18      IV
14      28      47-75           41-61   20      III
25      20      55-75           53-71   18      II
68      10      61-71           61-75   14      I

Les 5 groupes des autre-bactéries selon le taux de >4AT− 3.4.3.1.4

Les groupes sont placés dans le tableau des groupes du taux >4AT: groupes I II III groupes IV V

Diagramme simplifié avec les groupes du taux >4AT.

  Groupe V      %GC     >4GC    >4AT    DNA         |   Groupe IV       %GC     >4GC    >4AT    DNA         |   Groupe III      %GC     >4GC    >4AT    DNA
  19 b, 122−330                                     |   35 b, 61−112                                        |   56 b, 23−52
  moyen.        27      2       175     1,230,515   |   moyen.          36      4       81      2,525,415   |   moyen.          51      8       36      4,274,344
  ecartt        7       1       62      894,543     |   ecartt          5       2       15      1,358,428   |   ecartt          4       4       7       1,195,261
  %             26      71      36      73          |   %               15      59      18      54          |   %               9       52      19      28
-----------------------------------------------------------------------------------------------------------------------------------------------------------------
  Groupe II     %GC     >4GC    >4AT    DNA         |   Groupe I        %GC     >4GC    >4AT    DNA
  47 b, 3−20                                        |   35 b, 0.3−2.5
  moyen.        63      26      9       3,687,892   |   moyen.          71      22      1       7,534,602                                               
  ecartt        4       29      5       1,869,769   |   ecartt          3       7       1       2,707,907                                               
  %             6       110     57      51          |   %               4       32      68      36

Les étendues des groupes en %GC, irrégulières et régulières respectivement des taux >4GC et >4AT, font qu'il y a chevauchement entre les groupes >4AGC et >4AT. Cependant le groupe 2 recouvre entièrement les groupes V et IV, et le groupe 25 recouvre à 90% les groupes I et II. Le groupe 7, lui, recouvre à 80% les groupes III et II. Il n'y a pas donc de correspondance univoque des 2 sortes de groupes.

Progression dans les groupes homogènes − 3.4.3.1.5

    Groupes de >4AT à progression homogène              |       Groupes de >4GC à progression homogène                            
    nom         V       IV      III     II      I       |       68      25      14      7       2

    min         122.0   60.76   23.22   3.01    0.25    |       38.05   20.94   10.82   4.81    0.25
    max         330.82  111.7   51.50   19.72   2.45    |       116.27  33.42   17.47   9.77    4.42
    effectif    19      35      56      47      35      |       12      31      31      74      44
    moyenne     174.9   80.9    35.8    8.7     0.8     |       68.5    25.3    13.8    6.8     2.1
                                                        |                                       
    Pas         10.99   1.45    0.50    0.36    0.06    |       6.52    0.40    0.21    0.07    0.09
                                                        |                                       
    Pas %       6.3     1.8     1.4     4.1     8.3     |       9.5     1.6     1.6     1.0     4.5
                                                        |                                       
    rupture     330.8   122.0   60.8    23.3    3.0     |       116.0   38.1    20.9    10.8    4.8
                −       111.7   51.5    19.7    2.4     |       −       33.4    17.5    9.8     4.4
    %           −       9.2     18.0    18.3    22.8    |       −       13.9    19.9    10.8    8.8

Délimitation des groupes:

En triant les bactéries suivant un taux croissant, apparaissent des ruptures nettes dans la croissance en passant d'une bactérie à l'autre. Ainsi cette rupture est calculée en %, de la différence entre 2 taux successifs divisée par le taux inférieur. Pour le groupe II nous avons par exemple: 100*(23.3-19.7)/19.7 = 18.3%; alors que sur les ruptures précédentes elles sont largement inférieures à cette valeur et surtout homogènes. Cependant pour les groupes des extrémités, V I 68 2, il peut y avoir plusieurs valeurs élevées avant celle choisie (I et 2) ou après ( V et 68), mais avant ou après les valeurs sont plus petites ou très petites.

Le taux de progression ou pas: croissance moyenne entre les taux de 2 bactéries successives.

(maximum du groupe − son minimum)/son effectif: exemple pour groupe II, (19.72-3.01)/47 = 0.36.

Le pas relatif en %: c'est le pas relatif à la moyenne du groupe multiplié par 100. Par exemple pour le groupe II, 100*0.36/8.7 = 4.1.
Note sur les progressions : les groupes de >4AT et >4GC se ressemblent beaucoup.

Aux valeurs faibles des taux, la progression relative à la moyenne est forte pour les groupes 2 et II avec 4.5% et 4.1% respectivement, très forte pour le groupe I avec 8.3%.
Aux valeurs moyennes la progression est faible et s'étend sur 3 groupes pour >4GC (1.0, 1.6, 1.6) et sur 2 groupes pour >4AT (1.4, 1.8).
Aux valeurs fortes la progression est forte, 6.3%, pour le groupe V et très forte, le maximum avec 9.5, pour le groupe 68.

Ces progressions ressemblent à une fonction polynôme de degré 3 avec un point d'inflexion sur un plateau plus étalé pour les >4GC que les >4AT. Nous avons constaté ces rapprochements avec les équations de tendances qui étaient légèrement différentes, mais ici avec les groupes le rapprochement est plus fort pour les taux faibles et moyens. Mais il y a 2 constats importants à noter:

Pour les taux faibles les >4AT progressent beaucoup plus vite que les >4GC. Le comportement est le même mais d'intensité plus forte pour les >4AT. Les comportements des 2 paires sur l'ensemble diffèrent par leur intensité.
Pour les taux forts les 2 progressions sont fulgurantes bien que différentes. Ce décrochage n'était pas visible jusqu'ici pour les >4AT car leur équation de tendance, un polynôme de degré 3, était bien caractérisée (R2=94) et leur groupe V ne se détachait pas aussi spectaculairement que le groupe 68 des >4GC. Nous pouvons dire alors que pour toutes les valeurs des taux, les >4AT diffèrent par leur intensité des >4GC.

Synthèse sur les diagrammes − 3.4.3.1.6

Si nous résumons les résultats sur l'étude des diagrammes, les 4 approches, c'est à dire les diagrammes des taux, les diagrammes des écarts relatifs, les groupages par taux et les progressions dans les groupes homogènes, nous constatons que nous avons affiné de plus en plus des comportements semblables des 2 paires de bases AT et GC qui diffèrent seulement par leurs intensités.

Les diagrammes des taux nous ont permis de voir leur dissymétrie très prononcée par rapport à l'aléa, jusqu'à penser que leurs comportements soient de nature différente. Ce qui est clair, en tout cas, c'est que leurs comportements sont très différents. Ces diagrammes nous ont permis de définir 3 groupes au niveau de 60-75 %GC.
Les diagrammes des écarts relatifs nous ont permis de détecter 2 nouveaux groupes cachés, dans les diagrammes des taux, par les faibles valeurs de ceux-ci. Aux valeurs faibles des taux nous avons alors 4 groupes qui se répartissent comme suite: à 25-43 %GC on a un groupe au-dessus, un autre en dessous de l'aléa; de même à 60-75 %GC.
Les groupages par taux nous ont permis de découvrir que les groupes sont très homogènes et certains très étendus dans les taux >4GC. L'homogénéité se traduit par une variation plus rapide chez les >4AT que chez les >4GC ce qui donne des groupes beaucoup plus étendus chez ces derniers. Ce qui explique que jusqu'à 60 %GC les >4GC semblent être constants. Et par ailleurs on a pu dégager 5 groupes dans chaque cas, ce qu'on n'a pas pu faire pour les >4AT avec les 2 1ères approches.
Les progressions dans les groupes homogènes nous ont permis de conforter la ressemblance entre les courbes de tendances, la ressemblance dans les groupes et que toute différence entre les 2 paires de bases est une question d'intensité.

En conclusion on peut dégager 2 concepts forts:

La différence dans l'intensité du comportement des 2 paires est à mettre en parallèle avec la différence de la force de l'appariement qui lie les 2 bases des 2 paires. Cette force a été longuement étudiée et démontrée dans la littérature.
Le décrochage très fort des 2 groupes des taux forts ressemble énormément à un phénomène de résonance. Cette résonance concerne les 4 codons ccc ggg aaa ttt qui sont révélés par cette étude de répétition au niveau de tout le génome. On peut supposer que les autres codons subissent aussi cette résonance quand les 4 codons étudiés précédents traversent les points d'inflexion de leurs courbes. Le décrochage concerne les 4 codons précédents en même temps. Détaillons. C'est dans les diagrammes des écarts relatifs qu'on peut mettre en évidence cette simultanéité parce que c'est dans les extrêmes qu'on trouve 2 fois 2 groupes symétriques 2 à 2 par rapport à l'aléa.
- De 25 à 43 %GC le taux de >4GC est faible alors que celui de >4AT est fort. Le décrochage principale qui se fait dans le groupe V on l'aperçoit dans le groupe d'écart relatif "groupe 22" avec >4GC = 3.8 %00 et >4AT = 111 %00; alors que dans le "groupe 23" symétrique on a >4GC = 2.6 %00 et >4AT = 88 %00. C'est à dire 50% de >4GC de plus dans "22" que dans "23", et 25% de >4AT de plus dans "22" que dans "23".
- De 60 à 75 %GC le taux de >4GC est fort alors que celui de >4AT est faible. Le décrochage principale qui se fait dans le groupe 68 on l'aperçoit dans le groupe d'écart relatif "groupe 41" avec >4GC = 30 %00 et >4AT = 6.9 %00; alors que dans le "groupe 33" symétrique on a >4GC = 21 %00 et >4AT = 0.8 %00. C'est à dire 43% de >4GC de plus dans "41" que dans "33", et 8 fois de >4AT de plus dans "41" que dans "33".

Les diagrammes <5AT et <5GC − 3.4.3.1.7

Galerie 6. Répétitions de 2,3 ou 4 fois A ou T et G ou C chez les autre-bactéries, les cyanobactéries et les archées. Il y a compensation par rapport aux >4AT et >4GC pour autre-bactéries et >4GC des cyanobactéries mais pas de compensation des >4AT chez les cyanobactéries. Les archées sont très hétérogènes pour conclure. La compensation se comprend pour un contenu en GC donné, si les >4GC sont faibles il faut que les 2, 3 et 4 répétitions soient élevés. Pour les >4AT des cyanobactéries, elles sont tellement élevées que la compensation doit se faire sans répétitions.

Les distributions des répétitions par bactérie − 3.4.3.2

Les répétitions au-delà de 20 − 3.4.3.2.1

13 bactéries présentent ces répétitions parfois anormales. 2 bactéries sont ajoutées à ce tableau contenant Y ou S pour compléter les résultats manuels.

KEGG  effectif    %GC    >4GC   >4AT     ctrl  bases
zin     208,564   13.54   0.82  295.48    21   T
cru     162,589   13.98   0.37  330.82    22   A
gva   1,617,545   42.02   1.77   45.95     1   Y
clo   1,809,746   44.21   5.27   60.99    29   T
sfl   4,607,202   50.89   5.68   35.71    49   A: 43  N: 6
sap   3,472,898   56.76  22.12   27.21    21   C
tro   2,003,006   63.65  11.88    3.15     2   Y,S
roa   8,376,953   67.37  14.36    0.74    67   C: 41+26
age  12,489,432   69.45  28.18    0.97    41   G
mts   3,982,034   70.28  25.31    0.48    21   C
sbh  11,936,683   70.75  25.40    0.84   175   C: 4*22+21       G: 21+22+23
sall  9,784,577   72.13  27.12    0.69   446   C: 310+31+27+24  G: 30+24
sct   6,283,062   72.94  28.63    0.53    30   C
salb  6,841,649   73.32  33.42    0.46    29   G
ksk   8,783,278   74.20  28.47    0.38    66   C: 21  G: 23+22

Les groupes − 3.4.3.2.2

Sur 192 bactéries 120 ont des répétitions inférieures ou égales à 11. Cette frontière de 11 c'est pour les aas. Ainsi, une telle répétition a tout au plus 3 aas à 3 bases identiques: Phe, Lys, Pro, Gly. Pouvant s'ajouter à cet aa un troisième identique ayant seulement 2 bases identiques. Donc tout au plus 4 mêmes aas l'un à côté de l'autre. Avec une frontière de douze on passe respectivement à 4 et 5 aas identiques côte à côte. J'ai repéré cette frontière en totalisant les bactéries ayant le même maximum de répétitions. Ainsi j'ai trouvé:

Répétition maximale: 8   9 10  11  12  13  14  15  16  17  18  19  20
nombre de bactéries: 2  18 47  27  22  23  12  11   5   8   5   6   6

J'ai alors combiné le fait que 10 soit le maximum et une limite raisonnable de 4 aas alignés. Le nombre de bactéries ayant 14 et plus de répétition, se réduisant brusquement à 12, j'ai décidé de considérer toute répétition supérieure ou égale à 14 comme solitaire ou anormale quand cette répétition est trop grande.
Le tableau suivant liste ces 120 bactéries pour que le lecteur n'ait pas à le refaire manuellement:

120 bactéries à répétition <= 11

aae   asf   cfv   dge   eic   koy   mts   ral   sap   sho   tai      Moyenne 11       0.4       Moyenne 14-20    1.3
aba   bla   cgl   dpd   eno   kpn   mxa   raq   say   sma   tma      bactéries      total       bactéries      total
acp   bmf1  cko   dpt   esa   ksa   nfa   req   sbn   smk   tos      120               51       26                34
ade   bmf2  cle   dvl   eta   ksk   pae   rer   sbz   smx   tro                         Anomalies                  
amd   bmv   clo   eal   fnc   lhk   pam   ret   scb   spe   tsc                 bactéries       max   >20         
amo   bsu   cmi   ebf   fra   ljf   pgd   rha   sct   spl   tth                 clo             17 T   29       T         
ams   cac   cnt   ebt   gba   lla   pge   roa   sect  spq   ttl                 mts             15 C   21       C         
amt   cad   cpy   eca   gdi   mcac  plu   ror   sep   ssx   tts                 roa             10 G   41+26    C         
ank   ccx   dba   ecla  gva   mhd   pmr   rri   sepp  sti   vin                 sct             11 C   30       C         
apt   cff   dda   eco   hav   mrb   ppoy  rru   ser   sty   ypg                 sap             10 …   21       C         
asd   cft   ddr   eha   kin   msv   psi   rty   sgr   sus                       ksk             17 G   21 C, 22+23 G

59 bactéries à répétition => 11

afw   cpb   men   rpa   stm      Moyenne 11-13    2.8      Moyenne 14-20    1.6
age   cta   opr   rpr   sur      bactéries      total      bactéries      total
bae   cth   pac   rpw   tde      59               165      16                25
blo   ctr   pak   saci  tme                        
bpn   cvi   pdo   salb  tpas                  Anomalies            
cbd   ecs   pfq   salu  tra            bactéries        max   >20   
cbl   ent   pgi   sbo   tsu            age              14 G   41 G   
cdf   gau   phm   scl   xac            sfl              17 G   43 A   
cgq   ipa   ppk   sco   xbo            salb             15 C   29 G   
cje   lat   ppm   sfl   xcb                        
cjr   liv   pst   sfo   ype                        
cmn   lpl   rho   spi

Groupe à génome court avec gradient

               −− Répétitions −−                              
   bactérie     11   12−13   >13  génome    %GC    max    >20         
   cru          84    69     46   162,589   14.0   20 A   22 A         
   crp          84    84     47   159,662   16.6   20 T   −         
   zin         105    92     46   208,564   13.5   19 T   21 T         
   wbr          33     6      0   697,724   22.5   13 A   −         
   sms          23    14      3   190,657   24.0   14 T   −         
   ple          21     4      2   358,242   26.2   20 T   −         
   buc          16     5      5   640,681   26.3   18 T   −         
   rip          10     4      0   574,390   28.5   13 T   −

Groupe sans gradient

              −− Répétitions −−        
   bactérie   11   12−13   >13   génome      %GC    max      −−−−−−−     >20    −−−−−−−−         
   sall       13    13      6     9,784,577  72.1   20 C   C: 310+31+27+24   G: 30+24
   sbh        12    15     45    11,936,683  70.8   20 CG  C: 4*22+21        G:  21+22+23
   pes        12    15      7     4,513,140  56.1   16 G   −         
   uur         0     0     10       751,719  25.5   19 T   −         
   chp         0     1      9     1,171,660  39.1   17 C   −

Échantillon de distributions − 3.4.3.2.3

120 bactéries à répétition <= 11, scb cac mcac

scb     %GC     %GC al  −−−−− aléa −−−−         cac     %GC     %GC al  −−−−− aléa −−−−         mcac    %GC     %GC al  −−−−− aléa −−−−
        71.45   71.41   98/70   10148695                30.93   30.99   31/100  3940880                 23.66   23.81   24/101  1017293
n       at      gc      at      gc              n       at      gc      at      gc              n       at      gc      at      gc
1       2241377 3222758 2129580 2995867         1       1097691 793658  1165809 872807          1       242602  183686  296790  187999
2       294032  1286004 304765  1068654         2       371413  169647  402428  134583          2       110367  24851   112863  22432
3       17919   321993  43990   382558          3       142266  21161   139557  21024           3       46037   1916    43010   2609
4       2709    85826   6285    136306          4       61603   4311    47843   3334            4       20473   314     16481   317
5       486     24885   856     48479           5       23644   850     16541   495             5       9737    60      6214    38
6       93      3684    130     17479           6       9477    109     5600    76              6       4622    3       2514    5
7       17      94      11      6376            7       3652    20      1946    14              7       1874    2       959     0
8       3       23      2       2229            8       846     2       676     2               8       414     0       353     0
9       0       10      0       762             9       94      1       236     0               9       31      0       124     0
10      0       2       0       274             10      13      0       87      1               10      1       0       52      0
11      0       0       0       103             11      0       0       25      0               11      2       0       15      0
12      0       0       0       43              12      0       0       4       0               12      0       0       7       0
13      0       0       0       13              13      0       0       4       0               13      0       0       3       0
14      0       0       0       6               14      0       0       0       0               14      0       0       1       0
15      0       0       0       0               15      1       0       0       0               15      0       0       0       0
16      0       0       0       1               16      0       0       2       0               16      0       0       1       0
17      0       0       0       0               17      0       0       0       0               17      1       0       0       0
18      0       0       0       0               18      0       0       0       0               18      2       0       0       0
19      0       0       0       0               19      0       0       0       0               19      1       0       0       0

59 bactéries à répétition => 11, phm age men

phm     %GC     %GC al  −−−− aléa −−−−          age     %GC     %GC al  −−−− aléa −−−−−         men     %GC     %GC al  −−−− aléa −−−−  
        73.29   73.24   74/101  3803225                 69.45   69.31   70/101  12489432                43.52   43.70   44/101  538294
n       at      gc      at      gc              n       at      gc      at      gc              n       at      gc      at      gc
1       755815  1296678 763118  1121745         1       2825228 3971744 2747208 3695130         1       149444  145405  156457  144244
2       116026  491446  102279  409774          2       443447  1470682 421171  1280654         2       44060   35497   43842   31240
3       7396    114619  13823   149546          3       26527   389891  64646   444333          3       12277   4586    12420   6806
4       1167    28530   1829    54682           4       4370    101520  9928    154066          4       4292    781     3524    1453
5       175     7589    225     20067           5       885     27891   1590    53214           5       1385    154     980     339
6       38      1426    34      7369            6       235     5937    248     18353           6       506     23      294     78
7       8       324     2       2,665           7       66      1157    36      6526            7       214     4       86      12
8       3       79      1       1021            8       21      176     5       2235            8       92      3       27      5
9       1       22      1       354             9       3       25      0       739             9       25      2       5       2
10      1       5       0       129             10      0       2       0       278             10      4       0       0       0
11      0       4       0       42              11      0       0       0       96              11      0       0       1       0
12      0       0       0       22              12      0       1       0       35              12      1       0       0       0
13      0       1       0       11              13      0       0       0       10              13      0       0       0       0
14      0       0       0       2               14      0       1       0       1               14      0       0       0       0
15      0       2       0       0               15      0       0       0       0               15      0       0       0       0
16      0       0       0       0               16      0       0       0       0               16      0       0       0       0
17      0       1       0       0               17      0       0       0       0               17      0       0       0       0

Bactéries à génome court, rip ple zin

rip     %GC     %GC al  −−−− aléa −−−−          ple     %GC     %GC al  −−−− aléa −−−−          zin     %GC     %GC al  −−−− aléa −−−−  
        28.48   28.68   29/101  574390                  26.17   26.19   27/103  358242                  13.54   13.55   14/103  208564
n       at      gc      at      gc              n       at      gc      at      gc              n       at      gc      at      gc
1       141535  114542  169800  120806          1       92688   65393   105002  70786           1       51674   19092   58338   24546
2       53412   20741   60307   17364           2       34503   11641   39097   9300            2       19147   4091    25098   1682
3       21508   1936    21631   2507            3       15214   1214    14432   1230            3       9949    237     10898   112
4       10297   334     7644    358             4       6611    261     5188    163             4       5292    41      4784    3
5       5114    63      2784    42              5       2713    63      1912    13              5       2698    14      1957    0
6       2574    15      961     7               6       1177    10      724     5               6       1432    3       863     0
7       1193    4       338     1               7       557     3       252     1               7       741     0       351     0
8       608     0       137     0               8       359     1       117     0               8       571     0       158     0
9       211     0       39      0               9       229     0       40      0               9       289     0       74      0
10      43      0       17      0               10      92      0       11      0               10      188     0       26      0
11      10      0       5       0               11      21      0       4       0               11      105     0       15      0
12      2       0       2       0               12      2       0       3       0               12      60      0       6       0
13      2       0       1       0               13      2       0       0       0               13      32      0       4       0
14      0       0       0       0               14      0       0       1       0               14      15      0       2       0
15      0       0       0       0               15      0       0       0       0               15      8       0       1       0
16      0       0       0       0               16      0       0       0       0               16      10      0       0       0
17      0       0       0       0               17      1       0       0       0               17      11      0       0       0
18      0       0       0       0               18      0       0       0       0               18      1       0       0       0
19      0       0       0       0               19      0       0       0       0               19      1       0       0       0
20      0       0       0       0               20      1       0       0       0               20      0       0       0       0

Bactéries sans gradient, pes chp uur

pes     %GC     %GC a   −−−− aléa −−−−          chp     %GC     %GC a   −−−− aléa −−−−          uur     %GC     %GC a   −−−− aléa −−−−  
        56.06   56.00   56/100  4513140                 39.06   38.99   39/100  1171660                 25.50   25.52   25/98   751719
n       at      gc      at      gc              n       at      gc      at      gc              n       at      gc      at      gc
1       1085753 1348621 1209267 1310709         1       310815  290420  344478  295936          1       174326  142237  220376  145965
2       241692  426612  265321  367474          2       98849   58622   105327  58013           2       84432   20550   81701   18571
3       79192   77870   58466   101973          3       35305   11723   32151   11120           3       31967   2100    30881   2468
4       24611   16838   12988   28776           4       13857   2857    9990    2192            4       14688   404     11367   282
5       10365   3958    2763    8174            5       5413    522     2964    441             5       6355    72      4205    37
6       2476    946     614     2244            6       1827    92      924     79              6       3027    11      1616    5
7       1301    121     123     618             7       567     10      274     11              7       1303    1       589     0
8       244     21      33      157             8       214     6       79      2               8       337     0       255     0
9       17      22      9       40              9       39      0       24      0               9       29      0       68      0
10      3       15      1       15              10      6       0       9       0               10      1       0       23      0
11      1       11      0       2               11      0       0       3       0               11      0       0       16      0
12      0       7       0       1               12      1       0       0       0               12      0       0       5       0
13      0       8       1       1               13      0       0       0       0               13      0       0       0       0
14      0       2       0       0               14      0       5       0       0               14      1       0       1       0
15      0       4       0       0               15      0       3       0       0               15      1       0       0       0
16      0       1       0       0               16      0       0       0       0               16      3       0       0       0
17      0       0       0       0               17      0       1       0       0               17      3       0       0       0
18      0       0       0       0               18      0       0       0       0               18      1       0       0       0
19      0       0       0       0               19      0       0       0       0               19      1       0       0       0

Bactéries sans gradient, sall sbh

sall    %GC     %GC a   −−−− aléa −−−−          sbh     %GC     %GC a   −−−− aléa −−−−  
        72.13   72.26   73/101  9784577                 70.75   70.61   72/102  11936683
n       at      gc      at      gc              n       at      gc      at      gc
1       2065986 3074349 2015139 2882389         1       2670754 3801706 2554166 3528392
2       294247  1299200 278692  1043933         2       355487  1505027 375043  1244818
3       18871   307512  38569   376680          3       28563   362993  54643   439319
4       3080    81276   5326    135200          4       4569    97103   8144    155398
5       568     22976   782     49380           5       827     26474   1236    54881
6       84      3297    99      17672           6       116     3544    162     19400
7       18      117     8       6491            7       50      155     24      6731
8       1       71      3       2340            8       5       45      4       2481
9       0       32      0       821             9       2       18      2       908
10      0       11      0       304             10      0       12      0       291
11      0       13      0       99              11      0       12      0       127
12      0       8       0       35              12      0       7       0       41
13      0       5       0       17              13      0       8       0       15
14      0       2       0       5               14      0       6       0       2
15      0       1       0       2               15      0       13      0       1
16      0       0       0       1               16      0       6       0       0
17      0       0       0       0               17      0       7       0       0
18      0       1       0       0               18      0       5       0       0
19      0       1       0       0               19      0       0       0       0
20      0       1       0       0               20      0       8       0       0
24      0       2       0       0               21      0       2       0       0
27      0       1       0       0               22      0       5       0       0
30      0       1       0       0               23      0       1       0       0
31      0       1       0       0               24      0       0       0       0
310     0       1       0       0               25      0       0       0       0

Localisation des répétitions longues − 3.4.3.2.4

Après avoir trouvé la bactérie par son code KEGG, clic sur la séquence "GB:" qui affiche la page NCBI. Cliquer alors sur "graphics". Mettre l'adresse en kilo octets trouvée dans le fichier "FASTA", dans le champs "Find". NCBI affiche alors l'adresse demandée. Clic bouton gauche sur cette adresse, et choisir dans le menu déroulant, "reveal in sequence view". Puis ctrl+F pour recherchée la répétition en question. Si la séquence est dans une séquence fonctionnelle, le bouton droit donne le nom de cette protéine ou RNA.

Sur 43 répétitions longues 35 se trouvent dans des séquences non identifiées

age     41G     liv     19A     sall    24C     sbh     21G     sfl     43A
cjr     15G     mcac    19A     sall    24G     sbh     22C     tme     18A
crp     20T     phm     17G     sall    27C     sbh     22C     tsc     20C
cru     22A     ple     20T     sall    30G     sbh     22C     ttl     10C
dge     18G     roa     26C     sall    310C    sbh     22G     ttl     16C
ksk     22G     roa     41C     sbh     18G     sbh     23G     uur     19T
ksk     23G     salb    29G     sbh     21C     sct     30C     zin     19T

8 se trouvent dans des protéines fonctionnellement importantes ou hypothétiques

bactérie        répétition      adresse         protéine        commentaire
zin             21T             168392          EC 3.6.1.31     −
cru             18T             99908           EC 6.1.1.10     −
cru             20A             89720           hypothétique    −
buc             18T             247093          ftsL            cell division k03586 (KEGG)
chp             17C             644557          adherence factor−       
clo             29T             694734          hypothétique    −
sall            31C             4198230         pseudo-gène     −
sbh             22C             7439060         sensor kinase   −

Note sur les répétitions longues − 3.4.3.2.5

29.9.16 Paris
La répétition la plus longue est celle de 310C accolée à une autre de 27C. Puis nous avons 3 autres de C: 41+26 (côte à côte), 31, puis 30. Du côté de G nous avons 41, 30 et 29. Du côté de A, 43. Toutes ces longues répétitions supérieures à 29 sont en dehors des séquences fonctionnelles. Seule une répétition de 29T se trouve dans une protéine hypothétique. A quoi servent ces séquences et pourquoi C et G et rarement A ou T? Elles devraient être létales car l'homogénéité de C et G renforce encore plus leur appariement qui est d'ailleurs supérieur à celui de A et T. A mon avis l'ADN poubelle ou gratuit n'a pas de sens. Ces répétitions de C ou G doivent bloquer la progression des protéines de l'ADN quand elles le parcourent. C'est une contrainte majeur qui doit donc organiser cet ADN et sa dynamique. On peut expliquer par exemple le choix du brin à transcrire par une propriété de désappariement de ces répétitions longues de C ou de G. C étant plus léger peut être plus facilement à écarter ou bien au contraire c'est G. Le contenu en GC est faible dans les zones de contrôle (promoteurs..). Ce sont les AT qui prédominent, mais leurs répétitions ne sont pas grandes, tout au plus 20 ( voir Regulon data base [6]). Et d'ailleurs beaucoup de répétitions, A ou T, supérieures à 20 sont dans des protéines. Il en est de même des C ou G donnant la Gly mais pas la proline (brin complément).

Les plasmides − 3.4.3.3

Galerie 2: 1er et 2ème diagramme, répétitions en fonction du %GC; Galerie 3, 1er et 2ème diagramme, répétitions en fonction des répétitions de l'hôte et 5ème diagramme pour le %GC des plasmides en fonction de celui de l'hôte.
Tableaux numériques Répétitions

Les 12 bactéries étudiées sont: cac, cje, ent, ecs, kpn, pst, sco, sfl, smt, tos, xac, ype.

Répétitions des plasmides en fonction du %GC − 3.4.3.3.1

Tableau des 2 diagrammes en fonction de %GC Galerie 2: 1er et 2ème diagramme.

Rapportées au %GC les répétitions des plasmides se comportent comme leurs hôtes. C'est à dire:

Les répétitions >4AT sont toutes au-dessus de l'aléa et suivent une tendance en polynôme du 3ème degré.
Les répétitions >4GC sont presque toutes en dessous de l'aléa avec la conservation des groupes décrits pour les bactéries et notamment la bactérie tos.

Cependant on peut distinguer 2 types de plasmides:

Ceux qui restent regroupés autour de leur hôtes, dans la majorité des cas il y a au moins un plasmide qui reste près de son hôte.
Ceux qui s'en éloignent.

Répétitions des plasmides en fonction de celles de l'hôte − 3.4.3.3.2

Tableau des 2 diagrammes en fonction de l'hôte Galerie 3: 1er, 2ème et 5ème diagramme.
Dans tous les cas l'éloignement se fait presque toujours dans les 3 directions suivantes:

Diminution du %GC par rapport à l'hôte. 1 cas seulement augmente son %GC nettement, ype3.
Augmentation très prononcée du >4AT sauf pour celui de ype3 qui diminue nettement par rapport à son hôte .
Augmentation nette du >4GC sauf pour 2 cas: ype3 et kpn6 dont le >4GC diminue nettement par rapport à leurs hôtes.

La différence entre le plasmide et l'hôte est matérialisée dans les diagrammes 1, 2 et 5 de la galerie 3 par la diagonale (diag) représentant ce dernier (ligne rouge).
La bactérie tos n'est pas représentée dans les diagrammes 1 et 2 de la galerie 3, car dans le 2ème diagramme la valeur élevée du >4GC de tos fait que les autres bactéries paraissent être regroupées dans un petit nuage. Le >4GC des plasmides de tos sont presque identiques à celui de leur hôte et donc le croisement naissant des 2 droites du diagramme 2 est effectif en ce point.

Note sur les plasmides − 3.4.3.3.3

Il serait difficile de donner une tendance du comportement des plasmides vis à vis de leur hôte, tant l'effectif de 12 bactéries est faible. Mais le nombre des plasmides étant plus grands et leurs comportements restreints permettent de faire des regroupements et cerner certaines propriétés des diagrammes plasmide/hôte des répétitions des bases dans leurs ADNs.

Les répétitions >4AT: on peut en faire 3 groupes,

un groupe à très faible éloignement de l'hôte, de 0 à 10% (6 bactéries): cac1, cje1, ent1, stm1, sco1, sco2, tos1, tos2. Remarquons que cje1 a un ADN très petit, et sco et tos ont un %GC très élevé donc un >4AT très faible.
un autre groupe à forte augmentation de 40 à 100% (5 bactéries): ecs1-2, kpn3-7, pst1-2, sfl1, xac1-2. Remarquons que ecs2 et kpn6-7 ont un ADN très petit, ce qui explique leur >4AT très élevé, et que xac1-2, malgré leur grand ADN ils doublent leurs >4AT plus que ecs2 et kpn6-7 à petit ADN.
ype dont les plasmides ont un comportement erratique: ype1 augmente de 15% comme le 1er groupe, ype2 de 45% comme le 2ème groupe et ype3 diminue de 20% environ.

La droite >4AT des plasmides en fonction de celui de l'hôte (galerie 3, diagramme 1) est remarquablement parallèle à la diagonale et laisse penser que, chez les bactéries autres que les cyanobactéries, leur formation nécessite un surplus de répétitions >4AT de 12%00. On sait en effet que les séquences riches en AT contiennent l’origine de réplication nécessaire au plasmide pour qu'il se réplique, et les palindromes nécessaires à son détachement du chromosome hôte.

Les répétitions >4GC: On peut distinguer nettement 3 groupes,

Un groupe très homogène de 7 bactéries dont les plasmides doublent leur >4GC: cje1, ecs1-2, ent, pst1-2, sfl1, stm1, xac1-2.
Un groupe moins homogène mais dont la caractéristique principale est d'avoir un plasmide au moins ou l'ensemble des plasmides de la bactérie qui ont un >4GC égale à celui de l'hôte: kpn3-7, sco1-2, tos1-2, ype1-2. Remarquons encore que ype3 se distingue comme pour >4AT, il diminue son >4GC de moitié par rapport à son hôte comme cac1. sco1 est égal au hôte, mais sco2 a un >4GC qui n'augmente que de 40%.
un groupe de 2 plasmides dont le >4GC diminue nettement par rapport à l'hôte: cac1, ype3. Nous avons vu ype3 dans le groupe 2. cac1 a la particularité d'avoir un hôte à faible >4GC comme cje1.

La droite >4GC des plasmides en fonction de celui de l'hôte (galerie 3, diagramme 2) croise la diagonale aux %GC très élevés (sco et tos)et se trouve au-dessus d'elle. C'est comme si les bases G et C étaient nécessaires pour avoir un taux GC/AT convenable pour le plasmide. Ceci se traduit par la constante de l'équation de la droite égale à 4%00 de répétitions >4GC des plasmides.

Le diagramme %GC plasmide/ %GC hôte (galerie 3, diagramme 5) est le résultat de l'augmentation des répétitions >4AT et des répétitions >4GC. Étant donné que la courbe >4AT/%GC des bactéries est au-dessus de l'aléa et que celle de >4GC est nettement en dessous, l’augmentation des >4GC n'arrive pas à compenser l'augmentation des >4GC et le %GC des plasmides ne peut être qu'inférieur à celui de l'hôte. Cependant l'augmentation des >4GC, comme on l'a dit ci-dessus est nécessaire et le %GC des plasmides dépasse celui de l'hôte en dessous de 35% de GC de l'hôte.
Les plasmides subissent l'action des protéines de l'ADN de l'hôte et donc reproduisent le contenu en GC et les répétitions. Cependant certains plasmides s'écartent de leur hôte en terme de %GC ou en répétition.

Soit le contenu en GC permet des zones hétérogènes dans le chromosome et permet la sortie des plasmides différents les uns des autres, avec des bouts complémentaires pour l'appariement.
Soit les plasmides proviennent de l'extérieur par échange horizontal et ne sont pas encore entièrement formatés par les protéines de l'ADN de l'hôte.
Soit ces protéines sont mutées et produisent une variation du %GC et des répétitions suivant la taille du plasmide.

Les protéines − 3.4.3.4

4ème et 5ème diagrammes dans Galerie 4 Tableaux numériques Répétitions

Les diagrammes des protéines − 3.4.3.4.1

Calculs de >4AT, >4GC (en %00) et de %GC ramenés au total des bases cumulées des protéines compilées pour 7 bactéries: bmv, cft, eco, mhd, sti, tos, zin. Voir la liste des protéines par bactéries au chapitre matériel et méthodes. Ces calculs sont nécessaires pour additionner A et T, d'une part, et G et C d'autre part; reprendre le compte de G+C en multipliant %GC du tableau numérique par l'ADN de la protéine et diviser le tout par 100; et enfin recalculer %GC, >4AT et >4GC. Le tableau de gauche donne l'exemple des calculs faits pour la bactérie bmv à partir du tableau numérique de ses protéines.
Le tableau de droite, récapitulation des calculs pour les 7 bactéries, est celui des diagrammes des protéines en fonction du contenu de l'ADN des protéines en GC, %GC p. Le %GC de la bactérie, %GC b, sert de rappel.

        Extrait des tableaux numériques/protéines       calculs              |  Tableau des protéines pour les diagrammes
bmv   bactérie                                                               |                                                   Aléas (équation)
KEGG    ADN     %GC     >4T    >4A     >4C     >4G      GC     >4AT   >4GC   |  %GC b   KEGG    {{abréviation|ADN|acide désoxyribonucléique}}     %GC p     >4GC    >4AT    >4ATa   >4GCa
                                                                             |  
lars    2,595   66.59   0       0       0       0       1,728   0       0    |  13.54   zin     26,208  13.31     1.53  309.83    170.0    0.0
iars    2,838   66.84   0       0       0       0       1,897   0       0    |  33.21   cft     31,560  34.79     0.32  102.98     49.9    2.8
carB    3,255   66.57   0       0       0       1       2,167   0       1    |  50.79   eco     38,310  54.54     2.61   20.62      9.3   21.9
secA    2,796   65.52   1       0       0       0       1,832   1       0    |  68.10   sti     30,300  66.34     6.60    2.31      2.4   53.9
rpoC    4,239   64.07   1       0       0       0       2,716   1       0    |  68.08   mhd     33,186  67.89    35.86    5.12      1.9   59.7
rpoB    4,107   63.06   0       0       0       0       2,590   0       0    |  68.55   tos     31,896  68.26   100.01    7.52      1.8   61.2
dnaE1   4,361   67.55   3       1       1       0       2,946   4       1    |  68.15   bmv     42,809  68.55     2.10    1.87      1.7   62.3
ftsK    2,469   67.68   0       0       1       0       1,671   0       1    |                                                                  
mfd     3,474   69.40   0       0       1       0       2,411   0       1    |                                                                  
lhr     4,797   74.96   0       0       1       0       3,596   0       1    |                                                                  
recB    3,813   73.04   0       1       0       2       2,785   1       2    |                                                                  
recC    4,065   73.92   1       0       1       1       3,005   1       2    |                                                                  
                                                                             |                                                                  
totaux  42,809                                          29,344  8       9    |                                                                  
taux                                                    68.55   1.87    2.10 |                                                                  
unités                                                  %       %00     %00  |

Les diagrammes 4 et 5 des protéines, galerie 4, montrent clairement que les répétitions dans l'ADN ne sont que le reflet de la distribution des codons des protéines: les diagrammes ADN et protéines sont semblables. La conséquence de ce constat c'est que les 2 points de vue, ADN et protéines, sont équivalents. Si on regarde la forme des diagrammes du point de vue ADN, on dira que c'est lui qui détermine leurs formes, d'où ma théorie de la résonance de l'ADN. Si on regarde la forme des diagrammes du point de vue des protéines, on dira que ce sont elles qui déterminent leurs formes dans le cadre de la sélection naturelle. Nous détaillerons plus amplement cette question dans le chapitre "La résonance dans l'ADN".

Les répétitions dans les protéines − 3.4.3.4.2

Chez les 5 bactéries, eco bmv sti mhd tos, les répétitions des protéines ne dépassent pas une longueur de 8 comme pour 80% des génomes étudiés au chapitre autre-bactéries, malgré la petitesse des gènes. Sur leurs 63 protéines voici la fréquence des maxima atteints:

maximum  atteint        4       5       6       7       8       total
fréquence               4       16      19      16      8       63

La bactérie zin: Malgré la petitesse de leurs gènes, ses protéines affichent des longueurs de répétitions très élevées de 14 jusqu'à 17, presque toutes en A. Ces répétitions posent le problème du nombre maximum possible de conformations qu'une protéine peut adopter tout en gardant la même fonction enzymatique. Les répétitions de l'adénine A, jusqu'à 6 lysines côte à côte, posent aussi le problème des propriétés de cet acide aminé. Avec sa charge positive, il doit être très réactif et hydrophile, il peut s'exposer à l'extérieur de la protéine au contact de l'eau. Mais par ailleurs avec sa longue chaîne aliphatique, il peut rester à l'intérieur de la protéine avec une charge neutre et interagir avec le substrat.

Le tableau à gauche ci-dessous donne le nombre de protéines ayant une longueur maximale de répétitions. Le tableau de droite donne le maximum de la liste continue des répétitions, de 1 jusqu'à 13 répétitions par exemple, et la répétition extra en discontinuité avec la liste. Seule la protéine nuoL présente une liste continue de répétitions jusqu'à 13 de la base T, sa répétition extra étant en A.

longueur maximale       nombre de protéines                     gène    max     extra   aas
de répétitions          sur 10 étudiées                 
        12                      1                               iars    13 A    17 A    930
        13                      4                               rpoC    13 A    16 A    782
        14                      1                               gyrB    10 A    16 A    818
        15                      1                               nuoL    13 T    15 A    641
        16                      2                               lars    13 A    14 A    808
        17                      1

Les codons de la bactérie tos − 3.4.3.4.3

Programme perl des Compilations des codons. Résultats des compilations des codons

Le tableau de mise en forme des codons. Codons des bactéries à 68% GC: tos, mhd, sti, bmv (eco à 51% GC). >4GC et >4AT en "pour 10 000" bases des gènes; les codons en "pour 10 000" acides aminés sur un total de 10 à 14 protéines.
Tableau des rapports xxc/xxg pour les codons des aas à 4 ou 6 codons, L V S P T A R G (exemple: ggc/ggg). Ce tableau est construit à partir du tableau précédent de mise en forme des codons.Les rapports xxc/xxg décroissent systématiquement de tos à bmv, pour S P T A et croissent de même pour V R G. Ils restent constants pour L. Ce sont les doublets ou triplets qui paraissent jouer un rôle dans ces progressions.

aa    c/g       tos     mhd     sti     bmv
L     ct        1.0     1.0     0.6     1.0
V     gt        0.4     0.5     1.0     0.9
S     tc        8.9     2.1     1.5     0.5
P     cc        5.3     1.3     0.4     0.3
T     ac        3.9     1.9     1.3     0.4
A     gc        3.0     0.9     1.1     0.3
R     cg        0.7     1.6     1.5     3.5
G     gg        0.8     1.0     2.2    10.2

Le codon agg: ce codon est anormalement élevé pour la bactérie tos. Il est 10 fois plus élevé que les 4 autres bactéries. En plus il va dans le même sens que le codon ggg qu'on vient de voir. Les études des corrélations entre codons dans les gènes de protéines montrent que la fréquence de ce codon est très faible: article "corrélation entre les codons dans les gènes de protéines" en préparation. Il est à peu près, pour 80% des bactéries, de 1 pour mille codons.

Note sur les protéines − 3.4.3.4.4

Le changement général des codons majeurs et du codon agg dans la bactérie tos peut être expliqué

soit par l'évolution des tRNAs
soit par le processus d'épissage qui existe chez certaines bactéries: [7] groupe II intron 2013. [8] Mobile genetic elements 2015. [9] groupe I intron 2014. [10] ban groupe I intron. [11] ctet groupe II intron.
soit alors par la résonance de l'ADN qui s'adapte aux conditions extrêmes du milieu des thermophiles dont fait partie tos. Cette résonance est la résultante en fait de l'interaction du couple "ADN et ses protéines" avec l'environnement proche qu'on peut définir comme le cytoplasme et la membrane, eux-mêmes en interaction avec le milieu extérieur.

La réponse de l'ADN-protéines, par la résonance de l'ADN, peut être étendue à tout état de son environnement proche et non aux états extrêmes seulement.
Si maintenant on se place aux premières étapes de l'évolution moléculaire à l'origine de la vie (PEEMOV), avec des monomères d'ADN et des acides aminés tous les 2 libres mais regroupés par l'organisation du liposome due aux forces non covalentes, alors la résonance de l'ADN peut se manifester, même faiblement, et participer à une organisation de plus en plus poussée.

Les rRNAs − 3.4.3.5

1er et 2ème diagrammes dans Galerie 4 Tableaux numériques Répétitions

Voir le chapitre Analyse des résultats pour les méthodes d'analyses et les légendes.

Diagrammes des rRNAs − 3.4.3.5.1

Tableau pour les diagrammes

                                        Répétitions dans les rRNAs de 35 autre-bactéries        
                                                        
                                        Aléas équation                                                  Aléas équation  
KEGG    Long    %GC b   >4GC    >4AT    >4ATa  >4GCa            KEGG    Long    %GC b   >4GC    >4AT    >4ATa   >4GCa
zin     2,888   13.54   10.39   76.18   168.1   0.0             eco     2,904   50.79   27.55   13.77   13.5    15.6
crp     2,827   16.56   3.54    99.04   145.0   0.0             cgq     3,080   54.15   9.74    12.99   9.7     21.2
wbr     2,922   22.48   13.69   37.65   106.4   0.0             kpn     2,904   57.48   27.55   10.33   6.8     28.0
mcac    2,908   23.66   10.32   13.76   99.7    0.1             pgd     2,824   59.62   17.71   7.08    5.3     33.1
smv     2,879   24.00   3.47    45.15   97.8    0.2             bla     3,065   60.49   52.20   6.53    4.8     35.4
uur     2,903   25.50   13.78   6.89    89.8    0.5             mrb     2,893   63.38   17.28   3.46    3.4     43.9
ple     2,869   26.17   6.97    27.88   86.3    0.7             tai     2,972   63.79   23.55   3.36    3.2     45.2
fnc     2,906   27.12   20.65   6.88    81.6    0.9             roa     3,132   67.37   28.74   3.19    2.1     57.7
cbl     2,902   28.31   3.45    20.68   76.0    1.1             mhd     2,917   68.08   34.28   3.43    1.9     60.5
rpr     2,761   29.00   10.87   28.98   72.8    1.3             tra     2,950   68.14   16.95   0.00    1.8     60.7
cje     2,890   30.55   13.84   10.38   66.1    1.6             bmv     2,882   68.15   27.76   3.47    1.8     60.7
ser     2,922   32.15   13.69   6.84    59.6    2.0             tos     2,877   68.55   41.71   6.95    1.7     62.4
lla     2,901   35.33   10.34   6.89    48.1    3.0             tth     2,893   69.44   69.13   6.91    1.5     66.0
spi     2,903   38.32   13.78   3.44    38.8    4.2             sma     3,124   70.72   22.41   6.40    1.2     71.5
cta     2,869   41.30   17.43   13.94   30.9    5.9             sbh     2,525   70.75   15.84   3.96    1.2     71.7
bsu     2,928   43.51   10.25   3.42    25.9    7.6             sall    3,909   72.13   25.58   7.67    0.9     78.0
sbn     2,903   46.28   24.11   10.33   20.4    10.1            sgr     3,129   72.23   22.37   6.39    0.9     78.5
                                                                ade     2,985   74.91   10.05   6.70    0.4     91.9
                                                                                                                
%GC b, contenu en GC du génome                                                          Long, longueur du rRNA

Diagramme >4AT Galerie 4, 1er diagramme.

Bien que la courbe de tendance ait un coefficient de régression élevé, 21 points sur 35 forment une bande constante de 25 à 75 %GC, comprise entre 0.0 %00 (tra) et 7.7 %00 (sall) de >4AT, comme si il n'y avait pas progression avec le %GC. De 57 à 30 %GC 7 points amorcent une croissance entre 10 et 14 %00 de >4AT. En dessous de 30 %GC 7 points se décrochent brusquement pour passer de 20 %00 (cbl) à 100 %00 (crp).
L'équation est de la même forme que pour les 192 autre-bactéries, mais apparemment à partir de 30 % de GC il n'y a pas régression et la courbe jusqu'à 30 %GC, est en dessous de la courbe des aléas contrairement au diagramme des 192 autre-bactéries.
A partir de 30 %GC les rRNAs des bactéries ont un faible taux de répétition des bases A ou T. Ce qui les différencie du génome et des protéines.

Diagramme >4GC Galerie 4, 2ème diagramme

−. Là encore la courbe de tendance est plutôt de la forme de celle des 192 autre-bactéries avec une fonction puissance au coefficient de régression de 0.45 (0.73 pour les génomes) supérieur à celui du polynôme du 3ème degré qui fait seulement 0.38 (0.33 pour les génomes). Alors que le diagramme des >4AT est complètement en dessous de la courbe des aléas, contrairement aux génomes, le diagramme des >4GC a 2 parties bien distinctes:

Une partie qui va jusqu'à 50 %GC avec 18 points qui sont largement tous au-dessus de la courbe de l'aléa, contrairement aux génomes. Les 4 points à valeurs faibles s'expliquent par un %GC très faible, mais les 14 autres points ont des valeurs fortes, tous au-dessus de 10 %00 jusqu'à 28 %00 à 51 %GC (eco). Dans cette partie les génomes restent pour la majorité en dessous de la courbe des aléas et ne dépassent pas les 10 %00, même à 50 %GC. Et contrairement à la courbe des >4AT cette partie amorce une croissance franche avec une droite ( courbe de tendance pour l'ensemble des points) de pente 0.4 et un R2 de 0.34.
L'autre partie, au-delà de 50 %GC, ressemble énormément à celle des génomes avec un étagement des valeurs des plus faibles aux valeurs les plus fortes. Une partie des points se trouve en dessous de la courbe des aléas et l'autre au-dessus comme pour les génomes. Voici ci-dessous le tableau de correspondance entre les taux en >4GC des génomes et de leur rRNA 23S.

Autre-bactéries         Taux >4GC (en %00 pbs) dans les rRNA 23S de 60 à 75 %GC du génome  
                                                                        
%GCb    KEGG    rRNA    DNA             %GCb    KEGG    rRNA    DNA             %GCb    KEGG    rRNA    DNA
54.15   cgq     9.74    7.81            57.48   kpn     27.55   9.41            60.49   bla     52.20   7.94
59.62   pgd     17.71   14.95           63.79   tai     23.55   82.29           68.08   mhd     34.28   51.08
63.38   mrb     17.28   48.09           67.37   roa     28.74   14.36           68.55   tos     41.71   116.27
68.14   tra     16.95   47.06           68.15   bmv     27.76   5.25            69.44   tth     69.13   95.48
70.75   sbh     15.84   25.40           70.72   sma     22.41   23.65                                   
74.91   ade     10.05   16.35           72.13   sall    25.58   27.12                                   
                                        72.23   sgr     22.37   30.32

cgq appartient au groupe 7 des taux de >4GC défini dans les génomes voir chapitre 3.4.3.1.3, il est loin de la tranche 60-75 %GC où se produit l'étagement et reste dans le groupe 7. kpn proche de 60 %GC subit une transformation avec le rRNA et saute le groupe 14 pour passer au groupe 25. Certains se maintiennent dans leur groupe (pgd, ade, sma, sall, sgr) ou tout en restant dans leur groupe s'affaiblissent (mhd, tos, tth). bla passe du groupe 7 au groupe 68 directement, bmv lui, passe de 7 à 25. tai descend de 68 à 25, mrb et tra de 68 à 14. Aucun rRNA ne descend au groupe 2 ou 7. Ce qui souligne l'importance de la force de l'appariement de la paire GC pour les rRNAs.

−. Le comportement des rRNAs analogue à celui des génomes dans le diagramme >4GC montre que les codons des acides aminés ne peuvent pas, à eux seuls, être responsables de ce comportement. Aussi la théorie de la résonance de l'ADN, que j'ai signalée dans la note sur les protéines précédemment, semble plus adéquate et peut être généralisée aux protéines et aux rRNAs.

Diagrammes en >3AT et >3GC ont été construits en ajoutant les répétitions 4 aux diagrammes >4AT et >4GC (Galerie 4 diagrammes 5 et 6). Voir le tableau des diagrammes >3AT et >3GC. Ces diagrammes reproduisent les résultats des diagrammes >4AT et >4GC. Cependant les valeurs faibles de >4AT disparaissent et le coefficient de régression des >3GC passe à 0.71 au lieu de 0.45 pour les >4GC. La courbe des aléas intègre aussi les 4AT et 4GC et a été faite avec des DNA fictifs de 300 000 pbs.
La comparaison des 2 diagrammes des rRNAs, >4AT et >4GC, nous enseigne sur 3 points très importants concernant le comportement des protéines (80% du génome bactérien) et des rRNAs:

−.Les rRNAs comme les protéines peuvent subir fortement la contrainte des processus qui modifient le contenu en GC et donc la distribution des répétitions.

        génome          protéine        rRNA    
%00     >4AT    >4GC  | >4AT    >4GC  | >4AT    >4GC
crp     283     0.3   |   −       −   |  99     3.6
zin     295     0.8   | 310     1.5   |  76     10.4
tth     4.4      95   |   −       −   | 6.9     69
tos     6.9     116   | 7.5     100   | 7.0     42
bmv     5.6     5.2   | 1.9     2.1   | 3.5     28

−. Malgré cette forte contrainte les rRNAs, ayant une gamme de fonctions très restreinte par rapport à celle des protéines, ont un taux de répétitions >4AT qui varie très peu entre 30 et 70 %GC pour la majorité des cas.

−. Le taux de répétition, dans les rRNAs, des >4GC ( de 10 à 30 %00) est 2 fois plus élevé que celui des >4AT (de 0 à 8 %00) entre 25 et 75 %GC. Ceci dénote de l'importance de la force de l'appariement GC par rapport à celle de AT, force nécessaire à la pérennité et à la fonction des rRNAs. Cet appariement, d'après les diagrammes 1 et 2 est d'autant plus fort qu'il y a des répétitions de plus en plus longues de G ou C.

Le contenu en GC des rRNAs. Galerie 4, 3ème diagramme.

Cette force de l'appariement en GC, nécessaire au fonctionnement des rRNAs et en dehors de la répétition des bases G ou C, se voit clairement dans le diagramme du %GC des rRNAs en fonction du %GC des génomes. Le %GC des rRNAs augmente faiblement avec le %GC des génomes, pente de 0.30. Mais le %GC des génomes peut descendre presque à 10%, alors que celui des rRNAs ne descend pas en dessous de 40%. Le maximum du %GC des rRNAs, 60%, reste plus proche cependant de celui des génomes, 75%. La constance du %GC chez les rRNAs, 40-60 %GC, atteste de cette force plus que les répétitions de G ou C.
J'ai adjoint pour comparaison le %GC des tRNAs de 3 bactéries, crp, cbl, ade. Les tRNAs se comporteraient de la même façon que les rRNAs.

Répétitions des rRNAs − 3.4.3.5.2

Distribution des répétitions des rRNAs Répétitions

−. Comme pour les protéines, 32 des 35 rRNAs étudiés ont des répétitions dont le maximum ne dépasse pas 8. Voici la fréquence des maxima atteints:

maximum  atteint        5       6       7       8       9     10     total
fréquence               5       22      3       2       2     1      35

Deux constatations importantes par rapport aux protéines étudiées au chapitre précédent, rRNAs et protéines ayant tous des longueurs en paires de bases, équivalentes autour de 3000.

Le maximum de 6 atteint chez les rRNAs dépasse 60% en fréquence, alors que les 73 protéines autres que celles de zin, ce maximum ne fait que 30% en fréquence. Ceci dénote encore la fonctionnalité restreinte des rRNAs.
Seulement 5 rRNAs ont des répétitions extra, c'est à dire en rupture avec la liste des maxima. Soit respectivement extra, base extra et fin de liste: bla (8, C, 6), smv (9, A, 7), crp (10, T, 6), mcac (8, A, 6), zin (9, A, 7). smv et crp ont respectivement 24 %GC et 17 %GC. crp est l'équivalent de zin (14 %GC) pour les protéines. Pourtant crp n'a qu'une seule répétition de 10 alors que zin sur 10 protéines une seule a un extra de 16 avec fin de liste de 10, toutes les autres ont des extras avec des fins de listes supérieures à 10. Ce qui confirme la fonction spécifique des rRNAs dans toutes les bactéries.

Les tRNAs par acide aminé − 3.4.3.6

Tableau numérique.

Sont reportés ici les aas à un seul tRNA pour ceux qui sont codés par 4 ou 6 codons, soit 8 aas: colonne tRNA/8. La colonne tRNA affiche le nombre total de tRNA par bactérie. D'après gtRNAdb [12].
41 bactéries sur les 192 autre-bactéries ont 1 à 5 aas avec un seul tRNA pour traduire 4 ou 6 codons. Et cela ne fait intervenir ni le contenu en GC (%GC), ni le nombre de protéines codées par le génome, ni le nombre de tRNAs par génome. Cela ne se comprend que s'il y a perte d'une ou plusieurs protéines de la chaîne de fabrication du tRNA perdu. Contrairement à l'hypothèse du codon avantagé par le processus du "codon bias", ici c'est le tRNA qui est sélectionné pour pouvoir traduire les 4 ou 6 codons à la fois. Tous les codons doivent être traduits impérativement. C'est une contrainte majeure. Ainsi:

zin [13] (14%GC, 206 protéines, 25 tRNAs ) a 5 aas ayant 1 seul tRNA. Alors que men [14] (43%GC, 406 protéines, 41 tRNAs ) n'en a aucun. Tous les 2 sont des symbiotes.

ror [15] (55.9%GC, 4409 protéines, 79 tRNAs ) a un seul aa, Pro, avec 1 seul tRNA. Et cdf [16] (29%GC, 3767 protéines, 88 tRNAs ) a 4 aas ayant 1 seul tRNA. Tous les 2 sont hétérotrophes, ror aérobie et cdf anaérobie.

spi [17] (38%GC, 1979 protéines, 63 tRNAs ) a 3 aas ayant 1 seul tRNA. Et ral [18] (44%GC, 3872 protéines, 75 tRNAs ) a 2 aas ayant 1 seul tRNA.
Un seul cas, zin où Leu, à 6 codons, n'a qu'un seul tRNA. Et un seul cas pour la Gly, mcac [19] (24%GC, 670 protéines, 30 tRNAs ). Les aas les plus touchés sont, dans l'ordre décroissant, PAVT.

aa              L       S       R       A       G       P       T       V       total
cas             1       0       0       24      1       34      9       21      90
                                                                                
tRNA/8          0       1       2       3       4       5       6       7       
bactéries       151     19      6       7       7       2       0       0       192

Les cyanobactéries − 3.4.4

3ème et 4ème diagrammes dans Galerie 1 Tableaux numériques Répétitions

Les diagrammes des cyanos − 3.4.4.1

Voir le Tableau des diagrammes des cyanobactéries et le Tableau des diagrammes des autres bactéries

Diagrammes des répétitions − 3.4.4.1.1

Pour savoir plus sur la méthode d'analyse se référer aux chapitres 3.4.1 et 2 et sur le détail des diagrammes 3.4.3.1. Si le diagramme des >4AT est semblable à celui des autre-bactéries, celui de >4GC change complètement et subira une analyse plus approfondie.

Diagramme >4AT

Galerie 1, 3ème diagramme.

−. Comme pour les bactéries tous les points sont au-dessus de l'aléa. Le coefficient de régression est quasi identique, R2 = 0.93, et la courbe de tendance, un polynôme du 3ème degré. Il n'y a aucune valeur relative négative par rapport à l'aléa.

Diagramme >4GC

Galerie 1, 4ème diagramme.

−. La courbe de tendance des cyanobactéries diffère de celle des autre-bactéries. Alors qu'avec les autre-bactéries elle a pour équation plutôt une "fonction puissance" avec un R2 de 0.73 au lieu d'un polynôme du 3ème degré avec un R2 de 0.33 (voir 3.4.3), celle des cyanobactéries diffère peu de l'équation de l'aléa avec un polynôme du 3ème degré avec un R2 de 0.58, sa "fonction puissance" donnant un R2 de 0.61.

Les diagrammes des écarts des répétitions, relatifs à l'aléa− 3.4.4.1.2

Galerie 9, diagrammes 3 et 4. Tableau des 2 diagrammes des écarts. Les Groupes 22c, 67c1, 67c2 des écarts relatifs à l'aléa des cyanobactéries.
Voir le chapitre 3.4.3.1.2 pour les groupes définis par les écarts relatifs chez les autre-bactéries, ainsi que les diagrammes 1 et 2 de la galerie 9 , et le Tableau des 2 diagrammes des écarts des autre-bactéries pour les comparaisons.
Nous avions défini 5 groupes pour les écarts relatifs chez les autre-bactéries qui sont: Groupe 22, [/Annexe/Tableaux#Groupes_22_et_23_des_.22autres.22_bact.C3.A9ries_aux_faibles_taux_.3E4GC|Groupe 23]], Groupe 33, Groupe 41 et Groupe 67.
Nous allons travailler sur les mêmes étendues du contenu en GC (%GC) pour définir des groupes semblables à ceux des autre-bactéries. Les groupes des cyanobactéries seront suffixés par c (pour cyanobactérie) ou c1, c2, si le groupe vient à être divisé en sous-groupes.

Le groupe 22c, jusqu'à 43 %GC et au-dessus de l'aléa, contient 26 cyanobactéries: ana, anb1, awa, calo, can, ceo, cep, csg, cyh, cytc, cyu, dsl, fis, gen, hao, mar, naz, non, pma, pmb, pmg, pmh, pmm, riv, synp, ter.
Le groupe 23c,en dessous de l'aléa, ne contient qu'une seule cyanobactérie, scs.
Le groupe 67, de 43 à 60 %GC, sous l'aléa, se subdivise en
- groupe 67c1 au-dessus de l'aléa avec 9 cyanobactéries: oni, cthe, mic, amr, tel, syp, oac, syq, syn.
- groupe 67c2 en dessous de l'aléa avec 10 cyanobactéries: syf, len, syc, glp, synd, pmt, lep, gei, plp, ccmp.
Le groupe 41c, en dessous de l'aléa, contient 2 cyanobactéries: gvi, cgc et cya.

Le groupe 22c des cyanobactéries s'étend de 31 à 43 %GC, alors que le groupe 22 équivalent des autre-batéries commence dès 15 %GC en tenant compte des 6 bactéries à faible contenu en GC qui ont un écart relatif très élevé. De 15 à 31 %GC le groupe 22 contient les écarts les plus élevés au nombre de 12 sur 18, alors que les 10 bactéries restantes de 31 à 43 %GC ne contiennent que 2 écarts élevés, 98 (amt) et 164 (tme). Le groupe 22c, lui, se comporte comme la 1ère partie du groupe 22, avec 12 écarts élevés sur 26. Par ailleurs le groupe 23 s'étend presque comme le groupe 22c, entre 29 et 43 %GC. Comme le groupe 23c a presque disparu, on a l'impression que le 23 s'est transformé en 22c. Mais on peut voir aussi cette différence entre cyano et autre-bactéries comme un glissement des groupes 22 et 23 vers des contenus en GC plus élevés, ce qui donne alors 22c et 67c2 respectivement. 67c1 et 67c2 deviennent alors symétriques par rapport à l'aléa comme le sont 22 et 23.
Les 2 groupes 67c1 et 67c2 sont effectivement symétriques par rapport à l'aléa et se comportent aussi comme eux pour la simultanéité des changements des taux >4AT et >4GC (voir le résumé des groupes des autre-batéries au chapitre 3.4.3.1.2). Le tableau qui suit résume les changements dans les 3 groupes majeurs des cyanobactéries.

        Groupe 67c1     n=9                                     Groupe 67c2     n=10            
        %GC     >4GC    >4AT    DNA                             %GC     >4GC    >4AT    DNA
moyen.  48      22      44      5,355,988               moyen.  50      10      30      4,312,933
ecartt  3       10      10      2,126,339               ecartt  6       6       15      1,563,339
%       6       45      23      40                      %       12      56      48      36
                                                                                
        Groupe 22c      n=26                                    Groupe41c       n=3                     
        %GC     >4GC    >4AT    DNA                             %GC     >4GC    >4AT    DNA            
moyen.  37      8       75      4,529,192               moyen.  64      35      14      3,644,716                               
ecartt  4       5       25      2,083,497               ecartt  4       11      10      901,970                         
%       11      59      33      46                      %       7       30      74      25

Nous voyons bien que le taux >4GC double de 67c2 à 67c1 et le taux >4AT augmente de 50%. A comparer au tableau des autre-bactéries

Les répétitions des cyanos − 3.4.4.2

Sur les 49 cyanos il n'y a pas eu de répétitions dépassant 20.
Il n'y a de génomes courts comme pour les autres bactéries. Le plus petit est cyu avec 1.4 Mpbs, suivi de 5 génomes appartenant au genre Prochlorococcus (pma b g h m) avec des génomes très regroupés environ 1.7 Mpbs. 5 de ces génomes ont un %GC de 31 et 1 de 36.
Les groupes:

−. 42 génomes ont une taille qui progresse de façon homogène de 2.4 à 7.7 Mpbs. 1 seul génome se rapproche des 10 Mpbs comme les plus gros des autres bactéries, riv avec 8.7 Mpbs. Le contenu en GC de ces 43 cyanos est compris entre 33 et 69 %GC.

−. Les critères de groupages sont identiques à ceux définis pour les 90% des autres bactéries. Voir le chapitre 3.4.3.2.2. Un des critères est basé sur les répétitions maximales dont voici les fréquences:

Répétition maximale:    9       10      11      12      13      14      15      16      17      total
Nombre de bactéries:    3       17      9       3       7       4       2       3       1       49

32 cyanobactéries à répétition <= 11

amr     dsl     pma             Moyenne 11      0.9             Moyenne 14-20   1.8
ana     fis     riv             Bactéries       total           Bactéries       total
anb1    gei     scs             32              30              4               7
awa     glp     syc                                                             
calo    gvi     syf                     Maxima                                  
ceo     hao     syn             Bactérie        max                             
cmp     lep     synd            cthe            15  C                           
cthe    len     syp             cya             14  G                           
cya     non     syq             oni             14  T                           
cyh     oac     tel             synd            16  CG                          
cyu     oni

17 cyanobactéries à répétition => 11

can     pmh             Moyenne 11-13   5.7          Moyenne 14-20      1.7
cep     pmm             Bactéries       total        Bactéries         total
cgc     pmt             17              97           6                 9
csg     pmb                     Maxima  
cytc    synp            Bactérie        max
gen     ter             cgc             15  G
mar                     mar             14  G
mic                     pmg             15  A
naz                     pmm             16  G
plp                     pmt             17  G
pmg                     pmb             16  A

Échantillons de répétitions

32 cyanobactéries à répétition <= 11 cyu tel synd

cyu     %GC     %Gc al   −−−− aléa −−−−         tel     %GC     %Gc al   −−−− aléa −−−−         synd    %GC     %Gc al   −−−− aléa −−−−         
        31.12   31.08   32/103  1443806                 53.92   53.94   54/100  2593857                 59.09   58.98   59/100  2572069
n       at      gc      at      gc              n       at      gc      at      gc              n       at      gc      at      gc
1       381240  302778  427299  319527          1       616880  684484  707975  746467          1       619075  761558  666928  754195
2       147339  57664   146675  49936           2       171740  208971  163001  201732          2       150180  254700  136269  222116
3       51788   7759    50876   7759            3       47582   57219   37721   54242           3       29132   55407   28296   65966
4       20983   1604    17459   1204            4       14153   18949   8551    14537           4       7135    14330   5701    19247
5       8855    262     6142    189             5       5112    6745    1939    3827            5       2178    3717    1206    5631
6       3755    25      2140    33              6       1322    1820    439     1058            6       701     861     244     1700
7       1232    1       756     7               7       239     460     91      292             7       207     164     38      509
8       398     0       244     0               8       48      90      28      72              8       40      26      9       148
9       77      0       85      0               9       4       10      5       30              9       11      3       1       57
10      2       0       26      0               10      0       0       3       7               10      2       1       0       7
11      0       0       14      0               11      0       0       0       0               11      0       1       0       2
12      0       0       3       0               12      0       0       0       0               12      0       0       0       2
13      0       0       0       0               13      0       0       0       0               13      0       0       0       2
14      0       0       0       0               14      0       0       0       0               14      0       2       0       0
15      0       0       0       0               15      0       0       0       0               15      0       0       0       0
16      0       0       0       0               16      0       0       0       0               16      0       2       0       0

17 cyanobactéries à répétition => 11 pmm mar cgc

pmm     %GC     %Gc al  −−−− aléa −−−−          mar     %GC     %Gc al  −−−− aléa −−−−          cgc     %GC     %Gc al  −−−− aléa −−−−  
        30.80   30.67   31/101  1657990                 42.33   42.44   42/99   5842795                 68.71   68.63   70/102  2296444
n       at      gc      at      gc              n       at      gc      at      gc              n       at      gc      at      gc
1       405703  327423  491229  364256          1       1407318 1352467 1706556 1538278         1       762278  939576  512180  680646
2       167880  68983   169888  55881           2       488424  336613  491260  326815          2       114880  424491  80060   233430
3       65500   11128   59117   8565            3       164811  90404   141474  69125           3       13670   101866  12684   80110
4       25298   2249    20538   1355            4       66767   28703   40214   14743           4       2302    30614   2056    27463
5       11619   431     7007    217             5       28249   7921    11782   3168            5       487     11139   304     9438
6       4785    91      2416    31              6       9546    2938    3312    680             6       133     3075    40      3162
7       1833    15      842     6               7       2739    408     988     142             7       42      600     7       1060
8       761     7       271     0               8       646     131     285     28              8       16      136     0       400
9       226     0       98      0               9       98      30      76      6               9       1       22      1       100
10      34      0       40      0               10      8       11      24      0               10      0       9       0       37
11      7       0       7       0               11      0       4       5       0               11      0       4       0       19
12      0       0       7       0               12      1       0       1       1               12      0       2       0       4
13      1       0       0       0               13      0       0       1       0               13      0       0       0       3
14      0       0       0       0               14      0       1       0       0               14      0       2       0       1
15      0       0       0       0               15      0       0       0       0               15      0       1       0       0
16      0       1       0       0               16      0       0       0       0               16      0       0       0       0

Les protéines des cyanos − 3.4.4.3

1er et 2ème diagrammes dans Galerie 5 Tableaux numériques Répétitions

Les diagrammes − 3.4.4.3.1

voir chapitre 3.4.3.4.1 pour la conception du tableau des protéines pour les diagrammes.

Tableau des protéines pour les diagrammes                                                       
                                                Aléas équation  
%GC b   KEGG     ADN    %GC p   >4AT    >4GC    >4ATa   >4GCa
                                                        
34.96   can     36,384  37.38   76.1     9.1    41.6     3.8
68.71   cgc     34,755  69.82    0.3    42.3     1.4    67.6
60.24   cya     30,792  61.34   17.2    31.2     4.4    37.8
42.33   mar     30,963  45.26   52.3    18.1    22.3     9.1
30.80   pmm     31,614  31.70   86.7     2.5    61.4     1.9
47.72   syn     31,305  48.65   47.6    27.5    16.5    12.8
53.92   tel     30,993  55.10   25.2    36.5     8.7    23.0

Comme les protéines constituent plus de 80% du génomes des bactéries, les diagrammes des protéines reproduisent les diagrammes des génomes des cyanobactéries. Les cyanobactéries sont choisies d'après le diagramme >4GC des cyanobactéries. Une cyanobactérie pmm à %GC faible de 30% et positionnée sur la courbe de l'aléa, 4 cyanobactéries can mar syn tel de %GC entre 30 et 60% se positionnant nettement au-dessus de la courbe de l'aléa et enfin 2 cyanobactéries cya cgc semblables à la bactérie mhd avec un >4GC autour de 40 %00, un %GC supérieur à 55% et se positionnant sur ou en dessous de la courbe de l'aléa. Ce choix a été fait dans le but d'étudier la distribution des codons de leurs protéines comme pour les autre-bactéries.

Comparaison entre protéines, cyanobactéries / autre-bactéries − 3.4.4.3.2

Pour les codons de Ser, Pro, Thr, Ala, Trp, Arg et Gly contenant les doublets cc et gg.
Programme perl pour les Compilations des codons codons
voir les tableaux numériques pour la conception du tableau de comparaison.

Tableau des rapports c/g

                Autre-bactéries                                         Cyanobactéries                                          
Bacterie        tos     mhd     sti     bmv     eco     cft             cgc     cya     tel     syn     mar     can     pmm
                                                                                                                        
#GC %           86      -16     -72     -91     -65     -49             -29     7       70      173     194     322     96
%GC b           68.6    68.1    68.1    68.1    50.8    33.2            68.7    60.2    53.9    47.7    42.3    35.0    30.8
>4GC            100.0   35.9    6.6     2.1     2.6     0.3             42.3    31.2    36.5    27.5    18.1    9.1     2.5
>4AT            7.5     5.1     2.3     1.9     20.6    103.0           0.3     17.2    25.2    47.6    52.3    76.1    86.7
                                                                                                                        
Pro             612     578     561     512     486     307             581     557     513     470     458     417     363
c/g             5.3     1.3     0.4     0.3     0.2     0.1             1.4     1.3     3.2     2.8     2.3     3.6     1.6
                                                                                                                        
Gly             781     785     752     764     621     599             810     703     678     688     672     613     597
g/c             1.3     1.0     0.5     0.1     0.4     0.3             0.3     0.6     0.7     0.8     0.9     1.4     0.9
                                                                                                                        
Thr             393     436     542     440     481     430             494     488     540     555     532     551     466
c/g             3.9     1.9     1.3     0.4     1.9     0.9             4.2     3.1     2.4     3.2     3.1     3.4     2.2
                                                                                                                        
Ala             975     1059    977     1344    931     647             1210    904     891     742     723     638     482
c/g             3.0     0.9     1.1     0.3     0.6     1.4             3.6     3.3     2.9     2.3     2.2     1.3     1.0
                                                                                                                        
Ser             321     363     430     427     542     646             448     474     461     497     551     588     702
tcc/gc*         1.5     0.5     0.3     0.1     0.4     0.1             0.6     0.7     0.7     1.7     0.9     0.8     0.9
                                                                                                                        
Arg             863     871     847     856     751     426             776     705     663     563     569     493     464
gg*/cgc         1.4     0.6     0.7     0.3     0.3     1.2             0.8     0.7     0.6     1.4     0.7     1.0     47.5
                                                                                                                        
0.8-1.2~1       0       2       1       0       0       2               1       0       0       1       2       2       3
                                                                                                                        
−. Pro: somme de tous les codons de Pro        −. c/g ou g/c: xcc/xcg ou xgg/xcg           −.gg*: cgg+agg−. gc*: tcg+agc

−. %GC b: %GC bactérie           −. #GC % : >4GC − >4GCa, génome − aléa          −. 0.8-1.2~1: nombre de rapports proches de 1

Notes −. Pro: somme de tous les codons de Pro. −. c/g ou g/c: xcc/xcg ou xgg/xgc. −. gc*: tcg+agc. −.gg*: cgg+agg. %GC b: %GC bactérie.

Ce sont les triplets ccc et ggg qui sont à l'origine des répétitions >4GC. Les codons ayant un doublet cc ou gg participent aussi à ces répétitions. Ainsi ce sont les colonnes 2 et 4 du code génétique qui sont étudiées pour les rapports: tcc/(tcg+agc) ccc/ccg acc/acg gcc/gcg (cgg+agg)/cgc ggg/ggc. #GC % représente la différence de >4GC du génome avec l'aléa ramenée en % de l'aléa. La ligne "0.8-1.2~1" affiche le nombre de rapports, parmi les 6 du tableau, qui sont proches de l'unité.

Tableau des effectifs (%00 acides aminés) des codons

Légende: Comparaison entre des codons de protéines de cyanobactéries et d'autre-bactéries à fortes répétitions de bases G ou C. Je considère ici la somme de plus de 4 répétitions de G et C (>4GC). De même est représenté >4AT pour les bases A et T. Le %GC b, représente le contenu en GC du génome. #GC % représente la différence de >4GC du génome avec l'aléa ramenée en % de l'aléa. ccx et ggx représentent respectivement la somme des codons Pro sauf ccc et la somme des codons Gly sauf ggg.

Méthode de comparaison:

−. Les groupes

J'ai regroupé les bactéries en 4 groupes pour tenir compte du contenu en GC et du taux de répétition des bases GC. Chaque groupe contient des cyanobactéries et d'autre-bactéries. Les sous-groupes de cyanobactéries sont suffixés par a. Je n'ai pas mis la bactérie zin qui a un contenu en GC très faible qui rend les rapports c/g peu significatifs et les effectifs non comparables.

Le groupe I, en jaune. Les cyanobactéries Ia ont un taux de répétition élevé, comme la bactérie tos (groupe I), qui les positionne au-dessus de l'aléa avec un contenu en GC élevé (plus de 42 %GC) ou très élevé ( tos avec 69 %GC).
Le groupe II, en orange. Contenu en GC très élevé, autour de 68%, un taux de répétition des GC moyen qui les positionne proche de l'aléa, soit en dessous (mhd, cgc) soit presque sur lui (cya).
Le groupe III, en gris. Il n'y en a pas pour les cyanobactéries. C'est la 1ère étude qui a révélé la bactérie tos par comparaison. Ses 2 bactéries se distinguent par un contenu en GC très élevé (68 %GC) mais avec un taux de répétition des GC très bas, et même parmi les plus bas (bmv) avec ce contenu en GC. Ce groupe représente en fait la majorité des bactéries des diagrammes autre-bactéries en ce qui concerne le taux de répétition.
Le groupe IV: La bactérie eco, positionnée en dessous de l'aléa, sert de référence pour l'ensemble de l'étude mais spécialement pour les cyanobactéries Ia, parce que ces dernières ont un contenu en GC moyen de 48% ± 6% équivalent au sien, 51 %GC. C'est pour ça que je l'ai mise en jaune.
Le groupe V, en cyan. Son contenu en GC est très bas, 31 %GC pour pmm. La bactérie cft a un taux de répétition bas qui la positionne sous l'aléa, mais très courant pour les autre-bactéries avec un tel contenu en GC ( groupes 22 et 23). Le groupe Va de cyanobactéries se caractérise par son taux de répétition élevé en GC en tenant compte de son contenu en GC, ce qui positionne can nettement au-dessus de l'aléa et pmm à peine au-dessus.

−. Les 2 tableaux

Le tableau des rapports c/g: c et g sont les 3èmes bases des codons qui varient avec le contenu en GC, alors que les 3èmes bases a et t varient inversement avec le contenu en GC. J'ai inversé ce rapport c/g de la 2ème colonne, en g/c pour la 4ème colonne. Ceci pour mettre en valeur les impacts de g et de c sur le taux de répétition, impacts qui peuvent être concomitants ou séparés. Deux codons, agc (Ser) et agg (Arg), se trouvent en compétition avec 2 autres codons chacun parce qu'ils appartiennent au même acide aminé. Leur comportement s'est révélé intéressant avec les taux de répétitions. Ils sont inclus dans ces rapports car ils influent respectivement sur tcg et cgg. Par ailleurs j'ai ajouté une ligne pour le total de l'acide aminé correspondant au rapport étudié pour montrer que ce total varie très peu avec les procaryotes étudiés, d'une part, et que pour un même contenu en GC la variation du rapport c/g ou g/c est propre au procaryote considéré. La variation du contenu en GC (%GC) devrait impacter également 2 codons variant dans le même sens que lui comme par exemple ccc et ccg. Par contre il existe en général 2 tRNAs différents pour ces 2 types de codons, alors qu'en général un tRNA ne distingue pas entre 2 codons se différenciant uniquement par la 3ème base si ce sont 2 purines (a,g) ou 2 pyrimidines (c,t). Aussi un rapport proche de de l'unité est aussi significatif qu'un rapport très différent de l'unité. La ligne "0.8-1.2~1" affiche le nombre de rapports, parmi les 6 du tableau, qui sont proches de l'unité.
Le tableau des effectifs des codons: ce tableau permet d'alléger le tableau des codons et ne considère que les codons qui sont impactés dans les taux élevés de répétitions. Ce qui fait que les procaryotes à taux faibles de répétition auront des effectifs faibles de ces codons. J'ai encadré les effectifs remarquables. Ce sont les triplets ccc et ggg qui sont à l'origine des répétitions >4GC. Les codons ayant un doublet cc ou gg participent aussi à ces répétitions. Ainsi ce sont les colonnes 2 et 4 du code génétique qui sont étudiées ici aussi. ccax est la somme de cca+cct+ccg, de même pour ggx est égale à la somme gga+ggt+ggc.

Analyse

3 résultats importants à l'analyse de ces 2 tableaux.

La répétition des >4GC impacte tous les rapports. Sur 78 rapports il n'y a que 11 qui se rapprochent franchement de l'unité soit 14% à peine et le critère du rapprochement à l'unité est tout à fait fictif puisque 2 rapports dépassent légèrement ces 2 frontières. Et même si on prend une bactérie de référence, eco par exemple, le résultat reste le même, tous les rapports varient par rapport à elle.
- Le constat c'est que l'hypothèse selon laquelle ce sont les tRNAs qui évoluent pour traduire efficacement certains codons, et que c'est ainsi que leur nombre varie, ne tient pas la route étant donné que presque leur totalité doit évoluer et que cette évolution pour chaque codon doit faire intervenir de nombreuses mutations et la sélection de nombreux grands enzymes nécessaires aux modifications des tRNAs actifs. Alors même que les organismes n'utilisant pas certains codons ( hors les codons stops) se limitent à des états limites extrême de non-autonomie. On peut dire que c'est à cause de la sélection que c'est ainsi, mais il est évident qu'une fois les chaînes des modifications des tRNAs mises en place, au début de l'évolution moléculaire à l'origine de la vie, elles ont été perpétrées justement par sélection, sans pour autant qu'elles soient plus ou moins efficaces après.
L'impact de la répétition qui varie avec le contenu en GC: Prenons l'exemple de pmm plus can, et tos. Leurs taux de répétition des >4GC (#GC %) sont très élevés, mais parce qu'il y a moins de G et C l'impact est presque identique entre tos et can pour Pro et Gly, mais inférieur pour pmm. Le résultat est encore plus net avec une variation moindre du contenu en GC (68.6% pour tos et autour de 48% pour tel, syn et mar). L'impact du %GC agit sur tous les codons de façon modérée mais nette.
- Le constat est que c'est le processus de variation du contenu en GC qui est responsable de ces répétitions et donc de la fréquence de tous les codons. Ce processus de variation du %GC a été démontré, de nombreuses fois, être le fait de l'interaction entre l'ADN et ses protéines ( réplicases, transcriptases, enzymes de protection et de réparation) en réponses aux contraintes du milieu (refs^[2]).
Il y a cependant des codons qui n'obéissent pas à la variation du %GC:
- C'est le cas de agg qu'on voit sur le tableaux des effectifs, plus que dans celui des rapports, être élevé quand le %GC est élevé (tos) ou très bas (can, pmm, cft), être intermédiaire pour des %GC élevés (cgc, cya) ou moyens (syn, mar), être au bas niveau pour des %GC élevés (sti,bmv, mhd) ou moyens (eco, tel) mais pas, en tous cas sur ces tableaux, pour des %GC bas.
  - 2 tableaux (effectifs et rapports) sont dans les tableaux numériques, avec 15 nouvelles autre-bactéries étudiées pour le comportement de agg. Ces tableaux confortent les résultats précédents. Dans le tableau des effectifs le codon agg est très élevé aux faibles %GC (31-41) et aux forts %GC (54-65). Il se comporte comme devrait se comporter cga (même acide aminé, arg) variant dans le sens contraire de %GC et comme cgg dans le même sens. Les études des corrélations entre codons vont montrer que cga, mais aussi ttg, ggg et d'autres ont des corrélations très faibles avec %GC. Ceci nous ramène à l'idée qu'il y a un autre processus qui intervient dans la répétition des bases G et C, et certainement dans celles de A et T aussi. Pour moi ce processus est la résonance de l'ADN, hypothèse que je développerai succinctement au chapitre "résonance de l'ADN" ainsi que dans l'article sur les corrélations entre codons dans les protéines. Après ces 2 articles, j’intégrerai cette hypothèse dans le concept global de l'évolution moléculaire à l'origine de la vie.
  - Liens aux nouvelles autre-bactéries: aae, amo, dal, hmr, hth, lfc, mrb, msv, nse, pmh, tai, tli, tma, tme, tsc.
  - Ces 2 tableaux confortent les 2 constatations précédentes faites sur les 2 tableaux de comparaison autre-bactéries/cyanobactéries:
    1. Les rapports sont majoritairement différents de l'unité. Sur 90 rapports 26 sont compris entre 0.8-1.2 et 19 entre 09.-1.1. C'est cependant 28% du total, soit le double du tableau des rapports autre-bactéries/cyanobactéries.
    2. Les répétitions >4GC ( ccc et ggg) croissent avec le %GC. Dans la tranche 31-37 %GC tme, pmh et hmr se comportent comme can et pmm. Dans la tranche 43-50 %GC aae, hth, amo, tli et lfc se comportent comme mar, syn et tel. Dans la tranche 62-65 %GC msv, mrb, tai et tsc se comportent comme tos. 3 autre-bactéries sous l'aléa choisies pour leur agg ont des valeurs élevés de >4GC (ccc et ggg). Ce qui confirme le lien étroit entre répétitions et agg.
- C'est le cas aussi des 4 codons acc, acg, gcc et gcg: gcc et acc sont partout nettement dominants mais c'est gcg qui devient nettement dominant dans bmv, mhd, eco, et acg qui devient nettement dominant aussi dans bmv, cft.
- Le constat: Certains codons comme agg sont très peu corrélés au contenu GC (%GC) et peuvent être corrélés entre-eux. agg est corrélé à ggg et à ccc.

Les plasmides des cyanobactéries − 3.4.4.4

3ème et 4ème diagramme de la Galerie 2, répétitions en fonction du %GC; 3ème et 4ème diagramme de la Galerie 3, répétitions en fonction des répétitions de l'hôte.
Tableaux numériques Répétitions Tableaux des diagrammes

Les 11 bactéries étudiées sont: ana, anb, can, cyt, len, mic, oac, oni, syf, syn, synp.

Voir la correspondance entre code des plasmides étudiés et celui de KEGG au chapitre 2.2.

Répétitions des plasmides en fonction du %GC − 3.4.4.4.1

Tableau des 2 diagrammes en fonction de %GC Galerie 2

Rapportées au %GC les répétitions des plasmides se comportent comme leurs hôtes, diagrammes 3 et 4 de la galerie 2. C'est à dire:

Les répétitions >4AT sont toutes au-dessus de l'aléa et suivent une tendance en polynôme du 3ème degré. Comparés aux plasmides des bactéries, le coefficient de régression R2 diminue faiblement 0.72 contre 0.89 pour ceux des bactéries.
Les répétitions >4GC suivent bien le comportement de leur hôte, syf et len restent en dessous de l'aléa et tous les autres au dessus. 2 plasmides seulement, dont l'hôte est au dessus, passent en dessous de l'aléa. Soit 2/37 plasmides dont les hôtes se situent au-dessus de l'aléa. Cependant les plasmides des cyanobactéries ont un comportement diamétralement opposé à celui des bactéries en ce qui concerne la variation par rapport à l'hôte. Les "autres" bactéries varient horizontalement et surtout en diminuant leur contenu en GC. Par contre les cyanobactéries varient verticalement, soit en diminuant leurs répétitions >4GC ou en les augmentant tout en variant très peu leur contenu en GC. J'avais bien noté la diminution spectaculaire du %GC des plasmides de kpn, mais les variations des répétitions >4GC chez les cyanobactéries est plus fréquente et aussi spectaculaire puisque

oni et cyt augmentent du simple au double, anb et mic de 50%
syn, synp et can sont divisés par 2. synp proche de l'aléa donne un plasmide qui passe en dessous.
oac diminue de 20% et ana varie de 50% dans les 2 sens et donne un plasmide en dessous de l'aléa.
syf et len paraissent se comporter comme autres bactéries: déplacement faible mais horizontal.
Le résultat de ce comportement fait que la courbe de tendance est quasi inexistante: en fonction puissance j'ai un coefficient de régression proche de zéro, 0.09 et en polynôme de 3ème degré 0.16. Alors que les autres bactéries gardent une tendance proche de l'hôte avec une fonction puissance au R2 de 0.47 contre la même fonction de l'hôte au R2 de 0.75.

Répétitions des plasmides en fonction de celles de l'hôte − 3.4.4.4.2

Tableau des 2 diagrammes en fonction de l'hôte Galerie 3 diagrammes 3 et 4.

Le comportement des répétitions des plasmides des cyanobactéries, en fonction de l'hôte, diffère nettement de celui des plasmides des bactéries. Chez les cyanobactéries on va retrouver la grande variabilité qu'on a signalée pour les >4GC en fonction du %GC mais aussi un nouveau comportement pour les >4AT.

La droite de tendance des >4GC en fonction de l'hôte s'écarte nettement de la diagonale en rouge représentant l'hôte: 0.50x+5.41 (R2=0.46) pour les cyanobactéries et 0.87x+4.29 (R2=0.61) pour les bactéries.
La droite de tendance des >4AT, elle, se rapproche de la diagonale et le coefficient de régression est élevé comme pour les bactéries: 0.83x+7.07 (R2=0.69) contre 1.02x+12.08 (R2=0.83) pour les bactéries.
Par contre pour les >4AT, les hôtes des cyanobactéries se situent entre 40 et 70 %00 alors que ceux des bactéries entre 10 et 20 %00. 7 "autres" bactéries, sur 12, ont le taux signalé, tandis que 9 cyanobactéries, sur 11, ont le taux signalé. Est-ce un hasard du fait des choix que j'ai faits ou est-ce une caractéristique des cyanobactéries? Pourtant le %GC des 9 cyanobactéries hôtes s'étale sur une gamme, 35-55 %, analogue à celle des 7 bactéries hôtes, 41-59%. Voir diagrammes des galeries 2 et 3 et leurs tableaux.

Note sur les hôtes des plasmides des cyanobactéries − 3.4.4.4.3

Pour répondre à la question précédente j'ai constitué un tableau synthétisant les équations et leur coefficient de régression. Effectivement les polynômes x3 sont plus adaptés, selon R2, pour les diagrammes >4AT. Et la fonction puissance pour les diagrammes >4GC avec R2 supérieur à 0.50 et des constantes homogènes entre elles.

Pour >4AT, la comparaison entre autre-bactéries et cyanobactéries montre que la courbe des dernières est nettement au-dessus des premières: la constante de x3 est double. Vis à vis de l'aléa elles ont toutes les 2 une constante largement supérieure à celle de celui-ci, 0.00073
Pour >4GC, la courbe des cyanobactéries est au-dessus de celle des autre-bactéries (constante 1E-4 exposant 3.0, constante 2E-4 exposant 2.7, respectivement). Vis à vis de l'aléa la fonction puissance montre que ce dernier a une constante très faible par rapport à celle des cyanobactéries ( 1E-7 et 1E-4 respectivement) mais qu'elle est compensée par un exposant beaucoup plus élevé que celui des cyanobactéries (4.7 et 3.0 respectivement). Sans approfondissement de cette question mathématique, on ne pas trancher. Par contre le polynôme de degré 3 montre que la courbe des cyanobactéries est légèrement au-dessus de l'aléa (constante de x3 respectivement, 0.00081 et 0.00075). C'est cette fonction que j'ai adopté pour les cyanobactéries avec un R2 de 0.58 inférieur à celui de l'aléa, 0.61.
La conséquence de ce constant c'est que, comme pour les codons GC des protéines, les codons AT sont aussi modifiés chez les cyanobactéries par rapport à ceux des autre-bactéries, en tout cas, en premier, pour les codons aaa et ttt et les doublets qui les accompagnent.

Tableau synthétique des équations des diagrammes des hôtes:

                     x3                                     puissance
aléa             AT* -0.00073   0.16   -12    302  100  *   9E+7  -4.1    87    à cause de 15%GC
                 GC*  0.00075  -0.06   1.9    -20  100  *   1E-7   4.7    99    à cause de 75%GC

autres bactéries AT* -0.00206  -0.38   24    -572   94   *   7E+8  -4.51   69
                 GC* -0.00005   0.02  -1.1     15   33   *   2E-4   2.7    73


cyanobactéries   AT* -0.00402   0.67  -38     775   93   *   1E+7  -3.3    87 
                 GC*  0.00081  -0.11   5.2    -82   58   *   1E-4   3.0    61


archées          AT* -0.00117   0.26  -19     486   84   *   8E+8  -4.52   82   
                 GC* -0.00225   0.31  -13     185   48   *   1E-4   2.3    53

Les archées − 3.4.5

5ème et 6ème diagrammes dans la Galerie 1 pour l'ensemble des 87 archées et la Galerie 7 pour le groupage en familles d'archées. Tableaux numériques
Tableau des diagrammes des 87 archées. Tableau des diagrammes des 30 autres archées. Répétitions

L'étude des répétitions de bases dans les plasmides et les protéines n'a pas été faite. L'objectif était surtout de comparer les courbes des génomes avec ceux des bactéries.

Les diagrammes des archées − 3.4.5.1

Le tableau synthétique des courbes des hôtes des plasmides, placé au chapitre précédent des cyanobactéries, contient une ligne pour les 87 archées étudiées dans cet article. La 1ère constatation c'est que les archées constituent un groupe beaucoup plus hétérogène que les bactéries et les cyanobactéries, suivant leurs coefficient de régression R2. voir les diagrammes 5 et 6 des archées dans leur globalité dans la galerie 1.

Sachant qu'il y a 2 grandes familles majoritaires d'archées, Euryarcheota et Crenarcheota, chez divisé le tableau des diagrammes en 3 groupes: 57 Euryarcheota, 20 Crenarcheota, et un groupe de 10 archées pour les archeota minoritaires ( 1 archée Kor, 3 Nano et 6 Thaum). Les minoritaires se comportant presque comme les Crenarcheota, je les ai regroupés ensemble dans les diagrammes en leur affectant des symboles différents. Ces diagrammes sont libellés autre-archées.

Symboles affectés aux autre-archées dans les diagrammes: diagrammes 3 et 4 de la Galerie 7.

Point simple, bleu, les Crenarcheota
Une bille bleu pour les Nanoarcheota
Une bille orange pour les Thaumarcheota
Un cube rouge pour le seul Korarcheota, kcr.

Tableau synthétique des courbes des répétitions dans les chromosomes des archées

                     x3                                     puissance
total archées    AT* -0.00117   0.26  -19     486   84   *   8E+8  -4.52   82   
                 GC* -0.00225   0.31  -13     185   48   *   1E-4   2.3    53

Euryarcheota     AT*  0.00005   0.07  -11     366   92   *   3E+9  -4.80   86   
                 GC* -0.00116   0.16  -7       91   51   *   3E-3   2.00   58

autres archées   AT* -0.00527   0.88  -49     943   81   *   2E+8  -4.23   79
                 GC* -0.00465   0.65  -28     405   62   *   6E-5   3.15   58

Crenarcheota     AT* -0.00438   0.72  -40     753   74   *   4E+7  -3.84   71   non publié
                 GC* -0.00233   0.34  -15     213   62   *   3E-5   3.33   77   non publié

Les Euryarcheota − 3.4.5.1.1

Eury et cyano ayant à peut près les mêmes effectifs étudiés, 57 contre 49, sont plus faciles à comparer d'autant plus qu'ils ont des points communs plus qu'avec les autre-bactéries.

Tableau des diagrammes des 57 euryarcheota.

Les diagrammes >4AT: diagrammes 1 et 3 de la Galerie 1 et diagramme 1 de la Galerie 7

Les Eury se distinguent des cyano par quelques archées sous l'aléa. A peine 2 (hbu et hwa) franchement sous l'aléa au niveau de 50 %GC, ce qui est inhabituel chez les bactéries, et 2 autres (tar et mtp) sur la courbe de l'aléa, mais encore à des contenus en GC assez bas, 58 et 53 %GC respectivement, ce qui peut être encore limite pour la comparaison puisque les autre-bactéries ont 1 bactérie bla sur l'aléa à 60 %GC. De même la courbe des Eury paraît plus proche de l'aléa, aux contenus en GC les plus élevés, que celle des autre-bactéries et plus nettement de celle des cyanobactéries.

Les diagrammes >4GC: diagrammes 2 et 4 de la Galerie 1 et diagramme 2 de la Galerie 7

A part 2 archées (mbg, tar) qui se détachent du lot à 60 %GC comme pour les autre-bactéries amorçant le décrochement vers tos à ce niveau, les 2 diagrammes sont complètement différents par le nombre de procaryotes dépassant l'aléa à des taux élevés de >4GC.

Par contre la ressemblance entre le diagramme des cyano et celui des archées est flagrante. Cependant il y une nette différence puisque 80% des cyano se retrouvent au-dessus de l'aléa alors que seulement 20% des Eury le sont. Chez les cyano il n'y a pas de décrochage et la courbe semble se diriger vers l'aléa aux valeurs élevées en contenu GC, ce qui rapproche cette courbe plus d'un polynôme de degré 3 que d'une fonction puissance.

Les Crenarcheota et les autre-archées − 3.4.5.1.2

diagrammes 3 et 4 de la Galerie 7

Tableau des diagrammes des 20 crenarcheota.

L'effectif d'étude des cren est faible, à peine 20, mais leur comportement est encore plus spectaculaire que les Eury puisqu'ils dépassent dans 60% des cas l'aléa dans le diagramme >4AT et aussi 70% des cas dans celui des >4GC, alors que les Eury ne dépassent le >4AT que de quelques archées et le >4GC que de 20% des cas. Il y a un basculement chez les cren quand on passe d'un diagramme à l'autre, cependant quelques archées ne font pas cette bascule. Ils sont sous l'aléa >4AT et au-dessus de l'aléa >4GC.

Chez les 10 archées restantes, les 6 Thaumarcheota se comportent à la limite comme les autre-bactéries, alors que les Nanoarcheota se comportent comme les eury avec neq qui dépasse l'aléa >4GC, les 2 autres restant en dessous. Le seul Korarcheota de l'étude kcr fait la bascule, il est sous l'aléa >4AT et au-dessus de l'aléa >4GC, comme le font la majorité des cren.

Les diagrammes des écarts des répétitions, relatifs à l'aléa− 3.4.5.1.3

Galerie 9, diagrammes 5 à 8. Tableau des 4 diagrammes des écarts. Les Groupes 22ae, 23ae, 67ae1, 67ae2, 33ae des écarts relatifs à l'aléa des euryarcheota.
Les Groupes 22ac, 23ac, 67ac1, 67ac2 des écarts relatifs à l'aléa des crenarcheota.
Voir le chapitre 3.4.3.1.2 pour les groupes définis par les écarts relatifs chez les autre-bactéries, ainsi que les diagrammes 1 et 2 de la galerie 9 , et le Tableau des 2 diagrammes des écarts des autre-bactéries pour les comparaisons.
Nous avions défini 5 groupes pour les écarts relatifs chez les autre-bactéries qui sont: Groupe 22, Groupe 23, Groupe 33, Groupe 41 et Groupe 67.
Nous allons travailler sur les mêmes étendues du contenu en GC (%GC) pour définir des groupes semblables à ceux des autre-bactéries. Les groupes des Euryarcheota seront suffixés par ae et un chiffre si le groupe vient à être divisé en sous-groupes, de même pour les crenarcheota ac et un chiffre.

Le tableau qui suit résume les changements dans 3 groupes majeurs des crenarcheota (ac) et les 5 groupes des euryarcheota (ae). Je n'ai pas représenté ici le groupe 23ac ne contenant qu'une seule archée aho. Le n=7 indique le nombre d'archées dans le groupe.

Groupes des écarts relatifs à l’aléa des archées                %GC     >4GC    >4AT    DNA                             %GC    >4GC     >4AT    DNA
                                                                                                                        
Groupe 22ac             n=6                             Groupe 67ac1            n=7                             Groupe 67ac2            n=6             
moyen.  36      7       51      1,678,011               moyen.  51      24      16      1,631,331               moyen.  55      18      8       1,909,274
ecartt  5       3       36      298,468                 ecartt  5       12      10      412,634                 ecartt  5       9       3       290,153
%       13      47      71      18                      %       10      48      63      25                      %       9       48      41      15
                                                                                                                                
Groupe 22ae             n=13                            Groupe 67ae1            n=3                             Groupe 67ae2            n=17            
moyen.  36      6       90      2,073,781               moyen.  48      14      35      2,491,505               moyen.  51      11      28      2,192,331
ecartt  6       3       32      1,149,592               ecartt  2       6       12      936,783                 ecartt  4       5       16      590,374
%       16      50      36      55                      %       5       40      35      38                      %       8       45      57      27
                                                                                                                                
Groupe 23ae             n=7                             Groupe 41ae             n=17                                    
moyen.  39      4       62      2,528,522               moyen.  64      13      4       2,743,002                                               
ecartt  2       1       17      1,072,297               ecartt  2       5       2       881,493                 ae      archées euryarcheota                    
%       6       29      28      42                      %       4       42      40      32                      ac      archées crenarcheota

Les 2 groupes 67ac1 et 67ac2 sont symétriques par rapport à l'aléa comme les groupes 22 et 23 des bactéries, et se comportent aussi comme eux pour la simultanéité des changements des taux >4AT et >4GC (voir le résumé des groupes des autre-batéries au chapitre 3.4.3.1.2). La même remarque est à faire pour les 2 groupes 67ae1 et 67ae2, et les 2 groupes 22ae et 23ae. Cependant on peut se demander si le groupe 67ae1 en est un puisqu'il ne compte que 3 archées.

Les répétitions des archées − 3.4.5.2

Les groupes − 3.4.5.2.1

Sur 57 euryarcheota 43 ont des répétitions inférieures ou égales à 11. Cette frontière de 11 c'est pour les aas. Ainsi, une telle répétition a tout au plus 3 aas à 3 bases identiques: Phe, Lys, Pro, Gly. Pouvant s'ajouter à cet aa un troisième identique ayant seulement 2 bases identiques. Donc tout au plus 4 mêmes aas l'un à côté de l'autre. Avec une frontière de douze on passe respectivement à 4 et 5 aas identiques côte à côte. J'ai repéré cette frontière en totalisant les archées ayant le même maximum de répétitions. Ainsi j'ai trouvé:

Répétition maximale: 7    8    9    10    11    12    13    14    15    16    17    18    19    20
nombre d'archées:    2    6    7    11    15     7     1     2     3     0     2     0     0     1

J'ai alors combiné le fait que 10 soit le maximum et une limite raisonnable de 4 aas alignés. Le nombre de bactéries ayant 14 et plus de répétition, se réduisant brusquement à 12, j'ai décidé de considérer toute répétition supérieure ou égale à 14 comme solitaire ou anormale quand cette répétition est trop grande.
Le tableau suivant liste ces 43 archées pour que le lecteur n'ait pas à le refaire manuellement:

44 euryarcheota à répétition <= 11

abi     hbo     hru     hxa     mear    mig     mok     mzh     pto             Moyenne 11      0.8             Moyenne 14-20   2.3
afu     hbu     hsu     mac     mev     mka     mpd     nmg     tac             archées         total           archées         total
fpl     hlr     htu     marc    mfe     mla     mpl     nph     tar             44              37              3               7
gac     hma1    hut     mbg     mfv     mmh     mpy     pho     ton             Anomalie        max     >20                          
hal     hmu     hvo     mbu     mhu     mmp     mth     ppac                     mhu            20 A     28 A

13 euryarcheota à répétition => 11

hla     mhz     tko             Moyenne 11-13   5.5             Moyenne 14-20   1.2
hwa     mpi                     archées         total           archées         total
mba     msi                     13              72              5               6
mbn     mst                     Anomalies       max     >20                  
mel     mtp                     mba             14 A    23 T                    
mer     sali                    mtp             12 A    21 A

Les 20 crenarcheota

Répétition maximale:     8    9    10    11    12    13    14    15    16    17    18
nombre d'archées:        3    2    1     1     2     4     4     0     1     1     1

7 archées dont les répétitions sont inférieures à 11 ne totalisent qu'une seule répétition de 11: ape, ffo, iag, smr, tag, thg, vdi.

13 crenyarcheota à répétition => 11

ho      iho     sso             Moyenne 11-13   2.7             Moyenne 14-20   1.9
asc     mse     tpe             archées         total           archées         total
clg     pai     tuz             13              35              7               13
cma     pdl                     Anomalies       max     >20                  
dka     pfm                     pfm             17 A    42T, 23A

La répétition longue 42T n'est pas codante d'après NCBI.

Les 10 autres archées

Korarchaeota: kcr avec une répétition maximale de 17.

Nanoarchaeota: neq, nge, nou

Thaumarchaeota: csu, nbv, nga, nkr, nmr, taa

Répétition maximale:     9    10    11    12    13    17
nombre d'archées:        2    2     2     2     1     1

Note sur les répétitions des archées − 3.4.5.2.2

Très peu d'anomalies par rapport aux bactéries. Les répétitions sont très regroupées, en générale inférieures à 11, par rapport aux bactéries. C'est surtout chez les Euryarcheota avec 43 archées sur 57 ayant un maximum de répétition de 11. Les Crenarcheota semblent produire des répétitions plus longues, mais le nombre moyen de répétitions par archées, comprises entre 11 et 13, reste comparable à celui des Euryarcheota.

Synthèse − 3.4.6

Synthèse sur les procaryotes − 3.4.6.1

Cette étude n'est pas complète puisque, pour bien faire, il faudrait dégager les caractéristiques de protéines et de plasmides chez les 2 classes d'archées. Cependant nous pouvons récapituler les principaux résultats obtenus avec les bactéries et les archées..

Avec les diagrammes des répétitions de plus de 4 bases on a pu distinguer des sous-groupes :
- Les bactéries se divisent en 4 sous-groupes dont 3 ont été étudiés plus profondément:
  1. Les bactéries ne dépassant jamais l'aléa dans aucun diagramme avec un taux de >4GC inférieur à 17%00 (cmi): ce sont la majorité des bactéries des diagrammes autre-bactéries.
  2. Les bactéries ne dépassant l'aléa que pour des contenus en GC inférieurs à 60% et seulement dans le diagramme >4GC: les cyanobactéries.
  3. Les bactéries ne dépassant l'aléa que pour des contenus en GC autour de 68% et seulement dans le diagramme >4GC: c'est le groupe des thermophiles avec la bactérie tos dans les autre-bactéries, 12 bactéries (msv, mrb, tai, tsc, sur, mhd, tra, tos, tts, ttl, tth) voir chapitre 3.4.3.1.
  4. Les bactéries à haut taux de >4GC, supérieur à 20.94 %00 (scl) vers 65 %GC et ne dépassant pas l'aléa dans le diagramme >4GC des autre-bactéries, 20 bactéries ( afw, age, ccx, dge, dpt, dvl, ebt, fra, gdi, ipa, ksk, mts, mxa, pdo, phm, rru, saci, salb, sall, salu, sap, say, sbh, scb, scl, sco, sct, sgr, sho, sma, ssx). Voir chapitre 3.4.3.1.
- Les archées se divisent en 2 sous-groupes:
  1. Les archées qui dépassent moyennement ou faiblement l'aléa dans les 2 diagrammes: ce sont les Euryarcheota avec un effectif de 57 étudié.
  2. Les archées qui dépassent à plus de 80% des cas les 2 diagrammes à la fois: ce sont les crenarcheota avec un effectif de 20 étudié. 10 autres archées appartenant à d'autres classes de la phylogénie se répartissent entre les 2 sous-groupes dont 6 Thaumarcheota se comporteraient plutôt comme les autre-bactéries que comme le sous groupes des Eury.
L'étude de la distribution des codons dans les gènes de protéines. L'étude des répétitions des bases dans les protéines n'était pas prévue au début, car le 1er but de la recherche des répétitions à ses débuts était de rechercher les répétitions dans les zones de contrôle comme les promoteurs, les sites de fixation de diverses protéines et notamment de transcription et l'origine de la réplication dans le chromosome et les plasmides en vue des 1ères étapes de l'évolution moléculaire à l'origine de la vie. Ce sont les diagrammes des autre-bactéries qui m'ont interpellé et je me suis posé 2 questions fondamentales:
- Pourquoi la dissymétrie totale entre diagramme >4AT et >4GC? Pourquoi les répétitions G et C sont si rares? Alors que les A et T sont si nombreuses? Ma 1ère réponse se penchait vers la spécificité des bases, donc de leur résonance dans l'ADN. Mais dans un 2ème temps je me suis rendu compte que, les génomes des bactéries étant composés à 80% et plus de gènes codant des protéines, en fait cette dissymétrie s'expliquait simplement si on adoptait le point de vue de l'évolution darwinienne où ce sont les protéines qui interagissent par leurs fonctions avec l'environnement. Les protéines nécessitant peu de proline (codon ccc), car c'est un acide aminé de conformation (repliement) et non à fonction chimique comme les acides (D, E) et les bases (R,K, H), fait que les répétitions de ccc et plus devaient être très faibles. Cette explication entrait en contradiction avec la répétition de la Glycine (codon gggg) du même coté que la proline dans les diagrammes. La Gly étant l'acide aminé le plus simple, le plus inactif chimiquement devrait jouer un rôle de remplissage et donc du coup ses répétitions devaient être beaucoup plus abondantes. Effectivement j'ai trouvé des séquences longues de plus de 20 G incluses dans des gènes de protéines, mais les séquences les plus longues sont en C mais ne se trouvent pas dans des gènes de protéine. Le problème se situe en fait dans les répétitions courtes. La question semblait être résolue du point de vue darwinien et non du point de vue de la physique de l'ADN, mais la contradiction posée par la glycine me taraudait.
- C'est là que le groupe des thermophiles de la bactérie tos venait encore compliquer tout et je me suis posé la 2ème question fondamentale. Pourquoi certaines bactéries peuvent avoir des taux de >4GC aussi élevés que les taux >4AT? Est-ce que c'est la glycine qui est à l'origine? C'est ce qui m'a poussé à comparer le taux des répétitions des bases dans les gènes de protéines et leur distribution en codons. Le résultat c'est que c'est toujours les petites répétitions, inférieures à quelques prolines ou glycines, qui jouaient ce rôle. Ce sont effectivement les codons ccc et ggg qui augmentent énormément par rapport à ccg et ggc qui sont majoritaires chez les bactéries à faible taux de >4GC comme eco et bmv où les rapports s'inversent. Le codon ggg, comme on le verra dans l'article des corrélations, est parmi les codons les plus faiblement représentés dans les protéines des bactéries. Mais en plus chez tos et plusieurs cyanobactéries que j'ai étudiée ici, il y a une fréquence très élevée du codon agg de l'arginine. Ce codon peut, comme tout codon possédant un doublet, augmenter le taux des >4GC en s'accolant à ggg. Voir les protéines dans les chapitres des autre-bactéries et dans celui des cyanobactéries. Plus j'avançais dans l'étude des protéines plus la distribution des codons me paraissait aller de paire avec les variations des taux de >4GC et même ceux de >4AT. Les regroupements des procaryotes que j'ai faits avec les diagrammes prennent alors tous de l'importance. La question précédente, pourquoi les répétitions C et G sont si faibles? mais plutôt pourquoi certains procaryotes les augmentent pour évoluer? Et là l'hypothèse de la résonance prend toute son importance.
L'étude des plasmides: La comparaison de leurs comportements chez les autre-bactéries et les cyanobactéries a révélé des différences énormes notamment celle de varier horizontalement pour les autre-bactéries et verticalement pour les cyanobactéries relativement à leurs hôtes. C'est une question très intéressante pour les premières étapes de l'évolution moléculaire à l'origine de la vie. Les processus qui interviennent dans la variation du contenu en GC et celle des répétitions des bases agissent différemment sur les plasmides et leurs hôtes. Est-ce seulement une question de probabilité de détachement de morceaux de chromosome si l'hypothèse du détachement est à l'origine de leur formation? Ou bien les plasmides interagissent activement, par leur structure physique, sur les protéines du processus? Dans ce cas les 1ères séquences d'ADN apparues aux 1ères étapes de l'évolution moléculaire, de la taille de petits plasmides, devaient être des moteurs très importants dans cette évolution.
Les répétitions dans les rRNA: L'étude des rRNAs 23S a donné un résultat inattendu. Nous savons que le 16S est très utilisé dans la phylogénie des procaryotes. Je m'attendais à ce qu'ils varient peu avec le contenu en GC. C'est le cas en effet à partir de 30 %GC, mais pour les faibles contenus en GC les répétitions >AT augmentent en flèche. Pourquoi? Il serait intéressant d'étudier le problème sur de grands échantillons et dans tous les groupes et de comparer ces répétitions à celles des rRNAs 16S en fonction du contenu en GC.

Synthèse des diagrammes par les courbes − 3.4.6.2

Synthèse des tableaux des diagrammes Galerie 8

Pour pouvoir comparer les courbes >4AT j'ai du les dessiner en fonction du %AT, elles sont plus homogènes. 4 courbes: >4AT, >4GC, fonction puissance et polynôme de degré 3. L'aléa a été recalculé avec un chromosome fictif de 2 000 000 pbs. La gamme du %GC a été réduite pour faire apparaître, grâce à l'échelle réduite obtenue, les différences entre les courbes dans cette gamme. Mettre les courbes ensemble permet de fixer les idées par rapport aux appréhensions qu'on a eu en comparant des courbes séparées. De nouveaux résultats apparaissent. Ainsi je fais 3 groupes de constatations en ce qui concerne les répétitions. Certains de ces constats rejoignent le classement des procaryotes par phylogénie:

Les autre-bactéries et les euryarcheota se comportent quasiment de la même façon.
- Dans les diagrammes AT les courbes sont homothétiques (parallèles), mais les eury sont en dessous et aux faibles %AT les eury se collent à l'aléa mais ne le croisent pas comme le font les cren. Ce qui fait apparaître quelques eury en dessous de l'aléa (hbu, hwa). Les bactéries, elles sont bien loin de l'aléa et je n'ai pas pu repérer de bactéries en dessous sur 192.
- Dans les diagrammes GC Les courbes se croisent. Mais alors que les bactéries croisent tout à fait au début l'aléa, se confondant avec lui (voir aléa et bactéries), les eury croisent l'aléa plus tard au niveau de 43 %GC donnant beaucoup d'archées au-dessus de l'aléa comme les cren à ce niveau. Les eury s'éloignent après de l'aléa, contrairement aux cren, restent au-dessus des bactéries mais se croisent avec ceux-ci au niveau de 52 %GC.
- Ce que ne montrent pas ces courbes c'est que les bactéries, en se détachant des eury, croisent aussi l'aléa au niveau de 68 %GC comme on l'a vu (tos, tai), et de façon brusque. Ce que ne montrent pas aussi ces courbes c'est que au niveau 60-65 %GC les eury, tout en restant sous les bactéries, amorcent aussi ce décrochage brusque vers l'aléa (mbg, tar), comme elles. D'où encore plus de similitudes entre eury et autre-bactéries.
Les cyanobactéries partagent des comportements semblables avec les cren mais elles en se différencient nettement, pas comme entre autre-bactéries et eury.
- Dans les diagrammes AT les courbes sont parallèles et non seulement homothétiques. Comme les cren sont largement en dessous, elles croisent 2 fois l'aléa donnant beaucoup d'archées en dessous de l'aléa. Ce que ne font pas du tout les cyanobactéries.
- Dans le diagramme GC, fonction puissance, les 2 courbes sont homothétiques et croisent l'aléa franchement au même niveau, à 52 %GC, donnant beaucoup d'archées au-dessus de l'aléa (dans les 80 % des cas étudiés) dans la gamme 30-60 %GC.
- Dans le diagramme GC, fonction polynôme de degré 3, les 2 courbes sont décalées (ce qui correspond à l’homothétie du diagramme fonction puissance), et du coup, ayant toutes les 2 une forme sinusoïdale, elles croisent l'aléa en 2 points différents chacun. Entre ses 2 points de croisement les cyanobactéries sont plus éloignés de l'aléa, dans la partie concave, que ne le sont les cren. Cela se traduit par un nombre beaucoup plus élevé de cyano au-dessus de l'aléa que celui des cren.
L'effet miroir: c'est une constatation globale que je n'ai pas faite jusqu'ici, j'avais aperçu quelques cren qui, dans AT, se trouvaient dans la partie concave de l'aléa, alors que dans GC, ils se retrouvaient dans la partie convexe.
- L'effet miroir apparaît nettement avec les diagrammes polynôme de degré 3, chez les cyanobactéries et les cren et de façon moins prononcée chez les eury puisque les 3 courbes croisent franchement l'aléa. Les cren croisent 2 fois l'aléa loin du début, les cyanobactéries une fois au début à 30 %GC et une fois loin, les eury une fois mais proche des 30% GC. L'effet miroir se manifeste par une symétrie par rapport à l'aléa. On retrouve facilement les procaryotes qui le subissent, car certains ne subissent l'effet miroir même s'ils appartiennent à la même famille.
- L'effet miroir est très difficile à détecter chez les autre-bactéries parce que le croisement qui se fait avec l'aléa est quasiment à la limite du diagramme, à 68 %GC, et du coup le taux de répétitions >4AT est très faible. Mais les 2 courbes des autre-bactéries sont bien symétriques par rapport à l'aléa. Il n'y a pas de bactérie qui ne pas sois pas symétrique, à part l'extrémité 68 %GC qu'on ne détecte pas au premier coup d’œil. C'est comme une surface unie en face d'un miroir. Il faut qu'il y ait une discontinuité pour révéler le miroir.

La résonance dans l'ADN − 4

Note du 25.9.16 − 4.1

La résonance dans le gène :

A démontrer à partir des corrélations entre codon, différentes de celles des aas. Ces corrélations sont étudiées dans l'article Les corrélation entre les codons de gènes de protéines.

−. Adaptation, sélection naturelle et origine de la vie.

Quand on bascule dans tout le génome d'un codon à un autre (bactérie tos [20] passe de ggc à ggg), la sélection naturelle stipule que les mutations se font au hasard et donc que les protéines sont sélectionnées pour traduire plus efficacement les codons ggg à la place des codons ggc. Pour cela il faut plusieurs mutations dans le génome de façon à ce que les modifications des tRNAs remplissent cette fonction. La physique de l'ADN n'intervient pas. L'interaction avec l'environnement se fait d'abord avec les protéines, celles qui modifient les tRNAs et celles qui doivent s'adapter au changement de l'environnement. Le nombre de mutations aléatoires doit être immense et les mutations silencieuses ne sont pas moins favorisées que celles qui font la modification adéquate des gènes. Ceci nécessite un gradient de changement très progressif, plus le nombre de mutations nécessaire augmente plus le gradient doit être faible. Certains gradients de toute nature, directe (évolution de la température globale sur le long terme) ou indirecte ( interaction entre populations) sont des gradients faibles. Mais certains gradients sont beaucoup plus forts et les bactéries avec leur petite taille peuvent s'y adapter. C'est le cas des paramètres physiques et chimiques du milieu (source d'eau chaude, milieu qui devient de plus en plus acides en un temps non géologique, et les fameux antibiotiques, etc...). Nous savons qu'elles s'y adaptent rapidement. Mais malgré cela le nombre de mutation nécessaire reste astronomique.

L'étude de la variation du contenu en GC (%GC) et l'étude sur la répétition des bases montre qu'en fait ce sont les protéines qui sont en contact direct avec l'ADN qui dirigent les mutations silencieuses et non-silencieuses. L'environnement réagit directement sur le couple ADN et ses protéines ( polymérases, réparations, recombinaisons, facteurs de transcription, protection et structuration de l'ADN...). Je suppose que même sans mutation dans ces protéines, elles peuvent diriger quoique légèrement les mutations silencieuses car le mécanisme de la variation du contenu ne distingue pas entre A et T ou G et C ( pour les aas à 4 ou 6 codons). Cependant on sait qu'il y a des mutations dans ces protéines qui accélèrent la fréquence des mutations, et qu'on sous-estime en disant qu'elles augmentent les erreurs lors de la réplication: ce sont les "error-prone proteines" qui sont des polymérases (voir Uniprot [21] et article de 2003 [22]. Qu'en est-il des protéines de réparations et de recombinaison? Je ne sais pas. Il faut faire une recherche bibliographique ( voir réponse SOS ).

Mon hypothèse tirée de l'étude sur les répétitions des bases dans l'ADN et les corrélations entre codon dans les gènes de protéines ( en cours de construction dans wiki) prône que la propriété physique principale de l'ADN est la résonance électronique entre ses bases. Les protéines qui accompagnent l'ADN sont sensibles à cette résonance et sont contraintes de la préserver de par leur couplage. De même la résonance de l'ADN doit changer quand ces protéines changent de conformation sous l'action de l'environnement ou quand elles subissent une mutation non silencieuse. D'où une mutagenèse contrainte, pas spécialement dirigée. Ce qui accélérerait l'adaptation de l'organisme au changement de l'environnement. Mais réciproquement l'ADN adapte sa résonance. Cette résonance refléterait la nature du changement du milieu. Par exemple les bactéries tos [23] sont des thermophiles et le changement de l'ADN se fait dans le sens de son renforcement, des répétitions de G comme dans le codon ggg serait plus homogène, donc plus forte qu'une alternance de G et de C comme dans ggc. Les codons de la proline, pour cette bactérie, se convertissent au codon homogène ccc. Et ces changements contraints se font en même temps dans tout le génome.

C'est pour ça que je dis que les variations en contenu GC, ou mutagenèse contrainte, est le processus d'adaptation par excellence puisqu'il agit de concert avec la sélection naturelle, avec ou sans erreurs dans les mutations. Pour pouvoir repérer cette variation en fonction du changement de l'environnement il faut faire les expériences adéquates. C'est à dire suivre une population de bactéries en modifiant de façon progressive l'environnement. Ce qui n'est jamais le cas en bactériologie parce qu'on définit un génome dans des conditions optimales et constantes pour la culture de la bactérie.

Nous connaissons la théorie darwinienne, nous venons de voir un processus d'adaptation qui agit en concert avec la sélection naturelle, il nous reste à imaginer ce qui se passe aux premières étapes de l'évolution moléculaire à l'origine de la vie. L'hypothèse qui me parait la plus vraisemblable qui tient compte de la résonance de l'ADN, de son interaction avec les protéines et d'une grande fréquence de mutations, c'est que les bases désoxyribonucléiques soient libres, mais regroupées, qu'elles soient entourées d'acides aminés libres et que cet ensemble ne puisse être stable que s'il se trouve organisé dans le liposome et par lui. Ce liposome, je l'ai montré dans évolution de la membrane prébiotique, posséderait des pores qui lui permettent de communiquer directement avec l'environnement extérieur ou par l’intermédiaire des acides aminés avant que n'apparaissent les 1ères liaisons peptidiques. Ainsi l'organisation moléculaire pourra évoluer de façon continue du minéral vers l'organisation du vivant qu'on connaît. Dans cet ensemble je n'ai pas mentionné les ARNs parce que leurs monomères ne peuvent pas avoir une résonance ou très peut à cause de leur 2'OH et qu'ils peuvent se regrouper avec l'uracile. D'ailleurs dans la vie actuelle les protéines n'ont cesse d'hydrolyser rapidement les RNAs. Je suppose que, dans mon hypothèse précédente, que les acides aminés et les monomères d'ARNs vont interagir fortement ( c'est ce que j'appelle l'évolution moléculaire interne, n'interagissant pas avec l'environnement extérieur) pour former les ribosomes quand les liaisons peptidiques apparaîtront.

Constat issu des protéines − 4.2

16.11.16

Le constat:

−. Le phénomène de répétition constaté concerne plusieurs codons

−. Il varie proportionnellement avec le contenu en GC

−. Certains codons comme agg ont une corrélation très faible avec le contenu en GC (%GC). Par contre agg est corrélé avec ggg.

−. Donc il n'y a que le couple ADN et ses protéines qui puissent expliquer ce phénomène. C'est leur interaction avec l'environnement qui fait varier le contenu en GC et les répétitions. Cette interaction est de nature physique, sur les protéines de l'ADN (conformation), qui à leur tour agissent physiquement sur l'ADN (conformation des protéines) qui réagit à son tour, aussi physiquement avec sa résonance. C'est l'ADN qui est la cause 1ère de la formation de la séquence d'un gène.

Les conséquences:

−. Avec le constat nous avons expliquer le pourquoi de la création d'un gène

−. Mais nous n'avons pas expliquer comment cette résonance est transférée, en se transformant, à la résonance de la protéine. Tout au moins en partie parce que la résonance d'une séquence n'est pas seulement le résultat de l'interaction de l'ADN localement avec son environnement, mais aussi résulte de l'interaction de la résonance de cette séquence avec la résonance de tout, ou en partie, du chromosome.

−. Le comment de la création d'une protéine à partir de la résonance d'une séquence d'ADN peut s'expliquer simplement par la similitude presque parfaite entre ARN et ADN. La 1ère étape est donc un simple appariement physique de l'ARN avec l'ADN. Du point de vue des 1ères étapes de l'évolution moléculaire, on ne parlera pas d'ARN, d'ADN et de protéines, mais de groupes de monomères simples, non liés, d'ARN, d'ADN et d'aas. Ces groupements sont en interaction permanente avec le liposome et les ions du milieu interne. L'ensemble se structurant et s'organisant au fur et à mesure, produisant une résonance globale qui provoquera la création des 1ères liaisons covalentes spécifiques du vivant.

Le transfert et la transformation de la résonance de l'ADN vers les protéines se fera avec les ribosomes et les ARNs ribosomaux et de transfert. Du point de vue des PEEMOV, l'interaction entre les groupements de monomères ARNs et les aas libres sera très forte à cause de la grande réactivité du 2'OH de l'ARN et de la tête zwitterionique des aas. C'est cette réactivité des monomères alignés en simple brin, transportant la résonance de l'ADN, qui va structurer l'état vibratoire des molécules avoisinantes, et en premier lieu H2O et les aas, puis de l'ensemble de l'intérieur du liposome. Les aas vont répondre en partie à cette résonance de l'ARN, de la même façon que ceux qui étaient en interaction avec l'ADN, en essayant de reproduire la résonance originale et ce faisant ils s'organiseront en une chaîne mimant la future protéine. Mais ici la lutte sera féroce entre ARN et aas et conduira à la machinerie ribosomale. Les ARNs ribosomaux et de transfert sont produits aussi simplement par appariement, mais la résonance de l'ADN y est conservée parce qu'ils ont des séquences qui adoptent plus ou moins la structure double brin qui les protège des aas. C'est cette dualité exposition totale (ARNm simple brin) ou partielle (ARNs ribosomaux et de transfert) des 2'OH de l'ARN qui sera propice à la création de la machinerie ribosomale.

−. Le RNA world: Lui, il explique comment créer un gène à partir des monomères d'ARN et des aas en se basant sur le hasard des combinaisons. Mais le hasard, n'est pas par définition un pourquoi, il n'impose aucune contrainte physique. Le pourquoi du RNA world aboutit à la formation, au hasard, d'une très courte séquence de bases (tout au plus quelques dizaines) et pour aller jusqu'à quelques centaines de bases le nombre de combinaisons devient astronomique. Hors le comment de la création d'un gène dans cette théorie nécessite non seulement des protéines complexes pour la transcription reverse, mais demande une quantité phénoménale de monomères d'ARN. Ce concept est l'archétype de la création d'une liaison covalente par l'homme. Nous assemblons d'abord les ingrédients en proportions adéquates puis on passe au processus physiques: chauffage, agitation, séquencement des étapes, contrôle des durées et séparation et mise à l'abri des produits obtenus. Avec l'auto-organisation du liposome et de ses éléments internes (ADN, ARN, aas, ions) tous les processus physiques résultent des propriétés physiques de chaque molécule ou de groupes de molécules qui créent à leur tour des contraintes physiques qui définissent le pourquoi, et le comment résulte de la séquence dans le temps de tous ces processus. Le liposome n'a pas besoin de rassembler les ingrédients en quantités adéquates dès le début, mais c'est par le transfert des vibrations de ses éléments internes à son environnement qu'il attire les ingrédients au fur et à mesure des contraintes créées par les nouvelles structures. J'allais dire, au fur et à mesure de ses besoins, ce qui procède de la finalité. Non, il n'y a pas de finalité tout comme il n'y a pas un programme ou une entité intelligente qui met une base à côté de l'autre pour créer un gène conçue d'avance par le programme.

Constat issu de la répétition dans les génomes − 4.3

15.11.16

Synthèse sur les répétitions dans les génomes des 4 classes de procaryotes étudiées: autre-bactéries, cyanobactéries, euryarcheota et crenarcheota.

Dissymétrie des répétitions AT et GC. Hypothèse de la résonance dans l'ADN − 4.3.1

16.11.16 Paris

Le constat − 4.3.1.1

La dissymétrie entre les répétitions >4AT et >4GC des autre-bactéries n'est pas due à la propriété spécifique de la proline de replier la séquence primaire des protéines. En effet selon cette propriété, s'il y a une grande répétition de Pro successifs, cela réduirait le nombre de conformations possibles des protéines et le nombre de ces protéines augmentant avec le contenu en GC (%GC) rigidifierait le procaryote.

Ensuite la répétition de la proline n'est pas seulement due au codon ccc dénombré par mes programmes, mais aussi par la répétition des 3 autres codons ou n'apparaît pas le triplet ccc, comme ccacctccg avec 3 Pro qui correspondrait à 3 fois ccc comptés. Par ailleurs la majorité des répétitions comptées sont inférieures à 13, soit 4 Pro ce qui n'est pas excessif, et suffisent à expliquer le comportement des classes étudiées. Or la majorité des cyanobactéries, des crenarcheota et une partie des autre-bactéries ont des taux >4GC qui dépassent largement l'aléa.

De même il n' y a aucune raison pour que la répétition du codon ggg de la glycine ne soit pas élevée, cet acide aminé n'ayant aucune propriété ni physique ni chimique liée à son radical, celui-ci se réduisant à un H. La glycine servirait de rembourrage et le codon ggg devrait être répété un nombre de fois beaucoup plus grand que la Lys, très réactive, et même que la Phe dont le radical est encombrant spatialement. Or les taux >4AT, propores à Phe et Lys, dépassent largement et pour tous les génomes étudiés (autre-bactéries, cyanobactéries et euryarcheota, sauf une partie des crenarcheota) l'aléa.
Cette dissymétrie pour les autre-bactéries et la différence de comportement généralisée de ces taux ne peut être expliquée que par les différences des propriétés physiques des 2 paires AT et GC dans l'ADN. Depuis la découverte de la structure de l'ADN on sait que la force qui apparie A et T est beaucoup plus faible (2 liaisons hydrogène) que celle qui apparie G et C (3 liaisons hydrogène). Mais ceci n'explique pas le comportement des taux >4GC car le contenu en GC, augmentant jusqu'à 75%, la quasi totalité des paires GC pour la majorité des autre-bactéries ne présente pas les répétitions comptées par les programmes (c/g.c/g.c/g jusqu'à 13 fois ) mais des répétitions alternées (c/g.g/c.c/g.g/c...).
Donc le comportement des >4GC ne peut être expliqué que par une propriété physique propre aux répétitions comptées. Cette propriété ne peut pas être attribuée seulement à la différence géométrique (encombrement spatiale) entre pyrimidine (C) et purine (G) créant une dissymétrie géométrique et donc physique nécessaire, peut-être aux changements dynamiques de l'ADN lors des polymérisations. En effet certains procaryotes présentent anormalement des répétitions >4GC aussi longues que les taux >4AT quand ceux-ci se trouvent dans des organismes à contenu en GC (%GC) très faibles (voir Notes sur les répétitions longues). Alors que pour les taux >4AT les répétitions élevées augmentent progressivement avec la décroissance de %GC, les répétitions longues des taux >4GC apparaissent de façon discontinue que le %GC soit élevé ou non. Souvent les répétitions longues de ggg se trouvent dans des protéines fonctionnelles, mais c'est moins fréquent pour ccc. Et les répétitions les plus longues des 2 taux sont des ccc. Les répétitions longues, au-delà de 13, dans les 4 classes de procaryotes étudiés représentent 28% des répétitions dans les autre-bactéries, 14% dans les cyanobactéries, 14% dans les euryarcheota et 35% crenarcheota.

Hypothèse de la résonance dans l'ADN − 4.3.1.2

Si les répétitions très longues ccc ou ggg peuvent intervenir dans la dynamique de l'ADN et que le comportement des répétitions courtes (supérieures à 4 et inférieures à 14) de ggg ne peut être expliqué par les propriétés protéiques de la Gly, c'est qu'il y a une autre propriété physique intrinsèque aux répétitions >4GC. J'émets alors, comme hypothèse, que c'est la résonance électronique entre les nuages électroniques des bases, nuages confinés dans l'ADN (et non dans l'ARN), qui est responsable du comportement des taux >4GC. Cette résonance existe aussi dans les paires AT et leur répétition, mais elle est différente de celle des paires GC. Cette résonance est couplée avec la force des liaisons hydrogènes. Elle devrait caractériser chaque codon des protéines et toutes les séquences de plus de 3 bases qui constituent le reste de l'ADN.

L'adaptation génétique des procaryotes par la résonance de l'ADN − 4.3.1.3

L'étude des répétitions étudiées ici, c'est à dire la variation des taux >4GC et >4AT en fonction du contenu en GC (%GC), nous permet d'apprécier une partie de cette résonance et ses comportements dans des environnements variés avec différentes architectures cellulaires. La résonance dans un environnement donné sera modulée par l'architecture adoptée par la cellule. Chez les procaryotes l'évolution se décline de 2 façons différentes, soit l'environnement tue une partie d'une population et alors c'est la sélection naturelle qui constitue le moteur de l'évolution, soit les cellules ne meurent pas et ne font que se diviser éternellement et alors c'est l'adaptation génétique qui constitue le moteur de l'évolution. Les environnements létaux sont nombreux. On peut citer les changements brutaux des conditions physiques ou les milieux toxiques comme les métaux lourds ou encore les antibiotiques. Les environnements non létaux peuvent être constants ou variant graduellement dans l'espace et le temps. Par constant et variant graduellement, je veux dire du point de vue macroscopique car le propre de la vie c'est la mobilité et la variation au niveau microscopique et surtout nanométrique ce qui permet la mise en place de toute organisation moléculaire notamment aux PEEMOV.

L'adaptation génétique des procaryotes se fait avec le couple ADN et ses protéines:

Si l'adaptation instantanée aux changements du milieu se fait grâce aux réseaux de rétroaction du métabolisme, des enzymes, de la traduction et de la transcription, l'adaptation à long terme qui va modifier le génome va se faire au niveau du couple ADN et ses protéines. Ce couple là doit mettre en route d’innombrables mécanismes physico-chimiques en réaction aux contraintes imposées par le milieu et les changements de structure qui en découlent. Ces mécanismes ne sont pas programmés d'avance dans l'ADN mais leur programmation se fait dans le temps et avec le changement de la séquence des bases dans l'ADN. Ce n'est pas une organisation spatiale comme dans un cristal, c'est une organisation dynamique réversible. Ce n'est possible que si la complexité reste compatible avec cette dynamique et qu'il n'y ait pas de rupture dans cette dynamique. Les ruptures concernent notamment les environnements létaux. Par ailleurs quand la complexité grandit la réversibilité de la dynamique n'est plus possible et il y a un arrêt qui rend l'organisme soumis à la dégradation du temps. Cette adaptation à long terme et transmissible génétiquement n'est possible que grâce à la division cellulaire par fission qui n’entraîne pas la mort. Les organismes eucaryotes ne pouvant se diviser par fission ne transmettent qu'une infime partie des changements (réparation, recombinaison mitotique, mutations) qui se font avant la méiose et ces changements ne sont pas le résultat de l'interaction directe avec l'environnement car l'ADN est protégée dans le noyau. L'évolution génétique des eucaryotes se fait alors par la sélection naturelle. Mais l'adaptation par réaction aux changements de leur environnement existe toujours sous forme d'une plasticité accrue de l'organisme acquise au cours de l'évolution par sélection naturelle.

Les mécanismes en œuvre dans le contrôle de la résonance dans l' ADN:

L'adaptation génétique des procaryotes se fait donc avec le couple ADN et ses protéines. Les changements qui interviennent dans la séquence des bases peuvent se faire avant la division, ce sont les processus de réparation, de conjugaison (recombinaison), de mutagenèse, de transposition et d'insertion d'ADN, étranger ou non. La transcription à proprement parler, produisant juste de l'ARN, n'intervient pas directement dans les changements, mais elle intervient indirectement par les contraintes topologiques qu'elle crée pendant la procession de la polymérase le long de l'ADN. Par contre les facteurs de transcription et toutes les protéines de protection (comme les histones) ou de modifications épigénétiques (méthylation des cytosines) contraignent les processus ci-dessus qui effectuent le changement de la séquence des bases.

Les changements dans la séquence des bases se fait aussi pendant les polymérisations: réplication et transcription reverse. Ces changements peuvent être aussi importants que ceux d'avant la division cellulaire. Les changements par polymérisation résolvent les contraintes accumulées pendant la phase de croissance et celles imposées par la dynamique de la polymérisation et la topologie de l'ADN. Toutes les protéines intervenant dans ces processus sont en interaction avec les conditions physiques du milieu extérieur et les molécules de toutes sortes qui viennent de l'extérieur.

L'ADN peut accumuler les contraintes par l'intermédiaire de la conformation des protéines qui la protègent (comme les histones) ou par les protéines qui s'y fixent. L'ADN réagit à son tour par un changement local ou général de sa résonance et c'est pendant la réparation-recombinaison et la réplication que se fait le changement.

L'architecture cellulaire est un modulateur de la résonance de l'ADN:

L'architecture cellulaire est un modulateur des changements induits par le milieu extérieur. Effectivement les contraintes du milieu extérieur vont être différentes quand on passe d'une membrane d'archées, très complexe et retenue par l'évolution pour contrer les conditions extrêmes du milieu extérieur, à une membrane de bactéries. Mais les contraintes du milieu intérieur peuvent aussi agir quand la dynamique de la cellule est régie par un système énergétique différent. C'est le cas des cyanobactéries qui font de la photosynthèse, utilisant un réseau énergétique différent des hétérotrophes ou des lithotrophes ou des chimiotrophes. Les contraintes internes sont plus régulières dans le temps et s'apparentent aux environnements constants ou variant de façon graduelle nécessaires à l'adaptation génétique. Si j'ai réparti les procaryotes étudiés en 4 classes distinctes par un aspect de leur architecture, membrane entre bactéries et archées, photosynthèse et non-photosynthèse entre cyanobactéries et autre-bactéries, je n'ai pas envisagé d’approfondir les architectures dans ces groupes. Notamment pour les groupes thermophiles (tos) des autre-bactéries, je n'ai pas étudié leur architecture et de même pour les symbiotes (zin, crp). Les autre-bactéries peuvent contenir des hétérotrophes et des autotrophes. Je ne connais pas aussi la différence d'architecture cellulaire entre les euryarcheota et les crenarcheota. Mais j'évoquerai certaines architectures au moment d'interpréter les résultats obtenus.

Les états de résonance définis à partir des répétitions dans les génomes − 4.3.2

17.11.16 Paris

Distinction entre la force des appariements des paires de bases et la résonance − 4.3.2.1

La distinction entre force d'appariement et résonance dans l'ADN a été avancée dans la synthèse des génomes des autre-bactéries pour expliquer la similitude de la progression des 2 courbes des taux >4AT et >4GC (bien qu'elles soient dissymétriques par rapport à l'aléa) attribuant la différence d'intensité de la progression à la force d'appariement, et les décrochages de cette progression entre les groupes extrêmes, à un phénomène de résonance où les amplitudes de 2 entités résonantes décuplent quand on atteint la fréquence de résonance. L'hypothèse que j'ai avancée au chapitre précédent attribue la dissymétrie des 2 courbes à la résonance électronique dans l'ADN et concernerait toutes les paires de bases. Or la synthèse des génomes des autre-bactéries souligne que les décrochages dus au phénomène de résonance se fait simultanément pour les 4 répétitions >4AT (a et t) et >4GC (c et g). Ce qui veut dire que notre hypothèse du chapitre précédent attribue localement ou à tout le chromosome une résonance propre qui n'est pas la juxtaposition de paires de bases résonantes côte à côte.

Définition d'un état de résonance de référence − 4.3.2.2

L'hypothèse de la résonance dans l'ADN stipule que cette résonance est couplée avec la force de l'appariement d'une paire de base. Pour pouvoir définir un état de résonance de référence il va falloir distinguer entre résonance et appariement. Nous venons de voir que c'est le cas en définissant des groupes par une rupture dans leur progression des taux de répétition.

Mais, suivant les développements que j'ai effectués à partir de l'hypothèse de la résonance dans l'ADN, celle-ci est susceptible de varier localement avec la séquence (séquence protéique, de contrôle ou d'ADN étranger), de varier entre des organismes aux architectures cellulaires différentes, entre l'évolution de leurs mécanismes d'adaptation et les milieux dans lesquels ils vivent. Il nous faudrait un groupe assez large, homogène dans la résonance de taux >4GC faibles et constants pour qu'on puissent distinguer des variations dues aux autres paramètres dans d'autres groupes, et un groupe homogène dans la progression des taux >4AT qui de toutes façons progressent rapidement. Toujours pour pouvoir distinguer l'influence d'autres paramètres il faut que ces autres paramètres dans le groupe de référence soient homogènes et de bas niveau de complexité et d'évolution. C'est ainsi que je supposerais que le groupe qu'on aura défini, a des organismes aux architectures impactant peu la résonance, que leurs mécanismes d'adaptation sont peu évolués et que les milieux dans lesquels ils vivent impactent de façon égale leur résonance. Pour ce qui concerne les séquences il est évident qu'on est servi du point de vue homogénéité et quantité par la forte proportion des génes codant des protéines chez tous les procaryotes ou presque. Cette proportion dépasse les 80% du génome.
Arriver à ce point nous allons en fait étudier la variation de la résonance électronique dans les gènes de protéines. Et du coup nous abordons le paradoxe de l’œuf et de la poule de la façon suivante: est-ce que le code génétique à 3 bases défini par la traduction n'est il pas défini d'abord dans l'ADN par la résonance électronique? Nous allons voir qu'en combinant force d'appariement et résonance on peut expliquer les regroupements des triplets en 2 et en 4, chaque groupe soutenant un acide aminé non déterminé.

Le groupe 7, comprenant 74 autre-bactéries, s'étend sur un intervalle de 68 %GC, il a une croissance moyenne très lente de 0.07 %00 de >4GC entre 2 bactéries successives (progression dans les groupes homogènes). Ce qui fait à peine 1% par rapport à sa moyenne de 6.8 %00. Le groupe du taux >4AT qui le représente le mieux est le groupe III qui s'étend sur intervalle de %GC le plus long de ces groupes, 20 %GC. Le groupe 7 contient tout le groupe III puisqu'il s'étend de 35 à 69 %GC alors que le III s'étend de 41 à 61 %GC. La croissance du groupe III est élevée de 0.50 mais régulière puisqu'elle est entre 2 croissances moyennes entre 0.36 et 1.45 sans décrochage. Sa croissance relative à la moyenne de 36 %00 ne fait que 1.4 %, c'est la valeur la plus faible de ces groupes, proche de celle du groupe 7 de 1%. Ce groupe correspond aux critères recherchés ci-dessus avec les hypothèses sur les architectures, les mécanismes d'adaptation et les milieux. Une étude approfondie est nécessaire pour consolider ces 3 dernières hypothèses.
La référence à l'aléa n'est plus de mise: L'aléa nous a permis de constater que les taux des répétitions ne se faisaient pas au hasard et que ceux de A et T d'une part, et G et C d'autre part, se faisaient dans des gammes disjointes (c'est ce que j'appelais dissymétrie par rapport à l'aléa). Mais l'analyse fine de ces taux, qui nous a amené à l'hypothèse de la résonance, nous a montré que chaque valeur de ces taux correspondait à une adaptation génétique précise se manifestant par une architecture cellulaire distincte. Le hasard n'avait pas sa place dans la dynamique de ces répétitions. Aussi j'étudierai les états de résonance dans des groupes de procaryotes aux taux homogènes et non par rapport aux écarts relatifs à l'aléa.

Les états de résonance chez les autre-bactéries − 4.3.2.3

Les différents groupes − 4.3.2.3.1

Le groupe 7 ou ( G7,A39) des taux >4GC, on a vu, est homogène et lui correspond un seul groupe du taux >4AT, le groupe III qui contient 56 bactéries. En regroupant les bactéries suivant l'hypothèse de la résonance (voir chapitre précédent) sans faire référence à l'aléa, ce groupe contient 80 bactéries dont tme tde qui ne pouvaient plus être rangés avec des taux >4GC du groupe 2 avec leurs contenus en GC (%GC) élevés. Les moyennes de ce groupe (G7,A39) deviennent 6.6 et 39 au lieu de 6.8 et 35, mais j'ai gardé le nom (G7,A35) pour le fichier png. La représentation en diagramme de ce groupe donne une droite du taux >4AT en fonction du %GC avec une pente élevée de -2.9 et un R2 de 0.83. Les protéines donc de ce groupe (G7,A39) doivent avoir un taux de répétition de Lys et Phe (>4AT) qui diminue régulièrement de 90 %00 pour lat à 2 %00 pour rer, entre 36 et 68 %GC, en ayant toujours un taux >4GC moyen de 6.6 %00 ±1.4 %00 (3.78-9.77). 2 bactéries se détachent par leurs taux >4AT: tme (31.4,4.8,136) et tde (37.9,4.0,127). Ces protéines représenteraient la grande variété des enzymes du métabolisme central ainsi que les protéines en interaction avec les acides nucléiques (taux >4AT). Les protéines membranaires, contenant beaucoup de Pro pour les replier ne devraient pas changer beaucoup (taux >4GC) dans ce groupe. Tableau numérique des diagrammes, puce "groupage suivant l'hypothèse de la résonance".
Le groupe 2 a des taux >4GC parmi les plus faibles et recouvre les groupes V et IV du taux >4AT. Tableau numérique des diagrammes, puce "groupage suivant l'hypothèse de la résonance". Il est constitué de 2 sous-groupes aux contenus en GC différents
1. Le groupe (G2,A158): Il contient 22 bactéries. Contenus en GC entre 14 et 31 %GC. Les plus faibles contenus en GC (%GC) de ce groupe sont la plupart des symbiotes au génome court. Symbiotes : zin ^[3], crp ^[4], cru ^[4], wbr ^[5], sms ^[6] , ple ^[7], buc ^[8], rip ^[9], Autres : mcac ^[10], uur ^[11], fnc ^[12], asf ^[13], cbl ^[14]. Ce groupe se distingue par ses taux >4GC les plus faibles, 1.6 %00, au-dessus de l'aléa comme si les taux excessifs de >4AT étaient renforcés par la résonance des appariements plus solides des répétitions de G et C. Mais une interprétation du point de vue protéine, et non ADN, c'est que les membranes de ces symbiotes ayant disparues ^[15] les taux de >4GC observés sont ceux des protéines restantes rapportés à un ADN petit. Les taux excessifs >4AT sont dus à une symbiose très poussée. Ce groupe se distingue aussi du groupe de référence par la manifestation de la résonance représentée par le fort décrochage des taux >4AT.
2. Le groupe (G2,A86) : C'est le groupe 23 des écarts relatifs. Il contient 16 bactéries. Leur contenu en GC débute à 29 %GC en décalage net par rapport au groupe (G2,A158). Ils ont tous des taux >4GC sous l'aléa avec une moyenne de 2.1 %00, 3 fois plus petite que celle du groupe de référence, 6.6. Il fait suite au groupe de référence parce qu'il est sous l'aléa. Ses taux de >4AT sont modérés mais largement supérieurs à ceux de référence et il subit un décrochage au tout début du groupe 2, à 43 %GC. Aucun comportement lié au milieu ou à l'architecture n’apparaît à 1ère vue. Le décrochage des taux >4AT le différencie du groupe de référence. C'est du à la résonance des répétitions A et T. Les mécanismes de réparation ne semblent pas être sollicités comme dans le groupe (G2,A158).
Le diagramme des groupe 14 et 25 : voir le diagramme gc60 et les Tableaux numériques du diagramme, puce "groupage suivant l'hypothèse de la résonance". Ce diagramme réunit les groupes définis par les taux de >4GC compris entre 10 et 18 %00 (groupes G14) d'une part et ceux compris entre 20 et 33 %00 (groupes G25) d'autre part. Ces groupes ont un contenu en GC compris entre 47 et 75 %GC. J'ai ajouté le groupe Gr qui correspond au groupe de référence, (G7,A39) défini dans cet intervalle de %GC. Ceci nous permet d'observer l'étagement de 5 groupes. Le groupe G68, comprenant 12 bactéries et ayant des taux élevés de >4GC, réduirait l'échelle des 5 groupes précédents et rendrait l'observation difficile. Il sera décrit relativement à ce diagramme. Pour construire ce diagramme, avec Calc, il suffit de faire une colonne continue de %GC comme abscisse pour les 5 groupes, et de mettre dans des colonnes différentes les taux >4AT et >4GC de chaque groupe. J'ai défini ainsi 6 colonnes en plus du contenu %GC: >4AT, >4GC25, >4GC14, >4GCr, >4ATr, >4AT1. ">4AT" contient les taux >4AT des 2 groupes (G14,Ar) et (G25,Ar), le suffixe r pour référence, ayant un %GC compris dans la gamme 47-67 %GC comme le groupe Gr. ">4GC14" les taux >4GC des groupes (G14,Ar) et (G14,A1) et ">4GC25" ceux de (G25,Ar) et (G25,A1). ">4GCr et >4ATr" représentent les 2 taux du groupe Gr. ">4AT1" représente le taux >4AT des 2 groupes (G14,A1) et (G25,A1). J'obtiens ainsi 6 nuages de points dont 4 sont disjoints: les 3 nuages des taux G7, G14 et G25 ont des points minuscules pour ne pas encombrer le diagramme mais sont représentés par leurs courbes de tendance qui sont des droites légèrement inclinés; la disjonction de ces nuages a été définie par le groupage des taux >4GC. Le nuage du taux >4AT1 des 2 groupes A1 représenté par des billes est isolé et je n'ai pas représenté sa courbe de tendance. Les nuages de carrés bleus et rouges ne sont pas disjoints et se confondent même; ils représentent les taux >4AT réunis (bleu) des 2 groupes (G14,Ar) et (G25,Ar) d'une part et le taux >4ATr (rouge) du groupe (Gr,Ar). La courbe de tendance (rouge) de >4ATr est une droite dont l'équation (rouge) a une pente moins élevée que celle du diagramme (G7,A39), -2.32 contre -2.85, car la courbe globale des taux >4AT des 192 autre-bactéries est un polynôme de degré 3. La courbe de tendance (bleue) de >4AT est une droite dont l'équation (bleue) est quasi identique à celle des taux >4ATr. On montre ainsi que quelque soit le %GC le taux >4AT en général (groupes Ar, Gr et A1) suit une courbe de tendance polynomiale sans étagements. Alors que les taux >4GC ont 2 étages aux faibles taux de %GC et au moins 4 ( avec le groupe G68) aux forts taux de %GC. Je peux alors interpréter ces groupes comme suite, en attribuant le taux >4AT au métabolisme et le taux >4GC aux structures:
1. Le groupe (G14,Ar), 1er groupe en évolution vers les thermophiles, il renforce ses protéines par des répétitions ggg et ccc sans pour autant augmenter les protéines membranaires qui contiendraient plus d'aas aliphatiques.
2. Le groupe (G25,Ar), évolution plus poussée vers les thermophiles en augmentant comme (G14,Ar) les répétitions ggg et ccc. Est-ce qu'ils se diffèrent aussi par une augmentation des protéines membranaires?
3. Le groupe (G14,A1), le taux le plus élevé de %GC laisse penser que le taux de G14 doit correspondre à une augmentation des protéines membranaires.
4. Le groupe (G25,A1), le taux de >4GC double du précédent et le taux élevé de %GC laissent penser que les protéines membranaires acquises avec le groupe précédent se renforcent avec plus de répétitions ggg et ccc. Soit c'est une tendance vers la thermophilie, soit c'est une évolution vers une organisation de structures plus solides qui leur permettent de s'adapter à une plus grande variété de milieux, soit encore une augmentation du génome par des séquences non codantes et l'on se dirigerait vers la situation des eucaryotes qui commence avec les protistes comme la levure.
Le groupe 68 les thermophiles: voir le tableau numérique de ce groupes. Ses taux élevés en >4GC, ses taux en >4AT évoluant comme ceux des groupes G14 et G25, son contenu en %GC inférieur à 70 %GC et la taille faible des chromosomes (sauf pour sur) sont les caractéristiques des thermophiles résistant à la température.

Le code génétique défini par la résonance dans l'ADN − 4.3.2.3.2

Quand le %GC est très fort, aux alentours de 65 %GC (voir ci-dessus les groupes 14, 25 et 68), si la taille du chromosome est faible la résonance des >4AT sera renforcée par l'Asn accolée à la Lys et la Leu à la Phe, ces paires possédant en commun les 2 1ères bases, pour donner des répétitions supérieures à 4. Ce qui fait que la résonance crée un lien de corrélation dans l'ADN entre Lys/Asn et Phe/Leu. Comme je ne sais pas estimer la résonance des codons ayant les 2 1ères bases différentes par l'étude présente, j'émets alors l'hypothèse suivante: les aas à 2 codons seraient réunis par la résonance dans l'ADN. C'est ainsi qu'on observe un lien extraordinaire entre Asp et Glu qui sont les seuls anions parmi les 20 aas et qui ne diffèrent que par un CH2. Asn et Gln qui diffèrent aussi par un seul CH2, ayant une fonction beaucoup moins réactive ne sont pas liés dans l'ADN. La résonance, détectée dans cette étude, unit la Lys et l'Asn pour répondre à la résonance de l'ADN et non pour réunir 2 fonctions chimiques apparentées, dans les protéines. Les 2 1ères bases serviraient alors à réunir 2 résonances identiques.

Si on applique le même raisonnement pour les %GC très faibles aux alentours de 30%, les codons ccc et ggg ayant des effectifs de répétitions très faibles dans le groupe 7 de référence pourraient compenser leur résonance dans l'ADN avec les codons commençant par cc et gg. La conséquence de l'hypothèse précédente, c'est que la résonance des 2 1ères bases constituées que de G ou C étant affaiblie par l'appariement fort des paires GC, doit être plus faible que pour les 2 1ères bases ayant 1 ou 2 bases A ou T. Si, alors, on suppose que les codons commençant par cc,cg,gc,gg portaient 2 aas différents (par exemple ccc et cct pour la Pro et cca et ccg pour la Gly), cela voudrait dire que la résonance de ces codons l'emporterait sur l'appariement pour créer des liens de corrélations. Ce qui serait contradictoire avec l'affaiblissement de la résonance par l'appariement. Aussi pour compenser cette affaiblissement les codons commençant par cc,cg,gc,gg ne devraient coder que pour 1 seul acide aminé. On obtient alors 4 aas à 4 codons, mais on ne sait pas encore faire la correspondance entre aa et codon.
Outre les codons commençant par cc,cg,gc,gg qu'on vient de voir, je ne connais pas aussi la résonance des codons at,ta. Si on fait intervenir l'appariement comme précédemment, alors on peut dire que, l'appariement des paires AT étant plus faible que celui de la paire GC et équivalent entre AT et TA, les codons at,ta devraient avoir la même résonance que tt,aa et donc se comporter comme eux avec 2 aas pour at et 2 autres pour ta. Les codons taa et tag doivent avoir une résonance bien spéciale dans l'ARN pour servir de codon stop lors de la traduction. En tout cas la Tyr se trouve non lié par corrélation et l'Ile se trouve associée à la Met. Ce qui laisse penser que tout codon a une résonance spécifique.
Ce qui nous amène à considérer la résonance par rapport à la 2ème base des codons. Cette idée vient naturellement d'après les classements qu'on vient de faire et d'après le code qu'on connaît, attribué à l'ARN pour la traduction. La 3ème colonne du code ne contient que des paires d'aas associés aux codons ayant comme 2ème base A tel que la Lys. Donc la colonne 3 doit avoir "une forte résonance−un faible appariement" et les aas doivent être liés par corrélation dans l'ADN, sauf pour la Tyr. La colonne 2, elle, ne contient qu'un seul aa pour 4 codons ayant la même base en 1ère position et C en 2ème position tel que Pro. Donc la colonne 2 doit avoir "une faible résonance−un fort appariement".
Les colonnes 1 et 4 quoique contenant Phe (ttt) et Gly (ggg) ne sont pas homogènes. Ce qui m'a amené à considérer la 1ère base des codons. Il est évident que l'homogénéité des colonnes 2 et 3 rend la position de la 2ème base dominante, en terme de résonance et d'appariement, sur la 1ère base. Ce qui fait que les colonnes 1 et 4 ne sont pas homogènes par rapport à la résonance et l'appariement, et suivront la force des lignes. Comme pour les colonnes la ligne 1 a la force de t en 1ère position et se déclinera en "une résonance moyenne−un faible appariement" de même pour la ligne3. Les lignes 2 et 4 ont la force de c et g en 1ère position et se déclinera en "une faible résonance−un appariement moyen".

Le tableau suivant récapitule la répartition des forces d'appariement et de résonance. La notation rt.ag correspond à la résonance de la base t de la ligne (rt) et à l'appariement de la base g de la colonne (ag). rt est mis en gras pour montrer que c'est la force de la ligne qui domine. 1aa et 2aa veut dire que le carré de codons contient 1 ou 2 acides aminés.

rt.rt => 2aa	rt.ac => 1aa	rt.ra => 2aa	rt.ag => 2aa
ac.rt => 1aa	ac.ac => 1aa	ac.ra => 2aa	ac.ag => 1aa
ra.rt => 2aa	ra.ac => 1aa	ra.ra => 2aa	ra.ag => 2aa
ag.rt => 1aa	ag.ac => 1aa	ag.ra => 2aa	ag.ag => 1aa

On peut se demander pourquoi les 2 codes de l'ADN et de l'ARN sont identiques. Alors que l'ARN simple brin et la traduction directionnelle expliquent bien que le code est linéaire et a un sens, l'ADN est double brin et les réparations, que cela soit avec les protéines de réparation ou celles de recombinaison, peuvent se faire dans les 2 sens. On peut dire, d'abord que la dissymétrie de l'ADN avec un grand et un petit sillon permet d'avantager un brin sur l'autre, ensuite que la réplication, pendant laquelle se font les "mutations" silencieuses ou réparations, est directionnelle. Et même les réparations et les recombinaisons se font sur un seul brin sur de très courtes distances.

Certes ces caractéristiques physiques et topologiques pourraient expliquer la ressemblance avec la traduction. Mais dans le cas contraire cette explication provoque de toute façon une polémique car elle applique les concepts de l'ARN à l'ADN et tout au plus on pourrait dire que les caractéristiques décrites ci-dessus pourraient faciliter les réparations. L'explication doit se trouver dans la dynamique de l'ADN même. Cette dynamique met en œuvre sa résonance qui est propre à elle et diffère radicalement de la résonance de l'ARN basée sur un simple brin. Pour trouver une direction de réparation il faut se rappeler le choix du brin à transcrire par la polymérase. La polymérase est aidée par un grand nombre de facteurs de transcription. Mais le choix se fait à partir de la résonance locale de l'ADN et de la séquence en aval à transcrire. Résonance locale et séquence sont intimement liées par l'appariement, mais la force pour désapparier et casser un des 2 brins dépend de la dissymétrie des répétitions sur les 2 brins comme on l'a vu dans les répétitions longues. Et nous retrouvons encore le lien entre résonance et répétitions. Une fois le brin cassé, le sens de la transcription se fait du côté qui provoque le moins de contraintes. Les mécanismes de réparation, de recombinaison et la réplication doivent suivre les mêmes principes. Ce qui veut dire que les réparations se font dans le même sens que la traduction sans pourtant qu'il y ait transfert d'organisation (lors de la transcription on parle de transfert d'information).
La 3ème base du codon. Pourquoi le code de l'ADN dans les gènes de protéines serait-il de 3 aussi? Et encore c'est la résonance électronique de l'ADN qui peut expliquer un code à 3 bases dans l'ADN. En effet la résonance électronique est un phénomène ondulatoire, ou plutôt quantique, parce qu'il est sous-tendu par les électrons et la longueur d'onde la plus petite, donc la plus énergétique, dans l'ADN est constituée de 3 bases: une base au milieu, figurant le ventre de l'onde, et les 2 bases de part et d'autre, figurant les 2 nœuds. Seulement l'ADN étant long et linéaire, va être parcourue par diverses ondes de longueurs différentes et faisant intervenir plus de 3 bases, traduisant les résonances locales et la dynamique de l'ADN. Le sens de réparation empreinte ces ondes et différencie donc un nœud par rapport à l'autre. La 3ème base aura aussi une résonance et une force d'appariement. Mais sa résonance est la plus faible, se trouvant en 3ème position par rapport à la dynamique ondulatoire de l'ADN, et relativement aux mécanismes de réparation elle agira par son encombrement stérique comme dans l'ARN pendant la traduction.
Précision (16.12.16) après correction sur ce dernier point: − − − la résonance forte distingue entre a,g et t,c et confond a,t et g,c par appariement. Ce qui crée le lien entre Lys et Asn dans l'ADN. Alors que la traduction et les réparations dans l'ADN confondent c,t et a,g par encombrement stérique. La résonance faible accompagnée d'un appariement fort de la 2ème base puis de la 1ère ne permet pas de distinguer les bases en 3ème position, ce qui donne 4 codons pour un seul acide aminé. Dans cette réflexion, pour qu'il y ait moins de confusion, il ne faudrait plus parler d'aas au niveau de l'ADN mais des 2 premières bases seulement puisque la résonance ne distingue pas entre a,t et entre g,c. Ce qui donne pour une résonance forte 2 fois 2 triplets de même poids, 2 triplets xx(a,t) et 2 triplets xx(g,c) pour un doublet xx donné en 1ère et 2ème position; Et pour une résonance faible accompagnée d'un appariement fort 4 triplets de même poids xx(a,t,g,c). L'affectation d'un aa à un triplet s'est faite aux PEEMOV pendant l'évolution de l'ensemble, aas libres et monomères d'ARN libres, vers la machinerie ribosomale. Voir dans wiki les variantes du code génétique− − −
La conséquence de ce code dans l'ADN pour les gènes de protéines, c'est que ces gènes demanderaient de fortes contraintes, imposées par l'organisation, pour se constituer. Mais une fois constituées ces gènes sont conservés par la dynamique de l'ADN. Ils peuvent être transportés d'un chromosome à l'autre, manipulés par des mécanismes puissants comme le splicing et surtout être maintenu et conservés par les mécanismes de réparation. Ces gènes ont dus être construits dans les PEEMOV.
Dans ce code chaque triplet a sa résonance propre, combinaison des 3 résonances des 3 bases, son appariement propre somme des 3 appariements des 3 bases. Donc chaque triplet aura une fréquence d'apparition dans le gène de la protéine qui dépendra de sa résonance propre et de la résonance du gène entier.
Note du 3.12.16. Définition du code dans l'ADN par l'interaction des 2 nuages électroniques de 2 paires de bases adjacentes. En tenant compte que les réparations et les manipulations de l'ADN par ses protéines se font dans une direction donnée, ce qui revient à ne traiter qu'un seul brin à la fois, le code est le même que celui sur l'ARN, mais dans ce cas c'est l'intervalle entre les 2 paires bases qui sert de repaire et non une paire de bases. Si maintenant on part de la 1ère paire de base, le 3ème nuage électronique en interaction avec la 4ème paire de base n'est pas borné. Si maintenant les protéines de l'ADN glissent vers cette 4ème paire de bases, le code basé sur les intervalles reste toujours le même mais le code basé sur les paires de bases est déplacé d'un cran et l'ancienne 2ème base (colonne) devient une 1ère base (ligne). Ainsi avec les 4 bases de la 4ème position un codon correspondra à 1 carré de codons de la ligne correspondante. A la colonne 1 correspond la ligne 1, et respectivement colonne 2 ligne 2, colonne 3 ligne 3 et colonne 4 ligne 4. Nous retrouvons là les forces décrites précédemment, notamment colonne 2 (avec 4 aas à 4 codons) ligne 2 (avec 3 aas à 4 codons), colonne 3 (avec 7 aas et stop à 2 codons) ligne 3(avec 4 aas à 2 codons, 1 à 1 seul codon, 1 à 3 codons et 1 à 4 codons). Reste les 4 coins du tableau.

Les états de résonance chez les archées et les cyanobactéries − 4.3.2.4

Pour pouvoir comparer les états de résonance entre autre-bactéries, cyanobactéries, euryarcheota et crenarcheota j'utilise des données quantitatives des groupes consignées dans les 8 tableaux qui suivent ainsi que les diagrammes des répétitions en fonction du contenu en GC pour mieux illustrer les changements. Les liens aux diagrammes sont consignés dans un tableau à 8 cellules à la suite des données quantitatives, pour pouvoir naviguer aisément.
Il faut se reporter au tableau de la constitution des groupes à progression homogène des autre-bactéries au chapitre 3.4.3.1.5 pour les définitions et la délimitation des groupes chez les cyanobactéries et les archées. Quand les effectifs sont faibles, comme chez les crenarcheota avec 20 seulement, les points de ruptures pourraient être élevés et rapprochés. Aussi pour les groupes III des crenarcheota et des euryarcheota j'ai du utiliser les valeurs semblables trouvées chez les autre-bactéries. Seulement cette coïncidence entre les 2 mêmes groupes pose le problème suivant: est-ce une caractéristique des archées ou cela est du à l’échantillonnage? D'autant plus qu'apparaît un 6ème groupe chez les 2 archées, le groupe VI. Nous reviendrons sur ce point pendant les comparaisons.
J'ai déjà comparé ces 4 groupes de procaryotes avec les courbes de tendances des diagrammes au chapitre 3.4.6.2. J'ai pu dégager la ressemblance entre autre-bactéries et euryarcheota qui différent seulement par un léger déplacement des 2 courbes. Mais si les courbes des 2 taux >4GC des cyanobactéries et des autre-bactéries sont nettement différentes, celles des taux >4AT semblent être confondues. Les tableaux quantitatifs ci-dessous, basés sur les groupes à progression homogène ou groupe de résonance, vont nous permettre de mieux cerner la résonance d'un groupe qu'on pourrait mettre en parallèle avec son architecture cellulaire ou son environnement.

Tableau des groupes à progression homogène − 4.3.2.4.1

Tableau des groupes à progression homogène chez les archées. Effectué à partir des tableaux numériques correspondants.

crenarcheota    groupes de >4AT à progression homogène          |       groupes de >4GC à progression homogène                            
nom             VI      V       IV      III     II      I       |       68      25      14      7       2
                                                                |                                       
min             60.49   44.13   22.98   12.57   5.64    3.96    |       35.80   21.91   11.42   4.40    2.42
max             90.91   47.52   34.84   18.44   10.23   −       |       40.50   29.51   14.51   6.72    −
effectif        3       2       3       3       8       1       |       2       5       6       6       1
moyenne         79.2    45.8    28.7    15.4    7.5     −       |       38.1    25.9    13.1    5.4     −
Pas             26.4    22.9    9.6     5.1     0.9     −       |       19.1    5.2     2.2     0.9     −
Pas %           33.3    50.0    33.3    33.3    12.5    −       |       50.0    20.0    16.7    16.7    −
                                                                |                                       
rupture         60.49   44.13   22.98   12.57   5.64    −       |       35.80   21.91   11.42   4.40    −
                47.52   34.84   18.44   10.23   3.96    −       |       29.51   14.51   6.72    2.42    −
Rupture %       21.4    21.0    19.8    18.6    29.8    −       |       17.6    33.8    41.2    44.9    −
%GC max         37.47   35.79   51.36   57.67   59.66   54.91   |       56.52   59.66   54.91   45.43   34.15
%GC min         30.03   35.73   35.69   45.34   43.10   −       |       56.31   51.36   43.10   30.03   −
Plage %         7       0       16      12      17      −       |       0       8       12      15      −
                                                                |                                       
****    ****    ****    ****    ****    ****    ****    ****    |       ****    ****    ****    ****    ****
                                                                |
Euryarcheota    groupes de >4AT à progression homogène          |       groupes de >4GC à progression homogène                            
nom             VI      V       IV      III     II      I       |       68      25      14      7       2
                                                                |                                       
min             100.94  75.38   36.16   9.29    3.88    1.94    |       23.39   17.36   6.72    3.47    1.45
max             129.84  81.55   58.52   30.15   6.49    3.29    |       28.57   20.79   15.25   5.83    2.22
effectif        7       5       16      11      11      7       |       2       6       32      13      4
moyenne         115.4   79.4    47.1    19.8    5.2     3.0     |       26.0    18.6    10.1    4.5     1.8
Pas             16.5    15.9    2.9     1.8     0.5     0.4     |       13.0    3.1     0.3     0.3     0.5
Pas %           14.3    20.0    6.3     9.1    9.1     14.3     |       50.0    16.7    3.1     7.7     25.0
                                                                |                                       
rupture         129.84  100.94  75.38   36.16   9.29    3.88    |       28.57   23.39   17.36   6.72    3.47
                −       81.55   58.52   30.15   6.49    3.29    |       −       20.79   15.25   5.83    2.22
Rupture %       −       19.2    22.4    16.6    30.1    15.2    |       −       11.1    12.1    13.2    35.9
%GC max         33.10   42.68   54.51   60.64   66.64   67.91   |       60.64   67.91   66.72   47.86   35.97
%GC min         27.63   35.83   39.16   45.99   53.74   64.15   |       58.30   49.54   32.30   29.30   27.63
Plage %         5       7       15      15      13      4       |       2       18      34      19      8

Tableau des groupes à progression homogène chez les bactéries. Effectué à partir des tableaux numériques correspondants des autre-bactéries et des tableaux numériques correspondants des cyanobactéries.

cyanobactéries  groupes de >4AT à progression homogène  |       groupes de >4GC à progression homogène                            
                                                        |                                       
nom             V       IV      III     II      I       |       68      25      14      7       2
                                                        |                                       
min             116.20  93.41   50.59   12.20   2.03    |       44.85   31.76   18.57   5.24    1.99
max             121.27  99.18   76.39   43.85   2.03    |       −       37.20   26.17   15.63   4.08
effectif        4       5       24      15      1       |       1       4       7       29      8
moyenne         119.78  96.43   58.11   28.14   2.03    |       44.8    34.0    22.3    9.2     3.1
Pas             29.9    19.3    2.4     1.9     −       |       −       8.5     3.2     0.3     0.4
Pas %           25.0    20.0    4.2     6.7     −       |       −       25.0    14.3    3.4     12.5
                                                        |                                       
rupture         121.27  116.2   93.4    50.6    −       |       44.85   44.85   31.76   18.57   5.24
                −       99.2    76.4    43.9    −       |       −       37.20   26.17   15.63   4.08
Rupture %       −       14.7    18.2    13.3    −       |       −       17.0    17.6    15.9    22.1
%GC max         31.34   34.96   49.63   62.00   68.71   |       68.71   60.24   62.00   55.48   43.27
%GC min         30.80   31.12   35.95   43.27   −       |       −       47.72   42.33   33.34   30.80
Plage %         1       4       14      19      −       |       −       13      20      22      12
                                                        |                                       
****    ****    ****    ****    ****    ****    ****    |       ****    ****    ****    ****    ****
                                                        |
Autre-bactéries groupes de >4AT à progression homogène  |      groupes de >4GC à progression homogène                             
                                                        |                                       
nom             V       IV      III     II      I       |       68      25      14      7       2
                                                        |                                       
min             122.0   60.8    23.22   3.01    0.25    |       38.05   20.94   10.82   4.81    0.25
max             330.8   111.7   51.50   19.72   2.45    |       116.27  33.42   17.47   9.77    4.42
effectif        19      35      56      47      35      |       12      31      31      74      44
moyenne         174.9   80.9    35.8    8.7     0.8     |       68.5    25.3    13.8    6.8     2.1
Pas             10.99   1.45    0.50    0.36    0.06    |       6.52    0.40    0.21    0.07    0.09
Pas %           6.3     1.8     1.4     4.1     8.3     |       9.5     1.6     1.6     1.0     4.5
                                                        |                                       
rupture         330.8   122.0   60.8    23.3    3.0     |       116.0   38.1    20.9    10.8    4.8
                −       111.7   51.5    19.7    2.4     |       −       33.4    17.5    9.8     4.4
Rupture %       −       9.2     18.0    18.3    22.8    |       −       13.9    19.9    10.8    8.8
%GC max         39.16   44.21   59.11   69.09   74.91   |       70.02   74.20   74.91   68.15   56.77
%GC min         13.54   28.26   42.02   53.81   62.31   |       62.36   56.51   47.60   31.40   13.54
Plage %         26      16      17      15      13      |       8       18      27      37      43

Liens aux diagrammes − 4.3.2.4.2

Tableau des diagrammes

Autre-Bactéries >4AT

Cyanobactéries >4AT

Euryarcheota >4AT

Crenarcheota >4AT

Autre-Bactéries >4GC

Cyanobactéries >4GC

Euryarcheota >4GC

Crenarcheota >4GC

Autre-bactéries / Cyanobactéries − 4.3.2.4.3

Avec son effectif élevé de 49 bactéries et un diagramme des >4GC nettement différent de celui des autre-bactéries la comparaison des cyanobactéries avec ces dernières permet de mettre à l'épreuve l'utilisation des paramètres de progression homogène des groupes. Ceci facilitera l'utilisation de ces paramètres pour les autres comparaisons qui sont moins contrastées ou avec de faibles effectifs.

Comparaison des groupes définis par les taux >4GC.

Le paramètre moyenne: les moyennes des 4 premiers groupes des cyanobactéries sont supérieures de 50% par rapport à celle des autre-bactéries notamment pour le groupe 7 dont les effectifs sont élevés.
Le paramètre pas, progression moyenne entre 2 bactéries consécutives et son rapport relatif à la moyenne. Il est multiplié par 4 pour les 3 1ers groupes et par 20 pour le 4ème. Le pas relatif suit aussi la même progression.
Le paramètre plage, étendue en %GC du groupe. La différence est très élevée au premier groupe décroit rapidement jusqu'au 4ème groupe où elle n'est plus que de 50%. Les plages des cyanobactéries pour ce taux de >4GC sont du même ordre de grandeur que ceux du taux >4AT. Cela veut dire, comme on l'a détaillé dans les taux >4AT, que la progression est rapide et que le diagramme est homogène.

−. Si maintenant on considère le tableau des cyanobactéries dans son ensemble par rapport à celui des autre-bactéries, les valeurs des taux >4GC sont équivalentes mais celles des cyanobactéries sont déplacées vers des contenus en GC (%GC) plus grands, sur une étendue en %GC plus faible et démarrant à un %GC très élevé ( 31 %GC contre 14 pour les autre-bactéries).

−. Par ailleurs le diagramme des autre-bactéries contient une hétérogénéité à 68 %GC, alors que celui des cyanobactéries est homogène.

Comparaison des groupes définis par les taux >4AT.

Le paramètre moyenne: La moyenne du groupe II des cyanobactéries est multipliée par 3 avec un effectif élevé de 30%. Celle du groupe III reste élevée avec 50% de plus que les autre-bactéries et un effectif de 50%. Ensuite la différence s'estompe et les autre-bactéries dépassent les cyanobactéries qui s'arrêtent avec un contenu en GC de 31 %GC. Ces taux de >4AT élevés des cyanobactéries étaient peu visibles dans la comparaison des courbes de tendance, fonction puissance et polynôme degré 3.
Le paramètre pas, progression moyenne entre 2 bactéries consécutives et son rapport relatif à la moyenne. Les pas des cyanobactéries sont multipliés par plus de 3 dans tous les groupes sauf le groupe I réduit à un effectif de 1. Ce qui dénote une progression relative, forte et régulière. On retrouve la même différence relative que pour les taux >4GC.
Le paramètre plage, étendue en %GC du groupe. Les différences sont moins explicites mais le groupe III des cyanobactéries avec 50% des effectifs a une étendue 20% plus faible.

−. Si maintenant on considère le tableau des cyanobactéries dans son ensemble par rapport à celui des autre-bactéries, les taux >4AT sont équivalents mais pour les cyanobactéries la progression est relativement très forte sur une étendue en %GC moitié des autre-bactéries (31% contre 61%). Nous retrouvons le déplacement d'ensemble des valeurs comme pour les taux de >4GC, mais ici dans le sens des %GC décroissant conformément à la progression des taux >4AT en général.

−. Par ailleurs les 2 diagramme sont homogènes.

L'architecture cellulaire des cyanobactéries et leur résonance.

Jusque là j'attribuais l'homogénéité des courbes des cyanobactéries au fait qu'ils appartiennent à un sous-groupe de bactéries avec une caractéristique commune, la photosynthèse. Seulement les articles que j'ai pu lire dans wikipédia, Les hyperthermophiles et Les cyanobactéries laissent penser qu'il y aurait autant d'hétérogénéité que chez les autre-bactéries et qu'il y a aussi des thermophiles qui constituent l'hétérogénéité principale du diagramme >4GC des autre-bactéries.
Je penses maintenant que le fait que les cyanobactéries soient un sous-groupe des bactéries se manifeste par la gamme restreinte des contenus en GC (38 %GC contre 61%);
que le comportement exemplaire des cyanobactéries dans leurs diagrammes >4AT et >4GC est du à leur organisation interne qui permet la photosynthèse;
que c'est l'architecture cellulaire propre à la photosynthèse qui crée une contrainte permanente et régulière sur les processus qui régissent le contenu en GC (%GC) ce qui produit une résonance homogène et élevée que l'on observe dans les diagrammes.
En résumé nous pouvons dire que le changement global, simultané et fort sur les 2 diagrammes est en relation directe avec le changement d'architecture entre autre-bactéries et cyanobactéries.

Autre-bactéries / Euryarcheota − 4.3.2.4.4

Avec son effectif élevé de 57 archées la comparaison aves les autre-bactéries reste encore faisable malgré des courbes >4AT assez proches.

Comparaison des groupes définis par les taux >4GC.

Le paramètre moyenne: A part le groupe 2, les 4 autres groupes sont décalés vers le groupe supérieur. Ce qui fait que leurs moyennes diminuent de 50% environ.
Le paramètre pas, progression moyenne entre 2 bactéries consécutives et son rapport relatif à la moyenne. A part le groupe 14 qui a un pas qui augmente seulement de 30% les autres groupes ont des pas multipliés par au moins 2. Les pas relatifs sont encore plus prononcés et pour tous les groupes.
Le paramètre plage, étendue en %GC du groupe. C'est ce paramètre qui explique ces fortes progressions avec des valeurs si faibles. C'est que l'étendue globale est réduite de 61 %GC pour les autre-bactéries à 40% seulement pour les euryarcheota. Sinon l'étendue du groupe 14 est équivalente à celle du groupe 7 des autre-bactéries. Par ailleurs la position des groupes est déplacée vers les contenus en GC plus faibles tout en démarrant à 28% alors que les autre-bactéries démarrent à 14%.

−. Si maintenant on considère le tableau des euryarcheota dans son ensemble par rapport à celui des autre-bactéries, les valeurs des taux >4GC sont équivalentes mais celles des euryarcheota sont déplacées vers des contenus en GC (%GC) plus faibles, ce qui fait que entre 30 50 %GC des taux de >4GC dépassent l'aléa.

−. Par ailleurs le diagramme des autre-bactéries contient une hétérogénéité à 68 %GC, alors que celui des euryarcheota semble en avoir une qui démarerait vers les 60 %GC avec l'archée mbg, conformément au déplacement vers les %GC plus faibles.

Comparaison des groupes définis par les taux >4AT.

Le paramètre moyenne: Comme pour les taux >4GC et de façon plus prononcée, à part le groupe I, les 4 autres groupes sont décalés vers le groupe supérieur. Ce qui fait que leurs valeurs sont divisées par 2 à peu près. Et comme le taux >4AT est très élevé en général par rapport à celui dde >4GC apparaît un 6ème groupe qui approche, sans la dépasser, la moyenne du groupe V des autre-bactéries.
Le paramètre pas, progression moyenne entre 2 bactéries consécutives et son rapport relatif à la moyenne. On se retrouve pour les 2 paramètres, et toujours de façon plus prononcée à cause de la relativité entre >4AT et >4GC, dans la même situation qu'avec le tableau des >4GC.
Le paramètre plage, étendue en %GC du groupe. Même effets des pas et des moyennes, donc même interprétation que pour les >4GC. Les plages sont équivalentes entre les 2 tableaux >4AT et comme l'étendue globale en %GC démarre à 68 %GC au lieu de 75 %GC des taux en dessous de l'aléa apparaissent.

Modulation de la résonance par la membrane des archées.

Comme pour les cyanobactéries, l'appartenance à un sous-groupe des archées, les euryarcheota se caractérisent par une gamme de contenu en GC restreinte ( 40 %GC contre 61% pour les autre-bactéries ).
Le diagramme >4GC des euryarcheota présente une amorce d’hétérogénéité comme les autre-bactéries. Effectivement, comme elles, les euryarcheota sont constitués de sous-groupes qui diffèrent beaucoup entre eux par des modes de vies très variées passant des conditions normales comme les méthanogènes aux conditions extrêmes tels que les halophiles et les hyper-thermophiles. Les conditions extrêmes des euryarcheota dépassent de loin celles des cyanobactéries et on s'attend donc à trouver des taux de >4GC à 60 %GC aussi élevés que ceux des thermophiles des autre-bactéries ( bactérie tos ) à 68 %GC.
Si les cyanobactéries diffèrent drastiquement par leur diagramme >4GC des autre-bactéries, les 2 diagrammes >4GC et >4AT des euryarcheota et des autre-bactéries sont semblables et ne diffèrent que par un faible déplacement le long de l'abscisse. Ceci est renforcé par la gamme du contenu en GC plus large pour les euryarcheota que les cyanobactéries. C'est ce qu'on appelle une modulation: la résonance produite par l'interaction avec le milieu extérieur est affaiblie mais ne change pas de nature comme avec les cyanobactéries.
Cette modulation je l'attribue à la différence de nature de la membrane des archées de celle des bactéries. La membrane sert d'intermédiaire entre l’architecture interne et le milieu extérieur. D'où son rôle modulateur. Alors que les cyanobactéries, elles, ont un changement d'architecture très importants puisqu'il s'agit de la production de l'énergie.
La conséquence de la modulation par la membrane c'est que les archées peuvent avoir une même résonance interne ( taux de >4GC ) dans des conditions plus drastiques que les bactéries.

Les Crenarcheota − 4.3.2.4.5

J'ai déjà analysé les courbes des autres archées qui contenaient les crenarcheota (>4AT et >4GC), pensant que leurs effectifs étaient faibles. Mais depuis l'analyse précédente de la résonance chez les cyanobactéries et suivant les diagrammes des autres archées, il m'est apparu qu'il fallait d'abord traiter des caractéristiques extraordinaires des diagrammes sans tenir compte de la petite taille de l'effectif des crenarcheota.

Les caractéristiques extraordinaires des diagrammes

Le diagramme >4AT: la courbe de tendance se confond presque avec la courbe de l'aléa. Celles des autre-bactéries et cyanobactéries s'en détachent complètement et celle des euryarcheota donne, aux grandes teneurs en GC, timidement quelques taux sous l'aléa. J'attribuais cela, dans autres archées, à l'hétérogénéité et aux faibles effectifs. Mais le contraste entre les diagrammes des cyanobactéries (grande homogénéité des >4AT et ressemblance des >4GC avec l'aléa) et la ressemblance entre leur diagramme >4GC et celui des autres archées ( avec des courbes de tendance proche de celle de l'aléa) m'ont convaincu que la courbe >4AT des crenarcheota, qu'on discerne dans autres archées, les caractérisait bien. Aussi j'ai refait les diagrammes des crenarcheota seuls.
Les 2 diagrammes, >4AT et >4GC des crenarcheota sont semblables. Cette caractéristique découle de la précédente, mais le fait de la révéler, elle devient extraordinaire. Pourquoi? Parce que la dissymétrie très prononcée entre diagramme >4AT et >4GC, chez les autre-bactéries, nous avait posé le problème du rôle de la Pro dans les protéines ( voir synthèse chez les procaryotes chapitre 3.4.6.1 point 2, et hypothèse de la résonance chapitre 4.3.1.1). La similitude entre les 2 diagrammes des crenarcheota rend caduc le problème de la Pro: Lys/Phe et Pro/Gly sont maintenant sur le même pieds d'égalité. Du coup l'argumentation pour l'hypothèse de la résonance dans l'ADN se trouve très renforcée. Bizarrement c'est en se rapprochant de l'aléa qu'on se rend compte que les répétitions des bases dans l'ADN des procaryotes est une contrainte majeur de l'architecture dynamique de la cellule et que s'en est une autre aussi, je suppose, pour le retour vers lui.

Les groupes définis par les taux >4AT

Les crenarcheota se comportent, avec les taux >4AT, comme tous les autres procaryotes du point de vue groupage et de l'étendue des plages de ces groupes. Ceci conforte la réalité de leur caractéristique qui ne serait pas liée à de l'hétérogénéité. L'étendue des plages des groupes est la plus commune entre les 4 études: en dehors des effets de bord nous avons 13-17% pour les autre-bactéries, 4-19% pour les cyanobactéries, 7-15% pour les euryarcheota et 7-17% pour les crenarcheota. Pour le groupage, les crenarcheota ont un 6ème groupe comme les euryarcheota. Peut-être c'est là la trace de la modulation de la résonance par la membrane.
Par contre les crenarcheota diffèrent de tous les autres par des moyennes très faibles des groupes, et surtout avec les euryarcheota qui sont encore plus faibles que les autre-bactéries eux-même plus faibles que les cyanobactéries. Les groupes III à VI sont diminués respectivement de 25, 62, 76 et 46% par rapport à ceux des euryarcheota. C'est à peu près du même ordre de changement entre autre-bactéries et cyanobactéries pour les taux >4AT. Mais alors que l’augmentation chez les cyanobactéries touche les 2 taux >4AT et >4GC, chez les crenarcheota la diminution ne touche que les 1ers alors que les seconds augmentent comme les cyanobactéries. Nous avons à faire ici à un nouveau changement dans la résonance de nature tout à fait différente de celle de l'architecture énergétique des cyanobactéries et de celle de la modulation par la membrane. Il faut peut être ajouter à ce changement, aussi, le fait qu'il varie graduellement du groupe II où le taux >4AT augmente par rapport aux euryarcheota et diminue de plus en plus vers les autres groupes. Cette augmentation n'a pas son équivalent en diminution entre autre-bactéries et cyanobactéries.

Les groupes définis par les taux >4GC

Les crenarcheota se comportent pour ce taux comme les cyanobactéries vis à vis des autre-bactéries. La comparaison est valable entre archées, comme elle l'est entre bactéries. Nous retrouvons la forte augmentation du taux entre euryarcheota et crenarcheota comme entre autre-bactéries et cyanobactéries, modulée ici par la membrane des archées. Par rapport au taux >4AT la modulation est bien nette parce que la diminution du taux >4GC du à la modulation contraste avec l'augmentation de ce taux. Ce qui fait que nous retrouvons à peu près les mêmes taux que chez les autre-bactéries. On a respectivement pour les groupes 7 14 25 et 68 (6.8, 13.8, 25.3, 68.5) pour les autre-bactéries contre (5.4, 13.1, 25.9, 38.1) pour les crenarcheota.
Pour les étendues des plages les crearcheota se comportent vis à vis des euryarcheota comme les cyanobactéries vis à vis des autre-bactéries. Nous aboutissons alors à des étendues de plage et à des taux >4AT et >4GC semblables sauf peut-être pour le groupe VI des >4AT, et à des diagrammes semblables comme on l'a signalé ci-dessus.

Un nouveau processus intervient dans la formation du contenu en GC chez les crenarcheota

La similitude entre les 2 taux laisse penser qu'on à faire à un seul processus à l'origine de ces changements. Ce processus contraindrait les changements et simulerait des changements aléatoires ou plutôt apporterait une grande plasticité dans l'adaptation génétique. C'est une évolution majeure pour la résonance dans l'ADN et surtout dans les gènes de protéines (Voir le code génétique dans l'ADN au chapitre 4.3.2.3.2, puce 2 ordre 4).
J'avais alors stipulé que les gènes des protéines étaient formés une fois pour toute aux PEEMOV et devaient avoir une forte résonance due au code génétique à 3 bases dans l'ADN. Comme tout phénomème vibratoire ces gènes doivent avoir un spectre de résonance qui n'admet que certaines fréquences. Les processus de maintenance de ces gènes, à l'origine de la variation en contenu GC, reproduisent ce spectre. Les bactéries et les euryarcheota ont maintenu ce spectre d'où les dissymétries entre les taux >4AT et >4GC. Par contre les crenarcheota semblent accéder aux fréquences interdites ce qui rapproche leurs taux de l'aléa.
Le processus qui permet aux crenarcheota d'accéder aux fréquences interdites, serait à mon avis, l'équivalent de l'épissage ou splicing. Ce processus doit se faire en dehors de l'ADN qui interdit ces fréquences tout en partant de séquences produite par lui. Ceci est fait par l'intermédiaire de l'ARN messager dans le splicing: quand il réunit 2 exons dont la résonance est originaire de l'ADN, il crée une séquence d'ARN dont l'image dans l'ADN aurait une résonance avec une fréquence interdite. Seulement ce que nous mesurons avec les répétitions c'est dans l'ADN et les spectres d'origine sont toujours là. Pour que ces spectres admettent des fréquences interdites, et si on admet par ailleurs que la mutagenèse n'intervient pas dans ce phénomène, il me semble qu'un processus équivalent à l'épissage mais qui réintègre le spectre modifié dans l'ADN serait une modification dans les éléments mobiles comme les transposons et les plasmides. La différence de comportement des répétitions dans les plasmides entre les cyanobactéries et les autre-bactéries, au chapitre 3.4.4.4.1 va dans ce sens. Mais des études plus approfondies surtout avec les plasmides et les transposons des crenarcheota seraient les biens venues.
Les crenarcheota sont ubiquitaires et peuvent être extrêmophiles ou vivre dans les sols ou les milieux marins. Ils ont été cultivés à 28°C. Ils ont été distingués des euryarcheota, au début, par leur manque d'histones mais certains en produisent. L'hypothèse eocyte suggère depuis 1980 que les eucaryotes dériveraient des crenarcheota. En 2008 l'article suivant du PNAS traite encore de l'origine archéale des eucaryotes [24]. Il faut pousser cette recherche pour savoir si le manque d'histones ou bien une caractéristique analogue à l'épissage chez les eucaryotes sont à l'origine des taux de répétitions chez les crenarcheota. Dans la base de données KEGG seulement 4 crenarcheota sur 61 possèdent 1 plasmide chacun: tpe, sin, sii, pog.

Les résonances locales et les résonances de groupe − 4.4

29.12.16 Paris

A la suite de l'hypothèse de la résonance j'ai employé plusieurs fois les notions de résonance locale et de la résonance d'une séquence de bases dans l'ADN ( 4.3.1.3, 4.3.2.1, 4.3.2.2, 4.3.2.3.2-1 et 4.3.2.3.2-2). C'est ainsi que j'ai attribué une longueur d'onde minimale aux triplets constituant le code génétique de l'ADN préfigurant celui de l'ARN. Mais comme la résonance de l'ADN est basée sur les nuages électroniques des paires de base côte à côte, ces nuages interagissent entre eux et constituent un continuum vibrant, ou ondulant, où s'établiront des zones vibrantes stationnaires avec l’équivalent de 2 nœuds et un ventre comme on l'a décrit pour le triplet à longueur d'onde minimale.

Les résonances locales dans cette étude −4.4.1

Les gènes de protéines: Les 2 nœuds de la résonance des séquences de ce type ne sont pas les codons d'initiation et de stop qui se trouvent dans l'ARNm, mais ce sont la séquence du promoteur placée en amont du codon d'initiation de la transcription du 1er gène d'un opéron et la séquence du terminateur en aval du codon stop de la transcription du dernier gène du même opéron. Ces 2 séquences servent d'initiation et de terminaison de la transcription. Remarquons que ces 2 séquences ne sont pas reconnues comme telles par la réplication, et donc que chaque protéine en interaction avec l'ADN est sensible à une résonance déterminée. Le ventre de résonance d'un gène protéique est constitué par la composition des résonances de tous ses triplets de mêmes celui de l'opéron est la composition des résonances de tous ses gènes. Aussi la particularité des gènes protéiques ce sont ses triplets et les mécanismes qui modifient le contenu en GC de l'ADN doivent produire un spectre particulier des répétitions que nous avons étudiées. C'est l'ensemble de ces spectres qui domine dans les diagrammes >4AT et >4GC en fonction du %GC puisque les génomes des procaryotes sont constitués de plus de 80% de gènes de protéines.
Les gènes des rRNAs: Chez les procaryotes il y a une seule ARN polymérase alors que chez les eucaryotes l'ARN polymérase I est spécialisée dans la transcription des ARNr. Cela veut dire que chez les eucaryotes les ARN polymérases différencient entre la résonance des ARNr et le reste. Le spectre des répétitions que nous avons étudiés sur les ARNr des autre-bactéries sont complètement différents de ceux des génomes de ces autre-bactéries. Ceci veut dire que les enzymes de réparations et notamment les réplicases reconnaissent leur résonance et la maintiennent, alors que la transcriptase ne le fait pas. Les gènes des ARNr et ARNt se retrouvent aussi dans des opérons comme les gènes protéiques. Ces opérons devraient se comporter comme ceux des gènes protéiques avec un promoteur et un terminateur.
Les plasmides: Ce sont des ADN autonomes grâce à leur origine de réplication mais utilisent les protéines de réplication et de réparation de l'hôte. Ils sont, pour la plupart, circulaires et doivent posséder une résonance propre semblable à celle du chromosome de l'hôte à la seule différence de la longueur. Et si on admet que la longueur d'onde de résonance de l'ADN entier (chromosome ou plasmide) est proportionnelle à sa longueur, alors il est possible que le spectre des répétitions des bases soit différent de l'hôte et qu'il puisse avantager certains triplets par rapport à l'hôte. C'est l’hypothèse que j'avais proposée pour le diagramme des crenarcheota qui auraient acquis ces triplets après incorporation des transposons ou d'autres éléments mobiles dans le chromosome de l'hôte. Les éléments mobiles non répliqués, comme les transposons, ne seraient sujets qu'à des réparations minimes alors que les plasmides, se répliquant, subissent la même maintenance que le chromosome hôte tout en étant autonomes. Les transposons serviraient alors d'intermédiaires pour passer des plasmides au chromosome.(rappeler les propriétés des épisomes)

Les résonances de groupe −4.4.2

Les résonances groupées −4.4.2.1

Les résonances groupées et non de groupe représentent la caractéristique principale des phénomènes vibratoires où le comportement de la somme n'est pas la somme des comportements individuels. Nous l'avons relevée dans la modulation de la résonance par les membranes des bactéries et des euryarcheota, dans le changement de la résonance globale chez les cyanobactéries que j'avais attribué à leur architecture cellulaire particulière due à la photosynthèse et dans le changement corrélé des fréquences des codons des aas chez les autre-bactéries et les cyanobactéries.

Les résonances d'un groupe étudié −4.4.2.2

Les résonances d'un groupe étudié, parce qu'on la constitué par d'autres critères que les répétitions des bases, ces résonances peuvent être groupées comme pour le groupe des protéines, ou non parce que le groupe est hétérogène en ce qui concerne la répétition des bases. Le groupe hétérogène principal, de cette étude, est celui des autre-bactéries avec des groupes homogènes définis par leurs taux de répétition des bases. C'est ainsi qu'on a supposé que le groupe à taux élevés de >4GC des thermophiles aurait une résonance groupée. Et la comparaison entre les spectres des répétitions des génomes et de leurs ARNr nous a confirmé le comportement particulier de ces thermophiles et du coup les ARNr se sont révélés avoir une résonance groupée propre à eux, différente de celle des aas. L'autre groupe étudié qui paraît hétérogène est celui des euryarcheota puisqu'il se comporte de façon semblable au groupe des autre-bactéries.

Le groupe des plasmides −4.4.2.3

On pourrait en constituer un groupe d'étude puisque les plasmides peuvent se déplacer d'un génome à un autre par conjugaison et former un groupe comme celui des autre-bactéries. C'est un groupe hétérogène puisque les plasmides d'une bactérie donnée s'adaptent par leur contenu en GC à celui de l'hôte( chapitre 3.4.3.3.1, diagramme et ^[1]). L'étude de ce groupe, ici, était faite d'abord comme celle des chromosomes hôte, pour rapporter le taux des répétitions en fonction du contenu en GC. Puis j'ai voulu comparer leur comportement dans les 2 groupes à comportement distinct vis à vis des répétitions que sont les autre-bactéries et les cyanobactéries. A 1ère vue les plasmides se comportent comme leur hôte en répétitions des bases et comme leur hôte pour le contenu en GC. Mais l'analyse fine que j'ai établie au chapitre 3.4.4.4.1, avant l'hypothèse de la résonance au chapitre 4.3.1.2, m'a montré des comportements opposés entre plasmides des autre-bactéries et ceux des cyanobactéries.

Les plasmides comme moyen d'étude de l'interaction de la résonance de l'ADN avec ses protéines −4.4.3

Ce sont ces comportements franchement opposés qui m'ont poussé à chercher à distinguer entre variation du contenu en GC et variation de la résonance. Par ailleurs on se retrouve dans le protocole idéal pour ces comparaisons puisque dans la même cellule plusieurs ADN de même structure, mais différant par leurs longueurs et leurs séquences, sont en présence des mêmes protéines provoquant les variations en contenu GC et les variations des répétitions. Il est à noter

que, étant donné la finesse de l'étude et la composition des procaryotes en protéines, nous ne considérons que les comportements des gènes de protéines pour ces variations;
que les répétitions étudiées ici ne concernent que 4 codons, ccc, ggg, ttt, aaa. Ces répétitions font parties des variations en contenu GC, mais que ce contenu est différent des répétitions parce qu'il met en jeu les 60 autres codons;
qu'on peut enfin tester l'hypothèse de la performance des tRNA pour expliquer les "codons bias" . Étant donné que les tRNA n'interviennent pas dans la modification physique (ou directe) de l'ADN, ils devraient agir de façon homogène sur tous les codons qu'ils soient dans le chromosome ou dans des plasmides différant par leurs séquences.
Dans ce qui suit j'utilise les tableaux numériques (cyanobactéries, autre-bactéries) des différences des occurrences statistiquement significatives par rapport à l'hôte et des différences (en %) entre le taux du plasmide et du même taux de l'hôte pour le signe de cette différence. Ceci a été fait pour les taux >4GC et >4AT. La colonne "différence %GC" sert d'illustration. Deux diagrammes du taux >4GC en fonction du taux >4AT illustrent la différence des interactions ADN/protéines à l'origine des résonances, un pour les autre-bactéries et un pour les cyanobactéries.
- La loi binomiale est utilisée pour le calcul de deux écarts type englobant 95% des occurrences (2σ). C'est un tirage de 5 bases réussi si les 5 bases sont identiques, A ou T et G ou C. Les paramètres de la loi sont alors:
  
  −. p*5, le taux en %00 de l'hôte multiplié par 5, correspondant à la probabilité de la loi.
  
  −. n/5, la longueur de DNA du plasmide divisé par 5, correspondant au nombre de tirages de la loi.
- Écart type à 2σ: C'est la formule de l'écart type de la loi binomiale "racine(np(1-p)" multipliée par 2. Ce qui donne en divisant p par 10000 l'écart type à 2σ: 2racine(np(10000-p*5))/10000.
- Valeur absolue de l'écart entre l'occurrence trouvée et calculée, q étant le taux du plasmide: abs(n(p-q))/10000.
- Différence 2σ = (2racine(np(10000-p*5))−abs(n(p-q)))/10000. Si cette valeur est négative, l'occurrence trouvée est significativement différente, à 95%, de l’occurrence de l'hôte.
- Nota: le tirage de 5 bases à la fois donne l'écart type de la loi le plus grand avec racine(np(10000-p*5). Si on avait pris 10 bases ou plus, ce qui correspondrait à plus d’occurrences réussies ( on compte en effet les répétitions supérieures à 4), l'écart type sera plus petit avec racine(np(10000-p*10) mais plus précis. Cependant le calcul avec 10 bases donne une différence 2σ différant d'une unité tout au plus par rapport au tirage à 5 bases et les écarts ne changent pas de signe.

La performance des tRNA n'est pas à l'origine des "codons bias" −4.4.3.1

La théorie des "codons bias", selon laquelle qu'un codon est choisi plus qu'un de ses synonymes est le fait de la sélection naturelle de son tRNA qui le traduirait plus efficacement, laisserait penser que l'ADN n'a aucun rôle direct ou physique dans cette sélection. Les résultats sont nets sur le tableau qui suit:les tRNAs n'interviennent pas.

Différence plasmide / hôte         Autre-bactéries         Cyanobactéries               
                                   >4AT    >4GC    total   >4AT    >4GC    total
total  avec différence 2σ < 0      18      13      23      11      20      41
total  avec différence 2σ < -5     16      12              10      11

Les répétitions >4AT (contenant toutes au moins 1 triplet aaa ou ttt) et les répétitions >4GC (contenant toutes au moins 1 triplet ggg ou ccc) statistiquement différentes de l'hôte représentent 62 cas sur 128, soit environ 50% des cas. Pour ces 50% l'efficacité des 4 tRNAs n'intervient pas dans la sélection des codons aaa, ttt, ccc, ggg.

La répétition des bases ne met pas en jeu les forces des appariements AT et GC −4.4.3.2

Le passage d'une séquence du chromosome sous forme de plasmide ne fait pas intervenir l'appariement comme les protéines de maintenance ne distinguent pas entre les 2 bases d'une paire. Dans le tableau des différences ci-dessous on voit que les plasmides des cyanobactéries évoluent dans les 2 sens, diminution ou augmentation des répétitions par rapport à l'hôte, jusqu'à donner une moyene proche de zéro; que chez le groupe 7 des autre-bactérie l'augmentation est systématique pour les 2 types de répétitions. Chez les cyanobactéries ana et mic on trouve les plasmides en diminution ou en augmentation pour les 2 types de répétitions dans la même bactérie.

Différences hôte - plasmide %
Cyanobactéries	>4AT	>4GC	>4AT	>4GC	>4AT	>4GC	effectif	>4AT	>4GC	>4AT	>4GC	>4AT	>4GC
	Valeurs réelles							Valeurs absolues
	Somme		Moyenne		Ecart type			Somme		Moyenne		Ecart type
total	-74	-73	-1.8	-1.8	14	35	41	431	1109	11	27	10	22
groupe 7	6.5	-77	0.4	-5.1	10	31	15	105	346	7.0	23	6.9	20
groupe 14	-68	203	-3.4	10	15	37	20	288	716	11	28	10	22
groupe 25	-13	-199	-2.1	-33	23	15	6	97	199	16	33	15	15
Autre-bactéries
total	1069	1170	51	56	63	91	21	1134	1444	54	69	60	81
groupe 2	142	238	71	119	105	34	2	10	406	5.2	203	5.3	231
groupe 7	989	909	71	65	66	49	14	995	962	71	69	66	43
groupe 14	81	-55	27	-18	52	31	3	118	65	39	22	38	28
groupe 25	755	35	378	18	428	27	2	755	39	378	19	428	25
groupe 68	-10	-11	-5.2	-5.5	1.3	0.7	2	-10	-11	-5.2	-5.5	1.3	0.7

La résonance de l'ADN est révélée par les variations des répétitions entre les plasmides entre eux et avec le chromosome hôte −4.4.3.3

Je démontre ici qu'un plasmide circulaire a une résonance. Reste à démontrer qu'une séquence dans le chromosome a une résonance, notamment le cas des protéines. C'est ce que je vais démontrer dans corrélations entre les codons de gènes de protéines.

Le passage du chromosome au plasmide est un processus actif qui met en jeu les répétitions: La différence de comportement entre cyanobactéries et autre-bactéries pour la moyenne et l'écart type de la différence entre le plasmide et son hôte (tableau récapitulatif ci-dessous). Si la séquence, et donc les répétitions, n'influait pas sur la formation du plasmide, les répétitions se distribueraient au hasard. Ce qui n'est pas le cas puisque les bactéries du groupe 7 augmentent systématiquement leur répétitions >4AT et >4GC alors que chez les cyanobactéries la somme des différences est nulle pour les 2 types de répétitions et en valeur absolue les >4AT ont une moyenne de la différence 3 fois plus petite que celle des >4GC. De même l'écart type est 2 fois plus petit. Par ailleurs la gamme du contenu en GC est à peu près équivalente dans les 2 cas. On retrouve le même comportement entre les plasmides d'une même bactérie. N'ayant pas d'effectifs assez grands pour donner des statistiques voici quelques exemples: ana, mic, syn, chez les cyanobactéries et kpn chez le groupe 7 des autre-bactéries. Il est bien entendu qu'il faut une statistique beaucoup plus étendue.
Ce n'est pas un détachement physique seulement: soit les protéines qui détachent reconnaissent la séquence par une propriété donnée que j'appelle résonance, soit il y a un détachement sans reconnaissance, mais seulement ayant les extrémités nécessaires à ce détachement, et les protéines de maintenance, communes au chromosome et aux plasmides, modifient la résonance du plasmide à leur façon.
Le plasmide ne peut acquérir que les résonances permises par les protéines de maintenance, semblables à la résonance de l'hôte. Ce qui me laisse croire que ce sont les protéines de maintenance qui agissent et non d'autres protéines, spéciales au détachement.

L'interaction ADN/protéines n'impacte que la résonance −4.4.3.4

Quand on ne considère que les plasmides d'une seule bactérie, les protéines de la maintenance sont les mêmes, donc les variations qu'on constate entre plasmides ne concerne que la résonance. C'est entre autre-bactéries et cyano qu'il y a changement des protéines de maintenance. En analysant les tableaux on peut rétorquer que les variations des répétitions sont dues soit au contenu en GC soit à la longueur du plasmide. Le lien entre la résonance et le %GC on l'avait étudié dès le début et nous a amené à la définition même de la résonance. Donc c'est normal qu'on voit une variation parallèle. Il est évident que, si la séquence sous-tend la résonance, la longueur peut avoir un lien avec cette dernière, parce que tout plasmide est une séquence quelque soit sa longueur. Mais il est évident aussi qu'une séquence plus courte doit avoir peu de combinaisons compatibles avec le système de maintenance et donc une variance plus grande, ou mieux encore, des répétitions nombreuses assureraient une stabilité du plasmide. Alors que des séquences de longueur semblable à celle de l'hôte donneraient une faible variance de la différence.

Les mécanismes des modifications des bases par les protéines de l'ADN diffèrent entre certains groupes des autre-bactéries et les cyanobactéries −4.4.3.5

Les différences globales entre les 2 tableaux sont le produit de l'action différente des 2 systèmes de maintenance. Aussi nous sommes arrivés à distinguer entre la résonance de l'ADN et l'action des protéines de maintenance. Ainsi l'action de la maintenance du groupe 7 des autre-bactéries est de type modulation puisqu'elle fait varier, dans le même sens, les répétitions >4AT et >4GC. Alors que la maintenance chez les cyanobactéries est de type amplification puisque les variations se font dans les 2 sens et affectent différemment >4AT et >4GC avec un écart type et une moyenne très différents.
Les bactéries thermophiles comme tos (groupe 68) doivent avoir un système de maintenance spécifique comme je l'ai noté au chapitre sur les protéines, pour l'adaptation aux températures élevées: voir chapitre 3.4.3.4.3 et le suivant 3.4.3.4.4.
Les archées crenarcheota auraient aussi un système de maintenance de type amplification mais qui amplifierait de façon équivalente les répétitions >4AT et >4GC contrairement aux cyanobactéries.

L'interaction ADN/protéines agit différemment sur les codons −4.4.3.6

Les variations, dans une bactérie donnée, entre les répétitions A ou T et les répétitions G ou C sont différentes. De la démonstration de la résonance du plasmide par les répétitions >4AT et >4GC, que les codons formant ces répétitions ont une résonance, il découle alors que les résonances de ces codons sont différentes. Nous avons déjà montré que les variations des répétitions du codon ggg était corrélées à celles du codon agg au chapitre des protéines. Donc il est logique de penser que la résonance démontrée par les plasmides s'étend à tous les codons d'un gène d'une protéine.

Conclusion −5

Nous venons de démontrer avec les plasmides qu’une séquence de paires de bases, en l'occurrence un plasmide, est déterminée par l'interaction de l'ADN avec ses protéines. L'action/réaction de l'ADN dans cette interaction se fait par l'intermédiaire d'une force physique spécifique, sans réaction chimique (liaison covalente). De part ma recherche sur les PEEMOV j'ai attribué cette force à la résonance de l'ADN, décrite dans la littérature comme un processus vibratoire sous-tendu par les nuages électroniques des paires de bases formant un continuum soumis aux lois de la physique quantique ^[16]. Une des manifestations de cette résonance se trouve dans les 2 taux, par rapport à la longueur d'une séquence donnée, des répétitions A plus T et G plus C. Pour la caractériser il fallait utiliser le comportement de ces taux pour la différencier d'autres processus intervenant sur l'ADN avec lesquels elle peut être confondue.

Le caractère vibratoire des taux étudiés: On peut dire d'office déjà que la propriété de répétition des taux appartient aussi aux phénomènes vibratoires, qu'ils participent au codage des protéines dont les gènes sont une succession de triplets rappelant la périodicité des phénomènes vibratoires. J'ai pu montrer qu'ils participent à des changements d'ensemble (changement simultané de plusieurs codons dans les gènes de protéines) et des changements brutaux analogues aux phénomènes de résonance quand la fréquence atteint la fréquence de résonance ( décrochage brusque dans les diagrammes distinct de la progression régulière de la courbe que j'ai attribué aux processus d'appariement de l'ADN).
Ces comportements suivent les processus de la variation du contenu en GC des chromosomes et seraient donc soumis aux mêmes processus protéiques qui maintiennent l'ADN, c'est à dire la réparation, la réplication, la transcription, la fixation de protéines et la protection: Ils varient avec le %GC et par comparaison des comportements des taux dans les gènes de protéines entre autre-bactérie et cyanobactéries j'ai pu distinguer entre les processus de maintenance et les variations de ces taux.
J'ai caractérisé les processus de la maintenance de l'ADN par les comportements d'ensemble, différents, de ces taux dans les 4 groupes étudiés et surtout leur reproduction dans les plasmides d'un groupe homogène des autre-bactéries et ceux des cyanobactéries.
Le comportement de ces taux ne peut pas être expliqué par les taux des aas Gly, Pro, Lys et Phe dans les protéines: grande variation des taux de répétition entre les 4 domaines étudiés alors que les taux de ces 4 aas y varieraient très peu d'après les statistiques sur les protéines, et même comportement des répétitions chez les rRNA des autre-bactéries en l’absence de codons.
La variation des comportements des taux de répétition entre les plasmides d'un même organisme et ceux de son chromosome démontre que:
- Dans le cas où les plasmides seraient issus du chromosome hôte, leur détachement ne se ferait pas au hasard mais se ferait avec une transformation de leur résonance. En effet les plasmides des cyanobactéries et du groupe homogène des autre-bactéries ont chacun un comportement d'ensemble différent l'un de l'autre.
- La résonance est distincte de la maintenance puisque les protéines de celle-ci sont les mêmes pour le chromosome et les plasmides.
- De même la machinerie de la traduction, dont la sélection des codons par des tRNAs performants, n'impacte pas la résonance puisque cette machinerie est commune au chromosome et aux plasmides.
- La résonance n'impacte pas l'appariement des bases puisque les 2 taux A plus T et G plus C varient dans les 2 sens par rapport au chromosome, en diminution et en augmentation. Cette distinction a été déjà mise en évidence lors des études des diagrammes des répétitions en fonction du contenu en GC, mais ici la démonstration est directe.

Nota: Dans le cas où les plasmides seraient acquis par transfert horizontal, la propriété de compatibilité, décrite dans la littérature, nécessaire entre-eux et le chromosome hôte prouve que leur séquence et donc leur résonance doit être compatible avec les protéines de maintenance de l'hôte. Ceci montre encore que les variations des taux des répétitions observées entre les plasmides et le chromosome concernent la résonance et non une autre propriété de ces plasmides étrangers.

Les conséquences théoriques:

Interaction du procaryote avec son milieu
- Action du milieu sur les protéines de maintenance
- Interaction ADN/(protéines de maintenance)
- Modification de la résonance des gènes de protéines après réparation et réplication (adaptation génétique).
- Transcription, traduction, destruction des ARNm après traduction et destruction des protéines usées par l'interaction avec le milieu
- L'interaction de l'organisme avec le milieu ne se fait pas dans le sens protéines-ARNm-gènes-ADN mais dans le sens contraire de la théorie du "RNA world".
Les gènes de protéines sont créés une fois pour toutes:
- L'interaction ADN/(protéines de maintenance) ne modifie que la résonance du gène dans la gamme des résonances permises pour ce gène.
- La résonance d'un gène protéique a une grande énergie parce qu'elle est la composante des résonances de tous ses triplets, ceux-ci ayant l'énergie de résonance la plus élevée du fait qu'ils ont la longueur d'onde la plus petite, constituée de 3 paires de bases.
Les gènes de protéines sont constitués une fois pour toutes aux PEEMOV quand les paires de bases ne sont pas liées les unes aux autres.
- Cela suppose que des paires de bases soient rassemblées côte à côte avec des aas libres reproduisant le couplage actuel pouvant entrer en interaction avec le milieu.
- que la résonance de cet ensemble a une énergie maximale dans l'organisation du liposome prébiotique.
Transformation du gène protéique en une protéine aux PEEMOV: Dans la vie actuelle le gène modifié par résonance dans l'ADN est transformé en protéine grâce à la machinerie traductionnelle. Aux PEEMOV cette machinerie n'existe pas. Pour pouvoir expliquer la transformation du gène protéique en une protéine il faut se mettre aux PEEMOV en faisant évoluer les 3 acteurs principaux que sont les monomères ADN et ARN et les aas, en même temps, ensemble et dans l'organisation du liposome. Dans ce cadre là on n'a pas besoin de maintenance puisque les monomères sont libres. Ils peuvent ainsi s'organiser selon l'évolution des contraintes des résonances locales et globales. Pour l'ADN l'équivalent d'une maintenance donnée, propre à une étape, sera assurée par une organisation des aas donnée. Dessinons alors grossièrement les 3 1ères étapes de l'évolution moléculaire qui nous amènent à la 1ère tentative de la transformation d'un gène protéique:
- Les monomères d'ADN se regroupent par résonance maximale et sont protégés par un groupe d'aas adéquat. Les monomères d'ARN, par leur nature, sont mélangés avec le reste des aas et ne se regroupent pas.
- Les monomères d'ARN peuvent s'apparier aux monomères d'ADN regroupés. Ils peuvent ainsi acquérir une résonance partielle grâce à leur alignement. Mais ils seront déloger par les aas qui assurent la résonance des monomères d'ADN. D'autres aas vont créer un groupe analogue, mais pas identique, à celui de l'ADN pour consolider la résonance acquise par les monomères d'ARN. Si la séquence le permet l'ARN se replie et la résonance est stabilisée. C'est la formation des rRNAs et tRNAs prébiotiques.
- Ces rRNAs et tRNAs prébiotiques stabilisés par leurs aas vont essayer de stabiliser avec de nouveaux aas les RNAms qui ne peuvent pas se replier et être détruis par les aas non regroupés à l'instar des RNAases de la vie actuelle. C'est cette tentative de rétablissement de la résonance partielle acquise par des RNAms qui ne peuvent pas se replier, qui va aboutir non pas à une stabilisation de la résonance, mais en sa transformation en une résonance du groupe des aas nouvellement recrutés. Comme le groupe des aas des rRNAs et des tRNAs est analogue à celui qui maintient la résonance de leur séquence dans l'ADN, le groupe des aas du RNAm va être analogue à ceux de sa séquence dans l'ADN par analogie des 2 résonances de la séquence d'ADN et d'ARNm.
La formation des protéines une fois pour toutes va se faire donc en plusieurs étapes jusqu'à la formation de la machinerie traductionnelle. Le transfert de résonance de l'ADN aux aas rentre dans la cohérence de la résonance globale du liposome et de ses constituants ADN, ARN et aas. C'est comme ça qu'on peut comprendre qu'une protéine a une gamme de résonances propre, définie une fois pour toutes, adaptée à l'architecture interne du procaryote. Une fois la machinerie traductionnelle achevée, la résonance d'une protéine peut changer d'un organisme à l'autre, mais elle sera toujours dans sa gamme permise par l'architecture commune à tous les êtres vivants.

Bibliographie − 6

"Chez les cyanobactéries Prochlorococcus et Pelagibacter ubique, certaines lignées ont subi une réduction de 30% de leur génome" dans le résumé de:

Batut 2014 thèse [25]; Étude de l'évolution réductive des génomes bactériens par expériences d’évolution in silico et analyses bio-informatiques.

"3.) Biais de composition en nucléotide. . . . c) L'usage des codons est également biaisé. Une corrélation avec l'abondance en tRNA a été remarquée . . . suggérant une adaptation des séquences des gènes à une meilleure efficacité de traduction." page 13 dans

Choulet 2006 thèse [26]; Evolution du génome des Streptomyces: transfert horizontal et variabilité des extrémités chromosomiques.

Sélection traductionnelle. . . . page 13. dans Mouciroud cours [27]

Hao Wu, mécanisme moléculaire de la variation en contenu GC chez les bactéries, 2012 [28]
Différence entre darwinisme et PEEMOVs:JJ Kupiec 2016 [29], entretien 2016 [30].
La littérature sur la variation du contenu en GC, %GC. Les %GC les plus rares, H.Nishida-2013
Quantum entanglement between the electron clouds of nucleic acids in DNA. 2011 [31]. Analyse: La mécanique quantique, l'ADN et l'origine de la vie remise en question[32]
La résonance dans mon blog 14.4.2015. L'effet tunnel [33].

« Concept dynamique/statiqueLa molécule cristalline »

Commentaires

Aucun commentaire pour le moment

Suivre le flux RSS des commentaires

Ajouter un commentaire

Nom / Pseudo :

E-mail (facultatif) :

Site Web (facultatif) :

Commentaire :

Me prévenir par mail en cas de réponse