Références

Par mekali dans GC content le 23 Mai 2016 à 10:49

23.5.16 Paris

Il s'agit dans un premier temps d'accumuler des références au fur et à mesure de leur rencontre, et de les classer par thèmes.

<br />

votre commentaire
Résultats et discussion
Par mekali dans GC content le 23 Mai 2016 à 10:43
23.5.16 Paris

Résultats
- Le diagramme de chaque codon et aa,
- Le classement des codons et aa suivant les valeurs propres des matrices des corrélations
- Statistiques de la répétition des bases
Discussion
- GC content versus corrélation entre codons et entre aas
- Différence du comportement des répétitions en G et C, et des répétitions en A et T
- Le concept global: interaction direct ADN/aas (c'est à dire avec le milieu extérieur) au moyen de la résonance électronique à l'intérieur de l'ADN.
- Les premières structures organisées dans le liposome prébiotique sont faites de groupements d'aas et de monomères d'ADN.
24.5.16

D'abord les tableaux en codon/GC ont été élaborés dans le temps comme suite:
- de grosses protéines cumulées,6 pour 111 bactéries: ceci pour déceler un comportement moyen pour chaque codon. Aussi les protéines sont normalisées à une longueur moyenne ou en référence à celle d'E.Coli. : feuille(GC code 110) dans repete110.ods de NCBI-GC. Diagrammes.
- Comparaison du même type de tableau pour 10 protéines du métabolisme central pour 39 bactéries: feuille(39-prot ) dans repete39-1.ods de NCBI-GC. Comparaison avec les 6 protéines précédentes mais sur 39 bactéries, feuille(39-dna). Comparaison entre 39-prot et dna dans la feuille (dna-prot). Diagrammes.
- Tableaux des codons en protéines individuelles: repete110-2.ods de NCBI-GC
  
  6 protéines sur 111 bactéries, feuille (prot111) avec diagramme feuille(prot111dg)
  
  10 protéines pour 39 bactéries,feuille(prot39)
  
  5 protéines pour plus de 50 bactéries pour les protéines du métabolisme central avec diagrammes, feuille(prots-longs)
  
  premières corrélations, feuille(corrélats).
- Étude étendue des corrélations pour les comparaisons entre protéines. Les fichiers porte le même nom dans 3 dossiers différents suivant l'affinement de la corrélation: proteines memb-compare-xxx.ods dans tanger010516.
  
  dans data-eepc: spectres des corrélations effectués par la fonction Si() de "calc" puis par la fonction Loiexponentielle() de "calc". Regroupement des codons "additions". Aussi illustration des corrélations avec le diagramme de 3 codons corrélés ou non, fichier "proteines memb2.ods".
  
  dans data-ssd: calculs matriciels sur le tableau des corrélations avec SciPy (science python au terminal), valeurs propres plus vexteurs propres pour les aas seulement.
  
  dans tanger010516: calculs matriciels avec matlab, valeurs et vecteurs propres pour les codons aussi.
29.5.16 Paris

Résultats, ajout des tableaux :
- Eucaryotes avec 5 protéines pour comparaison avec les bactéries dans le but de discuter sur l'apport des tRNAs dans la problématique du GC content:fichier "codons.ods" dans dossier eucaryotes. Le classement par rapport au GC content global comme pour les bactéries ne peut plus se faire. Aussi:
- Classement des codons par rapport GC content du gène lui-même. Ce qui m'a amener à classer aussi les codons bactériens de la même façon: feuille "%GC par gène" dans repete110-2.ods et recapg dans matlab-propres.ods.
- Il faut ajouter les archées.
- Il faut comparer les valeurs propres racines (r1) par rapport à la somme des valeurs absolues d'un codon. Est-ce le même classement?
Discussion suite au problème posé par les eucaryotes pour le classement des codons par rapport au GC content:
- La résonance dans l'ADN des bactéries doit se faire au niveau d'un opéron et non d'un gène. En effet l'unité de résonance est définie d'abord au niveau de l'unité de transcription qui est souvent l'opéron et traitée telle quelle par la polymérase avec initiation au 5'LTR et terminaison au 3'LTR. En plus dans un opéron avec une seule unité de transcription les gènes sont contigus et le début du gène peut chevaucher avec le codon du gène qui le précède (voir plasmides dans les résultats).
- La résonance chez les eucaryotes doit se faire au niveau aussi de l'opéron qui est toujours réduit à un seul gène. Mais ce sera le gène au niveau de l'ADN et non au niveau de l'ARN messager remanié (splicing).
- Le splicing introduit des contraintes au niveau de l'ARN messager qui font intervenir des codons différents. D'où l'importance des 2 codons glutamate que j'ai relevé pour les eucaryotes. La résonance au niveau du RNA n'est pas la même qu'au niveau du DNA. La sélection naturelle agissant toujours sur le produit fini.
- Comparaison maintenant entre, la composition en tRNAs des eucaryotes et des bactéries, et les classements des codons dans les 2 domaines. Origine du GC content, la résonance ou la composition des jeux de tRNAs? Certainement les 2 puisque les tRNAs imposent une contrainte forte sur l'ADN (GC content).
- Cependant la séquence d'ADN qui code pour une protéine, que ça soit un exon ou un gène bactérien, reste la principale unité de résonance. C'est elle qui apparaîtra en 1er dans l'évolution moléculaire, d'abord grâce aux groupements d'aas puis définitivement avec les liaisons covalentes.
- Je dis définitivement, car dans le concept de la résonance de l'ADN, une fois les liaisons covalentes établies entre bases nucléiques, la résonance devient maximale, et le remplacement d'une base par une autre doit obéir à de fortes contraintes, d'où le GC content. Une mutation ponctuelle doit aussi répondre à cette contrainte. Elle ne se fait pas au hasard. S'il n'y a pas résonance la transcriptase ou la réplicase ne peuvent pas continuer leur progression et la mort est fatale s'il n'y a pas correction. Une mutation ponctuelle est d'abord la création d'une possibilité physique qui sera soumise ensuite à la sélection naturelle.
- Il ne faut pas oublier le concept de contrainte \ liberté dans le cas de la résonance maximale dans une séquence codante. La contre partie liberté de ce concept devient une forte contrainte pour l'évolution moléculaire. Elle se traduit par une obligation d'échange entre séquences d'ADN d'où les transposons, la recombinaison et en fait de compte la sexualité. On comprend mieux maintenant la raison d'être de la sexualité. La sexualité (tout sorte d'échange entre ADNs) devient une nécessité après la première étape de l'évolution moléculaire où les monomères sont libres, peu résonants mais capable de se combiner librement. Car à la 2ème étape, établissement des liaisons covalentes, il n'y a plus possibilité de combinaisons libres.
- Les parties codantes des séquences d'ADN sont le fruit de cette première étape et peuvent alors évoluer lentement par mutation ponctuelle obéissant au GC content pour répondre très finement et progressivement à une infinité d'interactions avec le milieu extérieur.
<br />

votre commentaire

Marériel et méthodes

Par mekali dans GC content le 23 Mai 2016 à 10:29

23.5.16 Paris

Le choix des bactéries,
Les bases de données utilisées,
Les moulinettes en Perl pour la compilation et
Les types de compilations choisis,
Les protéines à étudier,
Les diagrammes et les courbes de tendance,
Les coefficients de corrélation,
Les calculs matriciels.

24.5.16 Paris

111 bactéries ordre alphabétique

%GC	KEGG		%GC	KEGG		%GC	KEGG		%GC	KEGG
53.0	apt	Acetobacter pasteurianus	54.1	cgq	corynebacterium glutamicum	37.1	liv	Listeria ivanovii	61.9	sus	Solibacter
35.7	axl	Amphibacillus	42.4	cbd	Coxiella burnetii	48.7	mah	Methylomicrobium	49.0	ssm	Spirochaeta
71.3	amd	Amycolatopsis mediterranei	63.4	ddr	Deinococcus deserti	70.3	mts	Microbacterium	32.1	sep	Staphylococcus epidermidis
48.0	amo	Anaerobaculum	66.2	dpt	Deinococcus proteolyticus	55.4	mcu	Mobiluncus	26.3	smf	Streptobacillus
74.9	ade	Anaeromyxobacter dehalogenans	54.5	dal	Desulfatibacillum	23.7	mcac	Mycoplasma capricolum	38.3	spi	streptococcus pyogenes
43.5	aae	Aquifex aeolicus	58.6	dba	Desulfomicrobium	41.1	nse	Neorickettsia	73.3	salb	Streptomyces albus
69.4	age	Archangium	63.0	dvl	Desulfovibrio vulgaris	39.7	nis	Nitratiruptor	70.7	sma	Streptomyces avermitilis
43.2	bae	Bacillus atrophaeus	56.1	din	Desulfurispirillum	70.0	opr	Oceanithermus profundus	72.2	sgr	Streptomyces griseus
43.5	bsu	Bacillus subtilis	34.9	dte	Desulfurobacterium	45.5	ppoy	Paenibacillus polymyxa	72.0	sho	Streptomyces hygroscopicus
51.7	bvs	Barnesiella	55.1	eno	Enterobacter cloacae	45.1	pdi	Parabacteroides	56.8	say	Sulfobacillus acidophilus
36.8	bbd	Belliella	49.7	eal	Escherichia albertii	29.7	pub	Pelagibacter	59.1	synd	Synechococcus sp.
60.5	bla	Bifidobacterium animalis	50.8	eco	Escherichia coli	59.6	pgd	Phaeobacter gallaeciensis	36.0	thl	Tetragenococcus
27.4	bfl	Blochmannia	27.1	fnc	Fusobacterium nucleatum	48.3	pgi	Porphyromonas gingivalis	63.8	tai	Thermanaerovibrio
57.2	bmf	Brucella abortus	42.0	gva	Gardnerella vaginalis	31.1	pmh	Prochlorococcus marinus	31.4	tme	Thermosipho
68.1	bmv	Burkholderia mallei	64.3	gau	Gemmatimonas	24.2	ssdc	Profftella	46.2	tma	Thermotoga maritima
33.3	cff	Campylobacter fetus	41.8	hhd	Halobacillus	60.0	pac	Propionibacterium acnes	47.1	tli	Thermovirga
30.5	cje	Campylobacter jejuni	32.5	hhl	Halobacteroides	66.6	pae	Pseudomonas aeruginosa	68.6	tos	Thermus thermophilus
16.6	crp	Candidatus Carsonella ruddii	22.5	hcr	Hepatoplasma	61.3	ret	Rhizobium etli	37.9	tde	Treponema denticola
36.3	lat	Candidatus Liberibacter asiaticus	37.5	hmr	Hippea	67.4	roa	Rhodococcus opacus	52.8	tpas	Treponema pallidum
26.2	ple	Candidatus Portiera aleyrodidarum	44.0	hth	Hydrogenobacter	65.4	rru	Rhodospirillum rubrum	39.2	tsu	Treponema succinifaciens
13.5	zin	Candidatus Zinderia insecticola	33.9	ial	Ignavibacterium	29.0	rpr	Rickettsia prowazekii	25.1	sbw	U. Enterobacteria
40.3	cmn	Chlamydia muridarum	74.2	ksk	Kitasatospora	28.5	rip	Riesia	46.5	fbt	U. Flammeovirgaceae
39.1	chp	Chlamydia psittaci	57.5	kpn	Klebsiella pneumoniae	51.3	sbz	Salmonella bongori	25.5	uur	Ureaplasma parvum
41.3	cta	Chlamydia trachomatis	58.4	aba	Koribacter	52.1	sty	Salmonella Enterica	38.6	vpr	Veillonella
72.7	cmi	Clavibacter	34.5	ljf	Lactobacillus johnsonii	46.3	sbn	Shewanella baltica	68.9	vin	Vulgatibacter
29.9	cad	Clostridium acidurici	44.5	lpl	Lactobacillus plantarum	39.1	spl	Shewanella pealeana	65.0	xcb	Xanthomonas campestris
28.3	cbl	Clostridium botulinum	35.3	lla	Lactococcus lactis	62.3	saci	Singulisphaera	47.6	ype	Yersinia pestis
53.6	caa	Coraliomargarita	50.0	lfc	Leptospirillum	62.7	smk	Sinorhizobium meliloti

111 bactéries %GC croissant

%GC	KEGG		%GC	KEGG		%GC	KEGG		%GC	KEGG
13.5	zin	Candidatus Zinderia insecticola	36.3	lat	Candidatus Liberibacter asiaticus	47.6	ype	Yersinia pestis	61.3	ret	Rhizobium etli
16.6	crp	Candidatus Carsonella ruddii	36.8	bbd	Belliella	48.0	amo	Anaerobaculum	61.9	sus	Solibacter
22.5	hcr	Hepatoplasma	37.1	liv	Listeria ivanovii	48.3	pgi	Porphyromonas gingivalis	62.3	saci	Singulisphaera
23.7	mcac	Mycoplasma capricolum	37.5	hmr	Hippea	48.7	mah	Methylomicrobium	62.7	smk	Sinorhizobium meliloti
24.2	ssdc	Profftella	37.9	tde	Treponema denticola	49.0	ssm	Spirochaeta	63.0	dvl	Desulfovibrio vulgaris
25.1	sbw	U. Enterobacteria	38.3	spi	streptococcus pyogenes	49.7	eal	Escherichia albertii	63.4	ddr	Deinococcus deserti
25.5	uur	Ureaplasma parvum	38.6	vpr	Veillonella	50.0	lfc	Leptospirillum	63.8	tai	Thermanaerovibrio
26.2	ple	Candidatus Portiera aleyrodidarum	39.1	chp	Chlamydia psittaci	50.8	eco	Escherichia coli	64.3	gau	Gemmatimonas
26.3	smf	Streptobacillus	39.1	spl	Shewanella pealeana	51.3	sbz	Salmonella bongori	65.0	xcb	Xanthomonas campestris
27.1	fnc	Fusobacterium nucleatum	39.2	tsu	Treponema succinifaciens	51.7	bvs	Barnesiella	65.4	rru	Rhodospirillum rubrum
27.4	bfl	Blochmannia	39.7	nis	Nitratiruptor	52.1	sty	Salmonella Enterica	66.2	dpt	Deinococcus proteolyticus
28.3	cbl	Clostridium botulinum	40.3	cmn	Chlamydia muridarum	52.8	tpas	Treponema pallidum	66.6	pae	Pseudomonas aeruginosa
28.5	rip	Riesia	41.1	nse	Neorickettsia	53.0	apt	Acetobacter pasteurianus	67.4	roa	Rhodococcus opacus
29.0	rpr	Rickettsia prowazekii	41.3	cta	Chlamydia trachomatis	53.6	caa	Coraliomargarita	68.1	bmv	Burkholderia mallei
29.7	pub	Pelagibacter	41.8	hhd	Halobacillus	54.1	cgq	corynebacterium glutamicum	68.6	tos	Thermus thermophilus
29.9	cad	Clostridium acidurici	42.0	gva	Gardnerella vaginalis	54.5	dal	Desulfatibacillum	68.9	vin	Vulgatibacter
30.5	cje	Campylobacter jejuni	42.4	cbd	Coxiella burnetii	55.1	eno	Enterobacter cloacae	69.4	age	Archangium
31.1	pmh	Prochlorococcus marinus	43.2	bae	Bacillus atrophaeus	55.4	mcu	Mobiluncus	70.0	opr	Oceanithermus profundus
31.4	tme	Thermosipho	43.5	aae	Aquifex aeolicus	56.1	din	Desulfurispirillum	70.3	mts	Microbacterium
32.1	sep	Staphylococcus epidermidis	43.5	bsu	Bacillus subtilis	56.8	say	Sulfobacillus acidophilus	70.7	sma	Streptomyces avermitilis
32.5	hhl	Halobacteroides	44.0	hth	Hydrogenobacter	57.2	bmf	Brucella abortus	71.3	amd	Amycolatopsis mediterranei
33.3	cff	Campylobacter fetus	44.5	lpl	Lactobacillus plantarum	57.5	kpn	Klebsiella pneumoniae	72.0	sho	Streptomyces hygroscopicus
33.9	ial	Ignavibacterium	45.1	pdi	Parabacteroides	58.4	aba	Koribacter	72.2	sgr	Streptomyces griseus
34.5	ljf	Lactobacillus johnsonii	45.5	ppoy	Paenibacillus polymyxa	58.6	dba	Desulfomicrobium	72.7	cmi	Clavibacter
34.9	dte	Desulfurobacterium	46.2	tma	Thermotoga maritima	59.1	synd	Synechococcus sp.	73.3	salb	Streptomyces albus
35.3	lla	Lactococcus lactis	46.3	sbn	Shewanella baltica	59.6	pgd	Phaeobacter gallaeciensis	74.2	ksk	Kitasatospora
35.7	axl	Amphibacillus	46.5	fbt	U. Flammeovirgaceae	60.0	pac	Propionibacterium acnes	74.9	ade	Anaeromyxobacter dehalogenans
36.0	thl	Tetragenococcus	47.1	tli	Thermovirga	60.5	bla	Bifidobacterium animalis

5-7-16 Tanger

Pour les 111 bactéries du 24-5-16 le %GC est celui du chromosome entier de la bactérie.

Pour comparer les corrélations entre codons (voir méthodes) j'ai du recompter le %GC dans la séquence d'ADN de chaque protéine en utilisant la moulinette adéquate ( à ajouter au matériel). Cette comparaison est nécessaire car la séquence des bases chez les eucaryotes et les archées est celle obtenue après épissage et ne représente plus la résonance de la séquence dans le chromosome même qui est mon objectif premier.

Les protéines étudiées: (codes de KEEG)

Le nombre des espèces chez les eucaryotes et les archées étant très faible par rapport à celui des bactéries j’ai du limiter leur nombre à une trentaine d’espèces ( pour quelque protéines je suis allé jusqu’à 40 espèces). En plus la liste des espèces par protéine n’est pas la même car souvent une espèce n’a pas nécessairement toutes les protéines que j’ai prévues d’ étudier. Aussi je donne ici la liste des espèces par protéine pour les archées et les eucaryotes. Pour les bactéries la liste étant longue, je me réfère à la liste du 24.5.16 et je mentionne les manquants seulement.

Protéines eucaryotes

@noms=(acs, aly, apla, ath, ecb, bta, cal, chx, cic, cme, cre, ehx, fab, gga, gla, hsa, lcm, lth, mcc, mmu, mus, myb, mze, ndi, ngi, oas, ota, pbi, pic, ppa, pper, pss, pti, sce, sly, tca, ttt, tup, umr, xma); # 2777A

@noms=(aag, aly, asn, ath, bfu, bsc, cal, chx, cic, cme, cmt, cre, dfa, dpe, fab, fgr, gtr, hsa, lth, mcc, mmu, mus, myd, mze, ndi, nfi, oas, pbi, pco, ppa, pper, sce, sly, spo, spu, ttt, tup, umr, ure, zma); # 2776A1

@noms=(act, aly, asn, ath, bsc, cic, cmt, cre, dme, fgr, gtr, hsa, loa, mbr, mcc, mmu, mde, mze, ncr, osa, pda, ppa, pper, sce, shr, sla, sly, spo, tca, umr); # 6115

@noms=(act, aly, ath, bze, cal, cic, cmt, dsq, ela, fgr, gtr, hir, lth, mbe, mlr, ncr, ncs, osa, pda, pfj, ppa, ppp, sbi, sce, sla, smp, spo, tms, ttt, ure); # 6355

@noms=(apla, asn, ath, chx, cic, cmt, cre, dgr, dme, dre, hsa, loa, mbr, mcc, mmu, pif, pkn, ppa, pper, pss, sbi, sce, shr, sla, sly, spo, tca, ttt, tva, ure); # 27140

@noms=(acs, aly, apla, ath, bacu, bta, cal, chx, cic, cme, cre, ecb, ehx, fab, gga, gla, hsa, lcm, lth, mcc, mmu, mus, myb, mze, ndi, ngi, oas, ota, pbi, pic, ppa, pper, pti, sce, sly, tca, ttt, tup, xma, xtr); #2777E1

@noms=(act, aly, asn, ath, bsc, cic, cmt, dme, fgr, gtr, hsa, loa, mbr, mcc, mde, mmu, mpp, mze, ncr, osa, pda, ppa, pper, sce, shr, sla, sly, spo, tca, umr); #6114

@noms=(act, aly, ath, cal, cic, cmt, dsq, ela, fgr, gtr, hir, lth, mbe, mlr, ncr, ncs, osa, pda, pfj, pno, ppa, ppp, sbi, sce, sla, smp, spo, tms, ttt, ure); #63552

@noms=(act, aly, asn, ath, bsc, cel, cic, cmt, cre, dme, fgr, gtr, hsa, mbr, mcc, mde, mmu, mze, ncr, osa, pda, ppa, pper, sce, shr, sla, sly, spo, tca, umr); #4213

Protéines archées

@noms=(afg, arg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mja, mls, mma, mmao, mmp, mpl, msz, mth, mtp, nat, nin, pho, pyn, sali, taa, tgy, thm); # 27772

@noms=(afg, arg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mja, mls, mma, mmao, mmp, mpl, mru, msz, mtp, nat, nin, pho, pyn, sali, taa, tgy, thm); # 2776A1

@noms=(afg, arg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mja, mls, mma, mmao, mmp, mpl, msz, mth, mtp, nin, pho, pyn, sali, sol, taa, tgy, thm); # 6115

@noms=(afg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mls, mma, mmao, mmp, mpl, msz, mtp, nat, nin, pas, pyn, sali, sir, sis, sol, sto, taa, tuz); # 6355

@noms=(acj, fac, hal, hla, loki, mba, mem, mev, mhor, mhu, mja, mls, mma, mmao, mmp, msz, nat, pas, pho, pyn, sali, sir, sis, sol, sto, tag, tga tgy, thm, tuz); # 27140

@noms=(afg, arg, asc, fac, hab, hal, hla, loki, mba, mem, mfc, mhor, mif, mja, mls, mmp, mpl, mru, mtp, nat, nin, pas, pyn, sir, sol, sis, taa, tag, tgy, tuz); # 27771

@noms=(afg, arg, hab, hal, hhb, hla, hmu, hsu, mba, mel, mem, mev, mfc, mfs, mhor, mif, mja, mls, mma, mmao, mmp, mmz, mpl, mru, msz, mtp, mvo, nat, sali, sso); # 2776B1

@noms=(afg, arg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mfs, mhor, mja, mls, mma, mmp, mpl, msi, mth, mtp, nin, pho, pyn, sali, sol, taa, tgy, thm); # 6114

@noms=(afg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mls, mma, mmao, mmp, mpl, msz, mtp, nat, nin, pas, pyn, sali, sir, sis, sol, sto, taa, tuz); # 63552

@noms=(asc, fac, hab, hal, hhb, hla, hmu, hsf, loki, mba, mear, mev, mhor, mls, mma, msz, mtp, nat, nga, nin, pai, pog, pyn, sai, sali, sir, sis, sol, taa, tuz); # 4213

Protéines bactéries

Liste 111 bactéries

@noms=(aae, aba, ade, age, amd, amo, apt, axl, bae, bbd, bfl, bla, bmf, bmv, bsu, bvs, caa, cad, cbd, cbl, cff, cgq, chp, cje, cmi, cmn, crp, cta, dal, dba, ddr, din, dpt, dte, dvl, eal, eco, eno, fbt, fnc, gau, gva, hcr, hhd, hhl, hmr, hth, ial, kpn, ksk, lat, lfc, liv, ljf, lla, lpl, mah, mcac, mcu, mts, nis, nse, opr, pac, pae, pdi, pgd, pgi, ple, pmh, ppoy, pub, ret, rip, roa, rpr, rru, saci, salb, say, sbn, sbw, sbz, sep, sgr, sho, sma, smf, smk, spi, spl, ssdc, ssm, sty, sus, synd, tai, tde, thl, tli, tma, tme, tos, tpas, tsu, uur, vin, vpr, xcb, ype, zin);

#2777A 111 27761 111 27762 111 6114 111 6115 111

#27771 107 : crp, ple, rip, zin

# 27140 97 :aae, crp, dte, hth, lfc, mcac, nse, pgi, ple, pub, rpr, ssdc, tpas, zin

#secA 109 :crp, zin

# 4213 84 :amo, bfl, bvs, chp, cmn, crp, cta, fnc, gva, hcr, ljf, lpl, mcac, pgi, ple, rip, sbw, smf, spi, tde, thl, tma, tme, tpas, uur, vpr, zin

# 63551 93 :aae, axl, chp, cmn, cta, hcr, hth, mcac, mcu, rip, rpr, smf, ssdc, tde, tme, tpas, uur, zin

# 63552 94 :axl, chp, cmn, cta, hcr, mcac, mcu, rip, rpr, smf, ssdc, tai, tde, tme, tpas, uur, zin

# 1653L 58 :aae, aba, ade, age, amd, apt, bfl, bmf, bmv, bvs, caa, cbd, cff, cje, ddr, din, dte, eal, eco, eno, fbt, gau, hmr, hth, ial, kpn, ksk, lfc, mcu, nis, nse, opr, pac, pae, pgd, ple, pub, ret, roa, rpr, rru, saci, salb, say, sbw, sbz, sgr, sho, sma, smk, ssdc, sty, sus, tos, vin, xcb, ype, zin (liste directe).

# 1653M 58 : idem 1653L

# 1653N 58 :idem 1653L .

Nomenclature des protéines d’après KEEG

4213 : K01681 aconitate hydratase [EC:4.2.1.3]

secA : K03070 preprotein translocase subunit SecA

27140 : K00873 pyruvate kinase [EC:2.7.1.40]

63551 : K01955 carbamoyl-phosphate synthase large subunit [EC:6.3.5.5]

63552 : K01956 carbamoyl-phosphate synthase small subunit [EC:6.3.5.5]

1653L : K00341 NADH-quinone oxidoreductase subunit L [EC:1.6.5.3]

1653M :K00342 1653N : K00343

6114 : K01869 leucyl-tRNA synthetase [EC:6.1.1.4]

6115 : K01870 isoleucyl-tRNA synthetase [EC:6.1.1.5]

2777A : K02337 DNA polymerase III subunit alpha [EC:2.7.7.7] dnaE(eco)

2777E1 : K02324 DNA polymerase epsilon subunit 1 [EC:2.7.7.7] polE (hsa)

27772 : K02322 DNA polymerase II large subunit [EC:2,7,7,7] polA2 (hal)

27771 : K02335 DNA polymerase I [EC:2.7.7.7] polA (eco)

27761 : K03043 DNA-directed RNA polymerase subunit beta [EC:2.7.7.6] rpoB(eco)

27762 : K03046 DNA-directed RNA polymerase subunit beta' [EC:2.7.7.6] rpoC(eco)

2776A1 : K02999 DNA-directed RNA polymerase I subunit RPA1 [EC:2.7.7.6] polR1A(hsa)

2776A1 : K03041 DNA-directed RNA polymerase subunit A' [EC:2.7.7.6] rpoA1(hal)

2776A2 : K03002 DNA-directed RNA polymerase I subunit RPA2 [EC:2.7.7.6] polR1B(hsa)

2776B1 : K03044 DNA-directed RNA polymerase subunit B' [EC:2.7.7.6] rpoB’(hal)

17-07-16 Tanger

Méthodes

Calculs des valeurs propres des matrices des coéfficients de corrélation entre codons.

Le coefficient de corrélation entre 2 codons fait participer ces 2 codons de façon équivalente. D’où la symétrie de la matrice carrée de ces coefficients. Pour attribuer une valeur à la participation de chaque codon je me réfère à la définition statistique du coefficient de corrélation qui est un produit des 2 paramètres caractéristiques de chaque variable aléatoire représentée ici par un codon. (réf.).

L’équivalence de participation fait que, celle d’un codon, est égale à la racine carrée du coéfficient de corrélation entre ces 2 codons. La racine carrée implique l’utilisation des nombres complexes quand le coéfficient est négatif.

Obtention de la matrice :

La matrice des coefficients sera en fait la matrice complexe des racines carrées des coefficients de corrélation entre codons. Pour l’obtenir avec un tableur (ici Calc de Libreoffice) il suffit de faire dans une cellule:

=SI(CO585<0;-RACINE(-CO585);RACINE(CO585)).

Pour obtenir un nombre complexe il suufit de remplacer (ctrl+H) -0. par 1j*0. (python2.7).

Formatage de la matrice pour python2.7 :

Copier la matrice de Calc vers Writer (ctrl+Maj+v, texte non formaté).
Remplacer (ctrl+H) : \t en ‘, ‘ (expression régulière et sélection).
Remplacer (ctrl+H) : $ en ‘],\n[ ‘ (expression régulière et sélection).
Mettre ‘[‘ au début de la matrice et ‘]’ à la fin de la matrice.

Si la copie de la matrice dans le terminal se passe mal, copier en plusieurs morceaux chacun se terminant par ‘], ‘.

Calculs des valeurs propres avec python2.7 (ubuntu 16.04):

Dans un terminal passer les commandes suivantes :

****

python2.7

>>> import numpy as np
>>> from numpy import linalg
>>> from numpy.linalg import eig
>>> u = np.array([ "coller"
…...], "coller" "coller"
…, 1]

ajouter à la suite

])

entrée

Si la matrice est acceptée passer la commande

>>> u

pour l’afficher.

Le calcul des valeurs propres se fait de la façon suivante :

>>> D, V = eig(u)

D est la diagonale des valeurs propres en nombres complexes. C’est son module (nombre réel) qu’on peut comparer aux coefficients de corrélation des codons. Pour obtenir ce module je multiplie la valeur propre complexe par son conjugué et j’extrais sa racine carrée. Dans python2.7 je passes les commandes suivantes :

>>> z=np.conj(D)
>>> c=z*D
>>> c

S’affiche alors la liste des modules au carré qu’il suffit de nettoyer du nombre complexe j dans Writer et extraire la racine carrée [=racine()] dans Calc.

****

L’inverse du module de la valeur propre est comparable à l’ordre du classement des codons par leurs coefficients de corrélation :

C’est en regroupant les codons semblables ayant le même signe de corrélation (exemple cgt+cga, tct+tca, ctc+ctg….) que j’obtenais des coefficients très élevés. Que deviennent alors les valeurs propres de telles matrices ? J’ai alors construit une matrice artificielle à partir de la matrice réelle de la protéine 63551 en gardant les signes + et – des coefficients et en remplaçant ceux-ci tous par un nombre inférieur ou égale à 1. Pour cela il suffit, dans Calc, d’exécuter la fonction [=impair()] pour une cellule donnée de la matrice. On obtient des ‘1’ et des ‘-1’. Il suffit alors de remplacer 1 par un nombre inférieur tout en protégeant la diagonale qui doit rester égale à ‘1’.

La matrice artificielle avec une valeur ‘1’ comme coefficient de corrélation donne 18 valeurs propres supérieures à ‘1’ et toutes les autres sont très proche de ‘0’ mais toutes différentes entre elles. Avec 0,5 0,8 et 0,98 on obtient toujours 18 valeurs supérieures à ‘1’ mais les autres valeurs sont toutes identiques entre-elles et sont respectivement de 0,5 0,2 et 0,02.

Il est clair que si on veut comparer coefficient de corrélation et valeur propre il faut plutôt prendre l’inverse de la valeur propre.

Il faut noter que les 2 premières valeurs propres croissent avec le coefficient de corrélation artificiel. J’en tiendrai compte dans ‘ résultats et discussion’.

Voir ‘proteines memb-compare-6355.ods’ pour récupérer ces tableaux.

Classement des codons par leurs coéfficients de corrélation.

Introduction sur la résonance d’un codon qu’on souhaite déterminer ou plus prosaïquement en avoir une quelconque estimation.

Pourquoi suis-je arrivé là, à classer les codons par leurs coefficients de corrélation ? Ma théorie sur la résonance des bases dans l’ADN m’a conduit par simplicité à recenser les bases multiples qui seraient la caractéristique des séquences de contrôle (opérons, promoteurs, treminateurs...). Les compilations que j’ai faites en fonction du %GC d’un génome entier m’ont réconforté dans mon idée : les répétitions de A et les répétions de T se comportent de façons tout à fait différentes de celles de G et celles de C. Pour confirmer j’ai commencé à regarder les répétitions dans les gènes protéiques. A ma grande surprise c’est que les zones de contrôle chez les bactéries sont très peu étendues et les répétitions que j’ai comptabilisées sont en fait dans les gènes protéiques.

L’idée m’est venue alors de rechercher la résonance des codons en étudiant les diagrammes (nombre de codons) en fonction du %GC de l’organisme. Les résultats sont réconfortants. C’est à dire que les diagrammes sont tous différents et leur allure reste la même quelque soit la protéine étudiée. Mais 2 points litigieux me tracassaient :

- la résonance d’un codon dans une séquence n’a pas de sens puisque le codon n’a d’existence que par l’intermédiaire de la traduction. Dans le gène il n’y a pas de frontières entre les bases et les triplets qui ne sont pas des codons n’interviennent pas dans les diagrammes. Ma théorie de la résonance n’est valable que pour le gène entier.
- le fait même de tenir compte du %GC de l’organisme entier veut que ça soit ce pourcentage qui soit à l’origine de la répartition des codons et non les propriétés des codons (ou plus particulièrement la résonance des bases) qui soient à l’origine du dit pourcentage. C’est la théorie de l’évolution qui est avancée dans la polémique de l’origine du %GC. Les études de mes diagrammes n’apportent que de la confusion.

La confusion a commencé à se dissiper quand, petit à petit, en essayant de classer les codons avec leurs diagrammes, je me suis intéressé aux coefficients de corrélation entre les codons. Ces coefficients ne font plus intervenir le fameux %GC de la polémique. Il m’est apparu alors évident que la matrice 64x64 des corrélations représentait plus ou moins la signature de la résonance du gène. C’est une matrice symétrique de nombres réels donc elle a 64 valeurs propres portées par 64 vecteurs propres. La matrice définie par les vecteurs propres est une matrice diagonale des valeurs propres. Le problème qui se pose alors c’est comment relier codon et valeur propre. Car l’ordre des valeurs propres est indéterminé.

Reste le point litigieux de la résonance d’un codon dans un gène. Mais revenons sur l’argumentaire de la traduction qui attribue le concept de codon uniquement à la machinerie de la traduction. Le codon est défini avant tout par le sens de lecture sur un ARNm qui est simple brin. Or l’ADN est double brin et n’est pas en translation. Cependant quand les protéines qui gèrent l’ADN (protection, réparation, reconfiguration lors de la transcription et de la réparation et surtout interaction avec les facteurs de transcription) entrent en interaction avec lui, elles interagissent avec la structure physique : les 2 brins ne sont pas accessibles de la même façon dans le petit et le grand sillon, ils n’ont pas la même énergie quand l’ADN est déroulé ou comprimé lors des réparations ou de la transcription. Donc pour ces protéines, sur une courte distance, un des brins est accessible dans une direction donnée. C’est ainsi qu’on comprend que la transcriptase lit un brin donné dans un sens et lit la séquence qui suit dans l’autre sens, c’est la lecture dans le sens direct et dans le sens complément.

Donc la résonance d’un triplet peut se concevoir dans l’ADN comme si c’était un simple brin. Mais pour qu’on puisse parler des mêmes codons que pour la traduction il faut alors supposer qu’un triplet donné constitue une onde fixe en vibration avec 2 nœuds et un ventre chacun constitué d’une seule base nucléique. Les triplets en résonance sont alors les mêmes que les codons. On imagine bien que cette résonance continue d’être effective, même partiellement, dans l’ARNm et qu’elle ait un rôle dans la machinerie trauctionnelle.

Les triplets en résonance sont peut être les ondes minimales qui constituent des ondes plus grandes qui seraient les gènes délimités par les 2 nœuds qui seraient le codon d’initiation et le codon stop eux-mêmes définis comme tels par les promoteurs et les terminateurs qui ont des séquences beaucoup plus grandes que 3 bases et qui doivent avoir leur résonance propre.

Tanger 25-7-16

Classement par le coéfficient de corrélation entre un codon et le %GC de la protéine.

Nous avions dit que le %GC d’un gène est le résultat de l’interaction des codons entre eux et non l’inverse. Le coéfficient de corrélation de ce pourcentage avec un codon donné représente son interaction avec tout le gène comme la valeur propre d’une matrice représente une caractéristique de toute la matrice. On peut donc mettre en parallèle (comparer) valeur propre et ce coéfficient de corrélation.

Il est imporatnt de noter que le %GC définit de façon unique le gène et les interactions entre codons. Ceci n’a de sens que parce que l’appariement dans l’ADN est stricte. Ce n’est plus le cas si on s’interessait aux coéfficients de corrélations entre aas par exemple dans une protéine. On peut définir aussi une résonance (de nature différente de celle de l’ADN) pour une protéine et la composition de cette protéine est la résultante des coéfficients de corrélation entre aas. Seulement les valeurs propres de la matrice des corrélations ne peuvent plus être mis en parallèle avec des coéfficients de corrélation entre une caractéristique de la protéine et un aa. Cette caractéristique n’est pas unique, car avec 20 aas et la longueur de la protéine on peut en définir un nombre astronomique.

Nous touchons là la problématique même des premières étapes de l’évolution moléculaire ou autrement dit le paradoxe de l’oeuf et de la poule. Une protéine est en interaction permanente avec son environnement qui fluctue énormément et donc sa conformation change tout le temps tout en ayant toujours la même séquence d’aas. Le gène par contre est confiné solidement à l’intérieur de l’ADN qui est maintenu dans sa conformation par une multitude de protéines. La résonance du gène peut être ainsi maintenue dans une game restreinte avec même des modifications dans la séquence des bases et définir donc une fonction. C’est ce que nous observons dans les corrélations entre codons.

Reste comment passer de la fonction de la protéine à la séquence de son gène. Ou vis-versa.J’ai abordé ce sujet en introduisant ma théorie sur la résonance et les origines de la vie. Je reprendrai ce sujet au moment de la discussion et de la présentation des résultats. Mon hypothèse c’est que la résonance entre bases nucléiques (futur ADN) peut se faire grâce aux contraintes imposées par la structure établie par le liposome, les aas libres et les bases nucléiques libres aussi , avant même qu’aucune liaison covalente ne soit établie. J’ai voulu insister, ici, sur le choix de la méthode en relation avec cette hypothèse.

Classement par la somme des valeurs absolues des coéfficients de corrélation dans une protéine et comparaison avec les autres protéines.

C’est la méthode qu’on aborde avant toute réflexion. C’est ce que j’ai fait au début pour les codons et que je ferai pour les aas, là où, comme je l’ai dit au classement précédent, on ne peut faire de parallèle entre valeur propre et coéfficient de corrélation. Les valeurs absolues des coéfficients de corrélation ignorent le signe, alors que valeur propre et coéfficient de corrélation avec %GC en tiennent compte. La somme des coéfficients reste une addition de parties qui ne rprésente pas la relation du codon avec le tout qu’est le gène.

J’utilise la somme des valeurs absolues pour les codons et les aas dans un seul cas pour les comparer avec le coéfficient avec %GC.

Mise en parallèle des valeurs propres et de l’ordre des codons effectué sur leurs coefficients de corrélation avec %GC.

Inverse

regroupement et définition de 3 types de résonance

Total des valeurs propres : corrélations fortes et faibles

les 2 1ères valeurs propres

variations entre protéines et entre domaines

votre commentaire

Revue du GC content dans la littérature

Par mekali dans GC content le 23 Mai 2016 à 09:54

23.5.16 Paris

Beaucoup de travaux ont été faits sur le contenu en GC de l'ADN depuis les années 1950. L'aspect physique de l'ADN y est abordé mais pas du point de vue résonance comme je l'ai fait dans le concept global.

<br />

votre commentaire
Du concept global au GC content

Par mekali dans GC content le 23 Mai 2016 à 09:48

23.5.16 Paris

Comment je suis arrivé à étudier le contenu en GC de l'ADN dans ma réflexion sur les origines de la vie. Cela sera l'introduction et la définition du cadre de l'article à publier sous le titre de "les états vibratoires de l'ADN et la sélection naturelle".

<br />

votre commentaire
1 2 3 4 5 6 7 8 9 10 ...

Références

Résultats et discussion

Marériel et méthodes

Revue du GC content dans la littérature

Du concept global au GC content