Marériel et méthodes

Par mekali dans GC content le 23 Mai 2016 à 10:29

23.5.16 Paris

Le choix des bactéries,
Les bases de données utilisées,
Les moulinettes en Perl pour la compilation et
Les types de compilations choisis,
Les protéines à étudier,
Les diagrammes et les courbes de tendance,
Les coefficients de corrélation,
Les calculs matriciels.

24.5.16 Paris

111 bactéries ordre alphabétique

%GC	KEGG		%GC	KEGG		%GC	KEGG		%GC	KEGG
53.0	apt	Acetobacter pasteurianus	54.1	cgq	corynebacterium glutamicum	37.1	liv	Listeria ivanovii	61.9	sus	Solibacter
35.7	axl	Amphibacillus	42.4	cbd	Coxiella burnetii	48.7	mah	Methylomicrobium	49.0	ssm	Spirochaeta
71.3	amd	Amycolatopsis mediterranei	63.4	ddr	Deinococcus deserti	70.3	mts	Microbacterium	32.1	sep	Staphylococcus epidermidis
48.0	amo	Anaerobaculum	66.2	dpt	Deinococcus proteolyticus	55.4	mcu	Mobiluncus	26.3	smf	Streptobacillus
74.9	ade	Anaeromyxobacter dehalogenans	54.5	dal	Desulfatibacillum	23.7	mcac	Mycoplasma capricolum	38.3	spi	streptococcus pyogenes
43.5	aae	Aquifex aeolicus	58.6	dba	Desulfomicrobium	41.1	nse	Neorickettsia	73.3	salb	Streptomyces albus
69.4	age	Archangium	63.0	dvl	Desulfovibrio vulgaris	39.7	nis	Nitratiruptor	70.7	sma	Streptomyces avermitilis
43.2	bae	Bacillus atrophaeus	56.1	din	Desulfurispirillum	70.0	opr	Oceanithermus profundus	72.2	sgr	Streptomyces griseus
43.5	bsu	Bacillus subtilis	34.9	dte	Desulfurobacterium	45.5	ppoy	Paenibacillus polymyxa	72.0	sho	Streptomyces hygroscopicus
51.7	bvs	Barnesiella	55.1	eno	Enterobacter cloacae	45.1	pdi	Parabacteroides	56.8	say	Sulfobacillus acidophilus
36.8	bbd	Belliella	49.7	eal	Escherichia albertii	29.7	pub	Pelagibacter	59.1	synd	Synechococcus sp.
60.5	bla	Bifidobacterium animalis	50.8	eco	Escherichia coli	59.6	pgd	Phaeobacter gallaeciensis	36.0	thl	Tetragenococcus
27.4	bfl	Blochmannia	27.1	fnc	Fusobacterium nucleatum	48.3	pgi	Porphyromonas gingivalis	63.8	tai	Thermanaerovibrio
57.2	bmf	Brucella abortus	42.0	gva	Gardnerella vaginalis	31.1	pmh	Prochlorococcus marinus	31.4	tme	Thermosipho
68.1	bmv	Burkholderia mallei	64.3	gau	Gemmatimonas	24.2	ssdc	Profftella	46.2	tma	Thermotoga maritima
33.3	cff	Campylobacter fetus	41.8	hhd	Halobacillus	60.0	pac	Propionibacterium acnes	47.1	tli	Thermovirga
30.5	cje	Campylobacter jejuni	32.5	hhl	Halobacteroides	66.6	pae	Pseudomonas aeruginosa	68.6	tos	Thermus thermophilus
16.6	crp	Candidatus Carsonella ruddii	22.5	hcr	Hepatoplasma	61.3	ret	Rhizobium etli	37.9	tde	Treponema denticola
36.3	lat	Candidatus Liberibacter asiaticus	37.5	hmr	Hippea	67.4	roa	Rhodococcus opacus	52.8	tpas	Treponema pallidum
26.2	ple	Candidatus Portiera aleyrodidarum	44.0	hth	Hydrogenobacter	65.4	rru	Rhodospirillum rubrum	39.2	tsu	Treponema succinifaciens
13.5	zin	Candidatus Zinderia insecticola	33.9	ial	Ignavibacterium	29.0	rpr	Rickettsia prowazekii	25.1	sbw	U. Enterobacteria
40.3	cmn	Chlamydia muridarum	74.2	ksk	Kitasatospora	28.5	rip	Riesia	46.5	fbt	U. Flammeovirgaceae
39.1	chp	Chlamydia psittaci	57.5	kpn	Klebsiella pneumoniae	51.3	sbz	Salmonella bongori	25.5	uur	Ureaplasma parvum
41.3	cta	Chlamydia trachomatis	58.4	aba	Koribacter	52.1	sty	Salmonella Enterica	38.6	vpr	Veillonella
72.7	cmi	Clavibacter	34.5	ljf	Lactobacillus johnsonii	46.3	sbn	Shewanella baltica	68.9	vin	Vulgatibacter
29.9	cad	Clostridium acidurici	44.5	lpl	Lactobacillus plantarum	39.1	spl	Shewanella pealeana	65.0	xcb	Xanthomonas campestris
28.3	cbl	Clostridium botulinum	35.3	lla	Lactococcus lactis	62.3	saci	Singulisphaera	47.6	ype	Yersinia pestis
53.6	caa	Coraliomargarita	50.0	lfc	Leptospirillum	62.7	smk	Sinorhizobium meliloti

111 bactéries %GC croissant

%GC	KEGG		%GC	KEGG		%GC	KEGG		%GC	KEGG
13.5	zin	Candidatus Zinderia insecticola	36.3	lat	Candidatus Liberibacter asiaticus	47.6	ype	Yersinia pestis	61.3	ret	Rhizobium etli
16.6	crp	Candidatus Carsonella ruddii	36.8	bbd	Belliella	48.0	amo	Anaerobaculum	61.9	sus	Solibacter
22.5	hcr	Hepatoplasma	37.1	liv	Listeria ivanovii	48.3	pgi	Porphyromonas gingivalis	62.3	saci	Singulisphaera
23.7	mcac	Mycoplasma capricolum	37.5	hmr	Hippea	48.7	mah	Methylomicrobium	62.7	smk	Sinorhizobium meliloti
24.2	ssdc	Profftella	37.9	tde	Treponema denticola	49.0	ssm	Spirochaeta	63.0	dvl	Desulfovibrio vulgaris
25.1	sbw	U. Enterobacteria	38.3	spi	streptococcus pyogenes	49.7	eal	Escherichia albertii	63.4	ddr	Deinococcus deserti
25.5	uur	Ureaplasma parvum	38.6	vpr	Veillonella	50.0	lfc	Leptospirillum	63.8	tai	Thermanaerovibrio
26.2	ple	Candidatus Portiera aleyrodidarum	39.1	chp	Chlamydia psittaci	50.8	eco	Escherichia coli	64.3	gau	Gemmatimonas
26.3	smf	Streptobacillus	39.1	spl	Shewanella pealeana	51.3	sbz	Salmonella bongori	65.0	xcb	Xanthomonas campestris
27.1	fnc	Fusobacterium nucleatum	39.2	tsu	Treponema succinifaciens	51.7	bvs	Barnesiella	65.4	rru	Rhodospirillum rubrum
27.4	bfl	Blochmannia	39.7	nis	Nitratiruptor	52.1	sty	Salmonella Enterica	66.2	dpt	Deinococcus proteolyticus
28.3	cbl	Clostridium botulinum	40.3	cmn	Chlamydia muridarum	52.8	tpas	Treponema pallidum	66.6	pae	Pseudomonas aeruginosa
28.5	rip	Riesia	41.1	nse	Neorickettsia	53.0	apt	Acetobacter pasteurianus	67.4	roa	Rhodococcus opacus
29.0	rpr	Rickettsia prowazekii	41.3	cta	Chlamydia trachomatis	53.6	caa	Coraliomargarita	68.1	bmv	Burkholderia mallei
29.7	pub	Pelagibacter	41.8	hhd	Halobacillus	54.1	cgq	corynebacterium glutamicum	68.6	tos	Thermus thermophilus
29.9	cad	Clostridium acidurici	42.0	gva	Gardnerella vaginalis	54.5	dal	Desulfatibacillum	68.9	vin	Vulgatibacter
30.5	cje	Campylobacter jejuni	42.4	cbd	Coxiella burnetii	55.1	eno	Enterobacter cloacae	69.4	age	Archangium
31.1	pmh	Prochlorococcus marinus	43.2	bae	Bacillus atrophaeus	55.4	mcu	Mobiluncus	70.0	opr	Oceanithermus profundus
31.4	tme	Thermosipho	43.5	aae	Aquifex aeolicus	56.1	din	Desulfurispirillum	70.3	mts	Microbacterium
32.1	sep	Staphylococcus epidermidis	43.5	bsu	Bacillus subtilis	56.8	say	Sulfobacillus acidophilus	70.7	sma	Streptomyces avermitilis
32.5	hhl	Halobacteroides	44.0	hth	Hydrogenobacter	57.2	bmf	Brucella abortus	71.3	amd	Amycolatopsis mediterranei
33.3	cff	Campylobacter fetus	44.5	lpl	Lactobacillus plantarum	57.5	kpn	Klebsiella pneumoniae	72.0	sho	Streptomyces hygroscopicus
33.9	ial	Ignavibacterium	45.1	pdi	Parabacteroides	58.4	aba	Koribacter	72.2	sgr	Streptomyces griseus
34.5	ljf	Lactobacillus johnsonii	45.5	ppoy	Paenibacillus polymyxa	58.6	dba	Desulfomicrobium	72.7	cmi	Clavibacter
34.9	dte	Desulfurobacterium	46.2	tma	Thermotoga maritima	59.1	synd	Synechococcus sp.	73.3	salb	Streptomyces albus
35.3	lla	Lactococcus lactis	46.3	sbn	Shewanella baltica	59.6	pgd	Phaeobacter gallaeciensis	74.2	ksk	Kitasatospora
35.7	axl	Amphibacillus	46.5	fbt	U. Flammeovirgaceae	60.0	pac	Propionibacterium acnes	74.9	ade	Anaeromyxobacter dehalogenans
36.0	thl	Tetragenococcus	47.1	tli	Thermovirga	60.5	bla	Bifidobacterium animalis

5-7-16 Tanger

Pour les 111 bactéries du 24-5-16 le %GC est celui du chromosome entier de la bactérie.

Pour comparer les corrélations entre codons (voir méthodes) j'ai du recompter le %GC dans la séquence d'ADN de chaque protéine en utilisant la moulinette adéquate ( à ajouter au matériel). Cette comparaison est nécessaire car la séquence des bases chez les eucaryotes et les archées est celle obtenue après épissage et ne représente plus la résonance de la séquence dans le chromosome même qui est mon objectif premier.

Les protéines étudiées: (codes de KEEG)

Le nombre des espèces chez les eucaryotes et les archées étant très faible par rapport à celui des bactéries j’ai du limiter leur nombre à une trentaine d’espèces ( pour quelque protéines je suis allé jusqu’à 40 espèces). En plus la liste des espèces par protéine n’est pas la même car souvent une espèce n’a pas nécessairement toutes les protéines que j’ai prévues d’ étudier. Aussi je donne ici la liste des espèces par protéine pour les archées et les eucaryotes. Pour les bactéries la liste étant longue, je me réfère à la liste du 24.5.16 et je mentionne les manquants seulement.

Protéines eucaryotes

@noms=(acs, aly, apla, ath, ecb, bta, cal, chx, cic, cme, cre, ehx, fab, gga, gla, hsa, lcm, lth, mcc, mmu, mus, myb, mze, ndi, ngi, oas, ota, pbi, pic, ppa, pper, pss, pti, sce, sly, tca, ttt, tup, umr, xma); # 2777A

@noms=(aag, aly, asn, ath, bfu, bsc, cal, chx, cic, cme, cmt, cre, dfa, dpe, fab, fgr, gtr, hsa, lth, mcc, mmu, mus, myd, mze, ndi, nfi, oas, pbi, pco, ppa, pper, sce, sly, spo, spu, ttt, tup, umr, ure, zma); # 2776A1

@noms=(act, aly, asn, ath, bsc, cic, cmt, cre, dme, fgr, gtr, hsa, loa, mbr, mcc, mmu, mde, mze, ncr, osa, pda, ppa, pper, sce, shr, sla, sly, spo, tca, umr); # 6115

@noms=(act, aly, ath, bze, cal, cic, cmt, dsq, ela, fgr, gtr, hir, lth, mbe, mlr, ncr, ncs, osa, pda, pfj, ppa, ppp, sbi, sce, sla, smp, spo, tms, ttt, ure); # 6355

@noms=(apla, asn, ath, chx, cic, cmt, cre, dgr, dme, dre, hsa, loa, mbr, mcc, mmu, pif, pkn, ppa, pper, pss, sbi, sce, shr, sla, sly, spo, tca, ttt, tva, ure); # 27140

@noms=(acs, aly, apla, ath, bacu, bta, cal, chx, cic, cme, cre, ecb, ehx, fab, gga, gla, hsa, lcm, lth, mcc, mmu, mus, myb, mze, ndi, ngi, oas, ota, pbi, pic, ppa, pper, pti, sce, sly, tca, ttt, tup, xma, xtr); #2777E1

@noms=(act, aly, asn, ath, bsc, cic, cmt, dme, fgr, gtr, hsa, loa, mbr, mcc, mde, mmu, mpp, mze, ncr, osa, pda, ppa, pper, sce, shr, sla, sly, spo, tca, umr); #6114

@noms=(act, aly, ath, cal, cic, cmt, dsq, ela, fgr, gtr, hir, lth, mbe, mlr, ncr, ncs, osa, pda, pfj, pno, ppa, ppp, sbi, sce, sla, smp, spo, tms, ttt, ure); #63552

@noms=(act, aly, asn, ath, bsc, cel, cic, cmt, cre, dme, fgr, gtr, hsa, mbr, mcc, mde, mmu, mze, ncr, osa, pda, ppa, pper, sce, shr, sla, sly, spo, tca, umr); #4213

Protéines archées

@noms=(afg, arg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mja, mls, mma, mmao, mmp, mpl, msz, mth, mtp, nat, nin, pho, pyn, sali, taa, tgy, thm); # 27772

@noms=(afg, arg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mja, mls, mma, mmao, mmp, mpl, mru, msz, mtp, nat, nin, pho, pyn, sali, taa, tgy, thm); # 2776A1

@noms=(afg, arg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mja, mls, mma, mmao, mmp, mpl, msz, mth, mtp, nin, pho, pyn, sali, sol, taa, tgy, thm); # 6115

@noms=(afg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mls, mma, mmao, mmp, mpl, msz, mtp, nat, nin, pas, pyn, sali, sir, sis, sol, sto, taa, tuz); # 6355

@noms=(acj, fac, hal, hla, loki, mba, mem, mev, mhor, mhu, mja, mls, mma, mmao, mmp, msz, nat, pas, pho, pyn, sali, sir, sis, sol, sto, tag, tga tgy, thm, tuz); # 27140

@noms=(afg, arg, asc, fac, hab, hal, hla, loki, mba, mem, mfc, mhor, mif, mja, mls, mmp, mpl, mru, mtp, nat, nin, pas, pyn, sir, sol, sis, taa, tag, tgy, tuz); # 27771

@noms=(afg, arg, hab, hal, hhb, hla, hmu, hsu, mba, mel, mem, mev, mfc, mfs, mhor, mif, mja, mls, mma, mmao, mmp, mmz, mpl, mru, msz, mtp, mvo, nat, sali, sso); # 2776B1

@noms=(afg, arg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mfs, mhor, mja, mls, mma, mmp, mpl, msi, mth, mtp, nin, pho, pyn, sali, sol, taa, tgy, thm); # 6114

@noms=(afg, fac, hab, hal, hla, hmu, loki, mba, mem, mev, mfc, mhor, mls, mma, mmao, mmp, mpl, msz, mtp, nat, nin, pas, pyn, sali, sir, sis, sol, sto, taa, tuz); # 63552

@noms=(asc, fac, hab, hal, hhb, hla, hmu, hsf, loki, mba, mear, mev, mhor, mls, mma, msz, mtp, nat, nga, nin, pai, pog, pyn, sai, sali, sir, sis, sol, taa, tuz); # 4213

Protéines bactéries

Liste 111 bactéries

@noms=(aae, aba, ade, age, amd, amo, apt, axl, bae, bbd, bfl, bla, bmf, bmv, bsu, bvs, caa, cad, cbd, cbl, cff, cgq, chp, cje, cmi, cmn, crp, cta, dal, dba, ddr, din, dpt, dte, dvl, eal, eco, eno, fbt, fnc, gau, gva, hcr, hhd, hhl, hmr, hth, ial, kpn, ksk, lat, lfc, liv, ljf, lla, lpl, mah, mcac, mcu, mts, nis, nse, opr, pac, pae, pdi, pgd, pgi, ple, pmh, ppoy, pub, ret, rip, roa, rpr, rru, saci, salb, say, sbn, sbw, sbz, sep, sgr, sho, sma, smf, smk, spi, spl, ssdc, ssm, sty, sus, synd, tai, tde, thl, tli, tma, tme, tos, tpas, tsu, uur, vin, vpr, xcb, ype, zin);

#2777A 111 27761 111 27762 111 6114 111 6115 111

#27771 107 : crp, ple, rip, zin

# 27140 97 :aae, crp, dte, hth, lfc, mcac, nse, pgi, ple, pub, rpr, ssdc, tpas, zin

#secA 109 :crp, zin

# 4213 84 :amo, bfl, bvs, chp, cmn, crp, cta, fnc, gva, hcr, ljf, lpl, mcac, pgi, ple, rip, sbw, smf, spi, tde, thl, tma, tme, tpas, uur, vpr, zin

# 63551 93 :aae, axl, chp, cmn, cta, hcr, hth, mcac, mcu, rip, rpr, smf, ssdc, tde, tme, tpas, uur, zin

# 63552 94 :axl, chp, cmn, cta, hcr, mcac, mcu, rip, rpr, smf, ssdc, tai, tde, tme, tpas, uur, zin

# 1653L 58 :aae, aba, ade, age, amd, apt, bfl, bmf, bmv, bvs, caa, cbd, cff, cje, ddr, din, dte, eal, eco, eno, fbt, gau, hmr, hth, ial, kpn, ksk, lfc, mcu, nis, nse, opr, pac, pae, pgd, ple, pub, ret, roa, rpr, rru, saci, salb, say, sbw, sbz, sgr, sho, sma, smk, ssdc, sty, sus, tos, vin, xcb, ype, zin (liste directe).

# 1653M 58 : idem 1653L

# 1653N 58 :idem 1653L .

Nomenclature des protéines d’après KEEG

4213 : K01681 aconitate hydratase [EC:4.2.1.3]

secA : K03070 preprotein translocase subunit SecA

27140 : K00873 pyruvate kinase [EC:2.7.1.40]

63551 : K01955 carbamoyl-phosphate synthase large subunit [EC:6.3.5.5]

63552 : K01956 carbamoyl-phosphate synthase small subunit [EC:6.3.5.5]

1653L : K00341 NADH-quinone oxidoreductase subunit L [EC:1.6.5.3]

1653M :K00342 1653N : K00343

6114 : K01869 leucyl-tRNA synthetase [EC:6.1.1.4]

6115 : K01870 isoleucyl-tRNA synthetase [EC:6.1.1.5]

2777A : K02337 DNA polymerase III subunit alpha [EC:2.7.7.7] dnaE(eco)

2777E1 : K02324 DNA polymerase epsilon subunit 1 [EC:2.7.7.7] polE (hsa)

27772 : K02322 DNA polymerase II large subunit [EC:2,7,7,7] polA2 (hal)

27771 : K02335 DNA polymerase I [EC:2.7.7.7] polA (eco)

27761 : K03043 DNA-directed RNA polymerase subunit beta [EC:2.7.7.6] rpoB(eco)

27762 : K03046 DNA-directed RNA polymerase subunit beta' [EC:2.7.7.6] rpoC(eco)

2776A1 : K02999 DNA-directed RNA polymerase I subunit RPA1 [EC:2.7.7.6] polR1A(hsa)

2776A1 : K03041 DNA-directed RNA polymerase subunit A' [EC:2.7.7.6] rpoA1(hal)

2776A2 : K03002 DNA-directed RNA polymerase I subunit RPA2 [EC:2.7.7.6] polR1B(hsa)

2776B1 : K03044 DNA-directed RNA polymerase subunit B' [EC:2.7.7.6] rpoB’(hal)

17-07-16 Tanger

Méthodes

Calculs des valeurs propres des matrices des coéfficients de corrélation entre codons.

Le coefficient de corrélation entre 2 codons fait participer ces 2 codons de façon équivalente. D’où la symétrie de la matrice carrée de ces coefficients. Pour attribuer une valeur à la participation de chaque codon je me réfère à la définition statistique du coefficient de corrélation qui est un produit des 2 paramètres caractéristiques de chaque variable aléatoire représentée ici par un codon. (réf.).

L’équivalence de participation fait que, celle d’un codon, est égale à la racine carrée du coéfficient de corrélation entre ces 2 codons. La racine carrée implique l’utilisation des nombres complexes quand le coéfficient est négatif.

Obtention de la matrice :

La matrice des coefficients sera en fait la matrice complexe des racines carrées des coefficients de corrélation entre codons. Pour l’obtenir avec un tableur (ici Calc de Libreoffice) il suffit de faire dans une cellule:

=SI(CO585<0;-RACINE(-CO585);RACINE(CO585)).

Pour obtenir un nombre complexe il suufit de remplacer (ctrl+H) -0. par 1j*0. (python2.7).

Formatage de la matrice pour python2.7 :

Copier la matrice de Calc vers Writer (ctrl+Maj+v, texte non formaté).
Remplacer (ctrl+H) : \t en ‘, ‘ (expression régulière et sélection).
Remplacer (ctrl+H) : $ en ‘],\n[ ‘ (expression régulière et sélection).
Mettre ‘[‘ au début de la matrice et ‘]’ à la fin de la matrice.

Si la copie de la matrice dans le terminal se passe mal, copier en plusieurs morceaux chacun se terminant par ‘], ‘.

Calculs des valeurs propres avec python2.7 (ubuntu 16.04):

Dans un terminal passer les commandes suivantes :

****

python2.7

>>> import numpy as np
>>> from numpy import linalg
>>> from numpy.linalg import eig
>>> u = np.array([ "coller"
…...], "coller" "coller"
…, 1]

ajouter à la suite

])

entrée

Si la matrice est acceptée passer la commande

>>> u

pour l’afficher.

Le calcul des valeurs propres se fait de la façon suivante :

>>> D, V = eig(u)

D est la diagonale des valeurs propres en nombres complexes. C’est son module (nombre réel) qu’on peut comparer aux coefficients de corrélation des codons. Pour obtenir ce module je multiplie la valeur propre complexe par son conjugué et j’extrais sa racine carrée. Dans python2.7 je passes les commandes suivantes :

>>> z=np.conj(D)
>>> c=z*D
>>> c

S’affiche alors la liste des modules au carré qu’il suffit de nettoyer du nombre complexe j dans Writer et extraire la racine carrée [=racine()] dans Calc.

****

L’inverse du module de la valeur propre est comparable à l’ordre du classement des codons par leurs coefficients de corrélation :

C’est en regroupant les codons semblables ayant le même signe de corrélation (exemple cgt+cga, tct+tca, ctc+ctg….) que j’obtenais des coefficients très élevés. Que deviennent alors les valeurs propres de telles matrices ? J’ai alors construit une matrice artificielle à partir de la matrice réelle de la protéine 63551 en gardant les signes + et – des coefficients et en remplaçant ceux-ci tous par un nombre inférieur ou égale à 1. Pour cela il suffit, dans Calc, d’exécuter la fonction [=impair()] pour une cellule donnée de la matrice. On obtient des ‘1’ et des ‘-1’. Il suffit alors de remplacer 1 par un nombre inférieur tout en protégeant la diagonale qui doit rester égale à ‘1’.

La matrice artificielle avec une valeur ‘1’ comme coefficient de corrélation donne 18 valeurs propres supérieures à ‘1’ et toutes les autres sont très proche de ‘0’ mais toutes différentes entre elles. Avec 0,5 0,8 et 0,98 on obtient toujours 18 valeurs supérieures à ‘1’ mais les autres valeurs sont toutes identiques entre-elles et sont respectivement de 0,5 0,2 et 0,02.

Il est clair que si on veut comparer coefficient de corrélation et valeur propre il faut plutôt prendre l’inverse de la valeur propre.

Il faut noter que les 2 premières valeurs propres croissent avec le coefficient de corrélation artificiel. J’en tiendrai compte dans ‘ résultats et discussion’.

Voir ‘proteines memb-compare-6355.ods’ pour récupérer ces tableaux.

Classement des codons par leurs coéfficients de corrélation.

Introduction sur la résonance d’un codon qu’on souhaite déterminer ou plus prosaïquement en avoir une quelconque estimation.

Pourquoi suis-je arrivé là, à classer les codons par leurs coefficients de corrélation ? Ma théorie sur la résonance des bases dans l’ADN m’a conduit par simplicité à recenser les bases multiples qui seraient la caractéristique des séquences de contrôle (opérons, promoteurs, treminateurs...). Les compilations que j’ai faites en fonction du %GC d’un génome entier m’ont réconforté dans mon idée : les répétitions de A et les répétions de T se comportent de façons tout à fait différentes de celles de G et celles de C. Pour confirmer j’ai commencé à regarder les répétitions dans les gènes protéiques. A ma grande surprise c’est que les zones de contrôle chez les bactéries sont très peu étendues et les répétitions que j’ai comptabilisées sont en fait dans les gènes protéiques.

L’idée m’est venue alors de rechercher la résonance des codons en étudiant les diagrammes (nombre de codons) en fonction du %GC de l’organisme. Les résultats sont réconfortants. C’est à dire que les diagrammes sont tous différents et leur allure reste la même quelque soit la protéine étudiée. Mais 2 points litigieux me tracassaient :

- la résonance d’un codon dans une séquence n’a pas de sens puisque le codon n’a d’existence que par l’intermédiaire de la traduction. Dans le gène il n’y a pas de frontières entre les bases et les triplets qui ne sont pas des codons n’interviennent pas dans les diagrammes. Ma théorie de la résonance n’est valable que pour le gène entier.
- le fait même de tenir compte du %GC de l’organisme entier veut que ça soit ce pourcentage qui soit à l’origine de la répartition des codons et non les propriétés des codons (ou plus particulièrement la résonance des bases) qui soient à l’origine du dit pourcentage. C’est la théorie de l’évolution qui est avancée dans la polémique de l’origine du %GC. Les études de mes diagrammes n’apportent que de la confusion.

La confusion a commencé à se dissiper quand, petit à petit, en essayant de classer les codons avec leurs diagrammes, je me suis intéressé aux coefficients de corrélation entre les codons. Ces coefficients ne font plus intervenir le fameux %GC de la polémique. Il m’est apparu alors évident que la matrice 64x64 des corrélations représentait plus ou moins la signature de la résonance du gène. C’est une matrice symétrique de nombres réels donc elle a 64 valeurs propres portées par 64 vecteurs propres. La matrice définie par les vecteurs propres est une matrice diagonale des valeurs propres. Le problème qui se pose alors c’est comment relier codon et valeur propre. Car l’ordre des valeurs propres est indéterminé.

Reste le point litigieux de la résonance d’un codon dans un gène. Mais revenons sur l’argumentaire de la traduction qui attribue le concept de codon uniquement à la machinerie de la traduction. Le codon est défini avant tout par le sens de lecture sur un ARNm qui est simple brin. Or l’ADN est double brin et n’est pas en translation. Cependant quand les protéines qui gèrent l’ADN (protection, réparation, reconfiguration lors de la transcription et de la réparation et surtout interaction avec les facteurs de transcription) entrent en interaction avec lui, elles interagissent avec la structure physique : les 2 brins ne sont pas accessibles de la même façon dans le petit et le grand sillon, ils n’ont pas la même énergie quand l’ADN est déroulé ou comprimé lors des réparations ou de la transcription. Donc pour ces protéines, sur une courte distance, un des brins est accessible dans une direction donnée. C’est ainsi qu’on comprend que la transcriptase lit un brin donné dans un sens et lit la séquence qui suit dans l’autre sens, c’est la lecture dans le sens direct et dans le sens complément.

Donc la résonance d’un triplet peut se concevoir dans l’ADN comme si c’était un simple brin. Mais pour qu’on puisse parler des mêmes codons que pour la traduction il faut alors supposer qu’un triplet donné constitue une onde fixe en vibration avec 2 nœuds et un ventre chacun constitué d’une seule base nucléique. Les triplets en résonance sont alors les mêmes que les codons. On imagine bien que cette résonance continue d’être effective, même partiellement, dans l’ARNm et qu’elle ait un rôle dans la machinerie trauctionnelle.

Les triplets en résonance sont peut être les ondes minimales qui constituent des ondes plus grandes qui seraient les gènes délimités par les 2 nœuds qui seraient le codon d’initiation et le codon stop eux-mêmes définis comme tels par les promoteurs et les terminateurs qui ont des séquences beaucoup plus grandes que 3 bases et qui doivent avoir leur résonance propre.

Tanger 25-7-16

Classement par le coéfficient de corrélation entre un codon et le %GC de la protéine.

Nous avions dit que le %GC d’un gène est le résultat de l’interaction des codons entre eux et non l’inverse. Le coéfficient de corrélation de ce pourcentage avec un codon donné représente son interaction avec tout le gène comme la valeur propre d’une matrice représente une caractéristique de toute la matrice. On peut donc mettre en parallèle (comparer) valeur propre et ce coéfficient de corrélation.

Il est imporatnt de noter que le %GC définit de façon unique le gène et les interactions entre codons. Ceci n’a de sens que parce que l’appariement dans l’ADN est stricte. Ce n’est plus le cas si on s’interessait aux coéfficients de corrélations entre aas par exemple dans une protéine. On peut définir aussi une résonance (de nature différente de celle de l’ADN) pour une protéine et la composition de cette protéine est la résultante des coéfficients de corrélation entre aas. Seulement les valeurs propres de la matrice des corrélations ne peuvent plus être mis en parallèle avec des coéfficients de corrélation entre une caractéristique de la protéine et un aa. Cette caractéristique n’est pas unique, car avec 20 aas et la longueur de la protéine on peut en définir un nombre astronomique.

Nous touchons là la problématique même des premières étapes de l’évolution moléculaire ou autrement dit le paradoxe de l’oeuf et de la poule. Une protéine est en interaction permanente avec son environnement qui fluctue énormément et donc sa conformation change tout le temps tout en ayant toujours la même séquence d’aas. Le gène par contre est confiné solidement à l’intérieur de l’ADN qui est maintenu dans sa conformation par une multitude de protéines. La résonance du gène peut être ainsi maintenue dans une game restreinte avec même des modifications dans la séquence des bases et définir donc une fonction. C’est ce que nous observons dans les corrélations entre codons.

Reste comment passer de la fonction de la protéine à la séquence de son gène. Ou vis-versa.J’ai abordé ce sujet en introduisant ma théorie sur la résonance et les origines de la vie. Je reprendrai ce sujet au moment de la discussion et de la présentation des résultats. Mon hypothèse c’est que la résonance entre bases nucléiques (futur ADN) peut se faire grâce aux contraintes imposées par la structure établie par le liposome, les aas libres et les bases nucléiques libres aussi , avant même qu’aucune liaison covalente ne soit établie. J’ai voulu insister, ici, sur le choix de la méthode en relation avec cette hypothèse.

Classement par la somme des valeurs absolues des coéfficients de corrélation dans une protéine et comparaison avec les autres protéines.

C’est la méthode qu’on aborde avant toute réflexion. C’est ce que j’ai fait au début pour les codons et que je ferai pour les aas, là où, comme je l’ai dit au classement précédent, on ne peut faire de parallèle entre valeur propre et coéfficient de corrélation. Les valeurs absolues des coéfficients de corrélation ignorent le signe, alors que valeur propre et coéfficient de corrélation avec %GC en tiennent compte. La somme des coéfficients reste une addition de parties qui ne rprésente pas la relation du codon avec le tout qu’est le gène.

J’utilise la somme des valeurs absolues pour les codons et les aas dans un seul cas pour les comparer avec le coéfficient avec %GC.

Mise en parallèle des valeurs propres et de l’ordre des codons effectué sur leurs coefficients de corrélation avec %GC.

Inverse

regroupement et définition de 3 types de résonance

Total des valeurs propres : corrélations fortes et faibles

les 2 1ères valeurs propres

variations entre protéines et entre domaines

« Revue du GC content dans la littératureRésultats et discussion »

Commentaires

Aucun commentaire pour le moment

Suivre le flux RSS des commentaires

Ajouter un commentaire

Nom / Pseudo :

E-mail (facultatif) :

Site Web (facultatif) :

Commentaire :

Me prévenir par mail en cas de réponse

Marériel et méthodes

Commentaires