Les outils de la génétique moléculaire
Le Génome est un ensemble de l’information génétique, contenue sous forme d’ADN dans nos cellules.
ADN nucléaire (l’ADN mitochondrial intervient dans la synthèse d’une très petite quantité de protéines).
I. Organisation de l’ADN nucléaire
ADN: principalement localisé dans le noyau (eucaryotes):
- 3 milliards de paires de bases (3,2 milliards de paires de bases (macé) donc 6,4 milliards de bases).
- 1 m de longueur entièrement déroulé.
- Diamètre du noyau 10-6 m.
L’ADN doit subir une compaction très importante (même en interphase)
- La chromatine: association d’ADN et de protéines. Elle est compactée même en interphase.
- Nucléosome: la double hélice d’ADN s’enroule autour d’un cœur de 8 protéines, les histones. Ce nucléosome permet l’enroulement d’environ 200 paires de bases en formant environ 2 tours.
- Histone: protéines riche en acide aminés basiques donc chargés positivement. Dans le squelette ribose-phosphate, il y a des phosphates libres avec des charges négatives; liaison des histones à l’ADN ce qui permet la neutralisation des charges négatives des phosphates de l’ADN; liaisons ioniques. Extrémité N-terminale libre.
Chaque nucléosome est relié au suivant par un fragment d’ADN (ADN linker) sur lequel se fixe au niveau du site de sortie une protéine histone H1 ce qui permet l’empilement des nucléosomes. Sa phosphorylation conduira à la compaction des chromosomes pendant la mitose.
Différents niveaux de compaction.1) La fibre de chromatine
- Fibre de chromatine en forme de collier de perle, de 10 nm: nucléosomes jointifs. Les nucléosomes s’enchaînent les uns derrière les autres.
- Fibre de chromatine formée de nucléosomes compactés: les nucléosomes forment des boucles aboutissant à la formation d’une fibre de chromatine de 30 nm.
2) Le chromosome
- Il résulte du niveau de compaction le plus élevé.
- Chez l’Homme, l’ADN est réparti sur 46 chromosomes.
- Encombrement minimum de l’ADN dans le noyau.
- Rapprochement des régions d’ADN qui sont linéairement très distantes les unes des autres.
- Structure dynamique car elle est capable de remodelage, de relâchements ponctuels grâce à un remodelage de la chromatine.
Remodelage de la chromatine
- Glissement d’un noyau histone le long de l’ADN.
- Transfert d’un nucléosome dans une autre région de l’ADN.
- Modifications post-traductionnelles des régions N-terminales des histones: Acétylation; Méthylation, Phosphorylation.
Toutes ces modifications ont un sens puisqu’elles vont permettre la neutralisation des charges positives des histones sur leur extrémité N-terminale (= queue N terminale des histones) et donc permettre une diminution de la liaison ADN-histone (+ de flexibilité).
Des segments d’ADN deviennent accessibles à des protéines spécifiques du remodelage.
En dehors de la division cellulaire, la chromatine est sous forme décondensée (différence avec le cours du Pr Macé où la chromatine est compactée même en interphase), sous forme de chromatine de 30 nm + chromosomes non visibles.
Au cours de la division cellulaire, la chromatine est sous forme condensée, et les chromosomes sont visibles.
II. Différentes catégories d’ADN nucléaire (ADN non fonctionnel = hétérochromatine)
On distingue l’ADN non fonctionnel de l’ADN fonctionnel.
L’ADN non fonctionnel représente 7 % de l’ADN du noyau: c’est l’hétérochromatine.
L’ADN fonctionnel représente 93 % de l’ADN du noyau: c’est l’euchromatine.
Parmi cet ADN fonctionnel, il y a:
- 29 % d’ADN génique fonctionnel.
- 50 % d’ADN répétitif dispersé fonctionnel.
- 10 % d’ADN répétitif groupé fonctionnel.
- Et 4 % d’ADN non codant très conservé fonctionnel.
- 29%: l’ADN génique fonctionnel.
- 64%: l’ADN inter génique FONCTIONNEL.
ADN génique = 29 % du génome
1. les gènes codant pour des protéines: gènes de structure ou gènes inductibles.
Chaque gène est présent sous forme d’une, deux ou quelques copies rarement dispersées sur plusieurs chromosomes. Quand il y a plusieurs copies elles sont le plus souvent sur le même chromosome (mais pas toujours): CNV.
La taille de ces gènes est très variable 30 000 nucléotides.
De temps en temps, on va retrouver:
- Des gènes chevauchants: Superposition partielle de 2 gènes.
- Des gènes nichés: Situés à l’intérieur d’un grand gène.
- des pseudo-gènes des séquences plus ou moins tronquées d’un gène et qui sont NON fonctionnels. Ce sont des débris de gènes ayant codés antérieurement.
Ces gènes sont dispersés, éloignés les uns des autres.
2. Autres Gènes: gènes de ménages ou gènes constitutifs ou gènes domestiques
- des protéines histones.
- des ARNt.
- des ARNr.
A la différence des gènes des protéines, ces gènes sont répétés de nombreuses fois et organisés en tandem (les uns à la suite des autres en copies multiples, de façon séquentielle sur l’ADN).
Intérêt: production accrue d’ARN nécessaires pour la synthèse protéique et d’histones pour le renouvellement des cellules. Ces gènes constitutifs sont TOUJOURS exprimés à l’inverse des gènes de structure qui sont tissus spécifique.
2) ADN inter génique fonctionnel (64 %): peut rarement être codant
1. ADN répétitif groupé = 10 % du génome
Généralement, ce sont des séquences non codantes (non transcrites et non traduites) mais fonctionnelles.
Ce sont des séquences:
- courtes 10 paires de bases à environ 100 paires de bases.
- répétées milliers à millions de copies.
- disposées en tandem (les uns à la suite des autres) comme pour les gènes constitutifs.
Cet ADN répétitif groupé est situé sur les chromosomes au niveau des centromères et des télomères (VNTR).
2. ADN répétitif dispersé = 50 % du génome
Ce sont des séquences répétées mais qui sont dispersées tout au long du génome et qui sont en grande partie (mais pas toutes); non codantes (non transcrites et non traduites) et qui dérivent de séquences d’ADN capables de se déplacer au sein du génome.
les rétro transposons et les transposons.
Dans les cellules eucaryotes, seule une partie de l’ADN contient l’information nécessaire à la synthèse des protéines.
3. ADN non codant très conservé
Ces séquences représentent 4% du génome.
La Transcription
1) Génome et information.
2) Eléments nécessaires à la transcription:
- Nucléotides.
- ARN Polymérase eucaryote.
- Gène: le gène de structure et son organisation.
3) Le mécanisme d’action de l’ARN Pol II
- L’initiation de la transcription.
- Elongation de la transcription .
- Fin de la transcription.
4) Modifications des transcrits
- Chapeau en 5’.
- Excision – épissage.
- PolyA en 3’.
5) Régulation de la transcription
- Niveau chromatinien.
- Niveau transcriptionel.
- Niveau post-transcriptionel.
1) Génome et information
ADN = support matériel de l’information génétique.
Génome: Ensemble de l’information héréditaire d’un organisme.
Présent en totalité dans chacune des cellules de l’organisme (à l’exception des globules rouges qui perdent leur noyau lorsqu’ils rentrent dans la circulation sanguine et deviennent alors matures et fonctionnels).
Par définition, un gène est une séquence d’ADN qui contient l’information pour la synthèse d’un ARN et pas nécessairement une protéine. (ex gènes des ARNr).
1. leur taille est très variable (en nombre de paires de bases)
- Milliers dans le virus.
- Millions dans la bactérie.
- 3 milliards dans la cellule humaine.
- 16 milliards dans le blé.
2. le nombre de gènes qu’ils contiennent:
- quelques milliers / bactérie.
- 24 000 / humain.
3. La nature de ces gènes:
Les gènes des bactéries n’ont rien à voir avec ceux des humains, même s’il y a des similitudes.
Une espèce est caractérisée par un ensemble de gènes spécifiques.
Séquençage du génome humain: 1995 – 2004
- Détermination de la succession des nucléotides composant le génome.
- Localisation des gènes.
- Identification et annotation des gènes.
La transcription: synthèse à partir du brin matrice d’un gène, d’un ARN dont la structure primaire reproduit celle du brin sens de ce gène, par une ARN-polymérase.
L’ADN étant bicaténaire, pour chacun des gènes de l’ADN, on décrit 2 brins: le brin matrice = brin transcrit et le brin sens ou brin codant, complémentaire du brin matrice.
La transcription se fait donc à partir d’un seul des 2 brins du gène, le brin matrice. Selon les gènes, ce brin matrice peut être sur l’un ou l’autre brin de l’ADN. (Piège QCM souvent on met ADN au lieu d’ARN ou l’inverse).
On ne représente que le brin sens ou codant.
2) Eléments nécessaires à la transcription
1. Nucléotides:
- Sous forme triphosphate: ATP, GTP, CTP, UTP.
- Ces nucléotides apportent le substrat: le nucléoside mono phosphate (intégré dans l’ARNt).
- Ces nucléotides apportent l’énergie pour relier chaque nucléotide au précédent pour former le brin d’ARN.
2. ARN Polymérase eucaryote:
Il existe 3 ARN Polymérases (ARN Pol) différentes
- L’ARN Pol II va assurer la transcription des gènes de structure donnant naissance à un ARNm lui-même traduit en protéine ainsi que des Sno ARN à partir des introns des gènes.
- L’ARN Pol III va assurer la transcription des gènes des ARNt et du 5 S.
- L’ARN Pol I va assurer la transcription des gènes des ARNr.
- On s’intéresse surtout à l’ARN Pol II.
3. Gène: le gène de structure et son organisation:
Il va falloir que toute la machinerie transcriptionelle (l’ARN Pol, les nucléotides triphosphates) puisse arriver au niveau du brin matrice de ce gène d’où la notion de remodelage de la chromatine nécessaire à l’accessibilité de cette machinerie.
L’organisation des gènes a un rôle important dans la transcription puis dans la traduction. On va s’intéresser surtout à la transcription des gènes de structure codant pour les ARNm: ces gènes ont une structure commune.
Par convention, on désigne par +1 le premier nucléotide à partir duquel la transcription du gène débute: c’est le site d’initiation de la transcription.
A partir de ce site +1, on va définir 2 régions:
- En amont du site +1: en direction de l’extrémité 5’ du brin sens.
- En aval du site +1: en direction de l’extrémité 3’ du brin sens.
1) en amont du site +1:
Ces gènes commencent par une région correspondant à une séquence de nucléotides non transcrite et non traduite mais indispensable à la transcription: le promoteur du gène.
On distingue:a) le promoteur minimal ( 100 paires de bases) avec, en général:
- Un motif TATA en position -30 ( 30 nucléotides en amont du site +1): 4 nucléotides.
- Un motif CAT ou CAAT a -70: 3-4 nucléotides.
- Le chat (-70) de ma tata (-30).
b) Des séquences régulatrices spécifiques (activatrices ou inhibitrices) en amont du promoteur minimal:
Ce sont des séquences très courtes ( 10 paires de bases) capables de fixer certaines protéines régulatrices de la transcription. Ces séquences régulatrices avec ces protéines régulatrices sont capables d’activer ou d’inhiber l’ARN Pol II bien qu’elles ne soient pas transcrites.
Ces séquences peuvent être très éloignées les unes des autres et très éloignées du site +1: à des centaines ou des milliers de Pb de +1 (de la boite CAT ou TATA); difficile à mettre en évidence et à délimiter.
Ces séquences non transcrites et non traduites existent dans toutes les cellules mais ne sont fonctionnelles que dans un tissu particulier; elles confèrent au gène sa spécificité tissulaire.
2) En aval du +1:
Ces gènes sont composés d’une séquence de nucléotides:
- transcrite en ARN.
- organisée en mosaïque: alternance d’exons et d’introns.
Les introns (30%):
- séquences d’environ 100 à 10 000 paires de bases.
- Intercalés entre les exons, interrompant le gène; gène discontinu dans les cellules eucaryotes uniquement (pas d’introns chez les procaryotes ou pour les mitochondries).
- Ces introns sont transcrits en ARN mais ne sont pas traduits en protéine: présent dans le transcrit primaire, ils sont éliminés par épissage au cours de la maturation des transcrits. On ne les retrouvera plus dans l’ARNm mature qui va passer en dehors du noyau, dans le cytosol, pour la traduction.
- Rôle mal connu.
Les exons (1%):
Séquences du gène exprimée, transcrites et traduites d’environ 50 à 500 paires de base.
Le premier exon possède en général:
- En 5’: une séquence non codante 5’UTR (Untranslated Région) transcrite mais non traduite (comme pour les introns). Rappel: promoteur = non transcrit non traduit.
- Un codon d’initiation de la traduction: ATG.
- En 3’: une séquence codante (transcrite et traduite).
Le dernier exon ( miroir du 1er exon) possède:
- En 5’: une séquence codante (transcrite et traduite).
- L’un des 3 codons stop (porté par l’exon) utilisés en en traduction: TAA, TAG ou TGA.
- En 3’: une séquence non codante (transcrite mais non traduite) 3’UTR, portant le signal de polyadénylation AATAAA puis le site polyAdénylation.
En conclusion, les gènes
- possèdent des limites relativement imprécises (promoteur?).
- sont de taille très variable d’un gène à l’autre: de 1000 paire de bases à quelques millions de paires de bases (en moyenne 30 000).
- représentent une information très morcelée: exons = 1 % du génome, introns = 30 % du génome. Les exons sont intercalés entre les introns.
- sont noyés dans une quantité considérable de séquences non codantes au sein du génome: séquences inter géniques fonctionnelles = 65 % du génome.
- ont une taille sans relation avec celle de la protéine pour laquelle ils codent.
- Remarque: de +1 à -100 c’est le promoteur minimal, en amont de ce promoteur minimal (et l’incluant) c’est le promoteur dont la limite est relativement imprécise.
3) Le mécanisme d’action de l’ARN Pol
1. L’initiation de la transcription:
L’ARN Pol II est incapable de se lier directement sur l’ADN. Elle agit après l’intervention de facteurs généraux de transcription TF II (Transcription Factor ARN Pol II) qui va phosphoryler L’ARN Pol II. (Il y a des facteurs spécifiques de transcription: Trans cf cours n°3).
Caractéristiques de TFII:
- Ubiquitaires (on va les retrouver dans TOUTES les cellules et disponible à TOUS moments).
- Ils assurent la transcription des gènes à un niveau basal.
- Ils agissent sous forme de complexes protéiques (environ 10 protéines différentes par TF II).
Assemblage séquentiel de TF II:
TFII D pour la 1ère liaison à l’ADN constitué de- TBP: la SEULE protéine du complexe TF II; D à se fixer directement sur la boîte TATA (TATA Binding Protein).
- liaisons faibles: interagit en 1er.
- TAF = protéines associées (TBP Activating Factor).
- Memo technique: D pour démarrage.
L’ensemble forme le complexe d’initiation et recouvre une séquence d’environ 100 nucléotides en amont du site +1 (à peu près la taille du promoteur minimal).
4) TFII H catalyse l’ouverture des 2 brins d’ADN:
- Activité hélicase qui active ARN pol II par phosphorylation du CTD.
- Bulle transcriptionelle sur environ 10 paires de bases (B-ADN 10 paires de base par tour de spirale)..
- On ne déroule que la partie importante de l’ADN que l’on peut transcrire.
TFII H active l’ARN Pol II
- L’ARN Pol II contient un domaine carboxy-terminal (CTD) avec des enzymes à chapeau.
- Séquence Tyr-Ser-Pro-Thr-Ser-Pro-Ser répétée 52 fois chez l’homme. TSPTSPS Tyr Sait Profondément Troncher Ses Profondes Servantes.
- TFIIH possède une activité Sérine/Thréonine protéine kinase; phosphorylation des sérines et des thréonines du CTD permettant l’activation.
- Bonus: Les facteurs généraux (TFII) et les facteurs spécifiques trans sont des PROTEINES.
c) ARN Pol II
- Elle lit le brin d’ADN MATRICE dans le sens 3’ → 5’..
- Elle synthétise l’ARNm dans le sens 5’ → 3’: transcrit primaire..
- Elle hydrolyse la liaison entre les Pα et les Pβ du ribonucléoside triphosphate; énergie.
- Liaison ester entre: 3’OH de l’ARNm en cours de synthèse; 5’P du nucléoside en cours d’incorporation.
L’ARN Pol II synthétise un brin complémentaire et antiparallèle au brin matrice.
L’ARNm reproduit exactement le brin sens du gène (l’uracile a remplacé la thymine du gène).
2. Elongation de la transcription
L’ARN Pol II
- se déplace vers l’extrémité 5’ du brin matrice (= brin transcrit).
- déroule la double hélice d’ADN en amont.
- ré-hybride les 2 brins en aval: Hybride ADN / ARN 10 nt (à cause de l’hélicase TFII H).
- corrige les nucléotides incorrectement insérés (activité exonucléastique).
3. Fin de la transcription
L’ARN Pol II reconnaît en aval le signal de polyadénylation, des signaux stop (mal connus).
L’ARN Pol II est déphosphorylée ce qui régénère l’enzyme native et libère l’ADN et l’ARNm.
(La phosphorylation est mauvaise pour tout le monde (vu jusqu’à présent dans les cours) sauf pour la myosine et la Pol II qui sont activées par phosphorylation).
4) Modifications des transcrits 1aires
Les transcrits primaires subissent dans le noyau des modifications covalentes (=maturation) pour donner les ARNm matures fonctionnels.
1. Chapeau GMP méthyle en 5’
coiffe ou cap: 7-méthyl guanine
- Dès le début de la transcription.
- Sur l’extrémité 5’ du transcrit primaire par des enzymes fixées au domaine CTD phosphorylé de l’ADN Pol II.
- Fixation de GMP; liaison triphosphate 5’-5’.
- Méthylation de la base guanine.
Rôle du chapeau de l’ARNm
- Protection de l’ARNm contre la dégradation par des nucléases.
- Transport de cet ARNm une fois qu’il est mature.
- Stabilité.
- Initiation de la traduction.
2. Excision – épissage
Il permet d’éliminer les introns et relier les exons. Site d’épissage: phénylcétonurie.
Pour tous les introns d’un transcrit primaire
- En 5’ = GU = site donneur d’épissage.
- En 3’ = AG = site Accepteur d’épissage.
- Site de branchement = séquence avec un nucléotide à Adénine (lasso AMP à -30 de 3’) à – 30 de l’extrémité 3’ de l’intron (site d’épissage).
Fonctionnement (pour les eucaryotes car pas d’introns chez les procaryotes)
- Clivage du GU au niveau du site donneur d’épissage qui libère un Phosphate.
- Fixation sur l’Adénine du site de branchement; lasso par liaison ester en 2’ de l’Adénine grâce au phosphate libéré par le site donneur d’épissage GU.
- Clivage du AG au niveau du site Accepteur d’épissage.
- Epissage de l’exon amont et de l’exon aval; liaison phosphodiester qui va les relier.
- Dégradation de l’intron (lasso).
Ce phénomène d’excision-épissage met en jeu des spliceosomes.
Intervention des spliceosomes = entités ribonucléoprotéiques
- Petits ARN (environ 100 nt) ou ARNsn (small nuclear).
- Riche en uracile.
- Associés à des protéines.
- Localisés dans le noyau.
- Amyotrophie spinale.
Ces protéines associées vont assurer
- La reconnaissance des sites d’épissages (en 5’, en 3’ et le site de branchement).
- La fixation tout au long du transcrit primaire.
L’interaction entre eux provoque le repliement du transcrit primaire.
Epissage et médecine
- Mutations de séquences d’épissage: Exemple: la phénylcétonurie par rétention d’introns ou excision d’exons.
- Dysfonctionnement de l’assemblage des spliceosomes: Exemple: l’amyotrophie spinale (maladie dégénérative des motoneurones).
3. PolyA en 3’
- Reconnaissance de la séquence signal de polyadénylation AAUAAA.
- Clivage du transcrit 1aire en aval de ce signal par une endonucléase.
- Une polyA polymérase ajoute environ 200 nt Adénine au niveau du site de polyadénylation.
- Clivage en aval (après) ce site de polyadénylation.
Rôle de la queue polyA au niveau de l’ARNm
- Facilite son exportation hors du noyau dans le cytoplasme.
- Stabilisation.
- Interaction avec la coiffe 5’ pour l’initiation de la traduction.
Mêmes rôles que le chapeau de 7-méthyl guanine sans protéger contre les nucléases.
Du gène à l’ARN mature: on aboutit à de l’ARN suffisamment fin pour passer les pores de l’enveloppe nucléaire.
200 Pb entre 2 nucléosomes.
ATTENTION
- Gènes de structure = ARNm ex gène pour la phase M du cycle cellulaire.
- Gènes de ménage = gènes domestiques = gènes constitutifs = gènes constamment exprimés (ex ARNr) UN DOMESTIQUE SA FAIT LE MENAGE.