Ce protocole décrit la méthode Capture Hi-C utilisée pour caractériser l’organisation 3D de régions génomiques ciblées de taille mégamétrique à haute résolution, y compris les limites des domaines topologiquement associés (TAD) et les interactions chromatines à longue distance entre les éléments de séquence d’ADN régulateurs et autres.
L’organisation spatiale du génome contribue à sa fonction et à sa régulation dans de nombreux contextes, y compris la transcription, la réplication, la recombinaison et la réparation. Comprendre la causalité exacte entre la topologie et la fonction du génome est donc crucial et fait de plus en plus l’objet de recherches intensives. Les technologies de capture de conformation chromosomique (3C) permettent de déduire la structure 3D de la chromatine en mesurant la fréquence des interactions entre n’importe quelle région du génome. Nous décrivons ici un protocole rapide et simple pour effectuer Capture Hi-C, une méthode d’enrichissement de cible basée sur 3C qui caractérise l’organisation 3D spécifique à l’allèle de cibles génomiques de taille mégamétrique à haute résolution. Dans Capture Hi-C, les régions cibles sont capturées par un ensemble de sondes biotinylées avant le séquençage à haut débit en aval. Ainsi, une résolution et une spécificité allèle plus élevées sont obtenues tout en améliorant le temps et l’abordabilité de la technologie. Pour démontrer ses points forts, le protocole Capture Hi-C a été appliqué au centre d’inactivation X ( Xic) de la souris, le locus régulateur principal de l’inactivation du chromosome X (XCI).
Le génome linéaire contient toutes les informations nécessaires pour qu’un organisme subisse un développement embryonnaire et survive tout au long de l’âge adulte. Cependant, demander à des cellules génétiquement identiques de remplir différentes fonctions est fondamental pour contrôler avec précision quelles informations sont utilisées dans des contextes spécifiques, y compris différents tissus et / ou stades de développement. On pense que l’organisation tridimensionnelle du génome participe à cette régulation spatio-temporelle précise de l’activité des gènes en facilitant ou en empêchant l’interaction physique entre des éléments régulateurs qui peuvent être séparés par plusieurs centaines de kilobases dans le génome linéaire (pour les revues 1,2,3). Au cours des 20 dernières années, notre compréhension de l’interaction entre le repliement du génome et l’activité s’est rapidement améliorée, en grande partie grâce au développement de technologies de capture de conformation chromosomique (3C) (pour la revue 4,5,6,7). Ces méthodes mesurent la fréquence des interactions entre toutes les régions du génome et reposent sur la ligature de séquences d’ADN qui sont à proximité 3D dans le noyau. Les protocoles 3C les plus courants commencent par la fixation des populations cellulaires avec un agent de réticulation tel que le formaldéhyde. La chromatine réticulée est ensuite digérée avec une enzyme de restriction, bien que la digestion de la MNase ait également été utilisée 8,9. Après la digestion, les extrémités de l’ADN libre à proximité spatiale sont re-ligaturées et la réticulation est inversée. Cette étape donne naissance à la « bibliothèque » 3C ou « modèle », un pool mixte de fragments hybrides dans lequel les séquences qui étaient à proximité 3D du noyau ont plus de chances d’être ligaturées dans le même fragment d’ADN. La quantification en aval de ces fragments hybrides permet de déduire la conformation 3D de régions génomiques situées à des milliers de paires de bases dans le génome linéaire, mais qui pourraient interagir dans l’espace 3D.
De nombreuses approches différentes ont été développées pour caractériser la bibliothèque 3C, différant à la fois en termes de sous-ensembles de fragments de ligature analysés et de technologie utilisée pour leur quantification en aval. Le protocole 3C original reposait sur la sélection de deux régions d’intérêt et la quantification de leur fréquence d’interaction « un contre un » par PCR10,11. L’approche 4C (capture circulaire de conformation chromosomique) mesure les interactions entre un seul locus d’intérêt (c.-à-d. le « point de vue ») et le reste du génome (« un contre tous »)12,13,14. En 4C, la bibliothèque 3C subit un deuxième cycle de digestion et de re-ligature pour générer de petites molécules d’ADN circulaires qui sont amplifiées par des amorces spécifiques au point de vue15. 5C (chromosome conformation capture carbon copy) permet la caractérisation des interactions 3D dans de plus grandes régions d’intérêt, fournissant des informations sur le repliement de la chromatine d’ordre supérieur dans cette région (« plusieurs contre plusieurs »)16. En 5C, la bibliothèque 3C est hybridée à un pool d’oligonucléotides chevauchant des sites de restriction qui peuvent ensuite être amplifiés par PCR multiplex avec amorces universelles15. Dans 4C et 5C, les fragments d’ADN informatifs ont d’abord été quantifiés par des puces à ADN et plus tard par séquençage de nouvelle génération (NGS)17,18,19. Ces stratégies caractérisent les régions d’intérêt ciblées, mais ne peuvent pas être appliquées pour cartographier les interactions à l’échelle du génome. Ce dernier objectif est atteint avec Hi-C, une stratégie à haut débit basée sur 3C dans laquelle le séquençage massivement parallèle du modèle 3C permet la caractérisation impartiale du repliement de la chromatine au niveau du génome (« tous contre tous »)20. Le protocole Hi-C comprend l’incorporation d’un résidu biotinylé aux extrémités des fragments digérés, qui est suivi d’une réduction des fragments de ligature avec des billes de streptavidine pour augmenter la récupération des fragments ligaturés20.
Hi-C a révélé que les génomes des mammifères sont structurellement organisés à plusieurs échelles dans le noyau 3D. À l’échelle de la mégabase, le génome est divisé en régions de chromatine active et inactive, les compartiments A et B, respectivement20,21. L’existence d’autres sous-compartiments représentés par différents états de chromatine et d’activité a également été démontrée par la suite22. À une résolution plus élevée, le génome est ensuite partitionné en domaines d’auto-interaction sous-mégabase appelés domaines d’association topologique (TAD), révélés pour la première fois par l’analyse Hi-C et 5C des génomes humain et murin23,24. Contrairement aux compartiments qui varient d’une manière spécifique aux tissus, les TAD ont tendance à être constants (bien qu’il existe de nombreuses exceptions). Il est important de noter que les limites TAD sont conservées pour toutes les espèces25. Dans les cellules de mammifères, les TAD englobent souvent des gènes partageant le même paysage régulateur et il a été démontré qu’ils représentent un cadre structurel qui facilite la corégulation des gènes tout en limitant les interactions avec les domaines régulateurs voisins (pour la revue 3,26,27,28). De plus, au sein des TAD, les interactions dues aux sites CTCF à la base des boucles extrudées de cohésine peuvent augmenter la probabilité d’interactions promoteur-amplificateur ou amplificateur-amplificateur (pour la revue29).
En Hi-C, les compartiments et les TAD peuvent être détectés à une résolution de 1 Mb à 40 kb, mais une résolution plus élevée peut être obtenue pour caractériser des contacts à plus petite échelle, tels que les interactions en boucle entre éléments distaux à l’échelle de 5 à 10 kb. Cependant, l’augmentation de la résolution pour pouvoir détecter efficacement de telles boucles par HiC nécessite une augmentation significative de la profondeur de séquençage et, par conséquent, des coûts de séquençage. Ceci est exacerbé si l’analyse doit être spécifique à l’allèle. En effet, une augmentation X de la résolution nécessite une augmentation X2 de la profondeur de séquençage, ce qui signifie que les approches à haute résolution et spécifiques à l’allèle à l’échelle du génome peuvent être prohibitives30.
Pour améliorer la rentabilité et l’abordabilité tout en maintenant une haute résolution, les régions cibles d’intérêt peuvent être physiquement extraites des bibliothèques 3C ou Hi-C à l’échelle du génome après leur hybridation avec des sondes oligonucléotidiques complémentaires marquées à la biotine avant le séquençage en aval. Ces stratégies d’enrichissement de la cible sont appelées méthodes de capture-C et permettent l’interrogation des interactions de centaines de loci cibles dispersés dans le génome (c.-à-d. Promoter Capture (PC) Hi-C; Capture C de nouvelle génération (NG); Capture à faible entrée (LI) en C ; Capture nucléaire titrée (NuTi) en C; Tri-C)31,32,33,34,35,36,37,38,39,40, ou dans des régions couvrant jusqu’à plusieurs mégabases (c.-à-d. Capture HiC; HYbrid Capture Hi-C (Hi-C2); Tuilé-C)41,42,43. Deux aspects peuvent varier dans les méthodes basées sur la capture : (1) la nature et la conception des oligonucléotides biotinylés (c.-à-d. ARN ou ADN, oligos uniques capturant des cibles génomiques dispersées ou oligos multiples marquant une région d’intérêt); et (2) le modèle utilisé pour abattre les cibles qui peuvent être la bibliothèque 3C ou Hi-C, cette dernière étant constituée de fragments de restriction biotinylés tirés de la bibliothèque 3C.
Ici, un protocole Capture Hi-C basé sur l’enrichissement des contacts cibles à partir de la bibliothèque 3C est décrit. Le protocole repose sur la conception d’un réseau de pavage sur mesure de sondes d’ARN biotinylées et peut être réalisé en 1 semaine de la préparation de la bibliothèque 3C au séquençage NGS. Le protocole est rapide, simple et permet de caractériser l’organisation 3D d’ordre supérieur des régions d’intérêt de la taille d’une mégabase à une résolution de 5 Ko tout en améliorant l’efficacité temporelle et l’abordabilité par rapport aux autres méthodes 3C. Le protocole Capture Hi-C a été appliqué au locus régulateur maître de l’inactivation du chromosome X (XCI), le centre d’inactivation X (Xic), qui héberge l’ARN non codant Xist. Le Xic a déjà fait l’objet d’analyses structurelles et fonctionnelles approfondies (pour examen44,45). Chez les mammifères, XCI compense le dosage des gènes liés à l’X entre les femelles (XX) et les mâles (XY) et implique le silence transcriptionnel de la quasi-totalité de l’un des deux chromosomes X dans les cellules femelles. Le Xic a représenté un puissant locus de référence pour les études sur la topologie du génome 3D et l’interaction avec la régulation des gènes44. L’analyse 5C de la Xic dans les cellules souches embryonnaires de souris (CSEm) a conduit à la découverte et à la dénomination des TAD, fournissant les premiers aperçus de la pertinence fonctionnelle de la partition topologique et de la corégulation génique24. L’organisation topologique du Xic s’est par la suite révélée être impliquée de manière critique dans le moment approprié du développement de la régulation positive de Xist et de XCI 46, et des éléments cis-régulateurs insoupçonnés qui peuvent influencer l’activité des gènes dans et entre les TAD ont également été récemment découverts dans le Xic47,48,49. L’application de Capture Hi-C à 3 Mo du chromosome X de la souris couvrant le Xic démontre la puissance de cette approche pour disséquer le repliement de la chromatine à grande échelle à haute résolution. Un protocole détaillé et facile à suivre est fourni, allant de la conception de la gamme de sondes biotinylées sur chaque site de restriction DpnII dans la région d’intérêt à la génération de la bibliothèque 3C à l’échelle du génome, à l’hybridation et à la capture des contacts cibles et à l’analyse des données en aval. Un aperçu des contrôles de qualité appropriés et des résultats attendus est également inclus, et les forces et les limites de l’approche sont discutées à la lumière de méthodes similaires existantes.
Nous décrivons ici un protocole Capture Hi-C relativement rapide et facile pour caractériser l’organisation d’ordre supérieur de régions génomiques de la taille d’une mégabase à une résolution de 5 à 10 ko. Capture Hi-C appartient à la famille des technologies Capture-C conçues pour enrichir les interactions chromatines ciblées à partir de modèles 3C ou Hi-C à l’échelle du génome. À ce jour, la grande majorité des applications de Capture-C ont été exploitées pour cartographier les contacts chromatiniques d’éléments régulateurs relativement petits dispersés dans l’ensemble du génome. Dans le premier protocole Capture-C, plusieurs sondes biotinylées à ARN superposées ont été utilisées pour capturer >400 promoteurs présélectionnés dans des bibliothèques 3C préparées à partir de cellules érythroïdes31. La même stratégie a ensuite été améliorée dans Next Generation (NG) et Nuclear Titrated (NuTi) Capture-C pour obtenir des profils d’interaction haute résolution de >8 000 promoteurs en utilisant des appâts d’ADN uniques de 120 pb couvrant des sites de restriction uniques et deux cycles séquentiels de capture pour maximiser l’enrichissement des fragments de ligature informative32,40. Ces stratégies ont conduit à la dissection fonctionnelle d’éléments agissant sur cis dans de nombreux contextes différents, y compris le développement embryonnaire de souris, la différenciation cellulaire, l’inactivation du chromosome X et la mauvaise régulation des gènes dans des conditions pathologiques 46,63,65,66,67,68,69,70,71.
Dans Promoter Capture Hi-C (PCHi-C), > 22 000 promoteurs annotés contenant des fragments de restriction ont été extraits des bibliothèques Hi-C par hybridation de sondes biotinylées à ARN unique 120-mer à l’une ou l’autre ou aux deux extrémités du fragment de restriction34,72. Cette méthode a permis de disséquer l’interactome de milliers de promoteurs dans un nombre croissant de types cellulaires, y compris les cellules souches embryonnaires de souris, les cellules hépatiques fœtales et les adipocytes 34,35,72,73, mais aussi les lignées lymphoblastoïdes humaines, les progéniteurs hématopoïétiques, les kératinocytes épidermiques et les cellules pluripotentes 37,74,75,76,77 .
En comparaison avec ces technologies d’enrichissement cible, Capture Hi-C cible des régions génomiques contiguës jusqu’à l’échelle de la mégabase, couvrant ainsi un ou plusieurs TAD et englobant les paysages régulateurs des gènes. Toute la région d’intérêt doit être carrelée avec un ensemble de sondes biotinylées englobant chaque site de restriction DpnII dans la cible. L’hybridation de la matrice biotinylée au modèle 3C, sa capture ultérieure à base de streptavidine et le traitement pour le séquençage multiplexé sont effectués à l’aide d’un système d’enrichissement de cible pour le séquençage multiplexé Illumina Paired-End. L’ensemble du protocole est rapide, car il peut être effectué en 1 semaine, de la préparation de la bibliothèque 3C au séquençage NGS, et il ne nécessite que des adaptations mineures et / ou un dépannage personnalisé.
Le protocole offre également des avantages par rapport à d’autres méthodes basées sur 3C. Pour obtenir des cartes d’interaction à une résolution de 5 à 10 Ko, nous avons séquencé 100 à 120 M de lectures d’extrémités appariées. À titre de comparaison, nous avons utilisé ici un ensemble de données Hi-C de 571 M lectures pour atteindre une résolution de 20 kb64 (GSM2053973), et au moins 1 milliard de lectures seraient nécessaires pour atteindre une résolution de 5 kb avec Hi-C22 à l’échelle du chromosome.
La capture Hi-C telle qu’utilisée dans la présente étude atteint une résolution beaucoup plus élevée que la 5C précédemment publiée sur la base d’une enzyme de restriction de coupure47 à 6 pb (tableau supplémentaire 1). Il est important de noter que la stratégie conçue pour enrichir et amplifier les interactions ciblées dans 5C ne permet pas une analyse spécifique des allèles des interactions chromatines. Au contraire, les données Capture Hi-C peuvent être cartographiées de manière spécifique à l’allèle, permettant la dissection des paysages structurels 3D de paires de chromosomes homologues, par exemple dans des cellules humaines ou dans des lignées cellulaires hybrides F1 dérivées en croisant génétiquement différentes souches de souris78. Pour générer des cartes d’interaction Capture Hi-C spécifiques aux allèles à une résolution de 5 Ko, nous avons séquencé des lectures d’extrémité appariées de 150 pb pour augmenter la couverture SNP. Des approches similaires spécifiques aux allèles peuvent être appliquées aux lignées cellulaires humaines, pour lesquelles l’annotation des SNP est disponible22.
Il est important de noter que, bien que Capture Hi-C assure généralement une haute résolution tout en améliorant l’abordabilité des coûts de séquençage, la production d’oligonucléotides biotinylés sur mesure a un impact sur le coût global de cette méthode. Par conséquent, le choix de la méthode 3C la plus appropriée différera pour différentes applications et dépendra de la question biologique abordée et de la résolution requise, ainsi que de la taille de la région d’intérêt. D’autres protocoles Capture Hi-C développés partagent des fonctionnalités clés avec le protocole décrit ici. Par exemple, une stratégie Capture Hi-C a été appliquée pour caractériser des régions génomiques de ~50 kb à 1 Mb couvrant des variantes non codantes associées au risque de cancer du sein et colorectal; dans ce protocole, les régions cibles ont été retirées des bibliothèques Hi-C en hybridant des appâts à ARN 120-mère en marquant les régions cibles à une couverture3x 33,38,79. De même, HYbrid Capture Hi-C (Hi-C 2) a été utilisé pour cibler les interactions dans les régions d’intérêt jusqu’à2 Mb80. Dans les deux protocoles, l’utilisation d’un modèle Hi-C enrichi pour les fragments de ligature tirés vers le bas de biotine a augmenté le pourcentage de lectures informatives totales par rapport à notre protocole. Par exemple, dans l’ensemble de données Hi-C que nous avons utilisé ici pour la comparaison64 (GSM2053973), le pourcentage de paires valides après la suppression des doublons est 4,8 fois plus élevé que les paires valides obtenues dans Capture Hi-C comme décrit dans la figure 3 et le tableau supplémentaire 1. Cependant, l’extraction consécutive de fragments ligaturés biotinylés et de sondes hybrides rend le protocole beaucoup plus complexe et prend beaucoup plus de temps tout en réduisant éventuellement la complexité de la région capturée.
Une autre méthode disponible pour enrichir les modèles 3C avec des sondes de pavage est Tiled-C, qui a été appliquée pour étudier l’architecture de la chromatine à haute résolution spatiale et temporelle lors de la différenciation érythroïdede souris 43. En Tiled-C, un panel de sondes biotinylées de 70 pb est utilisé pour enrichir les contacts au sein de régions à grande échelle lors de deux cycles consécutifs de capture afin de générer des cartes à très haute résolution des interactions ciblées43,81. Le double enrichissement de capture rend également le protocole plus long et plus complexe par rapport à Capture Hi-C. Cependant, contrairement aux stratégies de capture C ciblant des sites de restriction uniques, dans Tiled-C, le deuxième cycle de capture ne semble pas augmenter de manière significative l’efficacité de la capture et peut donc probablement être omis43. Enfin, une approche de pavage similaire basée sur la même stratégie d’enrichissement cible utilisée dans cette étude a été appliquée à la dissection de paysages régulateurs englobant des variantes structurelles décrites chez des patients atteints de malformations congénitales et remaniées chez des souris transgéniques41,42. Dans ce cas, le réseau de sondes en mosaïque a été conçu sur l’ensemble de la cible plutôt qu’à proximité des sites de restriction DpnII41. Néanmoins, ce travail a été déterminant en soulignant la sensibilité et la puissance de cette stratégie pour parvenir à une caractérisation à haute résolution de grandes régions génomiques dans différents contextes41,42,48.
En conclusion, le protocole décrit ici représente une stratégie simple, robuste et puissante pour la caractérisation 3D haute résolution de toutes les régions génomiques d’intérêt. L’application de cette approche à différents systèmes modèles, types cellulaires, paysages de chromatine régulés par le développement et régulation génique dans des conditions saines et pathologiques est susceptible de faciliter notre compréhension de l’interaction et de la causalité entre la topologie du génome et la régulation des gènes, l’une des questions fondamentales ouvertes dans le domaine de l’épigénétique. En outre, l’application de Capture Hi-C pour cartographier les interactions à longue distance et le repliement de la chromatine d’ordre supérieur des variantes de risque identifiées par les études GWAS a le potentiel de révéler la pertinence fonctionnelle des loci génomiques non codants associés aux maladies humaines dans différents contextes, fournissant ainsi de nouvelles informations sur les processus potentiellement sous-jacents à la pathogenèse.
The authors have nothing to disclose.
Les travaux du laboratoire Heard ont été soutenus par une bourse Advanced Investigator du Conseil européen de la recherche (XPRESS – AdG671027). A.L. est soutenu par une bourse individuelle Marie Skłodowska-Curie Actions de l’Union européenne (IF-838408). A.H. est soutenu par le réseau innovant et interdisciplinaire ITN ChromDesign, dans le cadre de l’accord de subvention Marie Skłodowska-Curie 813327. Les auteurs remercient Daniel Ibrahim (MPI for Molecular Genetics, Berlin) pour ses conseils techniques utiles, la plateforme NGS de l’Institut Curie (Paris), ainsi que Vladimir Benes et le Genomics Core Facility de l’EMBL (Heidelberg) pour leur soutien et leur assistance.
10x PBS pH 7.4 | Gibco | 10010-023 | |
37% (vol/vol) paraformaldehyde solution | Electron Microscopy Sciences | 15686 | single use glass-vials; do not reuse |
50 mL PP conical tube | Falcon | 352070 | |
Agarose | Sigma | A9539-500g | |
Bioanalyzer | Agilent | G2939BA | |
Cell Scrapers – 25 cm Handle and 3.0 cm Blade | Falcon | 353089 | |
CHIR99021 | Axon Medchem BV | Axon 1386 | |
cOmplete Mini, Protease inhibitor cocktail (EDTA-free) | Merck | 11836170001 | |
Countess Cell Counting Chamber Slides | Invitrogen | C10228 | |
Countess II FL | Invitrogen | ZGEXSCCOUNTESS2FL | Automated cell counter |
Covaris S2 | Covaris | 500217 | Sonicator |
DNA LoBind tube, 1.5 mL | Eppendorf | 30108051 | |
DpnII (50000 units/mL) | New England Biolabs | R0543M | |
Dulbecco's Modified Eagle Medium (DMEM) | Merck | D6429 | |
Ethanol (100%) | Merck | 1.00983.2500 | |
Fetal Bovine Serum (FBS) | Thermo Scientific | 10270106 | |
gelatine from porcine skin | Sigma | G1890 | |
GeneRuler 1 kb Plus DNA Ladder | Thermo Scientific | SM0313 | |
GlycoBlue | Thermo Scientific | AM9516 | Coprecipitant |
High-Sensitivity Bioanlayzer chips | Agilent | 5067-4626 | |
Large Cooling Centrifuge 5920 R | Eppendorf | 5948000018 | |
leukaemia inhibitory factor (LIF) | Merck | ESG1107 | |
Liquiport | KNF | NF300 | Benchtop aspiration system |
Low-binding filter tips | Biozym | VT0260U, VT0240, VT0220, VT0200U | |
Molecular biology grade water | Merck | W3500-6x500ML | |
Next Seq 500 | Illumina | SY-415-1001 | |
Next Seq 500 High Output v2 Kit (300 cycles) | Illumina | FC-404-2004 | |
Nonidet P40 Substitute (NP40) | Merck | 11332473001 | |
PD0325901 | Axon Medchem BV | Axon 1408 | |
Protease inhibitor cocktail (EDTA-free) | Merck | 11873580001 | |
Proteinase K – recombinant, PCR-grade (20 mg/mL) | Thermo Scientific | EO0491 | |
Qubit 2.0 | Thermo Scientific | Q32871 | |
Qubit assay tubes | Thermo Scientific | Q32856 | |
Qubit dsDNA High Sensitivity kit | Thermo Scientific | Q32851 | |
RNase A (10 mg/mL) | Thermo Scientific | EN0531 | |
Sodium acetate pH 5.2 (3M) | Merck | S7899 | |
speed vacuum concentrator | Eppendorf | EP5305000100-1EA | |
Agencourt AMPureXP | Beckman Coulter | A63881 | SPRI beads |
SureSelect Target Enrichment Box 1 | Agilent | 5190-8645 | |
SureSelect Target Enrichment Kit ILM Indexing Hyb Module Box 2 | Agilent | 5190-4455 | |
SureSelect XT Library Prep Kit ILM | Agilent | 5500-0132 | |
T4 ligase (30 units/µL) | Thermo Scientific | EL0013 | |
table-top Centrifuge 5427 R | Eppendorf | 5409000012 | |
Triton-X-100 (500 mL) | Merck | X100-500ML | |
Trypan Blue | Invitrogen | T10282 | |
Trypsine | Thermo Scientific | 25300054 | |
UltraPure Glycine | Thermo Scientific | 15527013 | |
β-mercaptoethanol | Thermo Scientific | 31350010 |