Este protocolo descreve o método Capture Hi-C usado para caracterizar a organização 3D de regiões genômicas alvo de tamanho megabaseado em alta resolução, incluindo limites de domínios topologicamente associados (TADs) e interações de cromatina de longo alcance entre elementos regulatórios e outros elementos de sequência de DNA.
A organização espacial do genoma contribui para sua função e regulação em muitos contextos, incluindo transcrição, replicação, recombinação e reparo. A compreensão da causalidade exata entre a topologia e a função do genoma é, portanto, crucial e cada vez mais objeto de pesquisa intensiva. As tecnologias de captura da conformação cromossômica (3C) permitem inferir a estrutura 3D da cromatina medindo a frequência de interações entre qualquer região do genoma. Aqui descrevemos um protocolo rápido e simples para realizar o Capture Hi-C, um método de enriquecimento de alvos baseado em 3C que caracteriza a organização 3D alelo-específica de alvos genômicos de tamanho megabaseado em alta resolução. No Capture Hi-C, as regiões-alvo são capturadas por uma matriz de sondas biotiniladas antes do sequenciamento de alto rendimento downstream. Assim, maior resolução e especificidade alélica são alcançadas, melhorando a eficácia do tempo e a acessibilidade da tecnologia. Para demonstrar seus pontos fortes, o protocolo Capture Hi-C foi aplicado ao centro de inativação X de camundongos ( Xic), o locus regulador mestre da inativação do cromossomo X (XCI).
O genoma linear contém todas as informações necessárias para que um organismo passe pelo desenvolvimento embrionário e sobreviva ao longo da vida adulta. No entanto, instruir células geneticamente idênticas a desempenhar diferentes funções é fundamental para controlar com precisão quais informações são usadas em contextos específicos, incluindo diferentes tecidos e/ou estágios de desenvolvimento. Acredita-se que a organização tridimensional do genoma participe dessa regulação espaço-temporal precisa da atividade gênica, facilitando ou impedindo a interação física entre elementos regulatórios que podem ser separados por várias centenas de quilobases no genoma linear (para revisões 1,2,3). Nos últimos 20 anos, nossa compreensão da interação entre dobramento e atividade do genoma aumentou rapidamente, em grande parte devido ao desenvolvimento de tecnologias de captura de conformação cromossômica (3C) (para revisão 4,5,6,7). Esses métodos medem a frequência de interações entre quaisquer regiões do genoma e dependem da ligadura de sequências de DNA que estão em estreita proximidade 3D dentro do núcleo. Os protocolos 3C mais comuns começam com a fixação das populações celulares com um agente de reticulação como o formaldeído. A cromatina reticulada é então digerida com uma enzima de restrição, embora a digestão com MNase também tenha sido utilizada 8,9. Após a digestão, as extremidades livres de DNA em estreita proximidade espacial são religadas, e as ligações cruzadas são invertidas. Essa etapa dá origem à ‘biblioteca’ ou ‘modelo’ 3C, um pool misto de fragmentos híbridos em que sequências que estavam em 3D próximas ao núcleo têm maiores chances de serem ligadas no mesmo fragmento de DNA. A quantificação a jusante desses fragmentos híbridos permite inferir a conformação 3D de regiões genômicas que estão localizadas a milhares de pares de bases no genoma linear, mas que podem interagir no espaço 3D.
Muitas abordagens diferentes foram desenvolvidas para caracterizar a biblioteca 3C, diferindo tanto em termos de quais subconjuntos de fragmentos de ligadura são analisados quanto qual tecnologia é usada para sua quantificação a jusante. O protocolo 3C original baseava-se na seleção de duas regiões de interesse e na quantificação de sua frequência de interação “um contra um” por PCR10,11. A abordagem 4C (captura circular da conformação cromossômica) mede as interações entre um único locus de interesse (i.e., o “ponto de vista”) e o resto do genoma (“um contra todos”)12,13,14. Em 4C, a biblioteca 3C passa por uma segunda rodada de digestão e religadura para gerar pequenas moléculas circulares de DNA que são amplificadas por PCR por primers específicos do ponto de visão15. O 5C (chromosome conformation capture carbon copy) permite a caracterização de interações 3D em regiões maiores de interesse, fornecendo informações sobre o dobramento de cromatina de ordem superior dentro dessa região (‘muitos versus muitos’)16. Em 5C, a biblioteca 3C é hibridizada a um pool de oligonucleotídeos sobrepostos em sítios de restrição que podem ser posteriormente amplificados por PCR multiplex com primers universais15. Tanto no 4C quanto no 5C, os fragmentos informativos de DNA foram inicialmente quantificados por microarrays e, posteriormente, por sequenciamento de última geração (NGS)17,18,19. Essas estratégias caracterizam regiões-alvo de interesse, mas não podem ser aplicadas para mapear interações genômicas amplas. Este último objetivo é alcançado com Hi-C, uma estratégia de alto rendimento baseada em 3C na qual o sequenciamento massivamente paralelo do molde 3C permite a caracterização imparcial do dobramento da cromatina no nível do genoma amplo (‘todos versus todos’)20. O protocolo Hi-C inclui a incorporação de um resíduo biotinilado nas extremidades dos fragmentos digeridos, que é seguido pelo pull-down dos fragmentos de ligadura com esferas de estreptavidina, para aumentar a recuperação dos fragmentosligados20.
Hi-C revelou que genomas de mamíferos são estruturalmente organizados em múltiplas escalas no núcleo 3D. Na escala de megabases, o genoma é dividido em regiões de cromatina ativa e inativa, compartimentos A e B, respectivamente20,21. A existência de outros subcompartimentos representados por diferentes estados de cromatina e atividade também foi posteriormente demonstrada22. Em maior resolução, o genoma é posteriormente particionado em domínios de auto-interação sub-megabase chamados domínios topologicamente associados (TADs), revelados pela primeira vez pela análise Hi-C e 5C dos genomas humano e de camundongos23,24. Ao contrário dos compartimentos que variam de maneira específica do tecido, os TADs tendem a ser constantes (embora haja muitas exceções). É importante ressaltar que os limites do TAD são conservados ao longo da espécie25. Em células de mamíferos, as DATs frequentemente englobam genes que compartilham a mesma paisagem regulatória e têm demonstrado representar uma estrutura estrutural que facilita a co-regulação gênica enquanto limita as interações com domínios regulatórios vizinhos (para revisão 3,26,27,28). Além disso, dentro de DATs, interações devidas a sítios CTCF na base de alças extrudadas por coesina podem aumentar a probabilidade de interações promotor-potenciador ou potenciador-potenciador (para revisão29).
Em Hi-C, compartimentos e DATs podem ser detectados com resolução de 1 Mb a 40 kb, mas maior resolução pode ser alcançada para caracterizar contatos de menor escala, como interações em looping entre elementos distais na escala de 5-10 kb. No entanto, aumentar a resolução para ser capaz de detectar tais loops de forma eficiente por HiC requer um aumento significativo na profundidade de sequenciamento e, portanto, nos custos de sequenciamento. Isso é exacerbado se a análise precisar ser alelo-específica. De fato, um aumento de resolução X requer um aumento X2 na profundidade de sequenciamento, o que significa que abordagens genômicas de alta resolução e alelo-específicas podem ser proibitivamente caras30.
Para melhorar a relação custo-benefício e a acessibilidade, mantendo a alta resolução, as regiões-alvo de interesse podem ser fisicamente retiradas de bibliotecas 3C ou Hi-C de todo o genoma após sua hibridização com sondas complementares de oligonucleotídeos marcados com biotina antes do sequenciamento a jusante. Essas estratégias de enriquecimento de alvos são chamadas de métodos de Captura-C e permitem a interrogação de interações de centenas de loci alvo espalhados pelo genoma (i.e., Promoter Capture (PC) Hi-C; Captura de Próxima Geração (NG)-C; Captura de Baixa Entrada (LI)-C; Captura Nuclear Titulada-C; Tri-C)31,32,33,34,35,36,37,38,39,40, ou entre regiões abrangendo até várias megabases (i.e., Capture HiC; Captura Hi-C (Hi-C2); Telha-C)41,42,43. Dois aspectos podem variar nos métodos baseados em captura: (1) a natureza e o planejamento de oligonucleotídeos biotinilados (isto é, RNA ou DNA, oligos únicos capturando alvos genômicos dispersos ou oligos múltiplos mosaicando uma região de interesse); e (2) o modelo que é usado para puxar para baixo alvos que podem ser a biblioteca 3C ou Hi-C, esta última consistindo em fragmentos de restrição biotinilados retirados da biblioteca 3C.
Aqui, um protocolo Capture Hi-C baseado no enriquecimento de contatos de destino da biblioteca 3C é descrito. O protocolo baseia-se no projeto de uma matriz de mosaico personalizada de sondas de RNA biotinilado e pode ser realizado em 1 semana desde a preparação da biblioteca 3C até o sequenciamento NGS. O protocolo é rápido, simples e permite caracterizar a organização 3D de ordem superior de regiões de interesse do tamanho de megabases com resolução de 5 kb, melhorando a eficácia do tempo e a acessibilidade em comparação com outros métodos 3C. O protocolo Capture Hi-C foi aplicado ao locus regulador mestre da inativação do cromossomo X (XCI), o centro de inativação X (Xic), que hospeda o RNA não-codificante Xist. O Xic já foi objeto de extensas análises estruturais e funcionais (para revisão44,45). Em mamíferos, XCI compensa a dosagem de genes ligados ao X entre fêmeas (XX) e machos (XY) e envolve o silenciamento transcricional de quase a totalidade de um dos dois cromossomos X em células femininas. O Xic tem representado um poderoso locus padrão-ouro para estudos em topologia genômica 3D e a interação com a regulação gênica44. A análise 5C do Xic em células-tronco embrionárias de camundongos (mESCs) levou à descoberta e nomeação de DATs, fornecendo os primeiros insights sobre a relevância funcional da partição topológica e da co-regulação gênica24. A organização topológica do Xic foi subsequentemente mostrada para ser criticamente envolvida no momento apropriado do desenvolvimento de Xist upregulation e XCI 46, e elementos cis-regulatórios insuspeitos que podem influenciar a atividade gênica dentro e entre TADs também foram recentemente descobertos dentro do Xic47,48,49. A aplicação do Capture Hi-C a 3 Mb do cromossomo X do mouse que abrange o Xic demonstra o poder dessa abordagem em dissecar o dobramento de cromatina em larga escala em alta resolução. Um protocolo detalhado e fácil de seguir é fornecido, desde o projeto da matriz de sondas biotiniladas em cada local de restrição de DpnII dentro da região de interesse até a geração da biblioteca 3C de todo o genoma, a hibridização e captura de contatos alvo e análise de dados a jusante. Uma visão geral dos controles de qualidade apropriados e dos resultados esperados também é incluída, e tanto os pontos fortes quanto as limitações da abordagem são discutidos à luz de métodos similares existentes.
Aqui descrevemos um protocolo Capture Hi-C relativamente rápido e fácil para caracterizar a organização de ordem superior de regiões genômicas do tamanho de megabases com resolução de 5-10 kb. O Capture Hi-C pertence à família de tecnologias Capture-C que são projetadas para enriquecer interações de cromatina direcionadas a partir de modelos 3C ou Hi-C em todo o genoma. Até o momento, a grande maioria das aplicações de Capture-C tem sido explorada para mapear contatos de cromatina de elementos regulatórios relativamente pequenos espalhados por todo o genoma. No primeiro protocolo Capture-C, múltiplas sondas biotiniladas de RNA sobrepostas foram usadas para capturar >400 promotores pré-selecionados em bibliotecas 3C preparadas a partir de células eritroides31. A mesma estratégia foi posteriormente aprimorada em Next Generation (NG) e Nuclear Titrated (NuTi) Capture-C para alcançar perfis de interação de alta resolução de >8.000 promotores usando iscas únicas de DNA de 120 pb abrangendo sítios de restrição única e duas rodadas sequenciais de captura para maximizar o enriquecimento de fragmentos informativos de ligadura32,40. Essas estratégias levaram à dissecção funcional de elementos de ação cis em diversos contextos, incluindo desenvolvimento embrionário de camundongos, diferenciação celular, inativação do cromossomo X e desregulação gênica em condições patológicas 46,63,65,66,67,68,69,70,71.
No Promoter Capture Hi-C (PCHi-C), >22.000 promotores anotados contendo fragmentos de restrição foram retirados das bibliotecas Hi-C por hibridização de sondas biotiniladas de RNA 120 mers em uma ou ambas as extremidades do fragmento de restrição34,72. Esse método permitiu a dissecção do interatoma de milhares de promotores em um número rapidamente crescente de tipos celulares, incluindo células-tronco embrionárias de camundongo, células hepáticas fetais e adipócitos 34,35,72,73, mas também linhagens linfoblastoides humanas, progenitores hematopoéticos, queratinócitos epidérmicos e células pluripotentes37,74,75,76,77.
Em comparação com essas tecnologias de enriquecimento de alvo, o Capture Hi-C tem como alvo regiões genômicas contíguas até a escala de megabase, abrangendo assim um ou mais TADs e abrangendo cenários regulatórios de genes. Toda a região de interesse deve ser coberta por uma matriz de sondas biotiniladas abrangendo cada sítio de restrição DpnII dentro do alvo. A hibridização da matriz biotinilada para o molde 3C, sua subsequente captura baseada em estreptavidina e processamento para sequenciamento multiplexado é realizada usando um sistema de enriquecimento de alvo para sequenciamento multiplexado Illumina Paired-End. Todo o protocolo é rápido, pois pode ser realizado em 1 semana, desde a preparação da biblioteca 3C até o sequenciamento NGS, e requer apenas pequenas adaptações e/ou solução de problemas personalizada.
O protocolo também oferece vantagens em comparação com outros métodos baseados em 3C. Para obter mapas de interação com resolução de 5-10 kb, sequenciamos leituras pareadas de 100-120 M. Como comparação, usamos aqui um conjunto de dados Hi-C de 571 M leituras para atingir uma resolução de 20 kb64 (GSM2053973), e pelo menos 1 bilhão de leituras seriam necessárias para atingir uma resolução de 5 kb com Hi-C22 em todo o cromossomo.
A captura Hi-C utilizada no presente estudo atinge uma resolução muito maior do que a 5C publicada anteriormente, baseada em uma enzima de restrição de corte de 6 pb47 (Tabela Suplementar 1). É importante ressaltar que a estratégia projetada para enriquecer e amplificar interações direcionadas em 5C não permite a análise alelo-específica das interações da cromatina. Pelo contrário, os dados do Capture Hi-C podem ser mapeados alelo-especificamente, permitindo a dissecção das paisagens estruturais 3D de pares de cromossomos homólogos, por exemplo, em células humanas ou em linhagens celulares híbridas F1 derivadas do cruzamento de linhagens de camundongos geneticamente diferentes78. Para gerar mapas de interação Capture Hi-C específicos para alelos com resolução de 5 kb, sequenciamos leituras de extremidade emparelhada de 150 pb para aumentar a cobertura SNP. Abordagens alelo-específicas semelhantes podem ser aplicadas a linhagens celulares humanas, para as quais a anotação de SNPs está disponível22.
É importante ressaltar que, embora o Capture Hi-C geralmente garanta alta resolução enquanto melhora a acessibilidade dos custos de sequenciamento, a produção de oligonucleotídeos biotinilados personalizados tem um impacto no custo geral desse método. Portanto, a escolha do método 3C mais adequado será diferente para diferentes aplicações, e dependerá da questão biológica que está sendo abordada e da resolução necessária, bem como do tamanho da região de interesse. Outros protocolos Capture Hi-C desenvolvidos compartilham os principais recursos com o protocolo descrito aqui. Por exemplo, uma estratégia de Captura Hi-C foi aplicada para caracterizar regiões genômicas de ~50 kb a 1 Mb abrangendo variantes não codificantes associadas ao risco de câncer de mama e colorretal; neste protocolo, as regiões-alvo foram retiradas das bibliotecas Hi-C hibridizando iscas de RNA de 120 meros que ladeiam as regiões-alvo a uma coberturade 3x 33,38,79. Da mesma forma, o HYbrid Capture Hi-C (Hi-C 2) foi usado para direcionar interações dentro de regiões de interesse de até2 Mb80. Em ambos os protocolos, o uso de um molde Hi-C enriquecido para fragmentos de ligadura puxados para baixo de biotina aumentou a porcentagem de leituras informativas totais em comparação com nosso protocolo. Por exemplo, no conjunto de dados Hi-C que usamos aqui para comparação64 (GSM2053973), a porcentagem de pares válidos após a remoção de duplicatas é 4,8 vezes maior do que os pares válidos obtidos no Capture Hi-C, conforme descrito na Figura 3 e na Tabela Suplementar 1. No entanto, o pull-down consecutivo de fragmentos ligados biotinilados e sondas hibridizadas torna o protocolo significativamente mais complexo e demorado, ao mesmo tempo em que possivelmente diminui a complexidade da região capturada.
Outro método disponível para enriquecer modelos 3C com sondas de mosaico é o Tiled-C, que foi aplicado para estudar a arquitetura da cromatina em alta resolução espacial e temporal durante a diferenciação eritroide de camundongos43. Em Tiled-C, um painel de sondas biotiniladas de 70 pb é usado para enriquecer contatos dentro de regiões de grande escala em duas rodadas consecutivas de captura para gerar mapas de altíssima resolução de interações direcionadas43,81. O enriquecimento de captura dupla também torna o protocolo mais longo e complexo quando comparado ao Capture Hi-C. No entanto, diferentemente das estratégias de Captura-C direcionadas a locais de restrição única, no Tiled-C a segunda rodada de captura não parece aumentar significativamente a eficiência de captura e, portanto, provavelmente pode ser omitida43. Finalmente, uma abordagem similar baseada na mesma estratégia de enriquecimento de alvos usada neste estudo foi aplicada à dissecção de paisagens regulatórias englobando variantes estruturais descritas em pacientes com malformações congênitas e redesenhadas em camundongos transgênicos41,42. Nesse caso, a matriz de sondas lado a lado foi projetada em todo o destino, em vez de na proximidade dos locais de restrição DpnII41. No entanto, este trabalho foi seminal ao destacar a sensibilidade e o poder dessa estratégia para alcançar a caracterização de alta resolução de grandes regiões genômicas em diferentes contextos41,42,48.
Em conclusão, o protocolo aqui descrito representa uma estratégia fácil, robusta e poderosa para a caracterização 3D de alta resolução de quaisquer regiões genômicas de interesse. A aplicação dessa abordagem a diferentes sistemas modelo, tipos celulares, paisagens de cromatina reguladas pelo desenvolvimento e regulação gênica em condições saudáveis e patológicas provavelmente facilitará nossa compreensão da interação e causalidade entre topologia genômica e regulação gênica, uma das questões fundamentais em aberto no campo da epigenética. Além disso, a aplicação do Capture Hi-C para mapear interações de longo alcance e dobramento de cromatina de ordem superior de variantes de risco identificadas por estudos GWAS tem o potencial de revelar a relevância funcional de loci genômicos não codificantes associados a doenças humanas em diferentes contextos, fornecendo assim novos insights sobre os processos potencialmente subjacentes à patogênese.
The authors have nothing to disclose.
O trabalho no laboratório Heard foi apoiado por um prémio de Investigador Avançado do Conselho Europeu de Investigação (XPRESS – AdG671027). A.L. é apoiada por uma bolsa individual Marie Skłodowska-Curie Actions da União Europeia (IF-838408). A A.H. é apoiada pela ITN Innovative and Interdisciplinary Network ChromDesign, ao abrigo do acordo de subvenção Marie Skłodowska-Curie 813327. Os autores agradecem a Daniel Ibrahim (MPI for Molecular Genetics, Berlim) pelo aconselhamento técnico útil, à plataforma NGS no Institut Curie (Paris), e a Vladimir Benes e ao Genomics Core Facility na EMBL (Heidelberg), pelo apoio e assistência.
10x PBS pH 7.4 | Gibco | 10010-023 | |
37% (vol/vol) paraformaldehyde solution | Electron Microscopy Sciences | 15686 | single use glass-vials; do not reuse |
50 mL PP conical tube | Falcon | 352070 | |
Agarose | Sigma | A9539-500g | |
Bioanalyzer | Agilent | G2939BA | |
Cell Scrapers – 25 cm Handle and 3.0 cm Blade | Falcon | 353089 | |
CHIR99021 | Axon Medchem BV | Axon 1386 | |
cOmplete Mini, Protease inhibitor cocktail (EDTA-free) | Merck | 11836170001 | |
Countess Cell Counting Chamber Slides | Invitrogen | C10228 | |
Countess II FL | Invitrogen | ZGEXSCCOUNTESS2FL | Automated cell counter |
Covaris S2 | Covaris | 500217 | Sonicator |
DNA LoBind tube, 1.5 mL | Eppendorf | 30108051 | |
DpnII (50000 units/mL) | New England Biolabs | R0543M | |
Dulbecco's Modified Eagle Medium (DMEM) | Merck | D6429 | |
Ethanol (100%) | Merck | 1.00983.2500 | |
Fetal Bovine Serum (FBS) | Thermo Scientific | 10270106 | |
gelatine from porcine skin | Sigma | G1890 | |
GeneRuler 1 kb Plus DNA Ladder | Thermo Scientific | SM0313 | |
GlycoBlue | Thermo Scientific | AM9516 | Coprecipitant |
High-Sensitivity Bioanlayzer chips | Agilent | 5067-4626 | |
Large Cooling Centrifuge 5920 R | Eppendorf | 5948000018 | |
leukaemia inhibitory factor (LIF) | Merck | ESG1107 | |
Liquiport | KNF | NF300 | Benchtop aspiration system |
Low-binding filter tips | Biozym | VT0260U, VT0240, VT0220, VT0200U | |
Molecular biology grade water | Merck | W3500-6x500ML | |
Next Seq 500 | Illumina | SY-415-1001 | |
Next Seq 500 High Output v2 Kit (300 cycles) | Illumina | FC-404-2004 | |
Nonidet P40 Substitute (NP40) | Merck | 11332473001 | |
PD0325901 | Axon Medchem BV | Axon 1408 | |
Protease inhibitor cocktail (EDTA-free) | Merck | 11873580001 | |
Proteinase K – recombinant, PCR-grade (20 mg/mL) | Thermo Scientific | EO0491 | |
Qubit 2.0 | Thermo Scientific | Q32871 | |
Qubit assay tubes | Thermo Scientific | Q32856 | |
Qubit dsDNA High Sensitivity kit | Thermo Scientific | Q32851 | |
RNase A (10 mg/mL) | Thermo Scientific | EN0531 | |
Sodium acetate pH 5.2 (3M) | Merck | S7899 | |
speed vacuum concentrator | Eppendorf | EP5305000100-1EA | |
Agencourt AMPureXP | Beckman Coulter | A63881 | SPRI beads |
SureSelect Target Enrichment Box 1 | Agilent | 5190-8645 | |
SureSelect Target Enrichment Kit ILM Indexing Hyb Module Box 2 | Agilent | 5190-4455 | |
SureSelect XT Library Prep Kit ILM | Agilent | 5500-0132 | |
T4 ligase (30 units/µL) | Thermo Scientific | EL0013 | |
table-top Centrifuge 5427 R | Eppendorf | 5409000012 | |
Triton-X-100 (500 mL) | Merck | X100-500ML | |
Trypan Blue | Invitrogen | T10282 | |
Trypsine | Thermo Scientific | 25300054 | |
UltraPure Glycine | Thermo Scientific | 15527013 | |
β-mercaptoethanol | Thermo Scientific | 31350010 |