Elementos reguladores de DNA, como potenciadores, controlam a expressão gênica fisicamente contactando promotores de genes alvo, muitas vezes através de interações cromossômicas de longo alcance, abrangendo grandes distâncias genômicas. Promotor de capturar Hi-C (PCHi-C) identifica interações significativas entre promotores e regiões distais, permitindo a atribuição de potenciais sequências reguladoras de seus genes-alvo.
A organização tridimensional do genoma está ligada à sua função. Por exemplo, elementos reguladores tais como potenciadores transcriptional controlam a expressão espaço-temporal dos seus genes alvo através do contato físico, muitas vezes ponte genômica distâncias consideráveis (em alguns casos centenas de kilobases) e ignorando genes nas proximidades. O genoma humano abriga uma potenciadores de 1 milhão estimado, a grande maioria dos quais têm desconhecido alvos de gene. Atribuição de regiões reguladoras distais para seus genes-alvo, portanto, é crucial entender controle de expressão do gene. Nós desenvolvemos o promotor capturar Hi-C (PCHi-C) para permitir a detecção de todo o genoma de regiões de promotor-interagindo distais (PIRs), para todos os promotores em uma única experiência. No PCHi-C, altamente complexo Hi-C bibliotecas especificamente são enriquecidas para sequências de promotor através de seleção em solução híbrida com milhares de iscas biotinilado RNA complementares até o fim de todos os fragmentos de restrição que contêm promotor. O objectivo é então suspenso promotor sequências e seus parceiros de interacção frequente como potenciadores e outros elementos reguladores potenciais. Após o sequenciamento de emparelhado-fim do elevado-throughput, um teste estatístico é aplicado para cada fragmento de restrição promotor-ligados para identificar PIRs significativos no nível de fragmento de restrição. Nós usamos PCHi-C para gerar um atlas de interações de longo alcance promotor em dezenas de humanos e tipos de células de rato. Estes mapas de interactome promotor têm contribuído para uma maior compreensão do controle da expressão de gene mamíferos atribuindo putativos regiões reguladoras de seus genes-alvo e revelando as redes de interação espacial preferencial do promotor-promotor. Esta informação também tem alta relevância para a compreensão de doenças genéticas humanas e a identificação de potenciais genes de doença, vinculando não-codificantes associada a doença sequenciar variantes em ou perto de sequências de controle para seus genes-alvo.
Acumular evidência sugere que a organização tridimensional do genoma desempenha um papel funcional importante em uma variedade de processos nucleares, incluindo gene ativação1,2,3, repressão4 ,5,6,7,8, recombinação9,10, reparação de DNA11, DNA replicação12,13, e senescência celular14. Potenciadores de distantes encontram-se em estreita proximidade espacial com os promotores regulam15,16,17, que é essencial para o controle da expressão de gene espácio-temporal adequada. Exclusões de potenciador mostram que potenciadores distais são essenciais para alvo gene transcrição18,19,20,21,22e ‘forçado a cromatina loop’ demonstra que amarrar projetado entre um intensificador e seu promotor alvo no locus do Hbb é suficiente para conduzir a ativação transcricional23. Além disso, rearranjos do genoma que trazem genes sob o controle de potenciadores de uma gravidez ectópica podem resultar na ativação do gene inapropriado e doença24,25,26. Juntos, estes exemplos ilustram que atrapalha-promotor interações são essenciais para o controle do gene e exigem o Regulamento apertado para garantir a expressão do gene apropriado. O ser humano e genomas do mouse cada estima-se que abrigam potenciadores de ao redor 1 milhão. Para a maioria destes potenciadores, genes-alvo são desconhecidos, e as ‘regras’ entre promotores e realçadores são mal compreendidas. Atribuir transcriptional potenciadores de seus genes-alvo, portanto, permanece um grande desafio em decifrar controle de expressão de genes de mamíferos.
Nossa compreensão da arquitetura do genoma tridimensional foi revolucionada pela introdução de 3C27 (captura de conformação do cromossomo) e suas variantes28,29,30,31 . A mais poderosa destas técnicas, Hi-C (captura de conformação de cromossomo alto throughput) é projetada para identificar todo o conjunto de interações cromossômicas dentro de uma população celular. Oi-C bibliotecas, geralmente geradas a partir de milhões de células, são altamente complexas, com um estimado 1011 produtos independente da ligadura entre fragmentos de ~ 4 kb no genoma humano32. Como consequência, reprodutível e confiável identificação das interações entre restrição individual de fragmentos (tais como aqueles que contêm um promotor ou potenciador) de dados Hi-C não são viáveis a menos Hi-C bibliotecas são submetidas a sequenciamento ultraprofundas, que não é uma solução economicamente viável para os laboratórios preparando Hi-C bibliotecas rotineiramente. Para contornar esta lacuna, nós desenvolvemos o promotor capturar Hi-C para enriquecer especificamente promotor-contendo produtos de ligadura de bibliotecas Hi-C. Enfocamos os promotores por duas razões. Primeiro, contatos atrapalha-promotor foram mostrados para ser crucial para os níveis de expressão de gene apropriado em numerosos estudos (ver referências acima), e em segundo lugar, como promotores são em grande parte invariável entre tipos de células, o mesmo sistema de captura de isca pode ser usado para interrogar o circuito regulador em vários tipos de células e condições. Nossa abordagem baseia-se na solução de hibridização das bibliotecas Hi-C com dezenas de milhares de 120mers biotinilado RNA complementar ao promotor-contendo produtos de ligadura Hi-C e subsequente captura em grânulos magnéticos streptavidin-revestido. Isso resulta em bibliotecas PCHi-C, com muito menor complexidade comparada à biblioteca de Hi-C original, focando apenas a identificação de fragmentos que são ligados para promotores em significativamente altas frequências.
Nós usamos PCHi-C em um número de humanos e tipos de células de rato para contribuir para uma melhor compreensão do controle de expressão do gene por descobrindo regiões de interação promotora distal de longo alcance com função reguladora putativa, bem como não-aleatória contatos do promotor-promotor no espaço tridimensional do núcleo. Os estudos mapeou centenas de milhares de contatos atrapalha-promotor através de numerosas células tipos33,34,35,36,37,38, 39, identificado organização mediada por Polycomb repressivo complexo espacial do genoma em células-tronco embrionárias de rato7, demonstrada em larga escala a religação do promotor interactomes durante a diferenciação celular37, 38 , 39e vinculados não-codificantes associada a doença de sequências variantes de genes promotores35.
PCHi-C é um método ideal para mapear o genoma-largo conjunto de sequências de DNA, interagindo com os promotores. Abordagens relacionadas, tais como capturar Hi-C de contínuas regiões genômicas (ver discussão) são o método de escolha para obter perfis de interação de alta resolução para regiões genômicas selecionadas. PCHi-C e Hi-C capturar são extremamente semelhantes do experimental ponto de vista (a única diferença é a escolha do sistema de captura), para que os conselhos e orientações que nós fornecemos são aplicáveis a ambas as abordagens. Aqui, apresentamos uma descrição detalhada do PCHi-C. Podemos delinear a lógica e o projeto de um experimento de PCHi-C, fornecer um protocolo de geração de biblioteca PCHi-C passo a passo e ilustrar como a qualidade das bibliotecas PCHi-C pode ser monitorizada em várias etapas no protocolo para produzir dados de alta qualidade.
Design modular do promotor capturar Hi-C
Promotor capturar Hi-C destina-se especificamente a enriquecer bibliotecas Hi-C para interações envolvendo promotores. Essas interações compõem apenas um subconjunto de produtos da ligadura presentes em uma biblioteca de Hi-C.
Captura Hi-C pode ser facilmente modificado para enriquecer as bibliotecas de Hi-C para qualquer região genômica ou regiões de interesse, alterando o sistema de captura. Regiões de captura podem ser contínua segmentos genômicos44,45,46,48, potenciadores que foram identificadas no PCHi-C (‘ reverter capturar Hi-C’35), ou DNase eu hipersensíveis sites49 . O tamanho do sistema de captura pode ser ajustado dependendo do escopo experimental. Por exemplo, Dryden et al. 519 fragmentos de isca em três desertos de gene associados com câncer de mama44-alvo. O sistema de captura por Martin et al. destinos de ambos os segmentos genômicos contínuos (‘Região Capture’: 211 regiões genômicas no total; 2.131 fragmentos de restrição) e selecionado os promotores (3.857 promotores de gene)45.
SureSelect bibliotecas estão disponíveis em escalas diferentes tamanho: 1 kb para 499 kb (5.190 – 4.806), de 500 kb para 2,9 Mb (5.190-4.816) e 3 Mb de 5.9 Mb (5.190 – 4.831). Como cada captura individual biotina-RNA é 120 nucleotides longos, estes capturar sistemas acomodar um máximo de 4.158, 24.166 e 49.166 individuais de captura de sondas, respectivamente. Isso corresponde a 2.079, 12.083 e 24.583 fragmentos de restrição do alvo, respectivamente (Observe que os números de fragmentos de restrição são limites inferiores com base no pressuposto de que as duas sondas de captura individuais podem ser projetadas para cada restrição fragmento — na realidade devido à sequências repetitivas, isto não será o caso para cada restrição do fragmento (ver também figura 1B, C), resultando em um maior número de fragmentos de restrição targetable por um número constante de captura disponíveis sondas ).
O protocolo descrito aqui é baseado na utilização de uma enzima de restrição com um site de reconhecimento bp 6 para descobrir a interações de longo alcance. Usar uma enzima de restrição com um site de reconhecimento bp 4 para maior resolução de interações mais proximais é também possível40,49.
Limitações do PCHi-C
Uma limitação inerente de todos os ensaios de captura de conformação cromossomo é que sua resolução é determinada pela enzima de restrição, utilizada para a geração de biblioteca. Interações que ocorrem entre elementos de DNA localizados no fragmento de restrição mesmo são invisíveis para os ensaios de ‘tipo C’. Além disso, no PCHi-C, em alguns casos mais de um site de início de transcrição pode ser localizado no mesmo promotor contendo fragmento de restrição, e PIRs em alguns casos abrigam as duas marcas de histona ativo e repressivo, tornando-se difícil identificar que regulamentar elementos de mediam as interações e prever a saída regulamentar das interações do promotor. Usando enzimas de restrição com 4 locais de reconhecimento do bp atenua esta questão, mas vem à custa de muito maior complexidade de biblioteca Hi-C (Hi-C bibliotecas geradas com 4 bp reconhecimento local enzimas de restrição são pelo menos 100 vezes mais complexas do que o Hi-C bibliotecas geradas com 6 bp reconhecimento local enzimas de restrição) e os custos associados para sequenciamento de próxima geração.
Outra limitação é que o atual protocolo PCHi-C requer milhões de células como material, impedindo a análise de interações de promotor em tipos de células raras de partida. Uma versão modificada do PCHi-C para habilitar o interrogatório de contatos de promotor em populações de células com 10.000 a 100.000 células (por exemplo durante o desenvolvimento embrionário precoce ou células-tronco hematopoiéticas), portanto, seria uma adição valiosa à captura Oi-C caixa de ferramentas.
Finalmente, como todos os métodos que se baseiam na fixação de formaldeído, PCHi-C registra apenas as interações que são ‘congeladas’ no ponto de fixação de tempo. Assim, para estudar a cinética e dinâmica de interações de promotor, são necessários métodos tais como a microscopia de célula viva de super-resolução ao lado PCHi-C.
Métodos para dissecar a organização espacial de cromossomo em alta resolução
A vasta complexidade de bibliotecas cromossômicas interação proíbe a identificação fiável de produtos da interação entre dois fragmentos de restrição específica, com significância estatística. Para contornar este problema, captura de sequência tem sido usada para enriquecer ou Hi-C33,34,40,44 ou 3 C50,51 bibliotecas para interações específicas. A grande vantagem do uso de bibliotecas de bibliotecas mais 3C Hi-C para a etapa de enriquecimento é que Hi-C, ao contrário de 3C, inclui uma etapa de enriquecimento para produtos genuínos da ligadura. Como consequência, a percentagem de leituras válidas em bibliotecas PCHi-C é de aproximadamente 10-fold superior em captura-C bibliotecas50, que continha cerca de 5 – 8% válido lê depois da filtragem de HiCUP. Sahlen et al compararam diretamente captura-C para HiCap, que como PCHi-C utiliza bibliotecas Hi-C para enriquecimento de captura, em contraste com captura-C, que usa bibliotecas C 3. Consistente com nossos achados, encontraram que captura-C bibliotecas são compostas principalmente de fragmentos un-ligados40. Além disso, as bibliotecas HiCap tinham uma complexidade maior do que a captura-C bibliotecas40.
Uma variante de captura-C, chamado geração captura-C52 NG captura-C usa um oligo por fim do fragmento de restrição, como estabelecido anteriormente em33,PCHi-C34, em vez de sobreposição de sondas utilizadas no original Protocolo de captura-C50. Isso aumenta a porcentagem de leituras válidas em relação ao captura-C modestamente, mas NG captura-C emprega duas rodadas sequenciais de enriquecimento de captura, e os ciclos de um número relativamente elevado de PCR (ciclos de 20 a 24 no total, em comparação com 11 ciclos normalmente para PCHi-C), que inevitavelmente resulta em números mais altos de duplicatas de sequência e baixa complexidade de biblioteca. Em julgamento experiências durante a otimização do PCHi-C, verificou-se que a percentagem de exclusivo (ou seja, não duplicado) ler pares rondou apenas 15% quando usamos 19 ciclos PCR (13 ciclos pre-capture + 6 ciclos pós-captura; dados não mostrados), no entanto otimização para um menor número de ciclos PCR, normalmente produz 75-90% pares leitura únicas. Assim, reduzir substancialmente o número de ciclos de PCR aumenta a quantidade de dados da sequência informativa.
Um recente método combina ChIP com Hi-C para focar cromossômicas interações mediadas por uma proteína específica de interesse (HiChIP53). Em comparação com ChIA-PET54, que é baseado em uma lógica semelhante, HiChIP dados contém um número maior de leituras de sequência informativa, permitindo a interação de maior confiança, chamando53. Será muito interessante comparar diretamente o correspondente HiChIP e conjuntos de dados Hi-C capturar uma vez eles se tornam disponíveis (por exemplo, usando um anticorpo contra a Smc1a de unidade de cohesin de HiChIP53 com captura Hi-C para todos os Smc1a vinculado a restrição fragmentos) lado a lado. Uma diferença inerente entre essas duas abordagens é que capturar Hi-C não depende da imunoprecipitação da cromatina e, portanto, é capaz de interrogar cromossômicas interações independentemente da ocupação de proteína. Isso permite a comparação de organização do genoma 3D na presença ou ausência de ligação do fator específico, como tem sido usado para identificar o PRC1 como um regulador chave do mouse ESC genoma espacial arquitetura7.
PCHi-C e GWAS
Estudos de associação de genoma-larga (GWAS) revelaram que maior que 95% das doenças associadas variantes de sequência estão localizadas em regiões não-codificantes do genoma, muitas vezes a grandes distâncias de genes codificantes de proteínas55. Variantes GWAS são frequentemente encontrados em estreita proximidade com DNase I sites hipersensíveis, que é uma marca registrada de sequências com potencial actividade regulamentar. PCHi-C e capturar Hi-C têm sido amplamente utilizados para vincular os promotores a loci de risco GWAS implicados no câncer de mama44, câncer colorretal48e doença auto-imune35,,45,46. Um PCHi-C estudar em 17 diferentes humana células hematopoiéticas tipos encontrados SNPs associadas à doença auto-imune foram enriquecidos em PIRs em células linfoides, Considerando que variantes de sequência associadas com traços específicos de plaquetas e glóbulos vermelhos foram encontradas predominantemente em os macrófagos e eritroblastos, respectivamente de35,56. Assim, promotor específico tipo de tecido, interactomes descoberto pelo PCHi-C pode ajudar a entender a função do não-codificantes associada a doença variantes de sequências e identificar novos genes de doença potencial para intervenção terapêutica.
Características das regiões do promotor-interagindo
Várias linhas de evidência link promotor interactomes para controle de expressão do gene. Primeiro, vários estudos PCHi-C demonstraram que regiões genômicas, interagindo com os promotores de genes expressos (altamente) são enriquecidas em marcas associadas com atividade potenciador, como H3K27 acetilação e p300 vinculação33,34 , 37. encontramos uma correlação positiva entre o nível de expressão do gene e o número de realçadores interagindo, sugerindo que os efeitos aditivos de resultado de realçadores na expressão aumentada do gene níveis34,35. Em segundo lugar, de ocorrência natural expressão loci característica quantitativa (eQTLs) é enriquecidos em PIRs que estão conectados para os mesmos genes cuja expressão é afetado pelo eQTLs35. Em terceiro lugar, integrando viagem57 e dados PCHi-C, Cairns et al encontraram que viagem repórter genes mapeamento para PIRs em rato CES mostram repórter mais forte expressão do gene do que genes repórter em locais de integração em regiões não-promotor-interagindo 58, indicando que o PIRs possuem actividade regulamentar transcriptional. Juntos, estes achados sugerem que o promotor interactomes descobertos pelo PCHi-C em vários mouse e tipos de células humanas incluem chaves reguladoras módulos para controle de expressão de gene.
É interessante notar que os realçadores representam apenas uma pequena fração (~ 20%) de todos os PIRs descobertos por PCHi-C33,34. Outros PIRs poderiam ter funções estruturais ou topológicas ao invés de funções reguladoras transcriptional diretas. No entanto, há também evidências que PCHi-C pode descobrir elementos de DNA com função reguladora que não abriga marcas potenciador clássica. Em uma linhagem de células linfoides humana, o promotor de BRD7 foi encontrado para interagir com uma região desprovida de marcas de potenciador que foi demonstrada possuir atividade potenciador de ensaios de gene repórter33. Elementos reguladores com características semelhantes podem ser mais abundantes do que atualmente apreciada. Por exemplo, uma tela baseada em CRISPR para regulamentar DNA elementos identificados não marcadas elementos reguladores (UREs) que controlam a expressão gênica, mas são desprovidas de potenciador marca59.
Em outros casos, PIRs foram mostrados para marcas de cromatina associadas com repressão transcriptional do porto. PIRs e promotores interagindo vinculados pelo PRC1 no rato CES estavam envolvidos em uma extensa rede espacial dos genes reprimidos tendo que o repressivo marca H3K27me37. Em células humanas lymphoblastoid, um elemento distante interagindo com o promotor BCL6 reprimida transgene repórter gene expressão33, sugerindo que ele pode funcionar para repress a transcrição BCL6 em seu contexto nativo.
PIRs enriquecidos para ocupação da proteína do isolador de cromatina CTCF humana CES e CNE37 pode representar ainda outra classe de PIRs. Coletivamente, estes resultados sugerem que o PIRs abrigam uma coleção de atividades reguladoras do gene ainda para ser funcionalmente caracterizada.
The authors have nothing to disclose.
Agradecemos Valeriya Malysheva pela leitura crítica do manuscrito e ajuda especializada com a Figura 1. Este trabalho foi apoiado pelo Conselho de pesquisa médica, UK (Sr/L007150/1) e UK biotecnologia e Conselho de pesquisa de ciências biológicas, UK (BB/J004480/1).
16% (vol/vol) paraformaldehyde solution | Agar Scientific | R1026 | |
Dulbecco's Modified Eagle Medium (DMEM) 1x | Life Technologies | 41965-039 | |
Fetal bovine serum (FBS) sterile filtered | Sigma | F9665 | |
Low-retention filter tips | Starlab | S1180-3810, S1180-1810, S1180-8810 and S1182-1830 | |
10x PBS pH 7.4 | Life Technologies | 70011-036 | |
Molecular biology grade water | Sigma-Aldrich | W4502 | |
1 M Tris-HCl pH 8.0 | Life Technologies | 15568-025 | |
IGEPAL CA-630 | Sigma-Aldrich | I8896 | |
5 M NaCl | Life Technologies | 24740-011 | |
Protease inhibitor cocktail (EDTA-free) | Roche Diagnostics | 11873580001 | |
Restriction buffer 2 (10x NEBuffer 2) | New England Biolabs | B7002 | |
DNA LoBind tube, 1.5 mL | Eppendorf | 0030 108.051 | |
DNA LoBind tube, 2 mL | Eppendorf | 30108078 | |
20% (wt/vol) SDS | Bio-Rad Laboratories | 161-0418 | |
20% (vol/vol) Triton X-100 | Sigma-Aldrich | T8787 | |
HindIII, 100 U/uL | New England Biolabs | R0104 | |
10 mM dCTP | Life Technologies | 18253-013 | |
10 mM dGTP | Life Technologies | 18254-011 | |
10 mM dTTP | Life Technologies | 18255-018 | |
0.4 mM Biotin-14-dATP | Life Technologies | 19524-016 | |
DNA polymerase I large (Klenow) fragment 5000 units/mL | New England Biolabs | M0210 | |
10x T4 DNA ligase reaction buffer | New England Biolabs | B0202 | |
100x 10mg/ml Bovine Serum Albumin | New England Biolabs | B9001 | |
T4 DNA ligase, 1 U/μL | Invitrogen | 15224-025 | |
RNase A | Roche | 10109142001 | |
Proteinase K, recombinant, PCR grade | Roche | 3115836001 | |
20 000×g 50 ml centrifuge tube | VWR | 525-0156 | |
0.5 M EDTA pH 8.0 | Life Technologies | 15575-020 | |
Phenol pH 8.0 | Sigma | P4557 | |
Phenol: Chloroform: Isoamyl Alcohol 25:24:1 | Sigma | P3803 | |
Sodium acetate pH 5.2 | Sigma | S7899 | |
Quant-iT PicoGreen | Invitrogen | P7589 | |
QIAquick Gel Extraction Kit | Qiagen | 28704 | |
QIAquick PCR Purification Kit | Qiagen | 28104 | |
Restriction buffer 2.1 (10x NEBuffer 2.1) | New England Biolabs | B7202 | |
NheI, 100U/uL | New England Biolabs | R0131 | |
Micro TUBE AFA Fiber Pre-slit snap cap 6x16mm vials | Covaris | 520045 | For sonication |
SPRI beads (Agencourt AMPure XP) | Beckman Coulter | A63881 | |
Dynabeads MyOne Streptavidin C1 beads | Invitrogen | 65001 | |
Tween 20 | Sigma | P9416 | |
10 mM dATP | Life Technologies | 18252-015 | |
T4 DNA polymerase 3000 units/mL | New England Biolabs | M0203 | |
T4 PNK 10000 units/mL | New England Biolabs | M0201 | |
Klenow exo minus 5000 units/mL | New England Biolabs | M0212 | |
Quick ligation reaction buffer | New England Biolabs | B6058 | |
NEB DNA Quick ligase | New England Biolabs | M2200 | |
PE adapter 1.0 (5'-P-GATCGGAAGAGCGGTTCAGC AGGAATGCCGAG-3') |
Illumina | ||
PE adapter 2.0 (5'-ACACTCTTTCCCTACACGACGCT CTTCCGATCT-3') |
Illumina | ||
NEB Phusion PCR kit | New England Biolabs | M0530 | |
PE PCR primer 1.0 (5'-AATGATACGGCGACCACCGA GATCTACACTCTTTCCCTAC ACGACGCTCTTCCGATCT-3') |
Illumina | ||
PE PCR primer 2.0 (5'-CAAGCAGAAGACGGCATACGA GATCGGTCTCGGCATTCCT GCTGAACCGCTCTTCCGATCT-3') |
Illumina | ||
PCR strips | Agilent Technologies | 410022 and 401425 | |
SureSelect SSEL TE Reagent ILM PE full adaptor kit | Agilent Technologies | 931108 | |
SureSelect custom 3-5.9 Mb library | Agilent Technologies | 5190-4831 | custom design mouse or human PCHi-C system |
Dynabeads MyOne Streptavidin T1 beads | Invitrogen | 65601 | |
E220 high-performance focused ultra-sonicator | Corvaris | E220 |