В этом протоколе описывается метод Capture Hi-C, используемый для характеристики 3D-организации мегаразмерных целевых областей генома с высоким разрешением, включая границы топологически ассоциирующих доменов (TAD) и дальнодействующих взаимодействий хроматина между регуляторными и другими элементами последовательности ДНК.
Пространственная организация генома способствует его функции и регуляции во многих контекстах, включая транскрипцию, репликацию, рекомбинацию и репарацию. Поэтому понимание точной причинно-следственной связи между топологией и функцией генома имеет решающее значение и становится все более предметом интенсивных исследований. Технологии захвата конформации хромосом (3C) позволяют вывести трехмерную структуру хроматина путем измерения частоты взаимодействий между любыми областями генома. Здесь мы описываем быстрый и простой протокол для выполнения Capture Hi-C, метода обогащения мишеней на основе 3C, который характеризует аллель-специфическую 3D-организацию геномных мишеней мегабазового размера с высоким разрешением. В Capture Hi-C целевые области захватываются массивом биотинилированных зондов перед последующим высокопроизводительным секвенированием. Таким образом, достигается более высокое разрешение и аллель-специфичность при одновременном повышении эффективности времени и доступности технологии. Чтобы продемонстрировать свои сильные стороны, протокол Capture Hi-C был применен к мышиному центру Х-инактивации ( Xic), главному регуляторному локусу инактивации Х-хромосомы (XCI).
Линейный геном содержит всю информацию, необходимую организму для эмбрионального развития и выживания на протяжении всей взрослой жизни. Тем не менее, инструктирование генетически идентичных клеток выполнять различные функции имеет основополагающее значение для точного контроля того, какая информация используется в определенных контекстах, включая различные ткани и / или стадии развития. Считается, что трехмерная организация генома участвует в этой точной пространственно-временной регуляции активности генов, облегчая или предотвращая физическое взаимодействие между регуляторными элементами, которые могут быть разделены несколькими сотнями килобаз в линейном геноме (для обзоров 1,2,3). За последние 20 лет наше понимание взаимодействия между сворачиванием генома и активностью быстро возросло, в основном благодаря развитию технологий захвата конформации хромосом (3C) (для обзора 4,5,6,7). Эти методы измеряют частоту взаимодействий между любыми областями генома и полагаются на лигирование последовательностей ДНК, которые находятся в непосредственной 3D-близости внутри ядра. Наиболее распространенные протоколы 3C начинаются с фиксации клеточных популяций с помощью сшивающего агента, такого как формальдегид. Затем сшитый хроматин расщепляют с помощью фермента рестрикции, хотя также используется расщепление MNазы 8,9. После переваривания свободные концы ДНК в тесной пространственной близости повторно лигируются, и сшивание происходит в обратном порядке. Этот шаг приводит к появлению «библиотеки» или «шаблона» 3C, смешанного пула гибридных фрагментов, в котором последовательности, которые находились в 3D-близости к ядру, имеют более высокие шансы быть лигированными в одном и том же фрагменте ДНК. Последующая количественная оценка этих гибридных фрагментов позволяет вывести 3D-конформацию геномных областей, которые расположены на расстоянии тысяч пар оснований друг от друга в линейном геноме, но могут взаимодействовать в 3D-пространстве.
Для характеристики библиотеки 3C было разработано множество различных подходов, различающихся как с точки зрения того, какие подмножества фрагментов лигирования анализируются, так и с точки зрения того, какая технология используется для их последующей количественной оценки. Первоначальный протокол 3C основывался на выборе двух областей интереса и количественной оценке частоты их взаимодействия «один против одного» с помощью ПЦР10,11. Подход 4C (захват кольцевой конформации хромосомы) измеряет взаимодействие между одним интересующим локусом (т. е. «точкой зрения») и остальной частью генома («один против всех»)12,13,14. В 4C библиотека 3C подвергается второму раунду переваривания и перелигирования для получения небольших кольцевых молекул ДНК, которые амплифицированы ПЦР с помощью праймеров, специфичных для точки зрения15. 5C (точная копия захвата конформации хромосомы) позволяет характеризовать 3D-взаимодействия в более крупных областях, представляющих интерес, обеспечивая понимание сворачивания хроматина более высокого порядка в этой области («многие против многих»)16. В 5С библиотека 3С гибридизуется с пулом олигонуклеотидов, перекрывающих сайты рестрикции, которые впоследствии могут быть амплифицированы с помощью мультиплексной ПЦР с универсальными праймерами15. Как в 4C, так и в 5C информативные фрагменты ДНК были первоначально количественно определены с помощью микрочипов, а затем с помощью секвенирования следующего поколения (NGS)17,18,19. Эти стратегии характеризуют целевые области, представляющие интерес, но не могут быть применены для картирования полногеномных взаимодействий. Эта последняя цель достигается с помощью Hi-C, высокопроизводительной стратегии на основе 3C, в которой массовое параллельное секвенирование шаблона 3C позволяет объективно охарактеризовать сворачивание хроматина на уровне всего генома («все против всех»)20. Протокол Hi-C включает включение биотинилированного остатка на концах переваренных фрагментов, после чего следует вытягивание фрагментов лигирования шариками стрептавидина для увеличения извлечения лигированных фрагментов20.
Hi-C показал, что геномы млекопитающих структурно организованы в нескольких масштабах в 3D-ядре. В мегабазовом масштабе геном делится на области активного и неактивного хроматина, компартменты А и В, соответственно20,21. Существование дополнительных субкомпартментов, представленных различными состояниями хроматина и активности, также было впоследствии показано22. При более высоком разрешении геном далее разделяется на субмегабазовые самовзаимодействующие домены, называемые топологически ассоциирующими доменами (TAD), впервые выявленные при анализе Hi-C и 5C геномов человека и мыши23,24. В отличие от компартментов, которые варьируются тканеспецифическим образом, TAD, как правило, постоянны (хотя есть много исключений). Важно отметить, что границы TAD сохраняются для всех видов25. В клетках млекопитающих TAD часто охватывают гены, разделяющие один и тот же регуляторный ландшафт, и, как было показано, представляют собой структурную основу, которая облегчает корегуляцию генов, ограничивая взаимодействие с соседними регуляторными доменами (для обзора 3,26,27,28). Кроме того, в TAD взаимодействия, обусловленные сайтами CTCF в основании когезин-экструдированных петель, могут увеличивать вероятность взаимодействий промотор-энхансер или энхансер-энхансер (для обзора29).
В Hi-C компартменты и TAD могут быть обнаружены с разрешением от 1 Мб до 40 кб, но более высокое разрешение может быть достигнуто для характеристики контактов меньшего масштаба, таких как петлевые взаимодействия между дистальными элементами в масштабе 5-10 кб. Однако увеличение разрешения для эффективного обнаружения таких петель с помощью HiC требует значительного увеличения глубины секвенирования и, следовательно, затрат на секвенирование. Это усугубляется, если анализ должен быть аллель-специфическим. Действительно, X-кратное увеличение разрешения требует увеличения глубины секвенирования наX2 , а это означает, что подходы с высоким разрешением и аллель-специфическими для всего генома могут быть непомерно дорогими30.
Для повышения экономической эффективности и доступности при сохранении высокого разрешения целевые области, представляющие интерес, могут быть физически извлечены из полногеномных библиотек 3C или Hi-C после их гибридизации с комплементарными олигонуклеотидными зондами, меченными биотином, перед последующим секвенированием. Эти стратегии обогащения мишеней называются методами Capture-C и позволяют исследовать взаимодействия сотен целевых локусов, разбросанных по всему геному (т. е. Promoter Capture (PC) Hi-C; Захват нового поколения (NG) Capture-C; Захват с низким входом (LI); Ядерно-титрованный (NuTi) Capture-C; Tri-C)31,32,33,34,35,36,37,38,39,40 или между регионами, охватывающими до нескольких мегабаз (т. е. Capture HiC; HYbrid Capture Hi-C (Hi-C2); Плитка-С)41,42,43. Два аспекта могут различаться в методах, основанных на захвате: (1) природа и дизайн биотинилированных олигонуклеотидов (т.е. РНК или ДНК, одиночные олиго, захватывающие дисперсные геномные мишени, или несколько олиго, образующих интересующую область); и (2) шаблон, который используется для извлечения мишеней, которые могут быть библиотекой 3C или Hi-C, последняя состоит из биотинилированных фрагментов рестрикции, извлеченных из библиотеки 3C.
Здесь описан протокол Capture Hi-C, основанный на обогащении целевых контактов из библиотеки 3C. Протокол основан на разработке специально разработанного набора биотинилированных РНК-зондов и может быть выполнен за 1 неделю от подготовки библиотеки 3C до секвенирования NGS. Протокол быстрый, простой и позволяет охарактеризовать 3D-организацию более высокого порядка интересующих областей мегабазы с разрешением 5 кб, одновременно повышая эффективность времени и доступность по сравнению с другими методами 3C. Протокол Capture Hi-C был применен к главному регуляторному локусу инактивации Х-хромосомы (XCI), центру Х-инактивации (Xic), в котором находится некодирующая РНК Xist. Xic ранее был предметом обширного структурного и функционального анализа (для обзора44,45). У млекопитающих XCI компенсирует дозировку Х-сцепленных генов между самками (XX) и самцами (XY) и включает в себя подавление транскрипции почти всей одной из двух Х-хромосом в женских клетках. Xic представляет собой мощный, золотой стандарт локуса для исследований в области топологии 3D-генома и взаимодействия с регуляциейгенов 44. Анализ 5C Xic в эмбриональных стволовых клетках мыши (mESCs) привел к открытию и наименованию TAD, что позволило впервые понять функциональную значимость топологического разделения и корегуляции генов24. Впоследствии было показано, что топологическая организация Xic критически влияет на соответствующие сроки развития апрегуляции Xist и XCI 46, и неожиданные цис-регуляторные элементы, которые могут влиять на активность генов внутри и между TAD, также были недавно обнаружены в Xic47,48,49. Применение Capture Hi-C к 3 Мб Х-хромосомы мыши, охватывающей Xic, демонстрирует мощь этого подхода при анализе крупномасштабного сворачивания хроматина с высоким разрешением. Предоставляется подробный и простой для понимания протокол, начиная с разработки массива биотинилированных зондов на каждом сайте рестрикции DpnII в интересующей области до создания полногеномной библиотеки 3C, гибридизации и захвата целевых контактов и последующего анализа данных. Также включен обзор соответствующих мер контроля качества и ожидаемых результатов, а также обсуждаются как сильные, так и слабые стороны подхода в свете аналогичных существующих методов.
Здесь мы описываем относительно быстрый и простой протокол Capture Hi-C для характеристики организации геномных областей мегабазового размера более высокого порядка при разрешении 5-10 кб. Capture Hi-C принадлежит к семейству технологий Capture-C, которые предназначены для обогащения целевых взаимодействий хроматина из полногеномных шаблонов 3C или Hi-C. На сегодняшний день подавляющее большинство приложений Capture-C было использовано для картирования хроматиновых контактов относительно небольших регуляторных элементов, разбросанных по всему геному. В первом протоколе Capture-C несколько перекрывающихся биотинилированных зондов РНК использовались для захвата >400 предварительно отобранных промоторов в библиотеках 3C, полученных из эритроидных клеток31. Та же стратегия была впоследствии усовершенствована в Next Generation (NG) и Nuclear Titrated (NuTi) Capture-C для достижения профилей взаимодействия с высоким разрешением >8,000 промоторов за счет использования одиночных приманок ДНК 120.н., охватывающих одиночные сайты рестрикции, и двух последовательных раундов захвата для максимального обогащения информативных фрагментов лигирования32,40. Эти стратегии привели к функциональному рассечению цис-действующих элементов во многих различных контекстах, включая эмбриональное развитие мыши, дифференцировку клеток, инактивацию Х-хромосомы и неправильную регуляцию генов при патологических состояниях 46,63,65,66,67,68,69,70,71.
В Promoter Capture Hi-C (PCHi-C) >22 000 аннотированных промоторов, содержащих фрагменты рестрикции, были извлечены из библиотек Hi-C путем гибридизации одиночных 120-мерных биотинилированных зондов РНК на одном или обоих концах фрагмента рестрикции34,72. Этот метод позволил рассечь интерактом тысяч промоторов в быстро растущем числе типов клеток, включая эмбриональные стволовые клетки мыши, клетки печени плода и адипоциты 34,35,72,73, а также лимфобластоидные линии человека, гемопоэтические предшественники, эпидермальные кератиноциты и плюрипотентные клетки 37,74,75,76,77.
По сравнению с этими технологиями целевого обогащения, Capture Hi-C нацелен на смежные области генома вплоть до мегабазового масштаба, тем самым охватывая один или несколько TAD и охватывая регуляторные ландшафты генов. Вся интересующая область должна быть покрыта массивом биотинилированных зондов, охватывающих каждый сайт рестрикции DpnII в мишени. Гибридизация биотинилированного массива с шаблоном 3C, его последующий захват на основе стрептавидина и обработка для мультиплексного секвенирования выполняются с использованием системы обогащения мишени для мультиплексного секвенирования Illumina Paired-End. Весь протокол является быстрым, так как он может быть выполнен за 1 неделю от подготовки библиотеки 3C до секвенирования NGS, и требует лишь незначительных адаптаций и/или устранения неполадок с учетом специфики.
Протокол также дает преимущества по сравнению с другими методами на основе 3C. Чтобы получить карты взаимодействия с разрешением 5-10 кб, мы секвенировали 100-120 М парных считываний. В качестве сравнения мы использовали здесь набор данных Hi-C из 571 млн чтений для достижения разрешения20 КБ 64 (GSM2053973), и потребовалось бы не менее 1 миллиарда чтений для достижения разрешения 5 КБ с Hi-C22 по всей хромосоме.
Захват Hi-C, используемый в настоящем исследовании, достигает гораздо более высокого разрешения, чем ранее опубликованный 5C на основе рестрикционного фермента47 6-bp (Дополнительная таблица 1). Важно отметить, что стратегия, разработанная для обогащения и усиления целевых взаимодействий в 5C, не позволяет проводить аллель-специфический анализ взаимодействий хроматина. Напротив, данные Capture Hi-C могут быть картированы в частности, в частности, что позволяет вскрывать 3D-структурные ландшафты пар гомологичных хромосом, например, в клетках человека или в гибридных клеточных линиях F1, полученных путем скрещивания генетически разных штаммовмышей 78. Для создания аллель-специфических карт взаимодействия Capture Hi-C с разрешением 5 кб мы секвенировали парные чтения 150.н., чтобы увеличить охват SNP. Аналогичные аллель-специфические подходы могут быть применены к клеточным линиям человека, для которых доступна аннотация SNP22.
Важно отметить, что, хотя Capture Hi-C обычно обеспечивает высокое разрешение при одновременном повышении доступности затрат на секвенирование, производство специально адаптированных биотинилированных олигонуклеотидов оказывает влияние на общую стоимость этого метода. Таким образом, выбор наиболее подходящего метода 3C будет отличаться для разных применений и будет зависеть от решаемого биологического вопроса и требуемого разрешения, а также от размера интересующей области. Другие разработанные протоколы Capture Hi-C имеют общие ключевые функции с протоколом, описанным здесь. Например, стратегия Capture Hi-C была применена для характеристики геномных областей размером от ~ 50 кб до 1 Мб, охватывающих некодирующие варианты, связанные с риском рака молочной железы и колоректального рака; в этом протоколе целевые области были извлечены из библиотек Hi-C путем гибридизации 120-мерных приманок РНК, покрывающих целевые области с 3-кратным покрытием33,38,79. Аналогичным образом, HYbrid Capture Hi-C (Hi-C 2) использовался для таргетинга взаимодействий в интересующих областях до2 Мб80. В обоих протоколах использование шаблона Hi-C, обогащенного фрагментами лигирования, вытянутыми биотином, увеличило процент общего информативного чтения по сравнению с нашим протоколом. Например, в наборе данных Hi-C, который мы использовали здесь для сравнения64 (GSM2053973), процент допустимых пар после удаления дубликатов в 4,8 раза выше, чем допустимые пары, полученные в Capture Hi-C, как описано на рисунке 3 и в дополнительной таблице 1. Тем не менее, последовательное вытягивание биотинилированных лигированных фрагментов и гибридизованных зондов делает протокол значительно более сложным и трудоемким, при этом, возможно, уменьшая сложность захваченной области.
Другим доступным методом обогащения 3C-шаблонов тайлинговыми зондами является Tiled-C, который был применен для изучения архитектуры хроматина с высоким пространственным и временным разрешением во время дифференцировки эритроидов мыши43. В Tiled-C панель из биотинилированных зондов 70.н. используется для обогащения контактов в крупномасштабных областях в двух последовательных раундах захвата для создания карт целевых взаимодействий с очень высоким разрешением43,81. Двойное обогащение захвата также делает протокол более длинным и сложным по сравнению с Capture Hi-C. Однако, в отличие от стратегий Capture-C, нацеленных на сайты с одним ограничением, в Tiled-C второй раунд захвата, по-видимому, существенно не повышает эффективность захвата, и поэтому, вероятно, может быть опущен43. Наконец, аналогичный подход к тайлингу, основанный на той же стратегии целевого обогащения, которая использовалась в этом исследовании, был применен к вскрытию регуляторных ландшафтов, охватывающих структурные варианты, описанные у пациентов с врожденными пороками развития и реконструированные у трансгенных мышей41,42. В этом случае тайловый массив зондов был спроектирован по всей цели, а не в непосредственной близости от участков41 ограничения DpnII. Тем не менее, эта работа была плодотворной в освещении чувствительности и мощи этой стратегии для достижения характеристики больших геномных областей с высоким разрешением в различных контекстах41,42,48.
В заключение, описанный здесь протокол представляет собой простую, надежную и мощную стратегию для 3D-характеристики с высоким разрешением любых интересующих областей генома. Применение этого подхода к различным модельным системам, типам клеток, регулируемым развитием хроматиновым ландшафтам и регуляции генов в здоровых и патологических состояниях, вероятно, облегчит наше понимание взаимодействия и причинно-следственной связи между топологией генома и регуляцией генов, что является одним из фундаментальных открытых вопросов в области эпигенетики. Кроме того, применение Capture Hi-C для картирования дальних взаимодействий и сворачивания хроматина более высокого порядка вариантов риска, выявленных в исследованиях GWAS, может выявить функциональную значимость некодирующих геномных локусов, связанных с заболеваниями человека в различных контекстах, тем самым обеспечивая новое понимание процессов, потенциально лежащих в основе патогенеза.
The authors have nothing to disclose.
Работа в лаборатории Херда была поддержана премией Европейского исследовательского совета Advanced Investigator (XPRESS – AdG671027). А.Л. поддерживается индивидуальной стипендией Европейского Союза Марии Склодовской-Кюри (IF-838408). A.H. поддерживается инновационной и междисциплинарной сетью ITN ChromDesign в рамках грантового соглашения Марии Склодовской-Кюри 813327. Авторы благодарны Даниэлю Ибрагиму (MPI for Molecular Genetics, Берлин) за полезные технические советы, платформе NGS в Институте Кюри (Париж), а также Владимиру Бенешу и Центру геномики в EMBL (Гейдельберг) за поддержку и помощь.
10x PBS pH 7.4 | Gibco | 10010-023 | |
37% (vol/vol) paraformaldehyde solution | Electron Microscopy Sciences | 15686 | single use glass-vials; do not reuse |
50 mL PP conical tube | Falcon | 352070 | |
Agarose | Sigma | A9539-500g | |
Bioanalyzer | Agilent | G2939BA | |
Cell Scrapers – 25 cm Handle and 3.0 cm Blade | Falcon | 353089 | |
CHIR99021 | Axon Medchem BV | Axon 1386 | |
cOmplete Mini, Protease inhibitor cocktail (EDTA-free) | Merck | 11836170001 | |
Countess Cell Counting Chamber Slides | Invitrogen | C10228 | |
Countess II FL | Invitrogen | ZGEXSCCOUNTESS2FL | Automated cell counter |
Covaris S2 | Covaris | 500217 | Sonicator |
DNA LoBind tube, 1.5 mL | Eppendorf | 30108051 | |
DpnII (50000 units/mL) | New England Biolabs | R0543M | |
Dulbecco's Modified Eagle Medium (DMEM) | Merck | D6429 | |
Ethanol (100%) | Merck | 1.00983.2500 | |
Fetal Bovine Serum (FBS) | Thermo Scientific | 10270106 | |
gelatine from porcine skin | Sigma | G1890 | |
GeneRuler 1 kb Plus DNA Ladder | Thermo Scientific | SM0313 | |
GlycoBlue | Thermo Scientific | AM9516 | Coprecipitant |
High-Sensitivity Bioanlayzer chips | Agilent | 5067-4626 | |
Large Cooling Centrifuge 5920 R | Eppendorf | 5948000018 | |
leukaemia inhibitory factor (LIF) | Merck | ESG1107 | |
Liquiport | KNF | NF300 | Benchtop aspiration system |
Low-binding filter tips | Biozym | VT0260U, VT0240, VT0220, VT0200U | |
Molecular biology grade water | Merck | W3500-6x500ML | |
Next Seq 500 | Illumina | SY-415-1001 | |
Next Seq 500 High Output v2 Kit (300 cycles) | Illumina | FC-404-2004 | |
Nonidet P40 Substitute (NP40) | Merck | 11332473001 | |
PD0325901 | Axon Medchem BV | Axon 1408 | |
Protease inhibitor cocktail (EDTA-free) | Merck | 11873580001 | |
Proteinase K – recombinant, PCR-grade (20 mg/mL) | Thermo Scientific | EO0491 | |
Qubit 2.0 | Thermo Scientific | Q32871 | |
Qubit assay tubes | Thermo Scientific | Q32856 | |
Qubit dsDNA High Sensitivity kit | Thermo Scientific | Q32851 | |
RNase A (10 mg/mL) | Thermo Scientific | EN0531 | |
Sodium acetate pH 5.2 (3M) | Merck | S7899 | |
speed vacuum concentrator | Eppendorf | EP5305000100-1EA | |
Agencourt AMPureXP | Beckman Coulter | A63881 | SPRI beads |
SureSelect Target Enrichment Box 1 | Agilent | 5190-8645 | |
SureSelect Target Enrichment Kit ILM Indexing Hyb Module Box 2 | Agilent | 5190-4455 | |
SureSelect XT Library Prep Kit ILM | Agilent | 5500-0132 | |
T4 ligase (30 units/µL) | Thermo Scientific | EL0013 | |
table-top Centrifuge 5427 R | Eppendorf | 5409000012 | |
Triton-X-100 (500 mL) | Merck | X100-500ML | |
Trypan Blue | Invitrogen | T10282 | |
Trypsine | Thermo Scientific | 25300054 | |
UltraPure Glycine | Thermo Scientific | 15527013 | |
β-mercaptoethanol | Thermo Scientific | 31350010 |