Summary

Выявление редких геномных вариантов с помощью секвенирования Объединенные SPLINTER

Published: June 23, 2012
doi:

Summary

Объединенные секвенирования ДНК является быстрым и экономически эффективной стратегией для обнаружения редких вариантов, связанные с комплексными фенотипов в больших группах. Здесь мы опишем вычислительный анализ объединенных следующего поколения, последовательность из 32 связанных с раком генов с помощью пакета SPLINTER программного обеспечения. Этот метод является масштабируемым, и применимы к любой фенотип интерес.

Abstract

As DNA sequencing technology has markedly advanced in recent years2, it has become increasingly evident that the amount of genetic variation between any two individuals is greater than previously thought3. In contrast, array-based genotyping has failed to identify a significant contribution of common sequence variants to the phenotypic variability of common disease4,5. Taken together, these observations have led to the evolution of the Common Disease / Rare Variant hypothesis suggesting that the majority of the “missing heritability” in common and complex phenotypes is instead due to an individual’s personal profile of rare or private DNA variants6-8. However, characterizing how rare variation impacts complex phenotypes requires the analysis of many affected individuals at many genomic loci, and is ideally compared to a similar survey in an unaffected cohort. Despite the sequencing power offered by today’s platforms, a population-based survey of many genomic loci and the subsequent computational analysis required remains prohibitive for many investigators.

To address this need, we have developed a pooled sequencing approach1,9 and a novel software package1 for highly accurate rare variant detection from the resulting data. The ability to pool genomes from entire populations of affected individuals and survey the degree of genetic variation at multiple targeted regions in a single sequencing library provides excellent cost and time savings to traditional single-sample sequencing methodology. With a mean sequencing coverage per allele of 25-fold, our custom algorithm, SPLINTER, uses an internal variant calling control strategy to call insertions, deletions and substitutions up to four base pairs in length with high sensitivity and specificity from pools of up to 1 mutant allele in 500 individuals. Here we describe the method for preparing the pooled sequencing library followed by step-by-step instructions on how to use the SPLINTER package for pooled sequencing analysis (http://www.ibridgenetwork.org/wustl/splinter). We show a comparison between pooled sequencing of 947 individuals, all of whom also underwent genome-wide array, at over 20kb of sequencing per person. Concordance between genotyping of tagged and novel variants called in the pooled sample were excellent. This method can be easily scaled up to any number of genomic loci and any number of individuals. By incorporating the internal positive and negative amplicon controls at ratios that mimic the population under study, the algorithm can be calibrated for optimal performance. This strategy can also be modified for use with hybridization capture or individual-specific barcodes and can be applied to the sequencing of naturally heterogeneous samples, such as tumor DNA.

Protocol

Этот метод был использован в исследованиях сообщается в Vallania FML и соавт. Genome Research 2010 года. 1. Пример пула и ПЦР захват целевых геномных локусов Комбинат нормализованное количество геномной ДНК из каждого в бассейн (ы). Используя 0,3 нг ДНК одного человека в реакции ПЦР будет включать около 50 диплоидных геномов человека в каждой реакции ПЦР, которая повышает вероятность равномерного усиления в аллелей в бассейне. Геномные последовательности могут быть получены из NCBI ( http://www.ncbi.nlm.nih.gov/ ) или УСК геноме браузера ( http://genome.ucsc.edu/index.html ). Убедитесь, что использовать "RepeatMasker" (отмечен на "N") при получении последовательности, чтобы избежать разработке грунта в повторяющиеся области. Использование веб-Primer3 (rimer3/input.htm "целевых =" _blank "> http://frodo.wi.mit.edu/primer3/input.htm) утилита для разработки праймеров помощью вырезания и вставки генома интерес также некоторые фланговые последовательности (ампликонов из 600-2000 б.п., как правило, идеальных) оптимальный подбор праймеров условия для Primer 3, которые будут использоваться в 10: Минимальный размер грунтовка = 19; оптимальный размер грунтовка = 25; Максимальный размер грунтовка = 30; Минимальное Т = 64 ° С, оптимальная Tm. = 70 ° С, максимальная Т = 74 ° С, максимальная разница Т = 5 ° C; Минимальное содержание GC = 45; Максимальное содержание GC = 80; Число вернуться = 20 (это произвольный), максимум 3 'конец стабильности = 100 . Дизайн праймеров для амплификации всех геномных локусов интерес. После получения грунтовок, лиофилизированный акции можно развести в 10 мМ Трис, рН 7,5 ± 0,1 ммоль EDTA до конечной концентрации 100 мкМ следуют дополнительные 10:01 разведения в DDH 2 O до 10 мкМ. ПЦР-амплификации: Мы рекомендуем использовать высококачественные ДНК-полимеразой для амплификации геномной большойампликонов в связи с низким уровнем ошибок (10 -7) и поколение тупыми концами продукции (это необходимо для шага вниз по течению перевязка). Мы использовали PfuUltra High-Fidelity, но ферментов с аналогичными характеристиками (например, Phusion) должна обеспечивать сопоставимые результаты. Каждый ПЦР содержит конечной концентрации 2,5 U PfuUltra High-Fidelity полимеразы, 1 М бетаин, 400 нМ каждого праймера, 200 мкМ дНТФ, 1x PfuUltra буфера (или буфер, содержащий ≥ 2 мМ Mg 2 +, чтобы сохранить верность ферментативных) , 5-50 нг объединенных ДНК в конечном объеме 50 мкл. Используйте следующие условия ПЦР: 1. 93-95 ° C в течение 2 минут 2. 93-95 ° C в течение 30 секунд 3. 58-60 ° C в течение 30 секунд 4. 65-70 ° С в течение 60-90 секунд ампликонов 250-500 б.п. / 1,5-3 минуты ампликонов 500-1000 б.п. / 3-5 минут ампликонов> 1 кб 5. Повторите шаги 2-4 для 25-40 циклов; 6. 65 ° C в течение 10 минут 7. 4 ° C удержания. При необходимости, результатов ПЦР как правило, может быть улучшена путем: 1)понижение температуры отжига для малых ампликонов, 2) повышение температуры отжига для больших ампликонов 3. удлинение продление времени для любого ампликона. Подготовка SPLINTER управления: каждый SPLINTER эксперимент требует наличия отрицательного и положительного контроля для достижения оптимальной точности. Отрицательный контроль может состоять из всех гомозиготных позиции базы в любое физическое лицо, со штрих-кодом образца, который был ранее последовательности (например, HapMap образца). Положительный контроль тогда состоит из смеси двух или более таких образцов. В этом докладе, негативное управления 1934 б.п. усиливается области от основу M13mp18 вектор оцДНК. Продукт ПЦР был Sanger последовательный до его использования для того, чтобы подтвердить, что не существует последовательность изменения от исходного материала или ПЦР. Положительный контроль состоит из панели pGEM-T Easy векторов с 72 б.п. клонированные вставки разработаны конкретные вставки, удаления substitutions (табл. 1). Мы смешиваем векторов вместе против дикого типа на фоне молярном соотношении, что мутации присутствуют на частоту одного аллеля в бассейне (например, для 100-аллель бассейн, частота аллеля одного будет 1%). Затем PCR усилить смешанных шаблонов управления с помощью M13 PUC сайтов грунт в pGEM-T Easy, создавая окончательный 355bp долго продуктов ПЦР. 2. Объединенные ПЦР подготовка библиотеки и секвенирования ПЦР продукт объединения: Каждый продукт ПЦР должен быть очищен от избыточных праймеров. Мы привыкли Qiagen Qiaquick очистки столбца или 96-и фильтрующих пластин с вакуумным многообразием для крупномасштабной очистки. После очистки, каждый продукт ПЦР должны быть количественно с использованием стандартных методов. Комбинат каждого продукта ПЦР (в том числе контроля) в бассейн нормированное число молекул, как объединение по концентрации может привести к чрезмерно малой ампликонов овэ больше продукции. Концентрации преобразуются в абсолютное число молекул ДНК на единицу объема по формуле: (г / мкл) х (1 моль х б.п. / 660 г) х (1 / # б.п. в ампликона) х (6 х 10 23 молекул / 1 моль ) = молекул / мкл. Затем определяют объем каждой реакции, необходимые для бассейна нормализованное число молекул в ампликона. Это число является произвольным, могут быть скорректированы и в самом деле зависит от пипетки объемы достаточно велики, чтобы сохранить точность. Как правило, мы объединим 1-2 х 10 10 молекул каждого ампликона. Лигирование продуктов ПЦР: Этот шаг необходим для достижения равномерного покрытия последовательности, как ультразвуком малой ампликонов ПЦР будет предвзятым представлением их к своей цели. Чтобы преодолеть это, мы перевязывать объединенных продуктов ПЦР в большом concatemers (> = 10 Кб) до фрагментации. Pfu Ультра ВЧ-полимераза создает тупыми концами, что приводит к эффективному перевязки (Taq-полимеразы на основе добавят 3p "" навес, который не будетllow перевязки без предварительного заполнить или притупление). Эта реакция может быть повышена в 2-3 раза, если необходимо. Реакции лигирования содержит 10 U Т4 полинуклеотид, 200 U-лигазы Т4, 15% вес / объем полиэтилена, 1X Т4-лигазы буфера, гликоль 8000 МВт, до 2 мкг объединенных продуктов ПЦР в конечном объеме 50 мкл. Реакции инкубировали при 22 ° С в течение 16 часов, а затем на 65 ° C в течение 20 минут и выдерживают при 4 ° C в дальнейшем. Успех этот шаг может быть проверена путем загрузки 50 нг образцов в 1% агарозном геле. Успешное перевязки приведет к высоким молекулярным весом, группа присутствует в полосе (рис. 2, дорожка 3). Фрагментации ДНК: В этот момент вы должны иметь большой concatemers (> 10Кб) продуктов ПЦР. У нас есть случайная стратегия ультразвука в 24-образец Diagenode Bioruptor sonicator, которые могут фрагмент этих concatemers в 25 минут (40 секунд "на" / 20 сек "выкл" в минуту). Ультразвуком тормозится вязкостью введен PEG, такэто может быть преодолена путем разбавления образца 10:1 в буфер Qiagen PB. Результаты могут быть проверены на 2% агарозном геле (рис. 2, дорожки 4 и 5). Образец готов включить непосредственно в Illumina геномной библиотеки подготовки образцов протоколов, начиная с "Конец Ремонт" шагом. Данные, представленные здесь, взяты из одного конца читает на Illumina Genome Analyzer IIx, но мы использовали HiSeq 2000 году и выполняется одной или парных конца читает с сопоставимыми результатами. Учитывая масштабы библиотеке создан, мы также использовали штрих пользовательских адаптеров для мультиплексирования нескольких объединенных библиотек для размещения полосы пропускания, предоставляемые платформой HiSeq (данные не представлены). Следуйте протоколу производителя и рекомендации, которые идут в комплекте. В целях достижения оптимальной чувствительности и специфичности для выявления вариантов, цель охвата в 25 раз и более в аллель рекомендуется (рис. 3). Эта оценка не зависит от размера пулаи тип варианта будет обнаружен. При необходимости несколько полос и трасс могут быть объединены для достижения адекватного охвата. 3. Последовательность чтения выравнивания и анализа Сжатие файлов и форматирование: Сырье для чтения файлов последовательности должны быть либо преобразованы в формат шарф или сжатым. Сжатие не является обязательным, поскольку это экономит время и пространство для последующих этапов анализа без потери информации. Это достигается с помощью входящего в сценарий RAPGAP_read_compressor_v2.pl с помощью следующей команды: ./RAPGAP_read_compressor_v2.pl [Читать файла]> [Читать сжатого файла] Принято читать форматов входных и шарф FASTQ, либо сжатый или несжатый: ШАРФ пример формата: ОСО-EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW FASTQ формате например: @ ОСО-EAS440_7_1_0_410 # 0/1 NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG + И / 8888888888888888888854588767777666! Сырье читать выравнивания: сырье чтения теперь могут быть приведены в соответствие к аннотированной последовательности ссылкой FASTA характерных для целевых регионов, включенных в реакции ПЦР, а также положительные и отрицательные элементы управления. Выравнивание может осуществляться с помощью входящего в RAPGAPHASH5d выравнивания инструмента. Формат ввода в этот момент должен быть шарф или сжаты. Команда для выравнивания: ./RAPGAPHASH5d [Сжатого файла прочитанные] [FASTA файл] [номер правки позволили]> [неприсоединения файл] Количество несоответствий в чтение, которым разрешено по сравнению с базовым последовательность пользовательских параметров. Говорится, что имеют избыточное количество несоответствий, будут отвергнуты. Мы рекомендуем позволяющий 2 не соответствует на 36 б.п. чтения, 4 не соответствует на 76 б.п. читает и 5 не соответствует на 101 б.п. говорится в сообщении. С учетом более не соответствует увеличит вероятность позволить лишний последовательности ошибок в др.igned имеет данных. Как читать длины становятся все длиннее, эта величина может быть увеличена. Tagging соответствие файлов из одного проточной ячейкой: На данный момент все выравнивается прочитать файл должен быть присвоен уникальный идентификатор ("тэг") с целью выявления читать файлы, принадлежащие к той же последовательности выполнения (например, несколько полос из той же проточной ячейкой могут быть объединены и получил один тег). Тег необходимо потому, что каждая машина выполнения генерирует уникальный профиль ошибка, которая может быть охарактеризована с помощью тега. Тег буквенно-цифровой строки символов, используемые для различения множества чтения (символ подчеркивания "_" не должна использоваться для разбора вопросов). Различные теги должны быть использованы для чтения файлов выровнены, образующихся на различных flowcells или машина работает. Метки могут быть добавлены с помощью входящего в RAPGAP_alignment_tagger.pl с помощью следующей команды: . / RAPGAP_alignment_tagger.pl [неприсоединения файла] [TAG]> [неприсоединения помеченный файл] С этого момента, согласованнаяфайлы из той же библиотеки, образующихся на нескольких различных flowcells могут быть объединены вместе, как их тегами будет держать их отдельно. Ошибка поколения модели: Как уже говорилось выше, каждая машина выполнения генерирует уникальный профиль последовательности ошибки, которые должны быть характерны для точной призвание вариант. Для моделирования этих ошибок для каждой машины перспективе внутренний контроль последовательности известно, лишенные последовательности изменения включены в каждый объединенные библиотеки сэмплов. В соответствие помеченный файл, файл ошибок модели могут быть получены с помощью прилагаемого инструмента EMGENERATOR4 с обратной последовательности ссылки на элемент управления. Все обратной последовательности управления может быть использован или же только часть его, указанный в 5 'и 3' большинство баз на входе. Уникальные читает и pseudocounts всегда должны быть использованы: ./EMGENERATOR4 [Неприсоединения помеченный файл] [обратной последовательности контроль] [имя выходного файла] [5 "самых базе отрицательного контроля, которые будут использоваться] [3 'наиболее базыотрицательного контроля, которые будут использоваться] [включают уникальный читает только? = Y] [выравнивание правки отсечки] [введите pseudocounts? = Y] EMGENERATOR4 инструмент будет генерировать 3 файлы с именем, как имя выходного файла параметров следует _0, _1 и _2. Эти файлы соответствуют 0-й, 1-й и 2-й модели, ошибка порядка соответственно. Для варианта с вызовом осколок, 2-й модели, ошибка порядка всегда должны быть использованы. Для визуализации профилей ошибок в перспективе, error_model_tabler_v4.pl могут быть использованы для создания PDF участок ошибку на 0-й порядок ошибки файл модели (рис. 4): ./error_model_tabler_v4.pl [Ошибка модель 0-го порядка файла] [имя выходного файла] Сюжет файл покажет выполнения конкретных направлений ошибку и может быть использована для вывода максимального количества читать баз, которые будут использоваться для анализа, что объясняется в следующем разделе. 4. Редкий вариант обнаружения Использование SPLINTER Вариант звонитьг по SPLINTER: Первым шагом в анализе является запуск осколок инструмента на соответствие файлов с использованием модели ошибок и ссылки последовательности. Команда для этого является: ./SPLINTER6r [Неприсоединения помеченный файл] [FASTA файл] [2-го порядка модель ошибок файла] [число операций чтения базы, которые будут использоваться] [читать баз или циклами должны быть исключены] [р-значение отсечки = -1,301] [Использование уникальных читает = Y] [выравнивание правки отсечки] [размер пула из доступных вариантов] [распечатать абсолютное покрытие на нить = Y]> [SPLINTER файл] Количество операций чтения базы для использования меняется и должны быть оценены в соответствии с каждого запуска. Как правило, мы рекомендуем использовать первый 2/3rds от чтения, поскольку они представляют собой самое высокое качество данных (первые 24 читать основы 36bp долго читать, например). Одноместный читать базы могут быть исключены из анализа, если будут обнаружены дефекты (через запятую или, например, N 5,7,11 или N). Р-значение отсечки определяет, как строгий анализ вариантов вызова будет. Мы ниформально начать анализ, позволяя минимум отсечки -1,301 (соответствующие значения р ≤ 0,05 log10 шкале). Опция размер пула оптимизирует алгоритмы "сигнал-шум" дискриминация по устранению возможных вариантов с незначительными частот аллелей меньше, чем у одного аллеля в самом бассейне. Например, в бассейне 50 человек, самая низкая наблюдаемая варианте можно ожидать на уровне 0,01 частоты или 1 100 аллелей. Таким образом, выбор размера пула должен быть установлен в ближайшее значение, которое больше, чем фактическое число аллелей проанализированы в эксперименте (то есть, если 40 человек обследуются, мы ожидаем, 80 аллелей, так что ближайшим вариантом будет бассейн размером 100) . Варианты называются на частотах <0,01 будут проигнорированы как шум. Этот файл возвращает все хиты, которые являются статистически значимыми на образце с описанием положения вариант, типа вариант, р-значение в цепи ДНК, частота и вариант полного охвата в цепи ДНК ( <stronг> Таблица 2). Нормализация покрытия называемые варианты Колебания покрытия на образце может генерировать паразитный хитов. Это можно исправить, применив splinter_filter_v3.pl скрипт следующим образом: ./splinter_filter_v3.pl [SPLINTER файла] [список файлов] [жесткость]> [SPLINTER нормированного файл] где список файлов представляет собой список хитов положительный контроль в виде табуляции файл. Первое поле указывает ампликона интереса, а второе поле указывает на положение, в котором мутация присутствует. N означает, что остальная часть последовательности не содержит мутации. Определение оптимального значения р пороги использования положительного контроля данных: После нормализации анализа положительный контроль является необходимым условием для максимальной чувствительности и специфичности конкретного анализа образца. Это может быть достигнуто за счет нахождения оптимального значения р отсечки использовании информациихода из положительного контроля. Скорее всего, первоначальный р-значение -1,301 не будет достаточно строгим, что если это так, приведет к призванию ложных срабатываний от положительного или отрицательного контроля. Каждый SPLINTER анализ покажет фактическое р-значение для каждого называемый вариант (см. столбцы 5 и 6 в таблице 2), который не может быть предсказан априори. Тем не менее, весь анализ может быть повторен с помощью наименее строгим р-значение, отображаемое на первоначальный выход для известных истинный положительный позиции базы. Это поможет сохранить все истинно положительных исключая при этом большинство, если не все, ложных срабатываний, и они как правило, имеют значительно меньшую р-значения по сравнению с истинно положительными. Для автоматизации этого процесса, cutoff_tester.pl могут быть использованы cutoff_tester.pl требуется файл SPLINTER выхода и список положительных хитов контроль в виде табуляции файл, который используется для нормализации.: . / Cutoff_tester.pl [SPLINTER фильтрред файла] [список файлов] В результате на выходе будет список отключений, которые постепенно достичь оптимального (см. таблицу 3). Формат: [Расстояние от максимальной чувствительностью и специфичностью] [чувствительность] [специфику] [обрезание] Например: 7.76946294170104e-07 1 0,999118554429264 -16,1019999999967 Последняя строка представляет собой наиболее оптимальный отсечки для бега и поэтому могут быть использованы для анализа данных. Оптимальным результатом является достижение чувствительности и специфичности 1. В случае, если этот результат не достигнут, осколок анализ можно повторить, изменяя число объединенной базы читать, пока самое оптимальное состояние достигается. Окончательный вариант фильтрации: окончательное обрезание может применяться для данных с использованием cutoff_cut.pl скрипт, который будет фильтровать файл SPLINTER выход из хитов ниже оптимального среза, . / Cutoff_cut.pl [SPLINTER фильтруется файла] [обрезание]> [SPLINTER окончательныйфайл] Этот шаг создаст окончательный выходной файл осколок, который будет содержать ОНП и индели присутствуют в образце. Обратите внимание, что выход для вставки немного отличается, чем для замены или удаления (таблица 2). 5. Представитель Результаты Мы объединенных населением 947 лиц и целевых более 20 Кб для секвенирования. Мы обратились SPLINTER для обнаружения редких вариантов после нашего стандартного протокола. Каждый человек был ранее генотипирования исполнении генома генотипирования массива. Соответствие между генотипирования меченых и новые варианты называются в совокупной выборки были превосходны (рис. 6). Три варианта, два из которых (rs3822343 и rs3776110) были редки среди населения, были названы заново из последовательности и результаты были подтверждены отдельным пиросеквенирования. Малая частот аллелей (МАФ) в бассейне были похожи на MAF сообщили в dbSNP сборка 129. Согласование между MAF пиросеквенирования и объединенных последовательность была отличная (табл. 3). Таблица 1. ДНК олигонуклеотидных последовательностей для положительного контроля. Каждая последовательность состоит из фрагмента ДНК, отличающихся от дикого типа ссылки либо две замены или одной вставки и одним удалением. Нажмите здесь, чтобы увеличить изображение . Таблица 2. Пример SPLINTER выход. Первые две строки представляют собой стандартный вывод SPLINTER для замены или удаления (синий заголовок). Последняя строка представляет стандартный вывод SPLINTER для вставки (фиолетовый заголовок).rget = "_blank"> Нажмите здесь, чтобы посмотреть увеличенное изображение. Таблица 3. Пять известных и три варианта романа были определены с большой численностью населения и утверждены отдельные генотипирования. Индивидуальная проверка была выполнена пиросеквенирования (строки 1-3), TaqMan анализ (4-6 строк) или Sanger последовательности (строки 7,8). Для широкого диапазона частот аллелей и в том числе пять позиций MAF <1%, соответствие между объединения последовательности аллели оценки частоты и индивидуальных генотипирования было сильным. Позиции, отмеченные звездочкой (*), адаптированных с ранее данными 9. Рисунок 1. Объединенные ДНК-последовательности и обзор SPLINTER анализа. Пациент ДНК объединенныхи усиление на отдельных локусов. Конечными продуктами ПЦР объединяются вместе с положительными и отрицательными контроля в эквимолярных соотношениях. Объединенные смесь затем последовательно и в результате чтения переходят обратно в ссылку. Сопоставленные отрицательного контроля чтения используются для генерации выполнения конкретной ошибки модели. SPLINTER может быть использован для обнаружения редких ОНП и индели путем включения информации из модели ошибок и положительного контроля. [Адаптировано из Vallania FLM и др., Genome Research, 2010] Нажмите здесь, чтобы увеличить изображение . Рисунок 2. Объединенные ПЦР перевязки ампликона и ультразвуком. В качестве демонстрации перевязки и случайных шагов фрагментации в протокол подготовки библиотеки, pUC19 вектор ферментативно расщепляется на фрагменты показано в переулок, 2. Эти фрагменты были нормативнойных учебных от числа молекул в сочетании и случайно лигировали в соответствии с этапом 1,7 выше. В результате большой concatamers приведены в полосе 3. Лигированных concatamers было поровну и подвергались обработке ультразвуком, как описано в пункте 1.8 выше. В результате мазка фрагментов ДНК для каждого технического репликации приведены в полосы 4 и 5. Кронштейн подчеркивает размер диапазона, используемого для извлечения геля и создание последовательности библиотеки. Рисунок 3. Точность в зависимости от покрытия для одного аллеля в совокупной выборки. Точность оценивается как площадь под кривой (AUC) кривой приемник оператора (ROC), которая колеблется от 0,5 (случайных) до 1,0 (совершенно точно). AUC строится в зависимости от покрытия на аллель для обнаружения отдельных мутантных аллелей в бассейнах 200, 500 и 1000 аллели (A). AUC строится как функция общего покрытия для замены, вставки и гeletions (B). [Адаптировано из Vallania FLM и др., Genome Research, 2010]. Рисунок 4. Ошибка график показывает вероятность включения ошибочным базы в данной позиции. Ошибка профиля показывает низкий процент ошибок с ростом тенденции к концу 3 'последовательность чтения. Примечательно, что различные нуклеотиды ссылкой отображать различные вероятности ошибки (см., например, вероятность включения данного C G в качестве ссылки). [Адаптировано из Vallania FLM и др., Genome Research, 2010]. Рисунок 5. Точность заноза в оценке частоты аллелей на должности, которые были больше, чем в 25 раз покрытие на аллеля. По результатам панели, на рисунке 3 показывает оптимальную чувствительность для обнаружения одного варианта с ≥ 25 раз покрытия,Сравнение объединения ДНК частот аллелей оценкам SPLINTER с аллель рассчитывает измеряется GWAS приводит к очень высокой корреляции (г = 0,999). [Адаптировано из Vallania FLM и др., Genome Research, 2010]. Рисунок 6. Сравнение частот аллелей измеряется GWAS по сравнению с SPLINTER оценкам объединения последовательности из 974 лиц. Существовали 19 общих позиций между генотипирование локусов и последовательность областей для сравнения. В результате корреляция очень высока (р = 0,99538). Нажмите здесь, чтобы увеличить рисунок .

Discussion

Существует все больше доказательств, что заболеваемость и терапевтический эффект общих, сложных фенотипов и таких заболеваний, как ожирение 8, гиперхолестеринемия 4, 7 и гипертония другие могут быть ведущим личные профили редкие вариации. Идентификация генов и путей, где эти варианты в совокупности пострадавшего населения будет иметь глубокие диагностические и терапевтические последствия, но анализ пострадавших лиц по отдельности может занять много времени и стоить непомерно высокими. Население на основе анализа предлагает более эффективный метод для съемки генетической изменчивости в нескольких локусов.

Мы представляем новый объединенный ДНК-последовательности в паре с протоколом пакет SPLINTER программное обеспечение, предназначенное для идентификации такого рода генетические различия между популяциями. Покажем точность этого метода в выявлении и количественной незначительных аллелей в больших объединенных населения 947 человек, включая редкие варианты, которые былиназывается заново из пула последовательности и проверки отдельных пиросеквенирования. Наша стратегия главным образом отличается от других протоколов, включение положительного и отрицательного контроля в каждом эксперименте. Это позволяет SPLINTER добиться гораздо более высокую точность и мощность по сравнению с другими подходами 1. Оптимальное освещение в 25 раз за аллель устанавливается независимо от размера бассейна, что делает анализ больших бассейнов возможно, так как это требование только растет линейно с бассейном размером. Наш подход является очень гибкой и может быть применен к любой фенотип интерес, но и образцы, которые естественным образом гетерогенным, такие как смешанные популяции клеток опухоли и биопсии. С учетом все возрастающего интереса к объединенные последовательности из крупных целевых регионах, таких как ExoME или генома, наш приготовительный библиотеки и SPLINTER анализ совместимый с пользовательскими захвата и целого ExoME последовательности, но выравнивание утилита осколок пакет не предназначен для большойссылки последовательности. Таким образом, мы успешно используется динамический выравниватель программирования, Novoalign для генома выравнивания следует вариант вызова от совокупной выборки (Рамоса и соавт., Который был представлен). Таким образом, наши объединенные последовательности стратегии можно масштабировать успешно большие бассейны с увеличением количества целевой последовательности.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Эта работа выполнена при финансовой поддержке Детского Открытие института грант MC-II-2006-1 (RDM и TED), NIH Эпигенетика Дорожная карта Грант [1R01DA025744-01 и 3R01DA025744-02S1] (RDM и FLMV), U01AG023746 (SC), Saigh Foundation (FLMV и TED), 1K08CA140720-01A1 и лимонад Алекса Стенд "" Премии поддержки (TED). Мы благодарим доступа генома технический центр кафедры генетики в Вашингтоне школы медицины университета за помощь в геномного анализа. Центр при частичной поддержке NCI онкологический центр поддержки грант № P30 CA91842 в онкологический центр Siteman и ИКТ / CTSA грант № UL1RR024992 от NationalCenter по исследованию ресурсов (NCRR), составной частью Национальных Институтов Здоровья (NIH), и НИЗ для медицинских исследований. Данная публикация является исключительной прерогативой авторов и не обязательно отражает официальную точку зрения NCRR или NIH.

Materials

Reagent Name Company Catalogue Number Section
PfuUltra High-Fidelity Agilent 600384 1.4
Betaine SIGMA B2629 1.4
M13mp18 ssDNA vector NEB N4040S 1.5
pGEM-T Easy Promega A1360 1.5
T4 Polynucleotide Kinase NEB M0201S 2.2
T4 Ligase NEB M0202S 2.2
Polyethylene Glycol 8000 MW SIGMA P5413 2.2
Bioruptor sonicator Diagenode UCD-200-TS 2.3

References

  1. Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
  2. Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
  3. The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
  4. Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
  5. Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
  6. Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
  7. Ji, W., Foo, J. N., O’Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
  8. Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
  9. Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
  10. Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).

Play Video

Cite This Article
Vallania, F., Ramos, E., Cresci, S., Mitra, R. D., Druley, T. E. Detection of Rare Genomic Variants from Pooled Sequencing Using SPLINTER. J. Vis. Exp. (64), e3943, doi:10.3791/3943 (2012).

View Video