Этот метод был использован в исследованиях сообщается в Vallania FML и соавт. Genome Research 2010 года. 1. Пример пула и ПЦР захват целевых геномных локусов Комбинат нормализованное количество геномной ДНК из каждого в бассейн (ы). Используя 0,3 нг ДНК одного человека в реакции ПЦР будет включать около 50 диплоидных геномов человека в каждой реакции ПЦР, которая повышает вероятность равномерного усиления в аллелей в бассейне. Геномные последовательности могут быть получены из NCBI ( http://www.ncbi.nlm.nih.gov/ ) или УСК геноме браузера ( http://genome.ucsc.edu/index.html ). Убедитесь, что использовать "RepeatMasker" (отмечен на "N") при получении последовательности, чтобы избежать разработке грунта в повторяющиеся области. Использование веб-Primer3 (rimer3/input.htm "целевых =" _blank "> http://frodo.wi.mit.edu/primer3/input.htm) утилита для разработки праймеров помощью вырезания и вставки генома интерес также некоторые фланговые последовательности (ампликонов из 600-2000 б.п., как правило, идеальных) оптимальный подбор праймеров условия для Primer 3, которые будут использоваться в 10: Минимальный размер грунтовка = 19; оптимальный размер грунтовка = 25; Максимальный размер грунтовка = 30; Минимальное Т = 64 ° С, оптимальная Tm. = 70 ° С, максимальная Т = 74 ° С, максимальная разница Т = 5 ° C; Минимальное содержание GC = 45; Максимальное содержание GC = 80; Число вернуться = 20 (это произвольный), максимум 3 'конец стабильности = 100 . Дизайн праймеров для амплификации всех геномных локусов интерес. После получения грунтовок, лиофилизированный акции можно развести в 10 мМ Трис, рН 7,5 ± 0,1 ммоль EDTA до конечной концентрации 100 мкМ следуют дополнительные 10:01 разведения в DDH 2 O до 10 мкМ. ПЦР-амплификации: Мы рекомендуем использовать высококачественные ДНК-полимеразой для амплификации геномной большойампликонов в связи с низким уровнем ошибок (10 -7) и поколение тупыми концами продукции (это необходимо для шага вниз по течению перевязка). Мы использовали PfuUltra High-Fidelity, но ферментов с аналогичными характеристиками (например, Phusion) должна обеспечивать сопоставимые результаты. Каждый ПЦР содержит конечной концентрации 2,5 U PfuUltra High-Fidelity полимеразы, 1 М бетаин, 400 нМ каждого праймера, 200 мкМ дНТФ, 1x PfuUltra буфера (или буфер, содержащий ≥ 2 мМ Mg 2 +, чтобы сохранить верность ферментативных) , 5-50 нг объединенных ДНК в конечном объеме 50 мкл. Используйте следующие условия ПЦР: 1. 93-95 ° C в течение 2 минут 2. 93-95 ° C в течение 30 секунд 3. 58-60 ° C в течение 30 секунд 4. 65-70 ° С в течение 60-90 секунд ампликонов 250-500 б.п. / 1,5-3 минуты ампликонов 500-1000 б.п. / 3-5 минут ампликонов> 1 кб 5. Повторите шаги 2-4 для 25-40 циклов; 6. 65 ° C в течение 10 минут 7. 4 ° C удержания. При необходимости, результатов ПЦР как правило, может быть улучшена путем: 1)понижение температуры отжига для малых ампликонов, 2) повышение температуры отжига для больших ампликонов 3. удлинение продление времени для любого ампликона. Подготовка SPLINTER управления: каждый SPLINTER эксперимент требует наличия отрицательного и положительного контроля для достижения оптимальной точности. Отрицательный контроль может состоять из всех гомозиготных позиции базы в любое физическое лицо, со штрих-кодом образца, который был ранее последовательности (например, HapMap образца). Положительный контроль тогда состоит из смеси двух или более таких образцов. В этом докладе, негативное управления 1934 б.п. усиливается области от основу M13mp18 вектор оцДНК. Продукт ПЦР был Sanger последовательный до его использования для того, чтобы подтвердить, что не существует последовательность изменения от исходного материала или ПЦР. Положительный контроль состоит из панели pGEM-T Easy векторов с 72 б.п. клонированные вставки разработаны конкретные вставки, удаления substitutions (табл. 1). Мы смешиваем векторов вместе против дикого типа на фоне молярном соотношении, что мутации присутствуют на частоту одного аллеля в бассейне (например, для 100-аллель бассейн, частота аллеля одного будет 1%). Затем PCR усилить смешанных шаблонов управления с помощью M13 PUC сайтов грунт в pGEM-T Easy, создавая окончательный 355bp долго продуктов ПЦР. 2. Объединенные ПЦР подготовка библиотеки и секвенирования ПЦР продукт объединения: Каждый продукт ПЦР должен быть очищен от избыточных праймеров. Мы привыкли Qiagen Qiaquick очистки столбца или 96-и фильтрующих пластин с вакуумным многообразием для крупномасштабной очистки. После очистки, каждый продукт ПЦР должны быть количественно с использованием стандартных методов. Комбинат каждого продукта ПЦР (в том числе контроля) в бассейн нормированное число молекул, как объединение по концентрации может привести к чрезмерно малой ампликонов овэ больше продукции. Концентрации преобразуются в абсолютное число молекул ДНК на единицу объема по формуле: (г / мкл) х (1 моль х б.п. / 660 г) х (1 / # б.п. в ампликона) х (6 х 10 23 молекул / 1 моль ) = молекул / мкл. Затем определяют объем каждой реакции, необходимые для бассейна нормализованное число молекул в ампликона. Это число является произвольным, могут быть скорректированы и в самом деле зависит от пипетки объемы достаточно велики, чтобы сохранить точность. Как правило, мы объединим 1-2 х 10 10 молекул каждого ампликона. Лигирование продуктов ПЦР: Этот шаг необходим для достижения равномерного покрытия последовательности, как ультразвуком малой ампликонов ПЦР будет предвзятым представлением их к своей цели. Чтобы преодолеть это, мы перевязывать объединенных продуктов ПЦР в большом concatemers (> = 10 Кб) до фрагментации. Pfu Ультра ВЧ-полимераза создает тупыми концами, что приводит к эффективному перевязки (Taq-полимеразы на основе добавят 3p "" навес, который не будетllow перевязки без предварительного заполнить или притупление). Эта реакция может быть повышена в 2-3 раза, если необходимо. Реакции лигирования содержит 10 U Т4 полинуклеотид, 200 U-лигазы Т4, 15% вес / объем полиэтилена, 1X Т4-лигазы буфера, гликоль 8000 МВт, до 2 мкг объединенных продуктов ПЦР в конечном объеме 50 мкл. Реакции инкубировали при 22 ° С в течение 16 часов, а затем на 65 ° C в течение 20 минут и выдерживают при 4 ° C в дальнейшем. Успех этот шаг может быть проверена путем загрузки 50 нг образцов в 1% агарозном геле. Успешное перевязки приведет к высоким молекулярным весом, группа присутствует в полосе (рис. 2, дорожка 3). Фрагментации ДНК: В этот момент вы должны иметь большой concatemers (> 10Кб) продуктов ПЦР. У нас есть случайная стратегия ультразвука в 24-образец Diagenode Bioruptor sonicator, которые могут фрагмент этих concatemers в 25 минут (40 секунд "на" / 20 сек "выкл" в минуту). Ультразвуком тормозится вязкостью введен PEG, такэто может быть преодолена путем разбавления образца 10:1 в буфер Qiagen PB. Результаты могут быть проверены на 2% агарозном геле (рис. 2, дорожки 4 и 5). Образец готов включить непосредственно в Illumina геномной библиотеки подготовки образцов протоколов, начиная с "Конец Ремонт" шагом. Данные, представленные здесь, взяты из одного конца читает на Illumina Genome Analyzer IIx, но мы использовали HiSeq 2000 году и выполняется одной или парных конца читает с сопоставимыми результатами. Учитывая масштабы библиотеке создан, мы также использовали штрих пользовательских адаптеров для мультиплексирования нескольких объединенных библиотек для размещения полосы пропускания, предоставляемые платформой HiSeq (данные не представлены). Следуйте протоколу производителя и рекомендации, которые идут в комплекте. В целях достижения оптимальной чувствительности и специфичности для выявления вариантов, цель охвата в 25 раз и более в аллель рекомендуется (рис. 3). Эта оценка не зависит от размера пулаи тип варианта будет обнаружен. При необходимости несколько полос и трасс могут быть объединены для достижения адекватного охвата. 3. Последовательность чтения выравнивания и анализа Сжатие файлов и форматирование: Сырье для чтения файлов последовательности должны быть либо преобразованы в формат шарф или сжатым. Сжатие не является обязательным, поскольку это экономит время и пространство для последующих этапов анализа без потери информации. Это достигается с помощью входящего в сценарий RAPGAP_read_compressor_v2.pl с помощью следующей команды: ./RAPGAP_read_compressor_v2.pl [Читать файла]> [Читать сжатого файла] Принято читать форматов входных и шарф FASTQ, либо сжатый или несжатый: ШАРФ пример формата: ОСО-EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW FASTQ формате например: @ ОСО-EAS440_7_1_0_410 # 0/1 NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG + И / 8888888888888888888854588767777666! Сырье читать выравнивания: сырье чтения теперь могут быть приведены в соответствие к аннотированной последовательности ссылкой FASTA характерных для целевых регионов, включенных в реакции ПЦР, а также положительные и отрицательные элементы управления. Выравнивание может осуществляться с помощью входящего в RAPGAPHASH5d выравнивания инструмента. Формат ввода в этот момент должен быть шарф или сжаты. Команда для выравнивания: ./RAPGAPHASH5d [Сжатого файла прочитанные] [FASTA файл] [номер правки позволили]> [неприсоединения файл] Количество несоответствий в чтение, которым разрешено по сравнению с базовым последовательность пользовательских параметров. Говорится, что имеют избыточное количество несоответствий, будут отвергнуты. Мы рекомендуем позволяющий 2 не соответствует на 36 б.п. чтения, 4 не соответствует на 76 б.п. читает и 5 не соответствует на 101 б.п. говорится в сообщении. С учетом более не соответствует увеличит вероятность позволить лишний последовательности ошибок в др.igned имеет данных. Как читать длины становятся все длиннее, эта величина может быть увеличена. Tagging соответствие файлов из одного проточной ячейкой: На данный момент все выравнивается прочитать файл должен быть присвоен уникальный идентификатор ("тэг") с целью выявления читать файлы, принадлежащие к той же последовательности выполнения (например, несколько полос из той же проточной ячейкой могут быть объединены и получил один тег). Тег необходимо потому, что каждая машина выполнения генерирует уникальный профиль ошибка, которая может быть охарактеризована с помощью тега. Тег буквенно-цифровой строки символов, используемые для различения множества чтения (символ подчеркивания "_" не должна использоваться для разбора вопросов). Различные теги должны быть использованы для чтения файлов выровнены, образующихся на различных flowcells или машина работает. Метки могут быть добавлены с помощью входящего в RAPGAP_alignment_tagger.pl с помощью следующей команды: . / RAPGAP_alignment_tagger.pl [неприсоединения файла] [TAG]> [неприсоединения помеченный файл] С этого момента, согласованнаяфайлы из той же библиотеки, образующихся на нескольких различных flowcells могут быть объединены вместе, как их тегами будет держать их отдельно. Ошибка поколения модели: Как уже говорилось выше, каждая машина выполнения генерирует уникальный профиль последовательности ошибки, которые должны быть характерны для точной призвание вариант. Для моделирования этих ошибок для каждой машины перспективе внутренний контроль последовательности известно, лишенные последовательности изменения включены в каждый объединенные библиотеки сэмплов. В соответствие помеченный файл, файл ошибок модели могут быть получены с помощью прилагаемого инструмента EMGENERATOR4 с обратной последовательности ссылки на элемент управления. Все обратной последовательности управления может быть использован или же только часть его, указанный в 5 'и 3' большинство баз на входе. Уникальные читает и pseudocounts всегда должны быть использованы: ./EMGENERATOR4 [Неприсоединения помеченный файл] [обратной последовательности контроль] [имя выходного файла] [5 "самых базе отрицательного контроля, которые будут использоваться] [3 'наиболее базыотрицательного контроля, которые будут использоваться] [включают уникальный читает только? = Y] [выравнивание правки отсечки] [введите pseudocounts? = Y] EMGENERATOR4 инструмент будет генерировать 3 файлы с именем, как имя выходного файла параметров следует _0, _1 и _2. Эти файлы соответствуют 0-й, 1-й и 2-й модели, ошибка порядка соответственно. Для варианта с вызовом осколок, 2-й модели, ошибка порядка всегда должны быть использованы. Для визуализации профилей ошибок в перспективе, error_model_tabler_v4.pl могут быть использованы для создания PDF участок ошибку на 0-й порядок ошибки файл модели (рис. 4): ./error_model_tabler_v4.pl [Ошибка модель 0-го порядка файла] [имя выходного файла] Сюжет файл покажет выполнения конкретных направлений ошибку и может быть использована для вывода максимального количества читать баз, которые будут использоваться для анализа, что объясняется в следующем разделе. 4. Редкий вариант обнаружения Использование SPLINTER Вариант звонитьг по SPLINTER: Первым шагом в анализе является запуск осколок инструмента на соответствие файлов с использованием модели ошибок и ссылки последовательности. Команда для этого является: ./SPLINTER6r [Неприсоединения помеченный файл] [FASTA файл] [2-го порядка модель ошибок файла] [число операций чтения базы, которые будут использоваться] [читать баз или циклами должны быть исключены] [р-значение отсечки = -1,301] [Использование уникальных читает = Y] [выравнивание правки отсечки] [размер пула из доступных вариантов] [распечатать абсолютное покрытие на нить = Y]> [SPLINTER файл] Количество операций чтения базы для использования меняется и должны быть оценены в соответствии с каждого запуска. Как правило, мы рекомендуем использовать первый 2/3rds от чтения, поскольку они представляют собой самое высокое качество данных (первые 24 читать основы 36bp долго читать, например). Одноместный читать базы могут быть исключены из анализа, если будут обнаружены дефекты (через запятую или, например, N 5,7,11 или N). Р-значение отсечки определяет, как строгий анализ вариантов вызова будет. Мы ниформально начать анализ, позволяя минимум отсечки -1,301 (соответствующие значения р ≤ 0,05 log10 шкале). Опция размер пула оптимизирует алгоритмы "сигнал-шум" дискриминация по устранению возможных вариантов с незначительными частот аллелей меньше, чем у одного аллеля в самом бассейне. Например, в бассейне 50 человек, самая низкая наблюдаемая варианте можно ожидать на уровне 0,01 частоты или 1 100 аллелей. Таким образом, выбор размера пула должен быть установлен в ближайшее значение, которое больше, чем фактическое число аллелей проанализированы в эксперименте (то есть, если 40 человек обследуются, мы ожидаем, 80 аллелей, так что ближайшим вариантом будет бассейн размером 100) . Варианты называются на частотах <0,01 будут проигнорированы как шум. Этот файл возвращает все хиты, которые являются статистически значимыми на образце с описанием положения вариант, типа вариант, р-значение в цепи ДНК, частота и вариант полного охвата в цепи ДНК ( <stronг> Таблица 2). Нормализация покрытия называемые варианты Колебания покрытия на образце может генерировать паразитный хитов. Это можно исправить, применив splinter_filter_v3.pl скрипт следующим образом: ./splinter_filter_v3.pl [SPLINTER файла] [список файлов] [жесткость]> [SPLINTER нормированного файл] где список файлов представляет собой список хитов положительный контроль в виде табуляции файл. Первое поле указывает ампликона интереса, а второе поле указывает на положение, в котором мутация присутствует. N означает, что остальная часть последовательности не содержит мутации. Определение оптимального значения р пороги использования положительного контроля данных: После нормализации анализа положительный контроль является необходимым условием для максимальной чувствительности и специфичности конкретного анализа образца. Это может быть достигнуто за счет нахождения оптимального значения р отсечки использовании информациихода из положительного контроля. Скорее всего, первоначальный р-значение -1,301 не будет достаточно строгим, что если это так, приведет к призванию ложных срабатываний от положительного или отрицательного контроля. Каждый SPLINTER анализ покажет фактическое р-значение для каждого называемый вариант (см. столбцы 5 и 6 в таблице 2), который не может быть предсказан априори. Тем не менее, весь анализ может быть повторен с помощью наименее строгим р-значение, отображаемое на первоначальный выход для известных истинный положительный позиции базы. Это поможет сохранить все истинно положительных исключая при этом большинство, если не все, ложных срабатываний, и они как правило, имеют значительно меньшую р-значения по сравнению с истинно положительными. Для автоматизации этого процесса, cutoff_tester.pl могут быть использованы cutoff_tester.pl требуется файл SPLINTER выхода и список положительных хитов контроль в виде табуляции файл, который используется для нормализации.: . / Cutoff_tester.pl [SPLINTER фильтрред файла] [список файлов] В результате на выходе будет список отключений, которые постепенно достичь оптимального (см. таблицу 3). Формат: [Расстояние от максимальной чувствительностью и специфичностью] [чувствительность] [специфику] [обрезание] Например: 7.76946294170104e-07 1 0,999118554429264 -16,1019999999967 Последняя строка представляет собой наиболее оптимальный отсечки для бега и поэтому могут быть использованы для анализа данных. Оптимальным результатом является достижение чувствительности и специфичности 1. В случае, если этот результат не достигнут, осколок анализ можно повторить, изменяя число объединенной базы читать, пока самое оптимальное состояние достигается. Окончательный вариант фильтрации: окончательное обрезание может применяться для данных с использованием cutoff_cut.pl скрипт, который будет фильтровать файл SPLINTER выход из хитов ниже оптимального среза, . / Cutoff_cut.pl [SPLINTER фильтруется файла] [обрезание]> [SPLINTER окончательныйфайл] Этот шаг создаст окончательный выходной файл осколок, который будет содержать ОНП и индели присутствуют в образце. Обратите внимание, что выход для вставки немного отличается, чем для замены или удаления (таблица 2). 5. Представитель Результаты Мы объединенных населением 947 лиц и целевых более 20 Кб для секвенирования. Мы обратились SPLINTER для обнаружения редких вариантов после нашего стандартного протокола. Каждый человек был ранее генотипирования исполнении генома генотипирования массива. Соответствие между генотипирования меченых и новые варианты называются в совокупной выборки были превосходны (рис. 6). Три варианта, два из которых (rs3822343 и rs3776110) были редки среди населения, были названы заново из последовательности и результаты были подтверждены отдельным пиросеквенирования. Малая частот аллелей (МАФ) в бассейне были похожи на MAF сообщили в dbSNP сборка 129. Согласование между MAF пиросеквенирования и объединенных последовательность была отличная (табл. 3). Таблица 1. ДНК олигонуклеотидных последовательностей для положительного контроля. Каждая последовательность состоит из фрагмента ДНК, отличающихся от дикого типа ссылки либо две замены или одной вставки и одним удалением. Нажмите здесь, чтобы увеличить изображение . Таблица 2. Пример SPLINTER выход. Первые две строки представляют собой стандартный вывод SPLINTER для замены или удаления (синий заголовок). Последняя строка представляет стандартный вывод SPLINTER для вставки (фиолетовый заголовок).rget = "_blank"> Нажмите здесь, чтобы посмотреть увеличенное изображение. Таблица 3. Пять известных и три варианта романа были определены с большой численностью населения и утверждены отдельные генотипирования. Индивидуальная проверка была выполнена пиросеквенирования (строки 1-3), TaqMan анализ (4-6 строк) или Sanger последовательности (строки 7,8). Для широкого диапазона частот аллелей и в том числе пять позиций MAF <1%, соответствие между объединения последовательности аллели оценки частоты и индивидуальных генотипирования было сильным. Позиции, отмеченные звездочкой (*), адаптированных с ранее данными 9. Рисунок 1. Объединенные ДНК-последовательности и обзор SPLINTER анализа. Пациент ДНК объединенныхи усиление на отдельных локусов. Конечными продуктами ПЦР объединяются вместе с положительными и отрицательными контроля в эквимолярных соотношениях. Объединенные смесь затем последовательно и в результате чтения переходят обратно в ссылку. Сопоставленные отрицательного контроля чтения используются для генерации выполнения конкретной ошибки модели. SPLINTER может быть использован для обнаружения редких ОНП и индели путем включения информации из модели ошибок и положительного контроля. [Адаптировано из Vallania FLM и др., Genome Research, 2010] Нажмите здесь, чтобы увеличить изображение . Рисунок 2. Объединенные ПЦР перевязки ампликона и ультразвуком. В качестве демонстрации перевязки и случайных шагов фрагментации в протокол подготовки библиотеки, pUC19 вектор ферментативно расщепляется на фрагменты показано в переулок, 2. Эти фрагменты были нормативнойных учебных от числа молекул в сочетании и случайно лигировали в соответствии с этапом 1,7 выше. В результате большой concatamers приведены в полосе 3. Лигированных concatamers было поровну и подвергались обработке ультразвуком, как описано в пункте 1.8 выше. В результате мазка фрагментов ДНК для каждого технического репликации приведены в полосы 4 и 5. Кронштейн подчеркивает размер диапазона, используемого для извлечения геля и создание последовательности библиотеки. Рисунок 3. Точность в зависимости от покрытия для одного аллеля в совокупной выборки. Точность оценивается как площадь под кривой (AUC) кривой приемник оператора (ROC), которая колеблется от 0,5 (случайных) до 1,0 (совершенно точно). AUC строится в зависимости от покрытия на аллель для обнаружения отдельных мутантных аллелей в бассейнах 200, 500 и 1000 аллели (A). AUC строится как функция общего покрытия для замены, вставки и гeletions (B). [Адаптировано из Vallania FLM и др., Genome Research, 2010]. Рисунок 4. Ошибка график показывает вероятность включения ошибочным базы в данной позиции. Ошибка профиля показывает низкий процент ошибок с ростом тенденции к концу 3 'последовательность чтения. Примечательно, что различные нуклеотиды ссылкой отображать различные вероятности ошибки (см., например, вероятность включения данного C G в качестве ссылки). [Адаптировано из Vallania FLM и др., Genome Research, 2010]. Рисунок 5. Точность заноза в оценке частоты аллелей на должности, которые были больше, чем в 25 раз покрытие на аллеля. По результатам панели, на рисунке 3 показывает оптимальную чувствительность для обнаружения одного варианта с ≥ 25 раз покрытия,Сравнение объединения ДНК частот аллелей оценкам SPLINTER с аллель рассчитывает измеряется GWAS приводит к очень высокой корреляции (г = 0,999). [Адаптировано из Vallania FLM и др., Genome Research, 2010]. Рисунок 6. Сравнение частот аллелей измеряется GWAS по сравнению с SPLINTER оценкам объединения последовательности из 974 лиц. Существовали 19 общих позиций между генотипирование локусов и последовательность областей для сравнения. В результате корреляция очень высока (р = 0,99538). Нажмите здесь, чтобы увеличить рисунок .