Секвенирование нового поколения (НГС) является мощным инструментом для геномной характеристика, который ограничен высокой погрешность платформы (~0.5–2.0%). Мы описываем наши методы Исправлена ошибка последовательности, которые позволяют нам избежать NGS ошибка оценить и выявить мутации в вариант аллеля фракций же редки, как 0,0001.
Обычные секвенирование нового поколения техники (НГС) позволили огромные геномной характеристика для более десяти лет. В частности NGS был использован для анализа спектра клоновых мутаций в злокачественности. Хотя гораздо более эффективным, чем традиционные методы Сэнгер, NGS борется с выявления редких клоновых и subclonal перегласовок из-за его высокой погрешность, % ~0.5–2.0. Таким образом, стандартные NGS имеет предел обнаружения мутаций, которые > 0,02 вариант аллеля дроби (VAF). Хотя клиническое значение для перегласовок этой редкой у больных без известных заболеваний остается неясным, пациентов лейкемии значительно улучшились исходы при остаточной болезни < 0,0001 подачей cytometry. Для смягчения этого артефакта фон NGS, были разработаны многочисленные методы. Здесь мы описываем метод для исправления ошибок ДНК и РНК последовательности (ECS), который включает в себя пометки отдельных молекул с 16 bp случайный индекс для исправления ошибок и 8 bp пациент индекса для мультиплексирования. Наш метод может обнаруживать и отслеживать клоновых мутации в вариант аллеля фракции (VAFs) на два порядка ниже, чем предел обнаружения NGS и редким, как 0,0001 VAF.
Как мы возраста, подверженности мутагенов и стохастические ошибки во время результат деления клеток в накопление соматических аберраций в геноме и это лежит в основе основополагающих патогенеза злокачественной трансформации, нейро развития болезней, педиатрии расстройств и нормального старения1,2. Соматические мутации с болезнью вождение потенциал являются важные диагностические и прогностические biomarkers для раннего обнаружения и риска управления3,4,5. Чтобы лучше понять физиологические clonogenesis, который будет информировать клинических и исследовательские решения, точное количественное определение и характеристика этих мутаций имеет первостепенное значение. Секвенирование нового поколения (НГС) в настоящее время используется для изучения клоновых мутации в гетерогенных образцов ДНК; Однако, NGS ограничивается выявления мутаций в > 0,02 вариант аллеля дроби (VAF) — из-за присущего погрешность 0,5 – 2,0% от виртуализации платформ6,,78. В результате отслеживание диагностически и прогностически значительные соматических варианты на нижней VAF нельзя достичь с помощью стандартных NGS.
Недавно различные методы были разработаны для того, чтобы обойти погрешность NGS8,9,10,11. Эти методы используют молекулярные пометки, что позволяет коррекции ошибок после виртуализации. Каждая молекула или геномных фрагмент в библиотеке последовательности маркирован с случайных уникальной молекулярной идентификатор (UMI), относящихся к этой молекулы. UMIs построены перестановок строки рандомизированных нуклеотидов (N 8 – 16). Второй образец специфические штрих также интегрированы в процесс, который позволяет мультиплексирование нескольких образцов в же NGS последовательности запуска. Амплификации PCR выполняется на молекулярно меткой Библиотека, и впоследствии библиотека отправляется для виртуализации. Во время подготовки библиотека ожидается, что ошибки будут случайным образом представил геномной фрагмент во время ПЦР-амплификации и последовательности8. Чтобы удалить последовательность случайных ошибок, сырой последовательности читает сгруппированы по UMI. Артефакты из последовательности, как ожидается, не присутствовать в всех читает с же UMI на той же геномную позиции благодаря стохастический характер введения, в то время как истинный вариант будет добросовестно усиливается и виртуализированных в всех чтений, которые разделяют же UMI. Артефакты, bioinformatically удалены. Здесь мы опишем три метода Исправлена ошибка виртуализации (ECS) оптимизированы в лаборатории для ДНК для определения единичных нуклеотидных варианты (SNVs) и небольшие вставки удаление (Indels) и РНК для облегчения количественной оценки экспрессии генов ниже Порог ошибки NGS.
Первый метод описывает способ искать редкие соматических событие с помощью гена конкретных грунты, разработанный исследователями. До подготовки библиотека исследователи должны разработать грунтовки выделять фрагменты интерес. Мы использовали Primer3 веб приложение (http://bioinfo.ut.ee/primer3-0.4.0/). Ампликонов 200 – 250 bp являются идеальными для полимеразной цепной реакции (ПЦР), как они будут, как только были включены UMIs, создания перекрывающихся паре конец читает с 150 bp в паре конец читает. Условия оптимального грунтовка дизайн использоваться: минимальный размер грунтовки = 19; Оптимальное грунтовка размер = 25; Максимальная грунтовка размер = 30; Минимальный ТМ = 64 ° C; Оптимальное ТМ = 70 ° C; Максимальная ТМ = 74 ° C; Максимальная разница ТМ = 5 ° C; Минимальное содержание GC = 45; Максимальное содержание GC = 80; Возвращаемое число с = 20; Максимум 3′ конца стабильность = 100.
В метод 2 мы описываем метод, объединяющий ECS-ДНК протокол с Illumina химия обследовать клоновых SNVs и малых Indels же редки, как 0,0001 VAF использование коммерчески доступных гена панелей, которые включают сотни ампликонов. Мы использовали TruSight миелоидной секвенирования панели (Illumina) для нашего эксперимента и разработан расширенной группы включить дополнительные гены интереса для педиатрических миелоидного заболеваний. Эти панели не предлагают уникальные идентификаторы молекулярной (UMIs), которые облегчат коррекции ошибок, поэтому мы добавили наши собственные стратегии адаптер для этих групп. ECS должны работать одинаково хорошо с любым из других групп, призванных обогатить генов, связанных с различными заболеваниями. После изоляции ДНК и последующей количественной оценки из ткани или образец интерес, рекомендуется иметь по крайней мере 500 нг акций ДНК за образец. Мы регулярно делать одной последовательности библиотеки с помощью 250 нг ДНК с целью захватить как много уникальных геномной фрагмент как можно ниже по течению читает дедупликации и VAF вычисления. Библиотеку Факультативный реплицировать последовательности могут быть сделаны с оставшиеся 250 нг ДНК. Мы всегда делают два реплицировать библиотеки на образец, и мы считаем, что только те события, которые самостоятельно обнаружены в обоих реплицирует как истинных положительных результатов. Мы также реализована модель геномной позицию конкретного биномиальное ошибок для повышения точности вариант вызова4,13.
И наконец мы описываем метод сцепления ECS РНК последовательности для квантификации Стенограмма с использованием готовых панелей QIAseq целевых РНК (Qiagen). UMIs необходимые для устранения дублирования и исправление ошибок были включены в наборы, и исследователи могут сделать библиотеки, следуя рекомендациям изготовителя. Bioinformatically, исследователи могут следовать трубопровода, предусмотренных для ECS-ДНК, которая будет подробно в разделе протокол.
Здесь мы демонстрируем набор протоколов Исправлена ошибка последовательности, которые могут быть легко реализованы для изучения мутации с низким VAFs в различных заболеваний. Наиболее важным фактором является включение UMIs с каждой молекулы до последовательности, как они дают возможность коррекции ошибок сырье гласит. Описанные здесь методы позволяют исследователям включать индивидуальные UMIs коммерчески доступных гена панелей и самостоятельно разработанные oligos ген специфического.
Стандартный протокол NGS исключает выявления мутации с VAF ниже 2% из-за последовательности ошибок, и это ограничивает применение NGS в исследованиях, где выявление редких вариантов имеет решающее значение. В обход стандартной ставке ошибка NGS, ECS позволяет чувствительной обнаружение этих сырых вариантов. Например обнаружение патогенных мутаций, когда эти мутации сначала возникают (поэтому имеющие низкий VAF) необходимо сообщить раннего вмешательства болезни14,15. В исследованиях лейкемии, обнаружения минимальной остаточной болезни (остаточная лейкозных клеток после лечения) информирует стратификации риска и могут быть использованы для информирования варианты лечения в манере, что двоичный поток гранулярных оценок нельзя. Кроме того ECS применяется для обнаружения циркулирующего опухоли нуклеиновой кислоты и оценить метастатическим потенциалом в твердой опухоли пациентов путем оценки присутствия/отсутствия, а также вариант бремя определенных мутаций, которые являются характеристиками основного опухоль16.
Как показано в таблице 1, власть, используя модель на основе биномиальное распределение положение конкретных ошибок для вызова вариантов во многом зависит количество виртуализированного библиотек, а также глубина последовательности используется для построения модели ошибка. Надежность ошибка модели увеличивается с большее количество образцов и больше последовательности глубины. Рекомендуется использовать по крайней мере 10 виртуализированного образцы с в среднем Исправлена ошибка чтения освещение 3000 x за образец для создания ошибка профиля для каждой выборки. Положение конкретных подход аналогичен MAGERI, но вместо того чтобы использовать статистическую погрешность для всех шести различных подстановки типов (A > C/T > G, A > G/T > C, A > T/T >, C > A/G > T, C > G/G > C C > T/G > A)13, мы модели каждой замены независимо в каждой позиции. Например, показатель Ошибка C > T в заданной позиции геномной отличается от другой позиции. Наш подход также учитывает эффект пакетного последовательность, как уровень базового замещения, наблюдается в одной последовательности выполнения может отличаться от другого запуска. Поэтому важно для модели каждой позиции для замены всех типов, особенно когда образцов из разных последовательности выполняется объединены для построения модели.
Важным соображением при проектировании ECS эксперимент является желаемой обнаружения порога. Красота NGS исследований является, что они могут быть легко масштабируется с точки зрения генов/цели интерес, порог обнаружения (продиктовано глубина секвенирования), и количество лиц запрашивается. Например, если ученые заинтересованы найти редкие мутации в два ампликонов с порога обнаружения 0,0001, они могут объединять максимально 75 проб в одной последовательности запуска с помощью химии MiSeq V2, который выводит читает до 15 миллионов (2 ампликонов * 10000 молекулы * 10 читает для коррекции ошибок * 75 образцов = 15 миллионов последовательности чтения). Исследователи могут варьироваться количество молекул, вдаваясь в последовательности или количество проб имелось в одной последовательности, выполнения для настройки порога обнаружения. В наших исследований, мы стремились найти мутации с порога обнаружения 0,0001 VAF (1:10, 000) с использованием панели Illumina ген. Мы регулярно использовать 250 нг начиная ДНК, чтобы убедиться, что достаточно молекул зафиксированы достижения вышеупомянутых обнаружения порога. Исследователи могут выбрать, чтобы начать с меньшее количество ДНК (50 нг рекомендуется) Если предел обнаружения нужного > 0.001 VAF.
Как UMIs добавляются на индексы i5, последовательности настройки должны быть внесены соответствующие поправки. Например мы использовали 16 N UMIs, и последовательности параметров были 2 x 144 парных конец читает, 8 циклов индекс 1 и 16 циклов индекса 2 в отличие от обычных 8 циклов индекса 2. Увеличение индекса 2 цикла компенсируется снижением общего числа циклов, выделенных для операции чтения. Если исследователи предпочитают использовать 12N UMIs10,17, настройки следует изменить на 12 циклов индекса 2.
Этот метод на основе UMI последовательности оптимизирована для исправления ошибок последовательности. Она остается оптимальным в борьбе с ПЦР jackpotting, который является проблемой для всех на основе усиления метода. Мы исполняли раундов после виртуализации и пост биоинформатики для проверки с помощью ddPCR, и мы вряд ли обнаружить каких-либо ложных срабатываний из-за jackpotting ПЦР. Тем не менее рекомендуется, что ученые проводят эксперименты с использованием высокоточных полимеразы для обеспечения низкой амплификации ошибки.
The authors have nothing to disclose.
Мы благодарим участников Детская онкология группа AAML1531 исследования и медсестер медицинского исследования за их вклад в форме пациентов образцов. Эта работа финансировалась национальных институтов здравоохранения (UM1 CA186107, RO1 CA49449 и RO1 CA149445), Детская Discovery институт Вашингтонского университета Сент-Луисе Детская больница (MC-II-2015-461) и Эли Сет Мэтьюз Лейкемия фонда.
Q5 High Fidelity Hot Start Master Mix | New England BioLabs | M0492S | |
Agencourt AMPure XP | Beckman Coulter | A63880 | |
Qubit dsDNA HS Assay Kit | Thermo Fisher Scientific | Q32854 | |
SYBR Safe DNA Gel Stain | Thermo Fisher Scientific | S33102 | |
Truseq Custom Amplicon Index Kit | Illumina | FC-130-1003 | |
UMI i5 adapter sequences | Integrated DNA Technologies | – | |
NEBNext Ultra End Repair/dA-Tailing Module | New England BioLabs | E7442S | |
NEBNext Ultra II Ligation Module | New England BioLabs | E7595S | |
QX200 ddPCR EvaGreen Supermix | Bio-Rad | 1864034 | |
QX200 Droplet Generation Oil for EvaGreen | Bio-Rad | 1864005 | |
QX200 Droplet Digital PCR System | Bio-Rad | 1864001 | |
ddPCR 96-Well Plates | Bio-Rad | 12001925 | |
DG8 Cartridges for QX200/QX100 Droplet Generator | Bio-Rad | 1864008 | |
DG8 Gaskets for QX200/QX100 Droplet Generator | Bio-Rad | 1863009 | |
Bioanalyzer | Agilent Genomics | G2939BA | |
TapeStation | Agilent Genomics | G2991AA | |
TruSight Myeloid Sequencing Panel | Illumina | FC-130-1010 | |
Bowtie 2 | Johns Hopkins University | – | |
Customized QIAseq Targeted RNA Panel | Qiagen | – | |
Rneasy Plus Mini Kit (50) | Qiagen | 74134 |