Summary

זיהוי גנטי של וריאנטים נדירים מן הרצף נקווה שימוש Splinter

Published: June 23, 2012
doi:

Summary

רצפי DNA ונקווה היא אסטרטגיה מהיר וחסכוני לזהות גרסאות נדירים הקשורים פנוטיפים מורכבים של קבוצות גדולות. כאן אנו מתארים את ניתוח חישובי של רצפי נקווה הדור הבא, של 32 גנים הקשורים בסרטן באמצעות חבילת תוכנה ספלינטר. שיטה זו היא מדרגית, והיא חלה על כל הפנוטיפ של עניין.

Abstract

ככל שהטכנולוגיה רצפי DNA התקדמה במידה ניכרת בשנים האחרונות 2, זה הפך להיות ברור יותר ויותר כי כמות השונות הגנטית בין כל שני אנשים גדולה יותר מאשר סברו עד כה 3. לעומת זאת, מערך מבוסס genotyping לא הצליחה לזהות את התרומה המשמעותית של גרסאות רצף המשותפות השונות פנוטיפי של המחלה נפוצה 4,5. יחדיו, תצפיות אלה הובילו להתפתחות של מחלות נפוצות / ההשערה וריאנט נדיר המצביע על כך שרוב "תורשתיות חסר" של פנוטיפים נפוצים ומורכב הוא במקום בגלל הפרופיל האישי של הפרט גרסאות ה-DNA נדירים או פרטי 6-8 . עם זאת, המאפיין כמה וריאציה נדירה משפיע פנוטיפים מורכבים דורש ניתוח של אנשים מושפעים רבות על לוקוסים הגנומי רבים, והוא אידיאלי לעומת סקר דומה במדגם מעושה. למרות הכוח רצף המוצעים על ידי פלטפורמות של היום,האוכלוסייה המבוססת על סקר של לוקוסים הגנומי רבים ניתוח חישובית לאחר מכן נדרש עדיין מונע על חוקרים רבים.

כדי לענות על צורך זה, פיתחנו גישה רצף נקווה 1,9 ואת חבילת תוכנה חדשה 1 לצורך זיהוי מדויק ביותר גרסה נדירה מן הנתונים המתקבלים. היכולת הגנום בריכת מאוכלוסיות שלמות של אנשים המושפעים ואת הסקר את מידת השונות הגנטית על אזורים ממוקדים מרובים בספריה רצף אחד מספק מצוינים חיסכון בעלויות וזמן המתודולוגיה מדגם יחיד המסורתית רצף. עם כיסוי רצף הממוצע לכל אלל של פי 25, האלגוריתם מותאם אישית שלנו, ספלינטר, משתמשת גרסה פנימי קורא השליטה אסטרטגיה לקרוא הוספות, מחיקות ותחליפים עד ארבעה זוגות בסיסים באורך עם רגישות וספציפיות גבוהה מבריכות של עד 1 אלל מוטנטי 500 אנשים. כאן אנו מתארים את השיטה להכנת s נקווהequencing ספריית ואחריו צעד אחר צעד הוראות כיצד להשתמש בחבילת Splinter לניתוח רצפי נקווה ( http://www.ibridgenetwork.org/wustl/splinter ). אנחנו מראים השוואה בין רצף משולב של 947 אנשים, כולם עברו גם הגנום כולו מערך, על פני רצף של 20kb לאדם. ההתאמה בין genotyping של מתויג גרסאות חדשות הנקראות במדגם נקווה היו מצוינים. שיטה זו וניתן לשנותם בקלות לכל מספר לוקוסים הגנומי וכל מספר של אנשים. על ידי שילוב של הבקרות הפנימיות amplicon חיוביות ושליליות על היחס המחקים את האוכלוסייה הנחקרת, האלגוריתם יכול להיות מכויל עבור ביצועים מיטביים. אסטרטגיה זו יכולה גם להיות שונה לשימוש עם לכידת ההכלאה או אדם ספציפיים ברקודים והוא יכול להיות מיושם על רצף של דגימות הטרוגניות באופן טבעי, כגון ה-DNA הגידול.

Protocol

בשיטה זו נעשה שימוש במחקר דיווחו Vallania FML et al. לחקר הגנום 2010. 1. לדוגמא שהתלכדו לכידת PCR של לוקוסים הגנומי ממוקד מערבבים כמות מנורמלת של הדנ"א הגנומי של כל אדם בבריכה שלך (ים). באמצעות 0.3 ng של DNA לנפש תגובת PCR ישלבו כ 50 הגנום דיפלואידיים לאדם לתוך התגובה של כל ה-PCR, אשר משפר את הסיכוי של הגברה אחידה לכל אלל בבריכה. רצף הגנום ניתן להשיג צמח השדה ( http://www.ncbi.nlm.nih.gov/ ) או UCSC דפדפן הגנום ( http://genome.ucsc.edu/index.html ). הקפד להשתמש "RepeatMasker" (מסומן על "N") בעת קבלת רצף להימנע בעיצוב פריימר באזור חוזר על עצמו. להשתמש באינטרנט מבוסס Primer3 (rimer3/input.htm "target =" _blank "> http://frodo.wi.mit.edu/primer3/input.htm) כלי עזר לתכנן פריימרים על ידי חיתוך והדבקה של אזורים הגנומי של עניין בתוספת כמה רצפים משני צדי (amplicons של 600-2000 bp הם בדרך כלל אידיאלי) העיצוב האופטימלי פריימר פריימר 3 תנאים כדי לשמש הן 10: גודל פריימר מינימום = 19; גודל פריימר אופטימום = 25; פריימר גודל מרבי = 30; אני מינימום = 64 ° C; אני אופטימלית. = 70 ° C, מקסימום אני = 74 ° C, מקסימום אני ההבדל = 5 ° C; מינימום תוכן GC = 45; מרבית התוכן GC = 80; מספר לחזור = 20 (זה שרירותי); יציבות בסוף 3 "מרבי = 100 primers. עיצוב כדי להגביר את כל לוקוסים הגנומי של עניין. עם קבלת primers, המניות lyophilized ניתן מדולל 10 mM טריס, pH 7.5 + 0.1 mM EDTA לריכוז סופי של 100 UM ואחריה דילול 10:01 נוסף DDH 2 O עד 10 אום. הגברה PCR: אנו ממליצים על שימוש פולימראז באיכות גבוהה DNA כדי להגביר הגנומי גדולבשל שיעור שגיאה נמוך (10 -7) ו דור של מוצרים שהסתיימו קהים (זה הכרחי לשלב קשירת במורד הזרם) amplicons. השתמשנו PfuUltra באיכות גבוהה, אך אנזימים עם מאפיינים דומים (כגון Phusion) אמור לספק תוצאות דומות. כל תגובת PCR מכיל ריכוז סופי של 2.5 פולימראז U באיכות גבוהה PfuUltra, 1 Betaine M, 400 nm כל פריימר, dNTPs 200 מיקרומטר, 1x PfuUltra חיץ (או מאגר המכיל ≥ 2 מ"מ Mg 2 + על מנת לשמור על נאמנות האנזימטית) , 5-50 ng של DNA נקווה בכרך האחרון של μL 50. השתמש התנאים הבאים: 1 ה-PCR. 93-95 מעלות צלזיוס למשך 2 דקות, 2. 93-95 מעלות צלזיוס למשך 30 שניות, 3. 58-60 מעלות צלזיוס למשך 30 שניות, 4. 65-70 מעלות צלזיוס במשך 60-90 שניות amplicons של 250-500 נ"ב / 1.5-3 דקות amplicons 500-1000 bp / 3-5 דקות amplicons> 1 KB, 5. חזור על שלבים 2-4 עבור 25-40 מחזורים, 6. 65 מעלות צלזיוס במשך 10 דקות, 7. 4 ° C אחיזה. במידת הצורך, תוצאות PCR יכול בדרך כלל להיות משופרת על ידי: 1)הורדת הטמפרטורה חישול עבור amplicons קטנות 2) העלאת הטמפרטורה חישול עבור amplicons גדולות 3. הארכת זמן הארכת עבור amplicon כלשהו. הכנת שולטת רסיסי: כל ניסוי Splinter דורש נוכחות מלאה שלילי וחיובי להשיג דיוק אופטימלי. שליטה שלילי יכול להכיל את כל עמדות בסיס הומוזיגוטים של כל אדם, בר מקודדת מדגם זה כבר רצף בעבר (למשל מדגם HapMap). הביקורת החיובית היה אז מורכב מתערובת של שניים או יותר דוגמאות כאלה. לדו"ח זה, הביקורת השלילית היא אזור 1934 BP מוגבר של עמוד השדרה של וקטור ssDNA M13mp18. מוצר ה-PCR היה סנגר רצף לפני השימוש בו על מנת לאשר כי לא קיים רצף וריאציה חומר המקור או הגברה PCR. הביקורת חיובית כוללת פאנל של pGEM-T וקטורים קל עם 72 נקודות בסיס משובטים הכנס מתוכנן עם הוספות, מחיקות ספציפיות, substitutions (טבלה 1). אנחנו מערבבים את דרכי יחד על רקע סוג פרועה על יחסי טוחנת כך המוטציות נמצאים בתדירות של אלל אחד בבריכה (כלומר, עבור בריכה 100-אלל, התדירות של אלל אחד יהיה 1%). לאחר מכן, אנו PCR להגביר את תבנית השליטה מעורבת באמצעות M13 אתרים פריימר PUC pGEM ב-T קל, יצירת המוצר הסופי 355bp זמן PCR. 2. נקווה PCR ספריית הכנה וסדר PCR המוצר איחוד: כל מוצר PCR יש לנקות עודפי של פריימרים. השתמשנו Qiagen טיהור Qiaquick עמודה או 96 היטב צלחות מסנן עם סעפת ואקום לניקוי בקנה מידה גדול. לאחר טיהור, כל מוצר PCR יש לכמת באמצעות טכניקות סטנדרטיות. לשלב בכל מוצר ה-PCR (כולל שולטת) לבריכה מנורמל במספר מולקולות כמו איחוד של ריכוז תביא לייצוג יתר של קטן amplicons OVאה מוצרים גדולים יותר. ריכוזים מומרים למספר המוחלט של מולקולות דנ"א לכל אמצעי אחסון באמצעות הנוסחה: (ז / μL) x (1 mol X BP / 660 גרם) x (1 / # BP ב amplicon) x (6 x 10 23 מולקולות / 1 mol =) מולקולות / μL. לאחר מכן, לקבוע את עוצמת הקול מן התגובה של כל הנדרש למאגר מספר מנורמל של מולקולות בכל amplicon. מספר זה הוא שרירותי, ניתן להתאים ובאמת תלוי pipetting כמויות גדולות מספיק כדי לשמור על דיוק. אנחנו בדרך כלל בריכה 1-2 x 10 10 מולקולות של amplicon כל אחד. קשירת מוצרי ה-PCR: שלב זה הוא הכרחי על מנת להשיג כיסוי רצף אחיד ככל sonication של קטנים amplicons ה-PCR יהיה ייצוג מוטה כלפי מטרותיהם. כדי להתגבר על זה, אנו ולקשור את מוצרי ה-PCR אספו לתוך concatemers גדולים (> = 10 Kb) לפני הפיצול. Pfu פולימראז Ultra HF יוצר קצוות קהים, המוביל קשירת יעיל (פולימראז Taq מבוסס יוסיף 3P הסככה "" זה לא יהיהקשירת llow בלי לפני מילוי או להקהות). תגובה זו וניתן לשנותם עד פי 2-3 במקרה הצורך. התגובה קשירת מכיל 10 קינאז U polynucleotide T4, 200 ligase U-T4, 15% w / v פוליאתילן, 1X חיץ ligase T4, גליקול 8000 MW עד 2 מיקרוגרם של מוצרי ה-PCR נקווה נפח הסופי של μL 50. תגובות מודגרת על 22 מעלות צלזיוס במשך 16 שעות ואחריו 65 מעלות צלזיוס למשך 20 דקות וקבע ב 4 ° C לאחר מכן. ההצלחה של שלב זה ניתן לבדוק על ידי טעינת 50 ng של דגימות לתוך הג'ל agarose 1%. קשירת מוצלחת תגרום הנוכחי משקל מולקולרי גבוה הלהקה בנתיב (ראה איור 2, מסלול 3). פיצול ה-DNA: בשלב זה אתה צריך concatemers גדולים (> 10kb) של מוצרי ה-PCR. יש לנו אסטרטגיה sonication אקראי באמצעות sonicator מדגם 24-Diagenode Bioruptor כי שבר יכול אלה concatemers ב 25 דקות (40 שניות "על" / 20 שניות "את" בדקה). Sonication מעוכבת על ידי צמיגות הציג PEG, כךזו ניתן להתגבר על ידי דילול מדגם 10:01 במאגר PB Qiagen. תוצאות ניתן לבדוק על ג'ל agarose 2% (ראה איור 2, נתיבים 4 & 5). המדגם הוא מוכן לשלב ישירות לתוך הגנום Illumina ספריית בתחילת לדוגמא פרוטוקול הכנה עם הצעד "התיקון של סוף". הנתונים המדווחים כאן הם מסוף יחיד נכתב על הגנום Illumina Analyzer IIx, אבל השתמשנו HiSeq 2000 וביצע יחיד או כפול שתיים סוף קורא עם תוצאות דומות. בהתחשב בהיקף של הספרייה נוצר, השתמשנו גם מתאמי המינימרקטים מותאמים אישית כדי זמנית מספר רב של ספריות אספו כדי להתאים את רוחב הפס המסופק על ידי פלטפורמת HiSeq (מידע לא מוצג). עקוב פרוטוקול של היצרן והמלצות המצורפות לערכה. כדי להשיג רגישות וספציפיות אופטימלי לאיתור חלופה, כיסוי יעד של פי 25 או יותר לכל אלל מומלץ (איור 3). הערכה זו אינה תלויה בגודל הבריכהוסוג גרסה כדי להתגלות. אם מספר הנתיבים הנדרשים והוא פועל ניתן לשלב להגיע כיסוי הולם. 3. סידור קורא המערך ניתוח דחיסת קבצים עיצוב: גלם לקרוא קבצים רצף יש להמיר גם לפורמט צעיף או דחוס. דחיסה היא אופציונלית כמו זה חוסך זמן ומקום הצעדים ניתוח שלאחר מכן מבלי לאבד את כל המידע הרלוונטי. זו מושגת באמצעות RAPGAP_read_compressor_v2.pl התסריט כלל עם הפקודה הבאה: ./RAPGAP_read_compressor_v2.pl [קובץ לקריאה]> [לקרוא את קובץ דחוס] קיבל לקרוא קלט פורמטים של קבצים הן צעיף FASTQ, או gzipped או לא דחוס: בפורמט צעיף למשל: HWI-EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW FASTQ בפורמט למשל: @ HWI-EAS440_7_1_0_410 # 0/1 NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG + ו / 8888888888888888888854588767777666! יישור לקרוא גלם: כניסות גלם כעת ניתן מיושר את רצף ההתייחסות המבואר FASTA ספציפית לאזורים ממוקדים הכלולים התגובות PCR, כמו גם את החיובי ואת השלילי שולט. יישור יכול להתבצע באמצעות כלי כלל RAPGAPHASH5d יישור. פורמט קלט בשלב זה צריך להיות צעיף או דחוסים. הפקודה ליישור היא: ./RAPGAPHASH5d [קובץ דחוס כנקראו] [קובץ FASTA] [מספר עריכות מותר]> [מיושר הקובץ] מספר אי התאמות לכל קריאה המותרות לעומת רצף הייחוס הוא פרמטר מוגדרת משתמש. קריאות כי יש מספר עודף של חוסר התאמה ייפסל. אנו ממליצים לאפשר 2 חוסר התאמה של 36 נ"ב כניסות, 4 חוסר התאמה של 76 נ"ב קורא 5 חוסר התאמה של 101 נ"ב קורא. המאפשר אי התאמות נוספות תגדיל את הסיכוי של טעויות המאפשר רצף עודף אל אלigned נתונים. כמו אורכי לקרוא להמשיך להיות ארוך יותר, ערך זה יכול לגדול עוד יותר. תיוג מיושר קבצים flowcell אחת: בשלב זה כל מיושר לקרוא את הקובץ יש לתת מזהה ייחודי ("תג") על מנת לזהות קבצים לקריאה השייכים בטווח רצף זהה (כלומר מספר רב של נתיבים מ flowcell אותה ניתן לצבור ולאור תג יחידה). תג יש צורך כי כל ריצה מכונת יוצר פרופיל שגיאה ייחודי ניתן לאפיין באמצעות התג. תג הוא מחרוזת של מספרים וקו תחתון תווים להשתמש כדי להבחין בין קבוצה של קורא (בקו תחתון "_" אין להשתמש בנושאי ניתוח). תגיות שונות יש להשתמש בציר קבצים שנוצרו על קריאה flowcells שונים או מפעילה מכונה. תגיות ניתן להוסיף באמצעות RAPGAP_alignment_tagger.pl כלל עם הפקודה הבאה: . / RAPGAP_alignment_tagger.pl [קובץ גזרי] [TAG]> [מיושר קובץ מתויג] לאחר מועד זה, מיושרקבצים בספריה באותו שנוצר על flowcells שונים מרובות ניתן לשלב יחד התגיות שלהם יהיה לשמור אותם מופרדים. המודל שגיאה דור: כאמור, כל ריצה מכונת יוצר פרופיל ייחודי של טעות רצף זה צריך להיות מאופיין לשיחות גרסה מדויקת. לבנות מודל של שגיאות אלה עבור כל סיבוב מכונה, רצף הבקרה הפנימית ידוע ללא וריאציה רצף נכלל כל ספריה מדגם נקווה. מקובץ מתויג מיושר, קובץ המודל שגיאה יכול להיות שנוצר באמצעות כלי EMGENERATOR4 כלל עם רצף שלילי התייחסות מלאה. כל רצף הביקורת השלילית ניתן להשתמש או לחילופין רק קבוצת משנה של זה, כפי שנקבע ע"י 5 'ו 3' רוב בסיסים קלט. ייחודית קורא pseudocounts יש להשתמש תמיד: ./EMGENERATOR4 [קובץ מתויג מיושר] [בקרת רצף שלילי] [קובץ פלט שם] ["בסיס ביותר של שליטה שלילית לשמש [3 5]" בסיס ביותרהביקורת השלילית שיש בשימוש] [הכנס הייחודי קורא בלבד? = Y] יישור [עריכות הפסקת] [הכנס pseudocounts? = Y] כלי EMGENERATOR4 תיצור 3 קבצים בעלי שם כמו הפרמטר שם של קובץ הפלט ואחריו _0, _1 או _2. קבצים אלה מתאימים 0, 1 ו – 2 כדי המודל שגיאה בהתאמה. עבור גרסה להתקשר עם ספלינטר, מודל 2 שגיאות כדי יש להשתמש תמיד. המאפשר הדמיה שיעור שגיאה פרופיל של ריצה, error_model_tabler_v4.pl ניתן להשתמש כדי ליצור עלילה PDF שגיאה על קובץ המודל שגיאה 0 כדי (איור 4): ./error_model_tabler_v4.pl [המודל שגיאה סדר 0 הקובץ] [שם של קובץ הפלט] את הקובץ העלילה יגלה ריצה ספציפיים מגמות שגיאה וניתן להשתמש בו כדי להסיק את המספר המרבי של בסיסים לקרוא כדי להשתמש בהם לצורך ניתוח, אשר מוסבר בסעיף הבא. 4. וריאנט איתור נדירה שימוש Splinter גרסה מתקשרגרם על ידי Splinter: הצעד הראשון בניתוח הוא להפעיל את הכלי ספלינטר על הקובץ מיושר באמצעות המודל שגיאה רצף ההתייחסות. הפקודה לעשות זאת היא: ./SPLINTER6r [מיושר קובץ מתויג] [קובץ FASTA] [2 כדי שגיאת קובץ מודל] [מספר בסיסים לקרוא להיות בשימוש] [פרטים בסיסים או מחזורי כדי לשלול] [p-value = הפסקת -1.301] [שימוש ייחודי קורא = Y] יישור [עריכות הפסקת] [גודל הבריכה מבין האפשרויות הזמינות] [להדפיס את כיסוי מוחלט לכל גדיל = Y]> [קובץ Splinter] מספר בסיסים לקרוא כדי לשמש משתנה יש להעריך על פי כל סיבוב. אנחנו בדרך כלל ממליצים להשתמש 2/3rds הראשונים של קריאה כאשר הם מייצגים את הנתונים באיכות הגבוהה ביותר (24 1 קוראים בסיסי רב 36bp לקרוא, למשל). בסיסים לקרוא יחיד ניתן לשלול מניתוח אם נמצא פגום (מופרדים על ידי פסיק או N כגון 5,7,11 או N). הפסקת p-value מכתיב כמה מחמירים ניתוח שיחות גרסה הולך להיות. אנחנו לאמלי להתחיל את הניתוח בכך שהוא מאפשר הפסקת לפחות -1.301 (המקביל לערך-p ≤ 0.05 בקנה מידה LOG10). אפשרות גודל הבריכה מייעל את האלגוריתמים "אות לרעש" אפליה על ידי ביטול גרסאות אפשריות עם תדרים אלל קלים פחות מזה של אלל אחד בבריכה בפועל. לדוגמה בבריכה של 50 אנשים, גרסה הנצפה הנמוך ביותר ניתן לצפות בתדר 0.01 או 1 ב 100 אללים. לכן, האפשרות גודל הבריכה יש לקבוע את הערך הקרוב ביותר הוא גדול ממספר בפועל של אללים ניתח בניסוי (כלומר, אם 40 אנשים שנסקרו, אנו מצפים 80 אללים כל כך את האפשרות הקרובה ביותר תהיה בגודל של בריכה 100) . וריאנטים הנקראים בתדרים <0.01 לאחר מכן ניתן יהיה להתעלם ממנו כמו רעש. קובץ זה מחזיר את כל הלהיטים שהם משמעותיים מבחינה סטטיסטית על פני המדגם, עם תיאור של המיקום של גרסה, סוג של חלופה, p-value לכל גדיל DNA, תדירות גרסה כיסוי מוחלט לכל גדיל DNA ( <strong> לוח 2). נרמול כיסוי עבור גרסאות נקרא: תנודות של כיסוי על פני המדגם יכול לייצר להיטים מזויף. ניתן לתקן זאת על ידי הפעלת סקריפט splinter_filter_v3.pl כדלקמן: ./splinter_filter_v3.pl [קובץ Splinter] [קובץ הרשימה] [להחמיר]> [Splinter קובץ מנורמל] שם קובץ רשימת רשימה של להיטים בקרה חיוביים בצורה של קובץ מופרד באמצעות טאבים. השדה הראשון מציין את amplicon של עניין, ואילו התחום השני מציין את המיקום בו מוטציה הוא ההווה. N עולה כי שאר רצף אינו מכיל מוטציה. קביעת האופטימלי p-value ספי תוך שימוש בנתונים בקרה חיוביות: לאחר נורמליזציה, ניתוח של שליטה חיובית היא הכרחית עבור למקסם את הרגישות והסגוליות של ניתוח מדגם מסוים. ניתן להשיג זאת על ידי מציאת החיתוך האופטימלי p-value באמצעות Information משליטה חיובית. ככל הנראה, ראשוני p-value של -1.301 לא יהיה מספיק מחמירים, אשר אם כן, תביא שיחות של תוצאות חיוביות שגויות משליטת חיובי או שלילי. כל ניתוח ספלינטר יציג את עצמו p-value עבור גרסה זו המכונה (ראה עמודים 5 ו -6 על טבלה 2), אשר לא ניתן היה לחזות מראש. עם זאת, הניתוח כולו ניתן לחזור באמצעות מחמירים לפחות P-הערך המוצג על הפלט ראשוני את העמדות האמיתיות הידועות בסיס חיוביים. זה ישמש כדי לשמור את כל תוצאות חיוביות בזמן אמת ללא ביותר, אם לא כולם, תוצאות חיוביות שגויות, והם בדרך כלל יש P-ערכים הרבה פחות משמעותי לעומת תוצאות חיוביות אמיתיות. כדי להפוך את התהליך הזה, cutoff_tester.pl ניתן להשתמש cutoff_tester.pl דורש פלט Splinter הקובץ רשימה של להיטים בקרה חיוביים בצורה של קובץ מופרד באמצעות טאבים לזו שבוצעה לנורמליזציה.: . / Cutoff_tester.pl [Splinter המסנןקובץ אד] [רשימת הקבצים] התפוקה והתוצאה תהיה רשימה של הפסקות כי בהדרגה להגיע האופטימלי (ראה לוח 3). הפורמט הוא: [המרחק בין הרגישות והסגוליות מקס] [רגישות] [הספציפיות] [הפסקת] למשל: 7.76946294170104e-07 1 0.999118554429264 -16.1019999999967 השורה האחרונה מייצגת את הפסקת האופטימלית ביותר לריצה ולכן יכול לשמש לניתוח נתונים. התוצאה האופטימלית היא להשיג רגישות וספציפיות של 1. במקרה זה התוצאה לא הגיעו, בסופו של Splinter ניתן לחזור על ידי שינוי מספר Incorporated לקרוא בסיסים עד למצב האופטימלי ביותר מושגת. גרסה סופית סינון: הפסקת הסופי ניתן ליישם את הנתונים באמצעות סקריפט cutoff_cut.pl, אשר תסנן את קובץ הפלט Splinter מ להיטים מתחת הפסקת אופטימלי, . / Cutoff_cut.pl [Splinter קובץ מסונן] [הפסקת]> [Splinter הסופיהקובץ] פעולה זו תיצור קובץ הפלט הסופי ספלינטר, אשר יכיל SNPs ו Indels הנוכחי במדגם. לידיעתך, פלט עבור הוספות שונה במקצת מאשר החלפות או מחיקות (טבלה 2). 5. נציג תוצאות אנחנו נקווה אוכלוסייה של 947 בני אדם ממוקד יותר מ -20 קילו של רצף. אנחנו מוחלים Splinter לצורך זיהוי של וריאנטים נדירים בעקבות הפרוטוקול הסטנדרטי שלנו. כל אדם בעבר היה genotyping על ידי genotyping-הגנום רחב מערך. ההתאמה בין genotyping של מתויג גרסאות חדשות הנקראות במדגם נקווה היו מצוינים (איור 6). שלוש גרסאות, שתיים מהן (rs3822343 ו rs3776110) היו נדירים באוכלוסייה, נקראו דה נובו מתוצאות ריצוף ו אומתו על ידי pyrosequencing הפרט. תדרים אלל קלים (המאפיה) בבריכה היו דומים המאפיה דווח dbSNP לבנות 129. ההתאמה בין המאפיה pyrosequencing וסדר ונקווה היה מצוין (לוח 3). 1. לוח ה-DNA רצפים oligonucleotide לבקרה חיובית. כל רצף מורכב של שבר דנ"א שונה מן ההתייחסות סוג הפרא בין אם שתי החלפות או 1 הכניסה ואחד המחיקה. לחץ כאן כדי להציג תמונה גדולה יותר . טבלה 2. דוגמה של פלט ספלינטר. שתי השורות הראשונות מייצגים את הפלט Splinter תקן החלפה או מחיקה (כותרת כחול). השורה האחרונה מייצגת את התפוקה Splinter תקן הכניסה (הכותרת סגול).rget = "_blank"> לחץ כאן כדי להציג תמונה גדולה יותר. לוח 3. חמש ידוע ושלושה וריאנטים חדשים זוהו מאוכלוסיות גדולות ומאומתים על ידי genotyping הפרט. אימות הפרט נערך על ידי pyrosequencing (שורות 1-3), TaqMan assay (שורות 4-6) או רצף סנגר (שורות 7,8). עבור מגוון רחב של תדרים אלל וכולל חמש עמדות עם המאפיה <1%, ההתאמה בין נקווה להערכת רצף אלל התדירות genotyping הפרט היה חזק. תפקידים המסומנים בכוכבית (*) מותאמים מנתונים שדווח קודם לכן 9. באיור 1. נקווה, רצפי DNA ואנליזה סקירה ספלינטר. ה-DNA החולה נקווהומוגברים על לוקוסים שנבחרו. המוצרים הסופיים ה-PCR הם אספו יחד עם שליטה חיוביות ושליליות על היחס equimolar. לערבב ונקווה הוא רצף אז כניסות שהתקבל ממופים חזרה ההתייחסות שלהם. מיפוי כניסות בקרה שלילית משמשים ליצירת מודל ריצה ספציפית שגיאה. Splinter לאחר מכן ניתן להשתמש כדי לזהות SNPs נדיר indels על ידי שילוב המידע מהמודל שגיאה שליטה חיובית. [מעובד מתוך Vallania FLM ואח', לחקר הגנום 2010] לחץ כאן כדי להציג תמונה גדולה יותר . 2. איור נקווה amplicon PCR קשירת ו sonication. כהפגנה של קשירת וצעדים רסס אקראיות פרוטוקול ספריית הכנה, וקטור pUC19 היה מתעכל enzymatically את שברי המוצגים במסלול 2. שברים אלה היו נורמהlized במספר מולקולה, בשילוב ligated באופן אקראי בהתאם לשלב 1.7 לעיל. Concatamers הגדולות וכתוצאה מכך יוצגו במסלול 3. את concatamers ligated התחלקו באופן שווה ולא נתון sonication כמתואר בשלב 1.8 לעיל. למרוח כתוצאה של שברי ה-DNA של כל אחד לשכפל טכנית מוצגים נתיבים 4 ו -5. כן מדגיש את מגוון בגודל משמש להפקת ג'ל וספריה יצירת רצף. איור 3. דיוק כפונקציה של כיסוי אלל אחד במדגם נקווה. דיוק מוערך שטח מתחת לעקומה (AUC) של עקומת המקלט מפעיל (ROC), אשר נע בין 0.5 (אקראית) ל -1.0 (דיוק מושלם). AUC הוא להתוות כפונקציה של כיסוי לכל אלל לצורך זיהוי של אללים מוטנטים בודדים בתוך שלוליות של אללים 200, 500 ו 1000 (). AUC הוא להתוות כמו כיסוי פונקציה הכוללת של החלפות, הוספות ו-Deletions (ב '). [מעובד מתוך Vallania FLM ואח', לחקר הגנום 2010]. איור 4. מגרש שגיאה מציגה את ההסתברות של שילוב בסיס מוטעה במיקום מסוים. פרופיל השגיאה מראה שיעור שגיאה נמוך עם המגמה הגוברת לקראת סוף '3 של רצף הקריאה. יש לציין, נוקלאוטידים התייחסות שונים להציג הסתברויות שגיאה שונים (ראה למשל ההסתברות של שילוב C נתון G כהפניה). [מעובד מתוך Vallania FLM ואח', לחקר הגנום 2010]. איור 5. דיוק של Splinter בהערכת שכיחות האלל לתפקידים שהיו כיסוי גדול פי 25 לכל אלל. בהתבסס על תוצאות בלוח, איור 3 מציג רגישות אופטימלית לגילוי גרסה אחת עם כיסוי של פי 25 ≥,השוואה בין ונקווה-DNA תדרים אלל מוערך על ידי Splinter עם ספירת אלל נמדד על ידי תוצאות GWAS ב מתאם גבוה מאוד (r = 0.999). [מעובד מתוך Vallania FLM ואח', לחקר הגנום 2010]. איור 6. השוואה בין תדרים אלל נמדד על ידי GWAS לעומת הערכות רסיס רצף משולב של 974 אנשים. היו 19 עמדות משותפות בין לוקוסים genotyped האזורים רצף של השוואה. המתאם שהתקבל הוא גבוה מאוד (r = 0.99538). לחץ כאן כדי להציג דמות גדולה .

Discussion

ישנן ראיות כי הגדלת שכיחות תגובה טיפולית, של פנוטיפים נפוצים מורכבים ומחלות כגון 8 השמנת יתר, hypercholesterolemia 4, יתר לחץ דם 7 ואחרים ניתן בהנחיית פרופילים אישיים של וריאציה נדירה. זיהוי גנים ושבילים שם גרסאות אלה מצטברים באוכלוסיות שנפגעו יהיו השלכות האבחון והטיפול עמוקים, אבל ניתוח אנשים מושפעים בנפרד יכול להיות זמן ועלות אוסרני. האוכלוסייה המבוססת על ניתוח מציע שיטה יעילה יותר עבור מדידות שונות גנטית ב לוקוסים מרובים.

אנו מציגים רומן ונקווה-DNA פרוטוקול רצף יחד עם חבילת Splinter תוכנה שנועדה לזהות סוג זה של שונות גנטית על פני אוכלוסיות. אנחנו מדגימים את רמת הדיוק של השיטה בזיהוי וכימות אללים קלים בקרב האוכלוסייה נקווה גדולה של 947 אנשים, כולל גרסאות נדירות שהיובשם דה נובו מן רצף נקווה ומאומתים על ידי pyrosequencing הפרט. האסטרטגיה שלנו שונה בעיקר פרוטוקולים אחרים על ידי שילוב של חיובי שליטה שלילית בתוך כל ניסוי. זה מאפשר Splinter להשיג דיוק גבוה הרבה יותר כוח לעומת גישות אחרות 1. כיסוי אופטימלי של פי 25 לכל אלל הוא קבוע ללא תלות בגודל של הבריכה, מה שהופך את הניתוח של בריכות גדולות ריאלי כמו דרישה זו רק קשקשים באופן ליניארי עם גודל הבריכה. הגישה שלנו היא גמישה מאוד יכול להיות מיושם על כל הפנוטיפ של עניין, אלא גם דגימות שהן הטרוגניות באופן טבעי, כגון אוכלוסיות תאים מעורבות ביופסיות הגידול. לאור ההתעניינות ההולכת וגוברת של רצף נקווה מאזורים יעד גדולים כמו exome או הגנום, הכנה הספרייה שלנו וניתוח Splinter תואם ללכוד מותאם אישית כולו exome רצף, אבל השירות יישור בחבילה Splinter לא תוכנן עבור גדולהפניות רצפים. לכן, אנו השתמשו בהצלחה aligner תכנות דינמי, Novoalign, על הגנום כולו מערכים ואחריו גרסה מתקשר מדגם נקווה (ראמוס et al. הגיש). לפיכך, האסטרטגיה שלנו ונקווה רצף יכול בהיקף בהצלחה לבריכות גדולות יותר עם כמויות הולכות וגדלות של רצף המטרה.

Disclosures

The authors have nothing to disclose.

Acknowledgements

עבודה זו נתמכה על ידי גילוי הילדים המכון מענק MC-II-2006-1 (RDM ו-TED), אפיגנטיקה NIH מפת הדרכים מענק [1R01DA025744-01 ו 3R01DA025744-02S1] (RDM ו FLMV), U01AG023746 (SC), Saigh קרן (FLMV ו-TED), 1K08CA140720-01A1 ולימונדה של אלכס תעמוד "" תמיכה פרס (TED). אנו מודים טכנולוגיה הגנום גישה מרכז במחלקה לגנטיקה באוניברסיטת וושינגטון בית הספר לרפואה עזרה עם ניתוח גנטי. המרכז נתמך חלקית NationalCenter לחקר משאבי (NCRR), מרכיב של המכונים הלאומיים לבריאות (NIH) על ידי NCI במרכז לחקר הסרטן תמיכה גרנט # p30 CA91842 למרכז הסרטן Siteman ועל ידי ICTS / CTSA גרנט # UL1RR024992, ו מפת הדרכים NIH למחקר רפואי. פרסום זה הינו באחריות הבלעדית של הכותבים ולא בהכרח מייצגים את העמדה הרשמית של NCRR או NIH.

Materials

Reagent Name Company Catalogue Number Section
PfuUltra High-Fidelity Agilent 600384 1.4
Betaine SIGMA B2629 1.4
M13mp18 ssDNA vector NEB N4040S 1.5
pGEM-T Easy Promega A1360 1.5
T4 Polynucleotide Kinase NEB M0201S 2.2
T4 Ligase NEB M0202S 2.2
Polyethylene Glycol 8000 MW SIGMA P5413 2.2
Bioruptor sonicator Diagenode UCD-200-TS 2.3

References

  1. Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
  2. Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
  3. The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
  4. Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
  5. Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
  6. Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
  7. Ji, W., Foo, J. N., O’Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
  8. Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
  9. Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
  10. Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).

Play Video

Cite This Article
Vallania, F., Ramos, E., Cresci, S., Mitra, R. D., Druley, T. E. Detection of Rare Genomic Variants from Pooled Sequencing Using SPLINTER. J. Vis. Exp. (64), e3943, doi:10.3791/3943 (2012).

View Video