هنا ، نقدم نهج المعلوماتية الحيوية وتحليلات لتحديد خط-1 التعبير علي مستوي معين.
عناصر طويلة تتخللها-1 (خطوط/L1s) هي العناصر المتكررة التي يمكن نسخ وادراج عشوائيا في الجينوم مما ادي إلى عدم الاستقرار الجينوم والطفرات. فهم أنماط التعبير من L1 مكاني علي المستوي الفردي وسوف تقرض لفهم بيولوجيا هذا العنصر الطفرة. هذا العنصر المستقل يشكل جزءا كبيرا من الجينوم البشري مع أكثر من 500,000 نسخه ، علي الرغم من ان 99 ٪ يتم اقتطاعها ومعيبه. ومع ذلك ، فان وفره النسخ المعيبة وعددها المهيمن يجعل من الصعب تحديد الL1s المعرب عنها بشكل أصلي من المتواليات ذات الصلة بالرقم L1 المعبر عنها كجزء من جينات أخرى. ومن الصعب أيضا تحديد الموضع L1 المحدد الذي يعبر عنه بسبب الطبيعة المتكررة للعناصر. التغلب علي هذه التحديات ، نقدم نهج المعلوماتية البيولوجية المتسلسلة لتحديد التعبير L1 عند مستوي معين. وباختصار ، ونحن نجمع الحمض الريبي الخلوي rna ، حدد للنصوص polyadenylated ، والاستفادة من التحليلات الخاصة حبلا الحمض الريبي النيبالي-Seq لخريطة فريد يقرا إلى L1 مكاني في الجينوم المرجعي البشري. نحن الاشراف بصريا كل موضع L1 مع يقرا المعينة بشكل فريد لتاكيد النسخ من المروج الخاصة بها وضبط النص المعين يقرا لحساب القدرة علي كل موضع L1 الفردية. تم تطبيق هذا النهج علي خط خليه ورم البروستاتا ، DU145 ، لإثبات قدره هذا البروتوكول للكشف عن التعبير من عدد صغير من العناصر L1 بالطول الكامل.
ريتروترانسسونز هي عناصر الحمض النووي المتكررة التي يمكن “القفز” في الجينوم في اليه النسخ واللصق عبر وسيطه RNA. ومن المعروف مجموعه فرعيه واحده من الرجعية العناصر الطويلة تتخللها-1 (خطوط/L1s) ويشكل سدس الجينوم البشري مع أكثر من 500, 0000 نسخ1. علي الرغم من وفره, معظم هذه النسخ هي معيبه واقتطاعها مع ما يقدر فقط 80-120 العناصر L1 يعتقد ان تكون نشطه2. A L1 كامل طول حوالي 6 كيلو بايت في الطول مع 5 ‘ و 3 ‘ المناطق غير المترجمة, المروج الداخلية والمرتبطة المضادة للشعور المروج, اثنين غير متداخلة إطارات القراءة المفتوحة (orfs), واشاره والذيل polya3,4,5 . في البشر ، تتكون L1s من الأسر الفرعية التي تتميز بالعمر التطوري مع الأسر الأكبر سنا التي تراكمت طفرات تسلسل أكثر تفردا مع مرور الوقت مقارنه مع أصغر عائله فرعيه ، L1HS6،7. L1s هي الوحيدة المستقلة ، والرجعية البشرية و ORFs ترميز النسخ العكسي ، والكريات ، و RNPs مع الجيش النيبالي للربط والانشطه المرافقة المطلوبة لتغيير المسار وادراجها في الجينوم في عمليه المشار اليها باسم الهدف-تستعد عكس النسخ8،9،10،11،12.
وقد أفيد بان التبديل التحديثي لL1s يسبب امراض الإنسان الجرثومية البشرية من خلال مجموعه متنوعة من أليات بما في ذلك الطفرات الذهنية ، وحذف المواقع المستهدفة ، وأعاده الترتيب13و14و15و 16. في الاونه الاخيره تم الافتراض ان L1s قد تلعب دورا في اونكوجينيسيس و/أو تطور الورم كما لوحظ زيادة التعبير واحداث الادراج من هذا العنصر الطفرات في مجموعه متنوعة من السرطانات الظهاريه17,18 . ويقدر ان هناك واحده جديده L1 الادراج في كل 200 الولادات19. ولذلك ، فمن المحتم ان نفهم بشكل أفضل بيولوجيا التعبير عن L1s بنشاط. وقد جعلت الطبيعة المتكررة ووفره النسخ المعيبة الموجودة ضمن نصوص الجينات الأخرى هذا المستوي من التحليل تحديا.
لحسن الحظ ، مع ظهور تقنيات التسلسل الانتاجيه العالية ، تم اجراء خطوات واسعه لتحليل وتحديد التعبير الأصلي L1s علي مستوي محدد الموضع. هناك الفلسفات المختلفة حول كيفيه تحديد أفضل التعبير عن L1s باستخدام RNA الجيل التالي التسلسل. ولم يقترح سوي نهجين معقولين لرسم خرائط المحاضر الحرفية L1 علي المستوي الخاص بالمقر. واحده يركز فقط علي النسخ محتمله ان يقرا من خلال ال [1] [بولدتيلايشن] اشاره وداخل [فلكينغ] تسلسل20. نهجنا يستفيد من الاختلافات تسلسل الصغيرة بين العناصر L1 والخرائط فقط تلك التي الحمض الريبي النيبالي-Seq يقرا ان خريطة فريدة من نوعها لأحد الموضع21. كل من هذه الطرق لديها قيود من حيث كميات من مستويات النص. يمكن تحسين كميات من المحتمل من خلال أضافه تصحيح ل ‘ mappability فريدة ‘ من كل الموضع L121، أو استخدام خوارزميات أكثر تعقيدا ان أعاده توزيع القراءات متعددة الخرائط التي لا يمكن تعيينها بشكل فريد إلى موضع معين22. هنا ، سنقوم بالتفصيل في خطوه بخطوه طريقه استخراج RNA والجيل التالي من التسلسل وبروتوكول المعلوماتية الحيوية لتحديد العناصر التي تم التعبير عنها L1 علي مستوي محدد الموضع. نهجنا ياخذ الاستفادة القصوى من معرفتنا بيولوجيا العناصر الوظيفية L1. وهذا يشمل معرفه ان العناصر الوظيفية L1 يجب ان تتولد من المروج L1 ، التي بدات في بداية العنصر L1 ، يجب ان تترجم في السيتوبلاسما وان النسخ الخاصة بهم يجب ان تكون مشتركه الخطي مع الجينوم. لفتره وجيزة ، ونحن نجمع الطازجة ، الحمض الريبي الخلوي الجديد ، حدد للنصوص polyadenylated ، والاستفادة من التحليلات الخاصة حبلا الحمض الريبي النيبالي-Seq لخريطة فريد يقرا إلى L1 مكاني في الجينوم المرجعي البشري. يقرا هذا يحاذي بعد ذلك بعد بعد موسعه يدوية [كرايشن] ان يحدد ان نص يقرا ينشا من ال [L1] مروج قبل يعين موضع كاصليه عبر عن [L1]. نحن نطبق هذا النهج علي DU145 عينه خط خليه ورم البروستاتا لتوضيح كيف انه يحدد عدد قليل نسبيا من الأعضاء المستنسخين بنشاط من كتله النسخ غير النشطة.
وقد ثبت ان النشاط L1 يسبب الضرر الوراثي وعدم الاستقرار المساهمة في المرض27,28,29. من ال تقريبا 5,000 [فول-لنغث] [L1] نسخ, فقط [ا فو] اثنا عشر [رتنايشنريلي] شباب L1s حساب للاغلبيه من [ريتروريبل] نشاط2. ومع ذلك ، هناك أدله علي انه حتى بعض كبار السن ، ريتروترانسبوسيتيونالي-incompentent L1s لا تزال قادره علي إنتاج الحمض النووي الضار البروتينات30. لنقدر تماما دور L1s في عدم الاستقرار الجينوم والمرض ، يجب فهم التعبير L1 علي مستوي محدد الموضع. ومع ذلك ، فان الخلفية العالية للتسلسلات ذات الصلة بالمستوي L1 المدمجة في RNAs الأخرى غير المرتبطة بالتبديل العكسي لل l1 تشكل تحديا كبيرا في تفسير التعبير L1 الأصلي. تحدي آخر في تحديد التالي فهم أنماط التعبير من الفردية L1 مكاني يحدث بسبب طبيعتها المتكررة التي لا تسمح العديد من تسلسل قراءه قصيرة للخريطة إلى موضع فريد واحد. للتغلب علي هذه التحديات ، قمنا بتطوير النهج الموصوف أعلاه في تحديد التعبير عن الفردية L1 مكاني باستخدام البيانات المتسلسلة RNA.
نهجنا مرشحات المستوي العالي (أكثر من 99 ٪) من الضوضاء المتحولة المتولدة من متواليات L1 التي لا علاقة لها بالتبديل العكسي L1 عن طريق اتخاذ عدد من الخطوات. الخطوة الاولي تنطوي علي اعداد الحمض الخلوي الريبي السيتوبلازمي. عن طريق اختيار ل RNA سيتوبلازمي ، القراءات ذات الصلة L1 وجدت داخل التعبير عن mRNA في النواة والمنضب إلى حد كبير. في اعداد مكتبه التسلسل ، خطوه أخرى اتخذت للحد من الضوضاء التبادلية لا علاقة لها L1s تشمل اختيار النصوص polyadenylated. وهذا يزيل الضوضاء المرتبطة بالنص L1 الموجودة في الأنواع غير mRNA. وتشمل الخطوة الأخرى التسلسل الخاص بالحبل من أجل تحديد وأزاله النصوص ذات الصلة بالاستشعار من النوع L1. استخدام تعليق توضيحي لL1s كامل الطول مع مناطق المروج الوظيفية عند تحديد عدد النسخ المتسلسلة الحمض الريبي النيبالي التي الخريطة إلى L1s أيضا يلغي الضوضاء الخلفية التي تنشا خلاف ذلك من L1s المقتطعة. وأخيرا ، فان الخطوة الحاسمة الاخيره في القضاء علي الضوضاء العابرة لمتواليات L1 غير المرتبطة بالتبديل العكسي L1 هي التحويل اليدوي لL1s الكاملة الطول التي تم تحديدها لتعيين النسخ المتسلسلة لل RNA. وينطوي الاعتماد اليدوي علي تصور لكل موضع من المواقع التي تم التعرف عليها بطريقه المعلوماتية الاحيائيه في سياق بيئتها الجينية المحيطة بها لتاكيد ان التعبير ينبع من المروج L1. تم تطبيق هذا النهج علي DU145 ، وهو خط خليه ورم البروستاتا. وحتى مع جميع الخطوات المتعلقة بالاعداد المتخذة للحد من الضجيج في الخلفية ، تم رفض ما يقرب من 50 في المائة من النسبة المئوية لل L1 التي تم تحديدها بيولوجيا في DU145 باعتبارها ضوضاء خلفيه L1 منشؤها مصادر أخرى للتحويل (الشكل 4) ، التاكيد علي الصرامة المطلوبة لتحقيق نتائج موثوق بها. هذا النهج باستخدام التشغيل اليدوي هو العمل المكثف ، ولكن الضرورية في تطوير هذا الخط لتقييم وفهم البيئة الجينية المحيطة L1 كامل الطول. وتشمل الخطوات التالية الحد من كميه العمليات اليدوية اللازمة من خلال أتمته بعض قواعد الكرايشن ، علي الرغم من نظرا لطبيعة لا تزال غير معروفه تماما من التعبير الجينوم ، ومصادر الأمم المتحدة المشروحة للتعبير في الجينوم المرجعي ، ومناطق منخفضه mappability ، وحتى تعقيد العوامل التي تنطوي عليها مع بناء الجينوم المرجعي فانه لا يكون من الممكن أتمته L1 بالبالكامل في هذا الوقت.
التحدي الثاني في تحديد التعبير عن الفردية l1 مكاني مع التسلسل يتعلق برسم الخرائط من المستنسخات l1 المتكررة. في هذه الاستراتيجية المحاذاة ، فانه من المطلوب ان النص يجب ان تتوافق بشكل فريد والتعاون خطيا إلى الجينوم المرجعي من أجل ان يتم تعيينها. من خلال تحديد التسلسلات المقترنة التي يتم تعيينها بشكل متطابق ، فان مقدار النصوص التي يتم محاذاتها بصوره فريدة إلى L1 مكاني الموجود في الجينوم المرجعي يزيد. وتوفر هذه الاستراتيجية الفريدة لرسم الخرائط الثقة في استدعاء الخرائط المقروءة تحديدا إلى موضع واحد من النوع L1 ، علي الرغم من انه من المحتمل ان يقلل من تقدير كميه التعبير التي تم التعرف عليها بشكل أصلي ومعبر عنها ، والمكررة ، L1. إلى صحيحه تقريبا ل هذا بخس, طورت “[مسبيليتي]” درجه لكل [1] موضع يؤسس علي [مسبيليتي] ه كان وطبقت إلى الرقم من فريد يعين نص يقرا (شكل 6). ومن الجدير بالذكر انه من الناحية المثالية ، يجب ان يكون سجل القدرة علي التغطية الكاملة يقرا عبر L1 كامل الطول وفقا لعينه WGS المتطابقة. هنا ، ونحن نستخدم wgs من الخلايا هيلا لتحديد عشرات mappability من كل l1 مكاني من أجل تضخيم أو انكماش يقرا تعيين إلى l1 مكاني في DU145 خطوط الخلايا السرطانية البروستاتا. هذا الحساب mappability هو درجه تصحيح الخام ، ولكن تم تحديد المختارة ‘ التغطية الكاملة mappability ‘ من 400 يقرا مع الطبيعة الديناميكية لخطوط الخلايا السرطانية في الاعتبار. ويمكن ملاحظه ذلك في الشكل التكميلي 1، ان هناك عدد قليل من المواقع L1 مع Wgs هيلا مع ارتفاع كبير للغاية من القراءات المعينة. هذه من المرجح ان تاتي من متواليات الكروموسومات المكررة داخل هيلا التي ليست ضمن الجينوم المرجعي ، وهذا هو السبب في تلك المواقع لم يتم اختيارها لتكون ممثله للتغطية كامله القدرة. بدلا من ذلك حددت هو كان ان المعدل من 100% يقرا تغطيه يحدث حول 400 يقرا وفقا ل اضافيه شكل 1 وكان بعد ذلك افترضت ان هذا معدل يطبق إلى ال DU145 ورم بروستاتا خليه خط أيضا.
هذه الاستراتيجية المحاذاة مع 100-200 bp يقرا من تكنولوجيا RNA-Seq أيضا يختار بشكل تفضيلي لL1s القديمة التطورية داخل الجينوم المرجعي كما تراكمت L1s القديمة علي مر الزمن طفرات فريدة من نوعها التي تجعلها أكثر قابل للتعيين. هذا النهج ، التالي ، لديه حساسية محدوده عندما يتعلق الأمر بتحديد أصغر من L1s ، فضلا عن عدم المرجعية ، L1s متعدد الوجوه. لتحديد أصغر من L1s ، نقترح استخدام 5 ‘ سباق الاختيار من النصوص L1 والتكنولوجيا التسلسل مثل PacBio التي تجعل استخدام أطول يقرا21. هذا يسمح رسم خرائط أكثر فريدة من نوعها ، التالي التعرف علي ثقة من L1s الشباب المعرب عنها. استخدام الحمض الريبي النيبالي-Seq ونهج PacBio معا يمكن ان يؤدي إلى قائمه أكثر شمولا من التعبير عنها بشكل أصلي L1s. ولتحديد الL1s متعددة الوجوه المعرب عنها أصليا ، تشمل الخطوات التالية الاولي بناء وادراج متواليات متعددة الوجوه في الجينوم المرجعي.
التحديات البيولوجية والتقنية في دراسة تكرار متواليات كبيره ، علي الرغم من الإجراءات الصارمة المذكورة أعلاه لأزاله الضوضاء التبادلية من تسلسل L1 الأمم المتحدة المتعلقة باعاده التحديث باستخدام تكنولوجيا التسلسل RNA ، نبدا في التدقيق من خلال المستويات الكبيرة للضوضاء الخلفية المتحولة والتعرف بثقة وصرامة علي أنماط التعبير L1 وكميتها علي مستوي الموضع الفردي.
The authors have nothing to disclose.
نود ان نشكر الدكتور يان دونغ لخلايا أورام البروستاتا DU145. نود ان نشكر الدكتور ناثان Ungerleider لتوجيهاته والمشورة في إنشاء مخطوطات الكمبيوتر الفائق. تم تمويل بعض من هذا العمل من قبل المعاهد القومية للصحة المنح R01 GM121812 إلى PD ، R01 AG057597 إلى VPB ، و 5TL1TR001418 إلى المعارف التقليدية. ونود أيضا ان نعترف بالدعم من الصليبيين السرطان ومركز Tulane للسرطان المعلوماتية الحيوية الاساسيه.
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |