Summary

磁共振成像基因 - 公共资源为研究基因组DNA序列内模式

Published: May 09, 2011
doi:

Summary

我们目前的基因组序列的分析计算公共网站。它可以检测出各种非随机核苷酸组成的DNA序列模式。这种资源也产生不同层次的复杂的随机序列。

Abstract

非编码基因组区域,在复杂的真核生物,包括间隔区,内含子,外显子的未翻译的部分,正在深刻地在他们的核苷酸组成的非随机的序列模式的复杂镶嵌组成。这些模式包括中档所谓的不均匀性(MRI)地区 – 序列30-10000的长度是由一个特定的基地或基地相结合,丰富(如(G + T)丰富,富含嘌呤等核苷酸)。与MRI地区是不寻常的(非B型)的DNA结构,往往是参与调控基因表达,重组,以及其他遗传过程(2010年Fedorova和费奥多罗夫)。一个坚强的内固定在核磁共振地区对突变,往往会减少他们的序列不均匀性,同时还支持这些基因组序列的功能和重要性(普拉卡什等人,2009年)的偏见的存在。

在这里,我们展示了一个可以自由使用互联网资源基因组MRI程序柏克德等2008)基因组序列的计算分析,以便发现和描述在其中的各种磁共振成像模式。此包还允许使用的各种属性和通信水平的自然输入DNA序列的随机序列生成。此资源的主要目标是为了方便广大地区的非编码DNA仍然很少的调查,并等待深入探索和认同的检查。

Protocol

纸中使用的所有节目已经使用perl编写的,并已经使用PHP创建的所有网页。 1。起点: 打开http://mco321125.meduohio.edu/〜jbechtel / gmri /首页的在线基因组的MRI包。 Web资源,还提供了“帮助(How-to/README)”链接,而对基因组的 MRI和类似的算法所有公布的材料,在“链接到相关的资源”列出的链接方案的说明/解释。 2。输入序列(S)的制备和上传。 创建一个与FASTA格式的序列(S)文件,启动一个GMRI分析会话。这种格式中的每个核苷酸序列之前,应先用一个“>”字符表示一个标识符,同一行的简短描述了这个序列,起跑线。核苷酸序列GMRI分析还允许字符R,Y,N,X等Hwever,非A,T,C,G字符不会被处理程序,将被跳过。重复的元素,其中有被“蒙面”(“N”代替)的序列可以作为输入。请注意,序列字符大小写不敏感的。 点击基因MRI主页上的“ 启动或恢复 ”按钮开始一个GMRI会议。这需要用户到一个地方的核苷酸序列可以上传的页面。 复制并粘贴您的FASTA格式的序列或上传文件,其中包含从您的本地计算机上使用的“选择文件 ”按钮的序列。 点击“ 启动新的会话与此文件 ”按钮。应该会出现一个确认消息声明说:“ 你的序列已成功上传 ”,你也应该得到一个字母“GMRI标识符”[网站调用它一个“会话标签”为您的会话(例如b16yMj),上面的输入窗口可用于检索,并继续为会议后第一次使用长达两个星期。 注:今后,输入序列简称为“userfile的”。 3。得到一个输入序列(可选)寡核苷酸的频率分布。 为了得到整个输入序列的寡核苷酸频率分布点击“SRI的分析仪”选项卡(上排) 。 SRI的缩写代表的短距离的不均匀性。此时,用户可以指定最高的寡核苷酸长度(从2到9个核苷酸,默认为6 NTS)的频率将被计算。这个选择是通过单击所需的选项内“ 最大的低聚物的大小”列表框。然后按“ 分析文件 ”按钮,启动计算。一个输入序列组成的粗糙表示将立即在本网页中显示为一个短表和“userfile.comp.tbl”下载。此表只有最和最丰富的寡核苷酸在输入序列。 所有可能的寡核苷酸的整个频率表生成名为“userfile.comp”的文件,它可以通过“下载的组成文件“链接获得。 注:SRI的分析仪计数的所有重叠的寡核苷酸的整套。 4。生成相同的输入序列(可选)寡核苷酸组成的随机序列。 (这个任务需要完成该协议的第3步)。 “SRI的发电机 ”的标签(上排),点击打开一个新网页,创建随机序列。选择使用本网页上的列表框中要生成的随机序列的样本数量。这些示例文件都将包含在“userfile的 ”输入序列相同数量和长度的随机序列。此外,如果一个输入序列中包含非A,T,C或G字符,随机序列将在相同的位置输入序列中的完全一样“N”的。 选择的频率将被近似随机序列的寡核苷酸的长度最长。这可以通过检查所需的低聚物水平表(例如“4个碱基 ”四基寡核苷酸)在屏幕中心的单选按钮选择。这是必须指出的是,不仅在选择了低聚物级别的近似频率,而且较短的低聚物水平相应的频率,在输入序列,随机序列将包括。在寡核苷酸的小波动输入和随机序列的频率可能由于马尔可夫模型的随机序列的生成应用程序。 通过点击“ 生成文件 ”按钮,启动该程序。如果输入序列是​​大的,它可能需要一两分钟,生成的随机序列。因此,用户应该等待,直到蓝色的“下载”链接在本页面底部出现。随机集被放置在文件名 ​​称,如“userfile.randX_Y”,其中 X是随机设置的数量和Y是选择低聚物水平( 如 “userfile_rand2_4” )。 5。中档不均匀性(MRI)的输入和随机序列分析。 点击“ 磁共振成像仪 ”选项卡(上排),开辟了一个新的网页,分析中档的核苷酸序列组成的不均匀性。 从分析“ 文件分析 ”列表框中(可在这里输入序列生成的随机序列集之间的选择),选择一个序列。 要通过提供的清单中中分析, 选择的内容类型的MRI 。 (七内容选项可供选择:G + G + A,G + T;一个,G,C;或T) 选择窗口,内容丰富,内容贫乏的序列将通过“窗口大小”列表框(默认为50个核苷酸的有效范围是从30日至1000)的研究的长度。 选择上限内容丰富,内容贫乏的地区, 门槛较低 ,分别。这些阈值可以在当前窗口中的特定核苷酸的确切数字(使用号码选项,在列表框中)或由这些核苷酸的百分比(使用百分比选项)中定义的窗口毕竟五个选择已作出(例如:序列=“userfile的 ”;内容= 气相色谱 ;窗口大小= 50;的上限阈值= 35,降低门槛= 15),按分析文件 “按钮调用该程序。该方案通过从所选择的输入的所有序列连续扫描。在每一个步骤,它获得了当前序列的长度等于指定的窗口大小的段,计算核苷酸所选择的内容的数量或百分比是否高于上限或低于下限阈值。如果窗口不匹配或者标准,选择下一个重叠窗口(一个核苷酸转移)是相同的分析。当一个窗口被发现的序列符合其中一个内容丰富,或穷人组成的门槛要求,程序的输出文件保存在此窗口中的序列,生成一个图形输出穗。在此之后,程序跳转到下一个非重叠的相邻的窗口和恢复扫描过程,直到达到序列的结尾。 计划完成后,显示到输出文件中的链接(名称为“userfile_GC_50_35 .. 15”上面的例子),在网页中显示的图形表示的结果是(见图1 )。这个图形显示, 从userfile的所有输入序列连接成一个字符串,并为X轴水平黑线,在图所示的碱基长度( KB)。沿输入序列的所有内容丰富的地区被标记为蓝色的“向上”尖峰,并为红色的“向下”尖峰的内容贫乏的地区。内容丰富,内容贫乏窗口总数显示在parenthses在此图的底部(分别为32和19)的传说。这个数字足以说明相对丰度和安排的MRI地区。同时,具体细节在输出文件中(见图3)。在这个文件中,所有的核苷酸序列片段,内容丰富或贫困标准和它们的坐标匹配,可作为沿输入文件列表中的用户,根据其连续职位。 选择序列的MRI分析完成后,用户可以在相同的网页,通过改变参数和/或输入文件开始一个新的进程。例如,为了检查先前生成的随机抽样与相同的MRI参数#1,用户只需要更改文件分析“选项, 并选择 ”userfile_rand1_4“文件, 然后再次按分析文件“按钮。一个新的文件和图形显示将取代旧的。所有检查结果,并根据每个“会话lable”(GMRI标识符)的数字将被保存和活动从过去的两个星期。为了节省的结果/图URES永久,用户应选择“ 下载文件 ”选项卡(上排)和下载整个会话或单个文件,根据需要。 有了这个核磁共振成像仪的网页,用户可以研究 (G + C) – 丰富和(A + T)丰富的地区嘌呤(A + G)丰富和嘧啶(C + T)丰富的地区丰富和氨基酸酮(G + T),(+)丰富的地区一个丰富的和一个穷人的地区富G -和G -贫乏地区丰富的T -和T -贫困地区 C丰富和C -贫困地区 基因组MRI的最新版本有一个新的选择学习地区丰富的嘌呤(R)/嘧啶(Y)的交替模式,可能形成Z – DNA的构象。目前,这个选项是从Z – DNA的 “链接”,作为上述其他MRI地区相同的基础上。用户应选择的(RY + YR)的数量上限和下限,在扫描窗口重叠的核苷酸。该计划产生类似的图形化输出和交替嘌呤和嘧啶丰富和枯竭的DNA片段的文件。公认的Z – DNA的地区必须高度浓缩的交替R / Y基地(见审查F&F 2011)。 6。在基因组MRI包(可选)的附加 ​​程序。 基因组MRI资源也有非常具体的随机序列生成的两个高级选项。它们可通过“ 核磁共振发生器 ”和“ 的CDS发生器 ”第一行中的标签。 MRI发生器创建随机序列作为输入文件具有相同的寡核苷酸组成( 斯里兰卡发生器类似)。不过,除此之外,随机序列模仿MRI一个特定的模式,由用户指定。在这个网页的用户应该从列表框中指定的一个特定的MRI模式来模仿。列表框包含所有已在本次会议审议通过核磁共振分析仪(如“userfile_GC_50_35 .. 15”)的模式。使用此选项生成一个随机序列,将选定的输入文件相同的寡核苷酸的组成和相同的GC丰富和扶贫模式,如“ userfile_GC_50_35 .. 15“。 CDS的发电机是用于蛋白质编码序列的随机。它保留一个由用户指定的输入编码相同的氨基酸序列。此外,该方案保留在用户选择的输入表中指定相同的密码子和DI -密码子的偏见。 CDS的发电机的在线版本也可以接受一个输入蛋白质序列。只能通过提供独立的从主基因MRI网页下载的Perl脚本程序的所有其他选项。 7。代表性的成果该协议允许用户研究核苷酸序列组成的不均匀。更重要的是,它也支持各种随机序列寡核苷酸逼近输入序列组成的一代。通常,复杂的真核生物的基因组序列是不均质的构成,而是代表了丰富的特定核苷酸序列片段的复杂镶嵌(例如,丰富的嘌呤,(G + T),丰富的,(A + T)丰富,等)。中档规模(30-1000 BP),这些模式是由蓝色峰值和较低的红色尖峰内容贫乏的分类(参见图1和2)显示所选内容丰富段的核磁共振分析仪的图形输出显示。通常情况下,在任何一个自然顺序(图1)内容丰富,内容贫乏的地区是时间顺序高于地区相应的随机序列的相同类型(图2)具有相同的寡核苷酸的数量组成。这些序列片段与中档核苷酸组成的不均匀性,可能是​​用户感兴趣的。他们是从基因组作进一步调查 MRI输出文件。 图1的核磁共振分析仪从步骤5.7图形输出的一个例子。上一个44人的内含子的样本已取得的结果。蓝色条代表沿着这些内含子富含GC的区域位置。红条代表的GC -差(或)MRI检查AT丰富的地区。 Y轴为给定的内容类型包含的上限和下限。 图2。 核磁共振分析仪输出的随机序列“userfile.rand1_4”。 该图形化CAL代表性的MRI使用SRI的发电机程序在一个随机生成的的序列。 图3:从核磁共振分析仪的文本输出文件的开头的一个例子。 全部内容丰富,内容贫乏的程序中检测到的序列是在过去的(第四位)列。在窗户的数量来衡量,它们的相对位置,显示在第一列。第二和第三列是内容丰富,内容贫乏的地区,分别指标。

Discussion

不均匀中档规模的核苷酸组成(30-1000核苷酸)的地区是在复杂的真核生物的基因组overabundant的,可以找到任何地方(间隔区,内含子,外显子的非翻译区,重复元素)。这些地区经常与异常DNA的构象。例如,purine-/pyrimidine-rich序列往往形成DNA triplexes(H – DNA);交替嘌呤/嘧啶碱基序列与Z – DNA的构象相关的(G + C)丰富的地区表现出的结构异常乙DNA和可容易骨干乳沟;(A + T)丰富的地区可能会形成一个不寻常的的结构 – 一个DNA平仓元素等(2010年费奥多罗夫&Fedorova审查)。一些这些中档的模式(如(G + T)丰富的地区)几乎没有调查,仍有待深入探索和认同。我们的基因组的 MRI Web资源的主要目的是帮助用户为他们进一步的实验分析,并探索其可能的功能磁共振成像地区的鉴定。 MRI的地区的知识可以被纳入,并提高新一代基因预测程序(谢泼德2010年)和推进我们了解基因组的功能和属性。

Disclosures

The authors have nothing to disclose.

Acknowledgements

我们感谢塞缪尔谢泼德,彼得Bazeley,约翰大卫贝尔基因MRI网页管理。这项工作是由美国国家科学基金会职业奖“,内含子细胞的作用研究”[授予MCB – 0643542]。

Materials

  • Computer with Internet
  • Files with nucleotide sequences for examination.

References

  1. Bechtel, J. M., Wittenschlaeger, T., Dwyer, T., Song, J., Arunachalam, S., Ramakrishnan, S. K., Shepard, S., Fedorov, A. Genomic mid-range inhomogeneity correlates with an abundance of RNA secondary structures. BMC Genomics. 9, 284-284 (2008).
  2. Prakash, A., Shepard, S., Mileyeva-Biebesheimer, O., He, J., Hart, B., Chen, M., Amarachiniha, S., Bechtel, J., Fedorov, A. Molecular forces shaping human genomic sequence at mid-range scales. BMC Genomics. 10, 513-513 (2009).
  3. Fedorov, A., Fedorova, L. Chapter 3: An Intricate Mosaic of Genomic Patterns at Mid-range Scale. Advances in Genomic Sequence Analysis and Pattern Discovery. , 65-91 (2010).
  4. Shepard, S. S. Chapter 4: Binary-abstracted Markov models and their application to sequence classificatio. The characterization and utilization of middle-range sequence patterns within human genome [dissertation]. , 57-157 (2010).

Play Video

Cite This Article
Prakash, A., Bechtel, J., Fedorov, A. Genomic MRI – a Public Resource for Studying Sequence Patterns within Genomic DNA. J. Vis. Exp. (51), e2663, doi:10.3791/2663 (2011).

View Video