Genomic MRI - a Public Resource for Studying Sequence Patterns within Genomic DNA

Genomic MRI - eine öffentliche Ressource für ein Studium Sequence Patterns in genomischer DNA

Published: May 09, 2011

doi:

Ashwin Prakash, Jason Bechtel, Alexei Fedorov

¹Department of Medicine,University of Toledo Health Science Campus

Summary

Wir präsentieren eine öffentliche Computational Website für die Analyse von genomischen Sequenzen. Es erkennt DNA-Sequenz-Muster mit verschiedenen nicht-zufällige Nukleotid Kompositionen. Diese Ressource erzeugt auch randomisierte Sequenzen mit verschiedenen Ebenen der Komplexität.

Abstract

Nicht-codierende genomische Regionen in komplexen Eukaryonten, einschließlich intergenischen Bereichen, Introns und nicht übersetzte Segmente des Exons, sind zutiefst nicht-zufällige in ihrer Nukleotid-Zusammensetzung und bestehen aus einem komplexen Mosaik von Sequenz-Muster. Diese Muster sind so genannte Mid-Range Inhomogenität (MRI)-Regionen – Sequenzen 3-10 Nukleotiden Länge, die von einer bestimmten Basis oder eine Kombination von Basen angereichert sind (z. B. (G + T)-reiche, Purin-reiche, etc. ). MRI Regionen mit ungewöhnlichen (non-B-Form) DNA-Strukturen, die oft in der Regulation der Genexpression, Rekombination und andere genetische Prozesse (Fedorova & Fedorov 2010) beteiligt sind, verbunden. Die Existenz einer starken Fixierung Bias innerhalb MRI Regionen gegen Mutationen, die zur Verringerung ihrer Reihenfolge Inhomogenität unterstützt zusätzlich die Funktionalität und die Bedeutung dieser genomischen Sequenzen (Prakash et al. 2009) neigen.

Hier zeigen wir eine frei verfügbare Internet-Ressource – die Genomic MRI-Programm-Paket – (. Bechtel et al 2008) für computergestützte Analyse von genomischen Sequenzen entworfen, um zu finden und zu charakterisieren verschiedene MRT-Muster in ihnen. Dieses Paket erlaubt die Erzeugung von randomisierten Sequenzen mit verschiedenen Eigenschaften und das Niveau der Korrespondenz, die die natürliche Eingabe-DNA-Sequenzen. Das Hauptziel dieser Ressource ist, die Prüfung der weiten Gebieten der nicht-kodierenden DNA, die noch kaum erforscht und warten auf gründliche Erforschung und Anerkennung zu erleichtern.

Protocol

Alle verwendeten Programme in das Papier geschrieben wurden, die Perl-, und alle Web-Seiten wurden erstellt mit Hilfe von PHP. 1. Ausgangspunkt: Öffnen Sie die Startseite des Online-Genomic MRI-Paket an http://mco321125.meduohio.edu/ ~ jbechtel / gmri /. Die Web-Ressource enthält auch Anweisungen / Erläuterungen zu den Programmen in der "Hilfe (How-to/README)"-Link, während alle veröffentlichten Materialien auf Genomic MRI und ähnliche Algorithmen in der "Links zu relevanten Ressourcen" aufgeführt Link. 2. Vorbereitung und Hochladen von Eingabesequenz (s). Erstellen Sie eine Datei mit FASTA-Format-Sequenz (en) zu einem GMRI Analyse-Sitzung zu starten. Jedes Nukleotid-Sequenz in diesem Format müssen mit einer einzigen Zeile, beginnend mit dem Zeichen ">", dass eine Kennung darstellt, auf der gleichen Linie durch eine kurze Beschreibung dieser Sequenz vorangestellt werden. Nukleotidsequenzen für GMRI Analyse erlaubt auch Zeichen wie R, Y, N, X, etc. Hwever, non-A, T, C, wird G-Zeichen vom Programm nicht verarbeitet werden und wird übersprungen. Sequenzen, in denen sich wiederholende Elemente wurden "maskiert" (ersetzt durch "N" s) als Eingang verwendet werden. Beachten Sie, dass Sequenz Zeichen Groß-und Kleinschreibung sind. Beginnen Sie ein GMRI Sitzung, indem Sie auf die Schaltfläche "Start oder Fortsetzen"-Taste auf der Genomic MRI-Homepage. Dies nimmt der Anwender auf eine Seite, wo Nukleotidsequenzen hochgeladen werden können. Copy-and-paste Ihre FASTA-Format-Sequenzen oder laden Sie eine Datei mit den Sequenzen von Ihrem lokalen Rechner mit dem "Datei auswählen" klicken. Klicken Sie auf "Neue Sitzung starten mit dieser Datei"-Taste. Eine Bestätigung sollte über dem Eingabefenster die besagt, dass "Ihre Reihenfolge wurde erfolgreich hochgeladen" und sollten Sie auch eine alphanumerische "GMRI Kennung" [Die Website nennt es eine "Session-label"] für Ihre Sitzung (zB b16yMj), erscheinen die kann verwendet werden, um abrufen und weiterhin eine Sitzung für bis zu zwei Wochen nach der ersten Verwendung werden. HINWEIS: Von nun an den Eingang Sequenzen werden als "userfile" bezeichnet. 3. Holen Sie sich ein Oligonukleotid Häufigkeitsverteilung der Eingabesequenzen (optional). Klicken Sie auf das "SRI Analyzer"-Reiter (obere Reihe), um eine Verteilung von Oligonukleotid-Frequenzen für die gesamte Menge der Input-Sequenzen erhalten. Die Abkürzung SRI steht für die Kurzstrecken-Inhomogenität. An dieser Stelle kann der Benutzer angeben, die höchste Länge der Oligonukleotide (von 2 bis 9 Nukleotide, Standard 6 Nächte) für die Frequenzen berechnet werden. Diese Auswahl wird durch einen Klick auf die gewünschte Option im Rahmen des "Maximum Oligomer size" Listenfeld aus. Dann drücken Sie die "Analyze File"-Taste, um Rechenzeit zu initiieren. Eine grobe Darstellung der Input-Sequenz Zusammensetzung wird sofort als eine kurze Tabelle erscheinen in der Mitte dieser Web-Seite und zum Download als "userfile.comp.tbl". Diese Tabelle stellt nur die meisten und am wenigsten reichlich Oligonukleotide innerhalb des Eingangs-Sequenzen. Die gesamte Frequenz-Tabelle für alle möglichen Oligonukleotiden als eine Datei namens "userfile.comp", die über den "Download Zusammensetzung file" Link erreicht werden kann erzeugt werden. HINWEIS: SRI-Analysator zählt die gesamte Menge aller überlappenden Oligonukleotiden. 4. Generate Random-Sequenzen mit dem gleichen Oligonukleotid-Zusammensetzung wie in den Input-Sequenzen (optional). (Abschluss von Schritt 3 des Protokolls ist für diese Aufgabe erforderlich). Klicken Sie auf das "SRI Generator"-Reiter (obere Reihe) zu öffnen, eine neue Webseite, die zufälligen Sequenzen erzeugt. Wählen Sie die Anzahl der Proben von zufälligen Sequenzen generiert mit dem Listenfeld auf dieser Web-Seite sein. Jede dieser Probe Dateien zufälligen Sequenzen der gleichen Anzahl und Länge als Eingabe-Sequenzen in "userfile" enthalten. Außerdem, wenn eine Eingabe-Sequenz enthält non-A, T, C oder G-Zeichen, die zufälliger Reihenfolge wird "N" s genau den gleichen Positionen wie in der Eingangssequenz zu haben. Wählen Sie die längste Länge der Oligonukleotide für die Frequenzen in der zufälligen Sequenzen angenähert werden. Dies kann durch die Überprüfung der Radio-Button für den gewünschten Oligomer Ebene (zB "4-mers" für Vier-Sockel-Oligonukleotide) in der Tabelle in der Mitte des Bildschirms ausgewählt werden. Es sei hier angemerkt werden, dass zufällige Sequenzen werden nicht nur die ungefähre Frequenzen bei der gewählten Oligomer Ebene, sondern auch die entsprechenden Frequenzen von kürzeren Oligomeren Ebenen, wie in der Input-Sequenzen bestehen. Kleine Schwankungen in der Oligonukleotid-Frequenzen von Eingangs-und zufälligen Sequenzen sind möglich aufgrund der Markov-Modell Verfahren für die Erzeugung von zufälligen Sequenzen angewendet. Starten Sie das Programm, indem Sie auf "Generate File"-Taste. Wenn die Eingabe-Sequenzen groß sind kann es auch ein paar Minuten, um zufälligen Sequenzen zu erzeugen. So sollte ein Benutzer warten, bis die blaue "Download" links am unteren Rand der Seite erscheinen. Die zufällige Mengen werden in Dateien mit Namen wie "userfile.randX_Y", wobei X die Anzahl der zufälligen Satz und Y ist die gewählte Oligomer Ebene (zB "userfile_rand2_4") platziert. 5. Die Analyse der Mid-Range Inhomogenität (MRI) des Eingangs-und Zufalls-Sequenzen. Klicken Sie auf das "MRI Analyzer"-Reiter (obere Reihe), der sich öffnet, eine neue Web-Seite, die Mid-Range-Inhomogenität der Nukleotid-Zusammensetzung von Sequenzen analysiert. Wählen Sie eine Sequenz aus dem analysiert werden Listenfeld (eine Auswahl zwischen den Eingangs-Sequenz und generiert Sätze von zufälligen Sequenzen können hier gemacht werden) "File zu analysieren." Wählen Sie die Art des Inhalts der MRT über den vorgesehenen Listenfeld analysiert werden. (Seven Content-Optionen sind verfügbar: G + C, G + A, G + T, A, G, C oder T.) Wählen Sie die Länge des Fensters für die inhaltsreiche und Content-poor-Sequenzen über das "Window size" Listenfeld (Standard ist 50 Nukleotide, die gültige Bereich liegt zwischen 30 bis 1000) untersucht werden. Wählen Sie die obere Schwelle und unterer Schwelle für inhaltsreiche und Content-armen Regionen bzw.. Diese Schwellenwerte können durch die genaue Anzahl der bestimmte Nukleotide in das aktuelle Fenster (mit dem nach Anzahl Option im Listenfeld) oder durch Prozentsatz dieser Nukleotide in das Fenster definiert werden (mit dem prozentual Option) Nachdem alle fünf Entscheidungen getroffen wurden (zum Beispiel: Sequence = "userfile"; Content = GC; Fenstergröße = 50; Obere Schwelle = 35; Untere Schwelle = 15), rufen Sie das Programm, indem Sie die Datei analysieren Taste. Das Programm durchsucht alle Sequenzen aus dem gewählten Eingang nacheinander. Bei jedem Schritt erhält es ein Segment der aktuellen Sequenz mit einer Länge gleich dem angegebenen Fenstergröße und berechnet, ob die Anzahl oder den Prozentsatz von Nukleotiden der gewählten Inhalt über dem oberen Schwellenwert oder unter dem unteren Grenzwert liegt. Wenn das Fenster nicht zutrifft Kriterien, wird die nächste überlappende Fenster (verschoben um ein Nukleotid) für die gleiche Analyse ausgewählt. Wenn ein Fenster zu finden ist, wo die Sequenz trifft man auf der Schwelle für Content-reich oder arm-Zusammensetzung, speichert das Programm die Reihenfolge der Fenster in der Ausgabe-Datei und erzeugt einen Spike auf die grafische Ausgabe. Danach springt das Programm auf den nächsten nicht-überlappenden benachbarten Fenster und setzt den Scan-Vorgang bis zum Ende der Sequenz erreicht ist. Nach Abschluss des Programms, erscheint ein Link, um die Ausgabe-Datei (mit dem Namen "userfile_GC_50_35 .. 15" für das Beispiel oben) und eine grafische Darstellung der Ergebnisse ist in der Mitte der Web-Seite angezeigt (siehe Abbildung 1). Auf dieser grafischen Darstellung aller Input-Sequenzen aus dem userfile sind in einer einzigen Zeichenfolge verkettet und als eine horizontale schwarze Linie auf der X-Achse, mit der Länge in Kilobasen (kb) unten gezeigt. Alle Inhalte reichen Regionen entlang Eingang Sequenzen sind so blau "nach oben" Spikes und Content-armen Regionen als rot "nach unten" Spikes markiert. Die Gesamtzahl der inhaltsreichen und Content-poor-Fenster sind in parenthses in der Legende am unteren Rand dieser Zahl (32 bzw. 19) dargestellt. Die Abbildung dient dazu, die relative Häufigkeit und die Anordnung der MRI Regionen zu veranschaulichen. In der Zwischenzeit spezifische Details werden in der Ausgabedatei (siehe Abbildung 3) vorgestellt. In dieser Datei sind alle Nukleotidsequenz Segmente, die Content-reich oder arm-Kriterien und deren Koordinaten entsprechen einem Benutzer zur Verfügung, wie eine Liste nach ihren aufeinanderfolgenden Positionen entlang der Eingabedatei. Nach Abschluss der MRI-Analyse für die gesuchte Sequenz kann ein Benutzer ein neues Verfahren in der Web-Seite zu starten, indem Sie Änderungen von Parametern und / oder Eingabe-Dateien. Zum Beispiel, um die zuvor generierten Stichprobe Nr. 1 mit der gleichen MRT-Parameter zu untersuchen, der Benutzer muss nur die Datei ändern, um Option zu analysieren und die Option "userfile_rand1_4"-Datei, und drücken Sie dann die Datei analysieren Taste erneut. Eine neue Datei und grafische Darstellung wird die alte ersetzen. Die Ergebnisse und Zahlen aller Untersuchungen unter jeder "Sitzung Label" (GMRI Identifier) werden gespeichert und stehen für zwei Wochen aus der letzten Aktivität. Um die Ergebnisse speichern / Bildnahmen permanent, sollte der Benutzer wählen Sie den "Download Dateien" (obere Reihe) und laden Sie die gesamte Sitzung oder einzelne Dateien, wie gebraucht. Mit dieser MRI Analyzer Web-Seite kann ein Benutzer-Studie (G + C)-reiche und (A + T)-reichen Regionen Purin-(A + G)-reiche und Pyrimidin (C + T)-reichen Regionen Keto (G + T)-reiche und Aminosäuren (A + C)-reichen Regionen A-reiche und A-armen Regionen G-reiche und G-armen Regionen T-reich und T-armen Regionen C-reiche und C-armen Regionen Die neueste Version von Genomic MRI hat eine neue Option für das Studium Regionen reich an Purin (R) / Pyrimidin-(Y) Wechsel Muster, die Z-DNA Konformation bilden könnten. Derzeit ist diese Option zur Verfügung unter dem Link "Z-DNA" und es funktioniert auf der gleichen Grundlage wie die anderen erwähnten MRI Regionen. Ein Anwender muss zuerst obere und untere Schwellenwerte für die Anzahl der (RY + YR) überlappenden Dinukleotide in der Scan-Fenster. Das Programm erzeugt eine ähnliche grafische Ausgabe und eine Datei von DNA-Segmenten bereichert und durch abwechselnde Purine und Pyrimidine erschöpft. Der vermeintliche Z-DNA-Regionen müssen stark von wechselnden R / Y-Basen angereichert werden (siehe Review F & F 2011). 6. Zusätzliche Programme innerhalb der genomischen MRI-Paket (optional). Das Genomic MRI Ressource hat auch zwei erweiterte Optionen für die Erzeugung von sehr spezifischen zufälligen Sequenzen. Sie sind durch das "MRI Generator" und "CDS Generator" Registerkarten in der oberen Reihe zur Verfügung. MRI-Generator erstellt randomisierten Sequenzen mit dem gleichen Oligonukleotid Zusammensetzung wie die Eingabedatei (ähnlich wie SRI-Generator). Doch darüber hinaus imitieren randomisierten Sequenzen einer bestimmten MRI-Muster durch den Anwender vorgegeben. Innerhalb dieser Web-Seite eines Benutzers sollte aus einem Listenfeld einen besonderen MRI Muster nachgeahmt werden. Die Liste enthält alle Muster, die in dieser Sitzung wurden von MRI-Analysator (zB "userfile_GC_50_35 .. 15") untersucht. Ein zufälliger Reihenfolge mit dieser Option generiert haben die gleiche Zusammensetzung wie das Oligonukleotid ausgewählt Eingabedatei und auch die gleiche GC-reich und die Armen Muster wie in "userfile_GC_50_35 .. 15" gesehen. CDS-Generator ist für die Randomisierung von Protein kodierenden Sequenzen verwendet. Es bewahrt die gleiche Aminosäuresequenz wie das von den vom Benutzer angegebenen Eingang codiert. Neben dem Programm bleibt die gleiche Codon und di-Codon Verzerrungen, wie in der vom Benutzer gewählten Eingang Tabelle angegeben. Die Online-Version des CDS-Generator akzeptiert auch eine Proteinsequenz als Eingang. Alle anderen Optionen für das Programm sind nur über Stand-alone-Perl-Skripte zum Download zur Verfügung von der Hauptstraße Genomic MRI Webseite angeboten. 7. Repräsentative Ergebnisse Dieses Protokoll ermöglicht es einem Benutzer, kompositorische Inhomogenität der Nukleotid-Sequenzen zu untersuchen. Wichtig ist, es unterstützt auch die Erzeugung einer Vielzahl von randomisierten Sequenzen mit einem Oligonucleotid Zusammensetzung annähert, dass der Eingangs-Sequenzen. In der Regel werden genomischen Sequenzen von komplexen Eukaryonten nicht in der Zusammensetzung homogen, sondern bilden vielmehr ein komplexes Mosaik aus Sequenzabschnitte durch bestimmte Nukleotide angereichert (z. B. Purin-reiche, (G + T)-reiche, (A + T)-reiche, etc.). Diese Muster bei Mid-Range-Skala (3-10 bp) visualisiert werden durch die grafische Ausgabe des MRI-Analyzer, inhaltsreichen Segmente ausgewählt zeigt als obere blaue Spitzen-und Content-armer als untere rote Spitzen (siehe Abbildungen 1 und 2). Typischerweise ist die Anzahl der Inhalte-reich und content-armen Regionen in einer natürlichen Reihenfolge (Abbildung 1) in der Größenordnung von Mal höher als die Zahl der die gleichen Typen von Regionen in entsprechenden randomisierten Sequenzen (Abbildung 2) mit dem gleichen Oligonukleotid Zusammensetzung. Diese Sequenzabschnitte mit Mid-Range-Inhomogenität in Nukleotid-Zusammensetzung kann von Interesse für den Benutzer sein. Sie sind aus dem Genomic MRI Ausgabedateien für weitere Untersuchungen. Abbildung 1. Ein Beispiel für die MRI-Analysator grafische Ausgabe von Schritt 5.7. Die Ergebnisse wurden anhand einer Stichprobe von 44 menschlichen Introns erhalten worden. Blaue Balken repräsentieren Positionen der GC-reichen Regionen entlang dieser Introns. Rote Balken repräsentieren GC-armen (oder AT-reiche) MRI Regionen. Die y-Achse enthält obere und untere Grenzwerte für die gegebene Art des Inhalts. Abbildung 2. MRI-Analysator-Ausgang für den zufälligen Sequenz "userfile.rand1_4". Die grafischecal Darstellung der MRI innerhalb einer zufällig generierten Sequenz mit dem SRI-Generator Programm. Abbildung 3. Ein Beispiel für den Beginn einer Textausgabe Datei von MRI-Analysator. Alle Content-reiche und die Inhalte der Armen-Sequenzen durch das Programm erkannt werden in der letzten (vierten) Spalte dargestellt. Ihre relativen Positionen, in die Anzahl der Fenster gemessen werden, sind in der ersten Spalte angezeigt. Die zweiten und dritten Spalte sind Indikatoren für Content-reiche und Content-armen Regionen bzw..

Discussion

Regionen mit inhomogener Nukleotid-Zusammensetzung bei Mid-Range-Skalen (3-10 Nukleotide) sind überreich in den Genomen von komplexen Eukaryonten und kann überall gefunden werden (intergenischen Regionen, Introns, untranslatierten Regionen der Exons, repetitive Elemente). Diese Regionen sind häufig mit ungewöhnlichen DNA-Konformationen zugeordnet. Zum Beispiel neigen purine-/pyrimidine-rich Sequenzen DNA Triplexen (H-DNA) bilden; Sequenzen mit alternierenden Purin / Pyrimidin-Basen sind mit Z-DNA Konformation verbunden sind; (G + C)-reichen Regionen weisen strukturelle Anomalien in B- DNA und könnte anfällig für Backbone-Spaltung; (A + T)-reiche Regionen bilden könnte eine ungewöhnliche Struktur – eine DNA Abwickeln Element; etc. (Bewertung von Fedorov & Fedorova 2010). Einige dieser Mid-Range-Mustern (zB (G + T)-reiche Regionen) sind kaum untersucht und warten noch auf gründliche Erforschung und Anerkennung. Das Hauptziel unserer Genomic MRI Web-Ressource für Benutzer in der Identifizierung dieser MRI Regionen für ihre weitere experimentelle Analyse und für die Erforschung ihrer möglichen Funktionen helfen. Die Kenntnis der MRI Regionen könnten in einbezogen werden und zur Verbesserung der neuen Generation von Gen-Vorhersage-Programmen (Shepard 2010) und unser Verständnis des Genoms Funktionen und Eigenschaften.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Wir sind dankbar, dass Samuel Shepard, Peter Bazeley und John David Bell für die Verwaltung des Genomic MRI Web-Seiten. Diese Arbeit wurde vom National Science Foundation Career Award "Untersuchung der Introns zellulärer Funktionen" unterstützt [Grantnummer MCB-0643542].

Materials

Computer with Internet
Files with nucleotide sequences for examination.

References

Bechtel, J. M., Wittenschlaeger, T., Dwyer, T., Song, J., Arunachalam, S., Ramakrishnan, S. K., Shepard, S., Fedorov, A. Genomic mid-range inhomogeneity correlates with an abundance of RNA secondary structures. BMC Genomics. 9, 284-284 (2008).
Prakash, A., Shepard, S., Mileyeva-Biebesheimer, O., He, J., Hart, B., Chen, M., Amarachiniha, S., Bechtel, J., Fedorov, A. Molecular forces shaping human genomic sequence at mid-range scales. BMC Genomics. 10, 513-513 (2009).
Fedorov, A., Fedorova, L. Chapter 3: An Intricate Mosaic of Genomic Patterns at Mid-range Scale. Advances in Genomic Sequence Analysis and Pattern Discovery. , 65-91 (2010).
Shepard, S. S. Chapter 4: Binary-abstracted Markov models and their application to sequence classificatio. The characterization and utilization of middle-range sequence patterns within human genome [dissertation]. , 57-157 (2010).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Prakash, A., Bechtel, J., Fedorov, A. Genomic MRI – a Public Resource for Studying Sequence Patterns within Genomic DNA. J. Vis. Exp. (51), e2663, doi:10.3791/2663 (2011).

Genomic MRI - eine öffentliche Ressource für ein Studium Sequence Patterns in genomischer DNA

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

Genomic MRI - eine öffentliche Ressource für ein Studium Sequence Patterns in genomischer DNA

Summary

Abstract

Protocol

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below