Alle gebruikte programma's in de krant zijn geschreven met behulp van perl, en alle webpagina's zijn gemaakt met behulp van PHP. 1. Startpunt: Open de homepage van de online Genomic MRI-pakket op http://mco321125.meduohio.edu/ ~ jbechtel / gmri /. Het web bron geeft ook instructies / uitleg over de programma's in de "Help (How-to/README)" link, terwijl alle gepubliceerde materialen op genomic MRI en soortgelijke algoritmen zijn opgenomen in de "Links naar relevante bronnen" link. 2. Voorbereiding en uploaden van Input Sequence (s). Maak een bestand met FASTA-geformatteerde sequentie (s) om een GMRI analyse sessie te starten. Elke nucleotidesequentie in dit formaat moet worden voorafgegaan door een enkele lijn te beginnen met de '>' karakter dat een identifier vertegenwoordigt, gevolgd op dezelfde lijn door een korte beschrijving van deze reeks. Nucleotide-sequenties voor GMRI analyse ook personages als R, Y, N, X, etc. Hwever, non-A, T, C het toelaat, zal G tekens die niet worden verwerkt door het programma en zal worden overgeslagen. Sequenties in die repetitieve elementen zijn "gemaskeerd" (vervangen door "N" s) kan worden gebruikt als input. Merk op dat reeks tekens zijn niet hoofdlettergevoelig. Begin een GMRI sessie door te klikken op de "Start of Resume" knop op de Genomic MRI home page. Dit brengt de gebruiker naar een pagina waar nucleotide sequenties kunnen worden geüpload. Copy-en-plak je FASTA-geformatteerde sequenties of upload een bestand met de sequenties van uw lokale computer met behulp van het "kies bestand" knop. Klik op de "start nieuwe sessie met dit bestand" knop. Een bevestigingsbericht moet worden weergegeven boven de ingang venster waarin staat dat "Uw reeks succesvol is geupload" en je moet ook krijg je een alfanumeriek "GMRI identifier" [de site noemt het een "sessie label"] voor uw sessie (bijv. b16yMj), die kan worden gebruikt op te halen en blijven een sessie voor maximaal twee weken na het eerste gebruik. LET OP: Voortaan de input sequenties worden aangeduid als "userfile". 3. Krijgen een Oligonucleotide frequentieverdeling van de Input sequenties (optioneel). Klik op de "SRI Analyzer" tab (bovenste rij) om een verdeling van de oligonucleotide frequenties voor de gehele set van input sequenties te krijgen. De afkorting SRI staat voor korte afstanden inhomogeniteit. Op dit moment, kan de gebruiker de hoogste lengte van de oligonucleotiden (van 2 tot 9 nucleotiden, standaard 6 gen) voor welke frequenties zal worden berekend. Deze selectie wordt gemaakt door te klikken op de gewenste optie in het "Maximum oligomeer size" keuzelijst. Druk vervolgens op de "Analyze File" knop om de berekening te starten. Een ruwe weergave van de inputsequentie samenstelling verschijnt onmiddellijk als een korte tafel in het midden van deze webpagina en downloadbare als "userfile.comp.tbl". Deze tabel geeft alleen de meest en de minst overvloedige oligonucleotiden in de input sequenties. De gehele frequentie tabel voor alle mogelijke oligonucleotiden wordt gegenereerd als een bestand met de naam "userfile.comp", die verkregen kan worden via de "Download samenstelling file" link. LET OP: SRI analyzer telt de hele verzameling van alle overlappende oligonucleotiden. 4. Genereer willekeurige reeksen met dezelfde Oligonucleotide samenstelling als in de Input Sequences (optioneel). (Voltooiing van stap 3 van het protocol is nodig voor deze taak). Klik op de "SRI Generator" tab (bovenste rij) te openen een nieuwe webpagina die willekeurige reeksen creëert. Kies het aantal monsters van willekeurige sequenties worden gegenereerd met behulp van de keuzelijst op deze webpagina. Elk van deze sample bestanden bevatten willekeurige sequenties van hetzelfde aantal en de lengte als de input sequenties in "userfile". Bovendien, als een input sequentie bevat niet-A, T, C, G of tekens, de willekeurige volgorde zal "N" s hebben op exact dezelfde posities als in de input volgorde. Kies de langste lengte van oligonucleotiden die frequenties zullen worden benaderd in de random sequenties. Dit kan worden gekozen door het controleren van de radio knop voor de gewenste oligomeer-niveau (bijv. "4-mers 'voor vier-base oligonucleotiden) in de tabel in het midden van het scherm. Het is om hier te worden opgemerkt dat de willekeurige reeksen zal bestaan uit niet alleen de geschatte frequenties op de gekozen oligomeer niveau, maar ook de bijbehorende frequenties van kortere oligomeer niveaus, zoals in de input sequenties. Kleine schommelingen in de oligonucleotidefrequenties van de input en willekeurige reeksen zijn mogelijk te wijten aan de Markov Model procedure die wordt toegepast voor het genereren van willekeurige reeksen. Start het programma door te klikken op "Generate File" knop. Als de ingang sequenties zijn groot is, kon een paar minuten om willekeurige reeksen te genereren. Daarom moet een gebruiker wachten tot blue "Download" links onderaan deze pagina. De willekeurige sets zijn geplaatst in bestanden met namen zoals "userfile.randX_Y", waarbij X is het nummer van de willekeurige set en Y is het gekozen oligomeer-niveau (bv "userfile_rand2_4"). 5. Analyse van de Mid-Range inhomogeniteit (MRI) van de Input en Random sequenties. Klik op de "MRI Analyzer" tab (bovenste rij), die opent een nieuwe webpagina die de mid-range inhomogeniteit van de nucleotide samenstelling van sequenties analyses. Selecteer een sequentie worden geanalyseerd uit de keuzelijst (een keuze tussen de inputsequentie en behaalde sets van willekeurige sequenties kunnen hier worden gemaakt) "Bestand om te analyseren". Kies het type inhoud van de MRI te analyseren via de meegeleverde keuzelijst. (Zeven content opties zijn beschikbaar: G + C; G + A, G + T, A, G, C, of T.) Kies de lengte van het venster voor die content-rijke en content-armen sequenties zal worden onderzocht via de "Window size" keuzelijst (standaard is 50 nucleotiden, het geldige bereik van 30 tot 1000). Kies de bovenste drempel en onderste drempel voor content-rijke en content-arme regio's, respectievelijk. Deze drempels kunnen worden gedefinieerd door de exacte aantal specifieke nucleotiden in het huidige venster (met behulp van het door het aantal optie in de keuzelijst) of door het percentage van deze nucleotiden in het venster (met behulp van de door percentage optie) Nadat alle vijf keuzes zijn gemaakt (bijvoorbeeld: Sequence = "userfile" Content = GC; Window size = 50; bovenste drempel = 35; Lagere drempel = 15), beroep doen op het programma door te drukken op de Analyseer knop Bestand. Het programma scant alle sequenties van de geselecteerde ingang achter elkaar. Bij elke stap die het verkrijgt een segment van de huidige sequentie met een lengte, gelijk aan de opgegeven venstergrootte en berekent of het aantal of percentage van de nucleotiden van het gekozen content is boven de bovenste drempel of onder de lagere drempel. Als het venster niet overeenkomt met beide criteria voldoen, is de volgende overlappende venster (verschoven door een nucleotide) geselecteerd voor dezelfde analyse. Wanneer een venster wordt gevonden waar de volgorde aan een van de drempel voor content-rijke of arme samenstelling, het programma slaat de volgorde van dit venster in het output bestand en genereert een piek op de grafische output. Na dit, het programma springt naar de volgende niet-overlappende aangrenzende venster en hervat het scanproces tot het einde van de reeks is bereikt. Na afronding van de opleiding, een link naar het output bestand (met de naam "userfile_GC_50_35 .. 15" voor het bovenstaande voorbeeld), verschijnt en een grafische weergave van de resultaten is weergegeven in het midden van de webpagina (zie Figuur 1). Op dit grafisch display alle invoer-sequenties uit het userfile worden samengevoegd tot een string en gepresenteerd als een horizontale zwarte lijn op de X-as, met een lengte in kilobasen (kb) hieronder weergegeven. Alle content-rijke regio's langs ingang sequenties worden aangeduid als blauwe "naar boven" spikes, en content-arme regio's als rode "naar beneden" spikes. Het totale aantal content-rijke en content-arme ramen zijn weergegeven in parenthses in de legenda aan de onderkant van deze figuur (32 en 19, respectievelijk). De figuur illustreert de relatieve rijkdom aan en de inrichting van MRI regio's. Ondertussen specifieke details worden gepresenteerd in de output file (zie figuur 3). In dit dossier zijn alle nucleotidesequentie segmenten die content-rijk of arm-criteria en hun coördinaten passen zijn beschikbaar voor een gebruiker als een lijst op basis van hun opeenvolgende posities langs de input-bestand. Na afronding van MRI-analyse voor de gekozen volgorde een gebruiker kan beginnen met een nieuw proces in dezelfde webpagina door het maken van wijzigingen aan parameters en / of input-bestanden. Bijvoorbeeld, in het onderzoek van de eerder gegenereerde willekeurige steekproef # 1 met dezelfde MRI-parameters, de gebruiker hoeft alleen maar het bestand te wijzigen om te analyseren en de optie "userfile_rand1_4" bestand te selecteren, en druk nogmaals op de Analyseer knop Bestand. Een nieuw bestand en grafische weergave vervangt de oude. De resultaten en cijfers van alle examens onder elke "sessie lable" (GMRI identifier) wordt opgeslagen en beschikbaar zijn voor twee weken na de laatste activiteit. Om de resultaten / vijg op te slaanlen permanent, moet de gebruiker selecteert u de "Download Files" tab (bovenste rij) en download de volledige sessie of individuele bestanden, als dat nodig is. Met deze MRI Analyzer web pagina van een gebruiker kunnen studeren (G + C)-rijk en (A + T) gebieden met een rijke Purine (A + G)-rijk en pyrimidine (C + T) gebieden met een rijke Keto (G + T)-rijk en amino (A + C) gebieden met een rijke A-rijk en A-arme regio's G-rijk en G-arme regio's T-rijke en T-arme regio's C-rijke en C-arme regio's De nieuwste versie van Genomische MRI heeft een nieuwe optie voor het bestuderen van de regio's rijk aan purine (R) / pyrimidine (Y) afwisseling patronen die kunnen vormen Z-DNA conformaties. Momenteel is deze optie is beschikbaar via de link "Z-DNA" en het werkt op dezelfde basis als de andere genoemde MRI regio's. Een gebruiker moet kiezen boven-en lagere drempels voor het aantal (RY + YR) overlappende dinucleotiden in het scanvenster. Het programma geeft een soortgelijke grafische output en een bestand van DNA-segmenten verrijkt en verarmd door afwisselend purines en pyrimidines. De vermeende Z-DNA-regio's moeten zeer worden verrijkt door afwisselend R / Y bases (zie recensie F & F 2011). 6. Aanvullende programma's binnen de Genomic MRI Package (optioneel). Het Genomic MRI bron heeft ook twee geavanceerde opties voor het genereren van zeer specifieke willekeurige sequenties. Ze zijn verkrijgbaar via de "MRI-Generator" en "CDS Generator 'tabs in de bovenste rij. MRI-generator creëert gerandomiseerde sequenties met dezelfde oligonucleotide samenstelling als de input file (vergelijkbaar met SRI generator). Maar naast, gerandomiseerde sequenties na te bootsen een bepaalde MRI-patroon door de gebruiker opgegeven. Binnen deze webpagina een gebruiker moet worden bepaald uit een keuzelijst een bepaalde MRI-patroon te worden nagebootst. De keuzelijst bevat alle patronen die zijn in deze sessie onderzocht door MRI-analyzer (bijv. "userfile_GC_50_35 .. 15"). Een willekeurige volgorde gegenereerd met deze optie hebben dezelfde oligonucleotide samenstelling als de geselecteerde ingang bestand en ook dezelfde GC-rijk en arm-patronen zoals te zien in "userfile_GC_50_35 .. 15". CDS generator wordt gebruikt voor randomisatie van eiwit-coderende sequenties. Het behoudt dezelfde aminozuursequentie als een gecodeerd door de gebruiker opgegeven input. Naast het programma behoudt hetzelfde codon en di-codon vooroordelen zoals gespecificeerd in de door de gebruiker gekozen ingang tafel. De online versie van de CDS generator accepteert ook een eiwitsequentie als een input. Alle andere opties voor het programma worden aangeboden alleen via stand-alone Perl scripts beschikbaar om te downloaden van de belangrijkste Genomic MRI webpagina. 7. Representatieve resultaten Dit protocol kan een gebruiker te studeren compositorische inhomogeniteit van nucleotidesequenties. Belangrijker nog, het ondersteunt ook het genereren van een groot aantal gerandomiseerde sequenties met een oligonucleotide samenstelling nagenoeg overeenkomt met die van de input sequenties. Meestal genomische sequenties van complexe eukaryoten niet homogeen van samenstelling, maar vormen een complex mozaïek van sequentie segmenten verrijkt met bepaalde nucleotiden (bijvoorbeeld, purine-rijke, (G + T)-rijk, (A + T)-rijke, enz.). Deze patronen bij mid-range schaal (30 tot 1.000 bp) worden gevisualiseerd door de grafische output van MRI-analyzer die content-rijke segmenten shows geselecteerd als bovenste blauwe pieken en content-arme segmenten als onderste rode spikes (zie de figuren 1 en 2). Typisch, het aantal van een content-rijke en content-arme regio's in een natuurlijke volgorde (figuur 1) is in de orde van malen hoger dan het aantal van dezelfde soorten van regio's in overeenkomstige gerandomiseerde sequenties (figuur 2) met dezelfde oligonucleotide samenstelling. Deze volgorde segmenten met mid-range inhomogeniteit in nucleotide samenstelling van belang kan zijn voor de gebruiker. Ze zijn verkrijgbaar bij de Genomic MRI-output bestanden voor verder onderzoek. Figuur 1. Een voorbeeld van de MRI-analyzer grafische uitvoer van stap 5.7. De resultaten zijn verkregen op een steekproef van 44 mensen introns. Blauwe balken vertegenwoordigen posities van GC-rijke regio's langs deze introns. Rode staven geven GC-arme (of AT-rijk) MRI regio's. De y-as bevat boven-en lagere drempels voor de gegeven content type. Figuur 2. MRI analyzer uitgang voor de willekeurige volgorde "userfile.rand1_4". De Graphische voorstelling van MRI in een willekeurig gegenereerde reeks met behulp van het SRI-generator-programma. Figuur 3. Een voorbeeld van het begin van een tekstuele output file van MRI-analyzer. Alle content-rijke en content-armen sequenties gedetecteerd door het programma worden gepresenteerd in de laatste (vierde) kolom. Hun relatieve posities, gemeten in het aantal ramen, worden getoond in de eerste kolom. De tweede en derde kolom zijn indicatoren voor content-rijke en content-arme regio's, respectievelijk.