Summary

Het analyseren van tumor genexpressie factoren met de CorExplorer Web Portal

Published: October 11, 2019
doi:

Summary

We introduceren de CorExplorer Web Portal, een bron voor verkenning van tumor RNA sequencing factoren gevonden door de machine learning-algoritme CorEx (correlatie toelichting), en laten zien hoe factoren kunnen worden geanalyseerd ten opzichte van overleving, database annotaties, eiwit-eiwit interacties, en elkaar om inzicht te krijgen in de tumor biologie en therapeutische interventies.

Abstract

Differentiële genexpressie analyse is een belangrijke techniek voor het begrijpen van ziektetoestanden. Het machine learning-algoritme CorEx toont nut bij het analyseren van differentiële expressie van groepen van genen in tumor RNA-SEQ op een manier die nuttig kan zijn voor het bevorderen van precisie-oncologie. CorEx produceert echter veel factoren die een uitdaging kunnen zijn om te analyseren en verbinding te maken met bestaand inzicht. Om dergelijke verbindingen te faciliteren, hebben we een website, CorExplorer, gebouwd die gebruikers in staat stelt om interactief de gegevens te verkennen en gemeenschappelijke vragen met betrekking tot de analyse te beantwoorden. We hebben CorEx getraind op RNA-SEQ-genexpressie gegevens voor vier tumortypen: ovariële, Long-, melanomen en colorectale. Vervolgens hebben we overeenkomstige overleving, eiwit-eiwit interacties, Genontologie (GO) en Kyoto encyclopedie van genen en Genomes (KEGG) pathway enrichments en Heatmaps in de website opgenomen voor koppeling met de visualisatie van de factor grafiek. Hier gebruiken we voorbeeld protocollen om het gebruik van de database te illustreren voor het begrijpen van de betekenis van de geleerde tumor factoren in de context van deze externe gegevens.

Introduction

Sinds de introductie iets meer dan een decennium geleden, RNA-SEQ is uitgegroeid tot een alomtegenwoordige instrument voor het meten van genexpressie1. Dit is omdat het maakt snelle en goedkope de Novo profilering van de volledige transcriptome van een monster. Echter, RNA-SEQ tumor gegevens weerspiegelt een onderliggende biologie die intrinsiek complex en vaak onderbemonsterd, terwijl de gegevens zelf is hoog-dimensionale en luidruchtig. Dit vormt een belangrijke uitdaging voor het extraheren van betrouwbare signalen. Het COREX-algoritme maakt gebruik van multivariate wederzijdse informatie om subtiele patronen te vinden in dergelijke situaties2,3 . Deze techniek was eerder aangepast voor het analyseren van ovariële tumor RNA-SEQ monsters van de kanker genoom Atlas (TCGA) en in deze context leek het aanzienlijke voordelen te hebben ten opzichte van meer algemeen gebruikte analysemethoden4.

Hoewel het gebruik van RNA-SEQ enorm wijdverbreid is in onderzoekstoepassingen, waaronder in oncologie, hebben deze inspanningen niet geleid tot een breed gebruik ten behoeve van klinische interventies5. Een deel van de reden hiervoor is een gebrek aan gebruiksvriendelijke algoritmen en software die is gericht op deze specifieke problemen. Om deze kloof te overbruggen, hebben we het CorExplorer webportaal ontworpen om onderzoekers van verschillende achtergronden in staat te stellen genexpressie factoren van tumor RNA-SEQ-monsters te bestuderen, zoals gevonden door het CorEx machine learning-algoritme. De corexplorer Portal ondersteunt interactieve visualisatie en opvragen van factoren uit verschillende tumortypen, waaronder Long, Colon, melanoma en ovariële6,7,8,9, 10, met de bedoeling onderzoekers te helpen door de gegevens correlaties te sieren en kandidaattrajecten te identificeren om patiënten voor therapeutische doeleinden te stratificeren.

We verwachten dat de CorExplorer Portal nuttig kan zijn voor verschillende soorten gebruikers. Het portaal is ontworpen met de gebruiker in gedachten die de brede factoren die de tumorele genexpressie verschillen in openbare databases willen begrijpen, wil weten en mogelijk ook individuele genuitdrukkings profielen in de context van tumoren met vergelijkbare Kenmerken. Naast de representatieve protocollen die hier worden beschreven, kan CorExplorer-onderzoek dienen als uitgangspunt om hypotheses voor te stellen voor verdere tests, om CorEx-bevindingen op gegevenssets buiten de CorExplorer te vergelijken en te contrasteren, en om pathologische expressie handtekeningen van één of enkele genen in een individuele tumor aan grotere groepen die coördinoos kunnen worden aangetast. Ten slotte kan het fungeren als een gebruiksvriendelijke Inleiding tot de toepassing van machine learning op RNA-SEQ voor degenen die aan de slag in het veld.

Protocol

1. onderzoeken van factoren die een gen van belang hebben Open een webbrowser en ga naar http://corex.isi.edu, de CorExplorer-startpagina. Aan de rechterkant onder snelkoppelingen, klik op de + Expand knop naast ovariële (tcga-OV) om een samenvatting van de COREX factor grafiek die werd getraind op de tcga ovariële kanker gegevens (weergegeven in Figuur 1) te zien. Klik desgewenst op anderen om te vergelijken. Zodra de inspectie van de factor grafieken is voltooid, klikt u opLong (TCGA-LUAD)voor toegang tot de CorExplorer pagina voor longkanker RNA-SEQ.Verken de CorEx-factor grafiek voor een gen van belang met behulp van het CorExplorer ‘ factor graph ‘ venster. Beweeg de muisaanwijzer over het weergavevenster van de factor grafiek. Zoom in op de factor grafiek met het muiswieltje of trackpad om de details van de grafiek te zien, zoals de belangrijkste genen in elke factor en de verbindingen tussen knooppunten op verschillende lagen. U ook klikken en slepen om het weergavegebied of een knooppunt te verplaatsen. Om een doel gen te vinden (hier gebruiken we BRCA1), klik je op het genuitklap menu bovenaan het factor Graph-venster. Typ ‘ BRCA1 ‘ om het in de vervolgkeuzelijst te selecteren en druk op return om de weergave te laten zoomen op factor 26, de factor waarmee BRCA1 het meest sterk gecorreleerd is. Plaats de muisaanwijzer op de grafiekweergave en scrol om uit te zoomen om het niveau 2-knooppunt, L2_8 en de bijbehorende factoren te zien die buren zijn voor factor 26. Houd er rekening mee dat alleen genen met een gewicht groter dan de drempelwaarde die is aangegeven op de schuifregelaar min-link gewicht worden weergegeven. Als u alle genen wilt zien die aan de factor zijn gekoppeld, klikt u op het knooppunt L1_26 en selecteert u extra genen laden in het pop-upvenster. Wanneer het woord ‘ gereed ‘ wordt weergegeven, sluit u het pop-upvenster. Ga nu terug naar de koptekstsectie boven het factor Graph-venster en grijp en sleep de min link Weight modifier. Nu, als de link gewicht schuifregelaar wordt verplaatst naar 0,05, andere genen in factor L1_26, met inbegrip van BRCA2, zal verschijnen in gewichts volgorde. U desgewenst knooppunten verplaatsen door te grijpen en te slepen om de lay-out te verbeteren. Bepaal hoe de stratificatie van patiënten met betrekking tot de factor de overleving beïnvloedt door in het overlevings venster te zoeken. Schakel in het venster Survival het vinkje uit Sorteer op p-valen selecteer vervolgens factor 26 in het dropdown-menu met één factor om overlevings curves voor factor 26 weer te geven. Scroll naar beneden in de overlevings grafiek om het aantal risicopatiënten langs de x-as te tonen. Zoek associaties met biologische functie door in het aantekening venster te zoeken. In het aantekening venster, om het dropdown-menu factor te sorteren op factor nummer in plaats van False Discovery rate (FDR), schakelt u FDR-sorteringuit. Scroll en klik om te selecteren factor 26 in de vervolgkeuzelijst aantekening venster om verrijking annotaties voor de factor weer te geven. Scrol omlaag in de lijst met aantekeningen totdat DNA-herstel zichtbaar is en klik erop om onmiddellijk geassocieerde genen in geel te zien op de grafiekweergave. Zie het middelste paneel van Figuur 2. Houd er rekening mee dat factoren verdwijnen of verschijnen als verschillende GO-termen worden geselecteerd, afhankelijk van of ze zijn verrijkt voor genen met de geselecteerde aantekening, bijvoorbeeld ‘ intrinsiek apoptotische signalerings traject als reactie op DNA-beschadiging ‘. Verken de factoren verder door Windows met verschillende functionaliteit toe te voegen. Voeg in de bovenste menubalk een proteïne-proteïne interaction Network (PPI)-venster toe door PPI te selecteren in de vervolgkeuzelijst toevoegen en klik vervolgens op de knop toevoegen om een PPI-grafiekvenster aan het weergavegebied toe te voegen. Kies in het venster PPI Graph factor ‘ Layer1:26 ‘ om de eiwit-eiwit interacties weer te geven. Let op de dichtheid van verbindingen. Selecteer in de bovenste menubalk, in plaats van PPI, heatmap in het dropdown- venster toevoegen en klik vervolgens op de knop toevoegen om een heatmap-venster toe te voegen aan het weergavegebied. In het venster heatmap kiest u factor ‘ Layer1:26 ‘ om de genexpressie patronen weer te geven. Pak het venster van de heatmap en plaats het opnieuw zodat het overlevings venster ook zichtbaar is. Kijk langs de bovenkant van de heatmap hoe de oranje/blauw/grijs gekleurde balk overeenkomt met het risico Strata van de patiënt op de overlevings grafiek. De resultaten worden onderaan in Figuur 2weergegeven. 2. filteren en interpreteren van CorEx factoren met behulp van gengewicht, overleving en aantekeninggegevens Filter op factoren die van belang zijn met behulp van overleving en cluster kwaliteit. Selecteer in het dropdown-menu van de gegevensset bovenaan TCGA_OVCA om naar de corexplorer-pagina voor de tcga-ovariumkanker RNA-SEQ te gaan. Zodra de pagina is geladen, Let op het overlevings venster dat de factor met het grootste overlevings verschil voor verschillende Strata 114 is. Selecteer boven in het venster factor grafiek ‘ Layer1:114 ‘ in de vervolgkeuzelijst factor . Pak de schuifregelaar voor de koppelings dikte met de muis en verplaats deze naar 0,5. Merk op dat het grote aantal genen in factor 114 (1609), met geen gewicht > 0,35, een relatief zwakke clustering aangeeft. Vervolgens vouwt u de lijst met factoren in het venster Survival uit en selecteert u de volgende beste factor in de vervolgkeuzelijst van het overlevings venster, factor 39, om de bijbehorende overlevings curves weer te geven. Selecteer factor 39 in het aantekening venster door erop te klikken. De belangrijke GO-en KEGG-annotaties worden weergegeven. Om een beter inzicht te krijgen in de biologische rol van genen in factor 39, interpreteer je de factoren als volgt met behulp van informatie over buurt annotatie. Selecteer aan de bovenkant van het venster factor grafiek factor ‘ Layer1:39 ‘ in de vervolgkeuzelijst factor. Beweeg vervolgens de muis over het factor Graph-venster en zoom uit om het hele L2_14-cluster met 6-factoren te onthullen: 14, 32, 39, 42, 52 en 82 (weergegeven in afbeelding 3). Om te begrijpen van de relatieve betekenis van de factoren die zijn gekoppeld aan het knooppunt L2_14, begin met het bekijken van de overlevings verschillen voor elk van de L2_14 factoren. Vink sorteren op p-val aan in het venster Survival en klik vervolgens op elk van de factor nummers achter elkaar. Houd er rekening mee dat alleen de factoren 14, 32 en 39 een overlevings associatie weergeven. Selecteer nu in de bovenste menubalk de optie PPI in de vervolgkeuzelijst voor het toevoegen van het venster . Druk op toevoegen om een PPI-grafiekvenster aan het weergavegebied toe te voegen. Selecteer in het venster PPI Graph factor ‘ Layer1:52 ‘ om de eiwit-eiwit interacties weer te geven die significant zijn. Een voorbeeld van de lay-out van Windows op dit punt wordt weergegeven in afbeelding 3. Klik op de koppeling weergeven op stringdb onder aan het venster PPI om de online database stringdb te koppelen. Klik op Doorgaan vanaf het eerste scherm en selecteer vervolgens het tabblad analyse onder de netwerk grafiek als voorheen om een online go-analyse voor de PPI-netwerk-genen te krijgen. De bovenste cellulaire component is ‘ MHC klasse II proteïne complex. ‘ Ga terug naar het tabblad CorExplorer en het PPI-venster en selecteer factor 32, dit keer in de vervolgkeuzelijst factor. Klik op de koppeling weergeven op stringdb uit naar de stringdb-analyse. De bovenste cellulaire component is ‘ MHC klasse I Protein complex ‘, in tegenstelling tot klasse II voor factor 52 in de vorige stap! Ga ten slotte terug naar het PPI-venster en selecteer ‘ Layer1:39 ‘ in het dropdown-menu factor bovenaan. Klik op de koppeling weergeven op stringdb om te koppelen aan de stringdb-analyse. Klik op Doorgaan vanaf het eerste scherm en selecteer vervolgens het tabblad analyse onder de netwerk grafiek om een online go-analyse te krijgen voor de PPI-netwerk-genen. Merk op dat de topmoleculaire functie ‘ CXCR3 Chemokine receptor binding ‘ is. 3. gebruik Survival en database annotaties om te zoeken naar veelbelovende therapeutische combinaties Schakel over naar de tcga melanoom corexplorer door TCGA_SKCM te selecteren in het dropdown-menu DataSet . Merk op dat de factor met het grootste overlevings verschil factor 171 is. Bekijk de factor 171 annotaties door te scrollen en merk op dat ‘ immuunrespons ‘ en ‘ cytokine-gemedieerde signalering traject ‘ zich in de buurt van de top bevinden (zoals ze waren voor de bovenste ovariële factor). Als u een aanvullende factor wilt vinden, bekijkt u de hoogste overlevings factoren, samen met de beste aantekening termen. Om dit te doen, klik op de DataSet overzicht link in de bovenste menubalk om een apart tabblad te openen met een tabel met gegevensverwerkings Details en een samenvatting van topfactoren volgens p-waarde van het overlevings verschil. Merk op dat de eerste niet-immuunfactor 88 is. Ga terug naar het tabblad TCGA_SKCM browser. Selecteer factor 88 in de Vensters overleving, aantekening en grafiek. De top verschillende GO-termen zijn gerelateerd aan ‘ rRNA processing ‘ en ‘ mitochondrion Organization ‘, en bevestigen dit als verschillend van de immuungerelateerde factoren. Selecteer ‘ 88_171 ‘ in het venster Survival in de vervolgkeuzelijst met gekoppelde factoren om te zien hoe overleving is verbeterd voor patiënten in het middenstratum voor de gecombineerde 171-en 88-expressie factoren. Aantekening en overlevings vergelijkingen worden geïllustreerd in Figuur 4. 4. het vinden van gemeenschappelijkheden en verschillen van genexpressie variatie tussen tumortypen met behulp van de zoekpagina Klik op de kop Corexplorer om terug te keren naar de voor pagina. Klik op zoeken in de bovenste menubalk om naar een pagina te gaan die het doorzoeken van alle gegevenssets op de corexplorer-site toestaat. Voer in het gen -ZOEKVAK ‘ FLT1 ‘ (VEGFR1) in en klik op return of druk op zoeken. FLT1 wordt gevonden met een relatief hoog gewicht in de volgende factoren: OVCA-76, LUAD-162, SKCM-195 en SKCM-184, evenals COAD-112 en COAD-74. U ook zoeken naar een gerelateerde GO-term in alle gegevenssets. Probeer dit in het vak ‘ zoeken ‘ door ‘ angiogenese ‘ te typen en op return te drukken of op zoekente klikken. Alle FLT1 factoren, met uitzondering van SKCM-195, worden vermeld als statistisch verrijkt voor ‘ angiogenese ‘ genen – factor 195 heeft in feite de aantekening, maar onder de standaard 10-8 drempel. Zoekresultaten voor deze en de voorafgaande stap worden weergegeven in afbeelding 5. Als verdere voorbeelden, in de GO zoekvak, eerste type ‘ epidermale groeifactor receptor. ‘ Alleen LUAD is verrijkt voor deze term, een bekende stratificatiefactor voor longkanker. Typ vervolgens ‘ mesenchymal ‘ in het zoekvak. Deze term is verrijkt met genexpressie groepen voor OVCA, waar het een goed bestudeerde stratificatiefactor is.

Representative Results

Op zoek naar het gen ‘ BRCA1 ‘ in de longkanker dataset onthult het meest sterk geassocieerd met CorEx factor 26 (Figuur 2). GO term verrijking voor deze factor wordt gezien als extreem hoog, met DNA-herstel exposeren een FDR van slechts 1 x 10-19. De selectie vestigt ook de aandacht op het tweede niveau cluster L2_8 dat zes nauw verwante factoren als kinderen heeft. Selecteren van ‘ DNA repair ‘ in ofwel de GO term annotaties of de factor Graph GO verrijkte vervolgkeuzelijst markeert geassocieerde genen in elk van de factoren, met de factor 26 met veruit de meeste, zoals verwacht11. Het proteïne-proteïne-interactie netwerk is sterk verbonden en ondersteunt verder de nauw verbonden functionaliteit van de genen in factor 26. De bijbehorende overlevings grafiek suggereert een mogelijke associatie met de overleving van de patiënt, maar dit zou moeten worden bevestigd in een grotere gegevensset. Beginnend met overleving kan een dissectie van redenen voor verbeterde overleving in verband met bepaalde genexpressie groepen. Als voorbeeld wordt de topfactor die de overleving voor eierstokkanker beïnvloedt, gezien als nummer 39, dat sterk is verrijkt voor genen die zijn geassocieerd met het immuunsysteem (Figuur 3). Vijf andere factoren die verband houden met hetzelfde niveau 2-knooppunt zijn ook geïndiceerd om immuun-gerelateerd te zijn, maar de overlevings impact lijkt sterk variabel te zijn onder hen, met 39 de hoogste en 52 die de laagste is. Het toevoegen van een eiwit-eiwit interactievenster voor een factor toont het directe interactie netwerk en maakt het mogelijk om te linken naar de StringDB12 website om verschillende enrichments te vragen voor de PPI netwerk genen. Door dit te doen voor elk van de L2_14 factoren op zijn beurt, vindt men dat StringDB enrichments voor de PPI netwerk genen suggereren de volgende mogelijke verklaring voor de associaties met overleving. Factor 32 bevat genen die deel uit maken van het grote histocompatibility complex (MHC) klasse I proteïne complex, dat wordt herkend door cytotoxische T-lymfocyten. Factor 39 komt overeen met cytokine-signalering en CXCR3 receptor binding, gerelateerd aan CD8 + T lymfocyten. Beide factoren lijken een significant overlevingsvoordeel te verlenen voor patiënten die een relatief hoge expressie van de overeenkomstige genen vertonen. Cytotoxische CD8 + T lymfocyten zijn primair verantwoordelijk voor anti-tumor immuniteit. Factor 52 daarentegen bestaat uit genen die coderen voor eiwitten in het MHC klasse II complex, die voornamelijk worden herkend door CD4 + T-helper cellen in plaats van rechtstreeks door cytotoxische T-lymfocyten. De resterende L2_14 factoren weerspiegelen gegeneraliseerde immuun systeem activering die niet de twee soorten lymfocyten populaties differentiëren. Een overlevings associatie specifiek voor cytotoxische T lymfocyten herkenning van MCH klasse I cellulaire antigenen is consistent met ons begrip van antitumorale immuniteit in het algemeen en van andere kankers zoals melanoom13,14. Het webportaal ondersteunt de ontdekking van paren van factoren met complementaire functies die kunnen suggereren effectieve tumor-specifieke combinatietherapieën. Het overzicht van de gegevensset kan worden gescand op factoren die een correlatie met overleving vertonen en toch verschillende GO enrichments hebben. Voor melanoom (TCGA_SKCM; Figuur 4), wordt gezien dat de top overlevings factor 171 immuun verwant is, terwijl factor 88 op de lijst verrijking voor genen gerelateerd aan mitochondrion organisatie toont. Inderdaad, dit is gesuggereerd als een doelwit in melanoom15. Het toevoegen van Survival Vensters aan de CorExplorer pagina maakt vergelijking van stratificatie met behulp van het factor paar naar die van elke factor afzonderlijk, waaruit blijkt dat gunstige genexpressie patronen van beide groepen een trend van overleving beter vertoont dan die voor ofwel factor alleen. De bovenste stratum lijkt niet te worden verbeterd echter, suggereren immunotherapie kan alleen de beste optie voor sommige patiënten. Gemeenschappelijke en verschillen tussen tumoren kunnen worden gezien door te zoeken in datasets voor genen of GO-termen (Figuur 5). Als voorbeeld is FLT1 (aka VEGFR1) een goed bestudeerde Pro-angiogene marker16,17. Wanneer het in de zoekbalk wordt gezet, hebben alle tumoren factoren waarin FLT1 een belangrijke rol speelt. Omgekeerd, wanneer de GO-term ‘ angiogenese ‘ op de zoekpagina wordt ingevoerd, verschijnen 5 van de 6 van de FLT1 groepen met die verrijking. Alle FLT1 factoren, met uitzondering van SKCM-195, worden vermeld als statistisch verrijkt voor ‘ angiogenese ‘ genen. De zesde factor heeft in feite de aantekening, maar onder de standaard drempel van 10-8. Wanneer de weging binnen de factor lijst wordt gebruikt in een alternatieve verrijkings Calculator, bijvoorbeeld Genset verrijking analyse (GSEA)18, wordt de zesde factor ook significant verrijkt voor ‘ angiogenese ‘ genen. Het is belangrijk om de Heatmaps te controleren om ervoor te zorgen dat het genexpressie patroon van adequate kwaliteit is om biologische interpretaties te ondersteunen. Heatmaps die een sterke duidelijke variatie vertonen, kunnen ofwel een gecoördineerde uitdrukking van de factor genen hebben, variërend van lage tot hoge of complexere patronen, waarbij sommige genen een lage expressie hebben die gecorreleerd is met anderen met een hoog (Figuur 6). Een belangrijke markering van een hoogwaardige groepering is de aanwezigheid van verschillende genen met een vloeiende variatie in expressie als functie van factor Score. De factor Heatmaps tonen monsters gerangschikt volgens factor Score, dus er moet een vloeiend verloop bewegen van links naar rechts. Dit kan echter niet gebeuren op ten minste twee verschillende manieren. Meestal kunnen de correlaties extreem luidruchtig zijn (figuur 5c), waarbij de robuustheid en het nut van eventuele conclusies met betrekking tot overleving en/of biologische functie in twijfel worden getrokken. Ook patronen die alleen in een kleine minderheid van monsters gebeuren, kunnen niet voldoen aan het model van drie uitdrukkings toestanden die worden verondersteld door het CorEx-algoritme, wat resulteert in een misleidende classificatie van de monsters (rechterkant van figuur 5d). Afbeelding 1: CorExplorer voor pagina. Na het klikken op + naast eierstokkanker onder Quick links, factor grafiek Details worden weergegeven. Het hiërarchische model CorEx bestaat uit invoervariabelen (genexpressie in dit geval) op de onderste laag en afgeleide latente factoren in de hogere lagen. Klik hier om een grotere versie van dit cijfer te bekijken. Figuur 2: een gennaam gebruiken om exploratie te begeleiden. De afbeelding toont een reeks screenshots ter illustratie van de verkenning van CorEx longkanker factoren die sterk verwant zijn aan BRCA1. Als eerste, het selecteren van ‘ BRCA1 ‘ in de genkeuze lijst voor de factor grafiek zorgt ervoor dat de grafiekweergave inzoomt op de factor waarvoor BRCA1 het grootste gewicht heeft. Als u een bitframe uitzoomd, wordt de laag twee knooppunten L2_8 die factor verbinden met andere gerelateerde. Overleven en annotaties kunnen worden vergeleken: klikken op de GO term DNA Repair markeert geannoleerde genen. Er wordt een PPI-venster toegevoegd om de netwerk interacties voor genen in de factor weer te geven. Met behulp van de knop toevoegen venster om een heatmap toe te voegen toont de associatie van expressie patronen met overleving, wat suggereert dat een verhoogde expressie van DNA-herstel genen gepaard kan gaan met verminderde overleving. Klik hier om een grotere versie van dit cijfer te bekijken. Figuur 3: klinische gegevens (overleving) gebruiken om exploratie te begeleiden. Het verkennen van de top Survival-geassocieerde factor (39) voor ovariële kanker onthult interessante relaties tussen naburige factoren. Na het selecteren van factor 39 in de factor grafiek en het uitzoomen van een bit, wordt de laag twee factor gekoppeld aan factor 39 gezien als vijf andere geassocieerde factoren. Een extra overlevings venster maakt een directe vergelijking mogelijk van de geassocieerde overlevings verschillen. Factoren 39 en 32 vertonen allebei een positieve overlevings correlatie, in tegenstelling tot factor 52, wat niet. De eiwit-eiwit interactie netwerken zijn allemaal goed gedefinieerd. Linken naar StringDB maakt vergelijking van de GO-annotaties mogelijk (niet weergegeven): factor 39 is geassocieerd met een cytokine-signalerings netwerk gerelateerd aan cytotoxische CD8 + T-lymfocyten activering en factor 32 wordt gedomineerd door MHC-klasse I-antigeen die eiwitten presenteren die trigger herkenning door dergelijke lymfocyten; de naburige factoren worden echter gedomineerd door andere onderdelen van het immuunsysteem, zoals CD4 + helper T-cellen en vertonen geen overlevings correlatie. Klik hier om een grotere versie van dit cijfer te bekijken. Figuur 4: het verkennen van de beste overlevings factoren suggereert mogelijke therapeutische combinaties. De koppeling ‘ gegevenssets ‘ op de menubalk van de startpagina leidt tot een beknopte tabel met overlevings factoren die zijn gerangschikt op p-waarde, samen met de top GO-aantekening (niet weergegeven). Met behulp van deze informatie voor melanoma, de combinatie van factor 171 voor immune functie met factor 88 voor mitochondrion organisatie lijkt complementair. De afbeelding toont annotatie Vensters voor elk van de factoren naast elkaar om ze te contrasteren. Overlevings curves voor patiënten die door de twee factoren afzonderlijk of samen worden gestratificeerd, duiden erop dat de combinatie het overlevings verschil verhoogt in vergelijking met beide factor alleen. Klik hier om een grotere versie van dit cijfer te bekijken. Afbeelding 5: de zoekpagina vergemakkelijkt de analyse van de pan-kanker. Genen of ga biologisch proces voorwaarden kunnen worden gezocht voor alle gegevenssets met behulp van de Zoek koppeling van de startpagina. De figuur toont de zoekresultaten voor het gen FLT1 en de GO term ‘ angiogenese ‘. De resultaten tonen de aanwezigheid van FLT1 in factoren die zijn geannoleerd met de term ‘ angiogenese ‘ over kankers. Klik hier om een grotere versie van dit cijfer te bekijken. Figuur 6: Heatmaps kunnen worden gebruikt om correlaties tussen genen en monsters kwalitatief te beoordelen op basis van de factor Score. Genexpressie relaties van hoge kwaliteit worden weergegeven door vloeiende gradatie wanneer patiënten gerangschikt worden op factor Score in de Heatmaps. De meest linkse heatmap voor factor 18 is een voorbeeld. De patronen kunnen ook complexe handtekeningen van up en down uitdrukking zoals in de middelste grote heatmap voor factor 11 omvatten. Lagere kwaliteits patronen vertonen soms abrupte veranderingen in expressie voor een subgroep van patiënten zoals in de factor 9 heatmap aan de rechterkant of eenvoudige zeer lawaaierige correlaties zoals in de factor 161 heatmap rechtsonder. Klik hier om een grotere versie van dit cijfer te bekijken.

Discussion

We hebben de CorExplorer site, een publiek toegankelijke webserver voor interactieve verkenning van maximaal gecorreleerde genexpressie factoren geleerd van tumor RNA-SEQ door de CorEx algoritme gepresenteerd. We hebben laten zien hoe de website kan worden gebruikt om patiënten te stratificeren volgens tumor genexpressie, en hoe deze stratificatie correspondeert met biologische functie en overleving.

Andere webservers voor RNA-SEQ-analyse zijn gebouwd. Differentiële en co-expressie analyse voor tumoren kunnen worden onderzocht en geïntegreerd met andere gegevenstypen in cbioportal19,20. De servers GenePattern21, MeV22en Morpheus23, omvatten gevestigde clustering technieken zoals principal component Analysis (PCA), kmiddelen, of Self-organiserende kaarten (SOMs). Meer innovatieve inspanningen omvatten CamurWeb24, gebaseerd op een geautomatiseerde regelgenererende classificatie, en tacco25, die willekeurige forestclassificaties en lassos implementeert. Het algoritme CorEx dat hier wordt gebruikt, optimaliseert multivariate informatie om een hiërarchie van factoren te vinden die patronen in gegevens uitleggen. De niet-lineaire en hiërarchische factor leren lijkt te leveren verbeterde interpreteer baarheid ten opzichte van de lineaire mondiale factoren gevonden via PCA4. Bovendien maakt de techniek fijnkorrelig parseren van monster signalen nauwkeurige tumor vergelijkingen ten opzichte van meer algemeen gebruikte brede subtypen. Deze combinatie van overlappende en hiërarchische factor analyse onderscheidt de CorExplorer van de meeste andere benaderingen en vereist nieuwe hulpmiddelen voor visualisatie en samenvatting.

Een essentieel onderdeel van de CorExplorer factor analyse is de mogelijkheid om niet alleen verschillende te verkennen, maar meer dan 100 factoren met informatieve genpatronen die binnen een overlappende hiërarchie worden geplaatst. De CorExplorer vergemakkelijkt de winning van deze ontelbare factoren voor biologische en klinische associaties en zorgt voor een uitzonderlijk gedetailleerde karakterisering van individuele tumoren. Het niet-begeleide leren van zo’n groot aantal factoren betekent dat niet iedereen relevant zal zijn voor de biologie van de ziekte. In een dergelijk geval is het essentieel om annotaties of bekende genen te gebruiken om factoren van belang te achterhalen of te zoeken naar factoren die verband hebben met klinische gegevens zoals overleving. Dus, de CorExplorer stelt gebruikers in staat om deze zeer belangrijke filter stap te implementeren. De aanwezigheid van factor genpatronen in een tumor kan zelfs suggereren een benadering van gepersonaliseerde oncologie behandeling. Verder, de veelheid van factor scores voor elke tumor die het mogelijk maakt voor de ontdekking van potentieel nuttige therapeutische combinaties.

Het is soms zo dat er geen significante GO-annotaties verschijnen voor factoren die sterk gecorreleerd zijn met overleving. Hoewel dit kan optreden als gevolg van lawaaierige of onder bemonsterde gegevens, zijn er andere mogelijke oorzaken, zoals een clustergrootte die te klein is om significante verrijkings scores te registreren of de groep is een ‘ korf ‘ van enkelvoudige genen uit diverse trajecten zonder coherente biologische Association. Bovendien kan een andere categorie van annotatie dan het KEGG-en GO Biological-proces, bijvoorbeeld het mobiele compartiment, geschikt zijn. Deze kunnen worden benaderd door te koppelen aan StringDB zoals wordt gedemonstreerd in het protocol. De Genontologie verrijkings analyse op de CorExplorer-site houdt momenteel geen rekening met de genweging in een factor, hoewel dit in de nabije toekomst waarschijnlijk zal worden verholpen. Opmerking een genlijst optie is beschikbaar onder ‘ add Window ‘ die het mogelijk maakt om de volledige factor genlijst te downloaden voor verdere analyse met externe tools.

Voor de doeleinden van de website werd CorEx op elk van de gegevenssets vijf keer uitgevoerd en de uitvoering die resulteerde in de grootste totale correlatie werd gehandhaafd. Het hebben van een statistische representatie van de resultaten van meerdere runs kan meer informatief zijn en is een doel voor toekomstig werk. Bovendien, de set van tumortypen beschikbaar op de server is vrij klein, maar we verwachten dat dit na verloop van tijd uit te breiden volgens de interesse van de gebruiker.

Zoals hierboven uiteengezet, visualiseert de CorExplorer CorEx RNA-SEQ-factor relaties, samen met klinische en database-informatie, waardoor een verscheidenheid aan verschillende manieren van ondervraging mogelijk wordt. We zijn hoopvol dat deze tool zal leiden tot verdere werkzaamheden om de kracht van RNA-SEQ-analyse voor ontdekking en klinische toepassing in oncologie te benutten.

Divulgaciones

The authors have nothing to disclose.

Acknowledgements

GV werd ondersteund door DARPA Award W911NF-16-0575.

Materials

Public server for CorExplorer website USC http://corex.isi.edu Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP.
Web browser Google/Apple Chrome/Safari Verified web browsers.

Referencias

  1. Petryszak, R., et al. The RNASeq-er API-a gateway to systematically updated analysis of public RNA-seq data. Bioinformatics. 33, 2218-2220 (2017).
  2. Steeg, G. V., Galstyan, A. Maximally Informative Hierarchical Representations of High-Dimensional Data. Proceedings of the Eighteenth International Conference on Artificial Intelligence and Statistics (AISTATS). , (2015).
  3. Ver Steeg, G., Galstyan, A. Discovering structure in high-dimensional data through correlation explanation. Advances in Neural Information Processing Systems. , (2014).
  4. Pepke, S., Ver Steeg, G. Comprehensive discovery of subsample gene expression components by information explanation: therapeutic implications in cancer. BMC medical Genomics. 10, 12 (2017).
  5. Byron, S. A., Van Keuren-Jensen, K. R., Engelthaler, D. M., Carpten, J. D., Craig, D. W. Translating RNA sequencing into clinical diagnostics: opportunities and challenges. Nature Reviews Genetics. 17, 257 (2016).
  6. Cancer Genome Atlas Research Network. Comprehensive molecular profiling of lung adenocarcinoma. Nature. 511, 543 (2014).
  7. Cancer Genome Atlas Network. Comprehensive molecular characterization of human colon and rectal cancer. Nature. 487, 330 (2012).
  8. Akbani, R., et al. Genomic classification of cutaneous melanoma. Cell. 161, 1681-1696 (2015).
  9. Cancer Genome Atlas Research Network. Integrated genomic analyses of ovarian carcinoma. Nature. 474, 609 (2011).
  10. Grossman, R. L., et al. Toward a shared vision for cancer genomic data. New England Journal of Medicine. 375, 1109-1112 (2016).
  11. Moynahan, M. E., Chiu, J. W., Koller, B. H., Jasin, M. Brca1 controls homology-directed DNA repair. Molecular Cell. 4, 511-518 (1999).
  12. Szklarczyk, D., et al. STRING v11: protein–protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2018).
  13. Durgeau, A., Virk, Y., Corgnac, S., Mami-Chouaib, F. Recent advances in targeting CD8 T-cell immunity for more effective cancer immunotherapy. Frontiers in Immunology. 9, 14 (2018).
  14. Sato, E., et al. Intraepithelial CD8+ tumor-infiltrating lymphocytes and a high CD8+/regulatory T cell ratio are associated with favorable prognosis in ovarian cancer. Proceedings of the National Academy of Sciences of the United States of America. 102, 18538-18543 (2005).
  15. De Moura, M. B., et al. Mitochondrial respiration-an important therapeutic target in melanoma. PLoS One. 7, 40690 (2012).
  16. Folkman, J., Merler, E., Abernathy, C., Williams, G. Isolation of a tumor factor responsible for angiogenesis. Journal of Experimental Medicine. 133, 275-288 (1971).
  17. Takahashi, S. Vascular endothelial growth factor (VEGF), VEGF receptors and their inhibitors for antiangiogenic tumor therapy. Biological and Pharmaceutical Bulletin. 34, 1785-1788 (2011).
  18. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102, 15545-15550 (2005).
  19. Cerami, E., et al. The cBio Cancer Genomics Portal: An Open Platform for Exploring Multidimensional Cancer Genomics Data. Cancer Discovery. 2, 401-404 (2012).
  20. Gao, J., et al. Integrative Analysis of Complex Cancer Genomics and Clinical Profiles Using the cBioPortal. Science Signalling. 6, 1 (2013).
  21. Reich, M., et al. GenePattern 2.0. Nature Genetics. 38, 500 (2006).
  22. Wang, Y. E., Kutnetsov, L., Partensky, A., Farid, J., Quackenbush, J. WebMeV: A Cloud Platform for Analyzing and Visualizing Cancer Genomic Data. Investigación sobre el cáncer. 77, 11-14 (2017).
  23. . Morpheus Available from: https://software.broadinstitute.org/morpheus (2019)
  24. Weitschek, E., Lauro, S. D., Cappelli, E., Bertolazzi, P., Felici, G. CamurWeb: a classification software and a large knowledge base for gene expression data of cancer. BMC Bioinformatics. 19, 354 (2018).
  25. Chou, P. -. H., et al. tACCo, a Database Connecting transcriptome Alterations, pathway Alterations and Clinical outcomes in Cancers. Scientific Reports. 9, 3877 (2019).

Play Video

Citar este artículo
Pepke, S., Nelson, W. M., Ver Steeg, G. Analyzing Tumor Gene Expression Factors with the CorExplorer Web Portal. J. Vis. Exp. (152), e60431, doi:10.3791/60431 (2019).

View Video