Summary

Génération de base de données complète en oncologie thoracique - Outil de recherche translationnelle

Published: January 22, 2011
doi:

Summary

Une base de données oncologie thoracique a été développé pour servir de référentiel exhaustif de données cliniques et de laboratoire aux fins de la recherche translationnelle. La base de données servira aux chercheurs translationnelle sur le cancer au sein du Programme de recherche en oncologie thoracique. Cette base est adaptable à d'autres modèles de cancer, ainsi que d'autres maladies humaines.

Abstract

Le projet de programme de base de données oncologie thoracique a été créé pour servir une approche globale, référentiel vérifiée et accessible pour les spécimens de cancer bien annotée et des données cliniques à la disposition des chercheurs au sein du Programme de recherche en oncologie thoracique. Cette base de données capture également un grand volume de données génomiques et protéomiques obtenus à partir de diverses études tissu tumoral. Une équipe de chercheurs en sciences cliniques et fondamentales, un biostatisticien, et un expert a été convoqué en bioinformatique à la conception de la base de données. Les variables d'intérêt ont été clairement définies et leurs descriptions ont été écrites dans un manuel d'exploitation standard pour assurer la cohérence de l'annotation des données. En utilisant un protocole de banques de tissus potentiels et un autre protocole pour les services bancaires rétrospective, la tumeur et les échantillons de tissus provenant de patients normaux consenti à ces protocoles ont été collectés. Informations cliniques tels que la démographie, la caractérisation du cancer et des plans de traitement pour ces patients ont été extraites et sont entrés dans une base de données Access. Données protéomiques et génomiques ont été inclus dans la base de données et ont été liés à l'information clinique pour les patients décrits dans la base de données. Les données de chaque table ont été liés en utilisant la fonction des relations dans Microsoft Access pour permettre au gestionnaire de bases de données pour connecter des informations cliniques et de laboratoire lors d'une requête. Les données interrogées peuvent ensuite être exportés pour une analyse statistique et de génération d'hypothèses.

Protocol

1. Protocoles de recherche clinique de l'Université: Deux protocoles d'université ont été développés pour les besoins de cette initiative. Le premier protocole permet pour l'achat éventuel de tissus du cancer du poumon, cancer de l'oesophage, tumeur carcinoïde, thymome, et patients atteints de mésothéliome. Le protocole permet aussi de sang et autres fluides corporels d'être recueillies auprès de patients pour les études de biomarqueurs. Le protocole permet aux chercheurs d'obtenir des informations cliniques du patient source de ces spécimens à travers l'abstraction graphique et de stocker les spécimens et des données cliniques dans une base de données protégée. Le deuxième protocole est similaire à la première, sauf qu'elle permet aux chercheurs d'accéder à des tissus préalablement relevés et d'autres échantillons obtenus au cours du diagnostic du cancer d'un patient et un traitement. Les patients qui ont consenti à la chirurgie à l'Université de Chicago et qui ont signé ce protocole sont admissibles. 2. Protocole clinique de collecte de données: Les patients vus à l'Université de Chicago Medical Center pour le traitement des tumeurs malignes susmentionnés ont été inclus dans ce protocole. Les patients éligibles ont été identifiés par leur oncologue traitant et ont consenti par un membre de l'équipe clinique formé dans les deux protocoles. Une fois accepté, l'information d'un patient antécédents médicaux a été obtenue via l'abstraction graphique et était entré dans la base de données par un membre de l'équipe de soutien clinique. 3. Protocole de prélèvement: Des échantillons de tissus Les tissus contenant une tumeur maligne connue ou suspectée obtenus lors de la norme d'un patient les soins cliniques par biopsie ou la chirurgie ont été inclus dans ce protocole. Aucun tissu supplémentaire, en dehors de ce qui était nécessaire pour un bilan diagnostique d'un patient, a été obtenu. Après l'ablation chirurgicale de l'échantillon nécessaire pour la préparation des sections permanentes, le tissu résiduel a été mis sur la glace. Un technicien de l'obtention de tissus transportés de l'échantillon résiduel sur la glace au département de pathologie. Tissus résiduels ont été pesés, mesurés, transférés au stockage, étiquetés et correctement documentés conformément à la procédure d'exploitation standard. Stockage à long terme des spécimens a été maintenue dans un congélateur à -80 ° C dans le département de pathologie. Afin d'accéder à des échantillons de tissus provenant de patients qui avaient déjà subi une intervention chirurgicale pour une tumeur maligne thoracique, des listes de patients maintenus en collaborant les chirurgiens et les oncologues ont été référencés. De cette manière les patients présentant un intérêt ont été identifiés. Leurs échantillons de tissus tumoraux pourrait être récupérées à partir du département de pathologie, si le consentement a été obtenu. Des échantillons de sang Pendant le sang cliniquement indiqué attire, le protocole a également permis de deux à six autres tubes de sang dans un 5 ml supérieur (héparine) tube vert, un violet 10 ml tube supérieur (EDTA germinale ADN) et un haut rouge 10 ml (sérum) tube de sang. Jusqu'à six échantillons à différents moments ont été prises, avec la date du tirage du sang annoté. Des échantillons de sang ont été centrifugés à 2000 rpm pendant 10 minutes. Composants de plasma et de sérum ont été aliquotées dans les tubes cryovial portions de 1 ml. Pour la collecte de globules blancs, la partie supérieure ml 1-2 de l'interface / rouge fraction de cellules de sang ont été remises en suspension avec 1-2 ml de milieu de conservation de cellules (MEM EBS médias + 10% de sérum fœtal cal + 5% de DMSO). Tous les échantillons ont été congelés lentement dans une boîte de congélation isopropylique à 70-80 ° C pendant 16-24 heures, puis transféré à un -70 ° C à -80 ° C boîte de rangement. Tous les échantillons ont été étiquetés avec un code-barres identifiant unique et bien documentés sous la forme d'achat de l'échantillon par un technicien de laboratoire. D'autres liquides organiques: Fluide pas collectées à des fins cliniques pourraient être collectées et enregistrées en vertu du présent protocole. Échantillons d'expectorations ont été collectés et envoyés pour la cytologie. Échantillons d'expectorations ont été stockées sur la glace à 4 ° C lors de son transfert. Échantillons d'expectorations ont été ensuite transférés à 15 ml tubes Falcon et centrifugé à 1400 rpm pendant 10 minutes. Le surnageant a été aliquotés en 4 portions ml dans 6 ml cyrovials. Cyrovials ont été placés dans un congélateur, sur la glace sèche, ou dans une boîte de congélation isopropylique pour être ensuite congelés à un -70 ° C à -80 ° C. Après 16-24 heures, les échantillons ont été transférés à un -70 ° C à -80 ° C boîte de rangement. Tous les échantillons ont été étiquetés avec un code-barres identifiant unique et bien documentés sous la forme d'achat de l'échantillon par un technicien de laboratoire. 4. Construire l'infrastructure informatique: Après avoir évalué un certain nombre de programmes de gestion de base de données, Microsoft Access a été choisi comme le programme à la maison de données cliniques et biologiques pour l'thoracique SurProjet cologie Database Programme basé sur son opérabilité et sa capacité à relier les ensembles de données connexes. Une équipe de cliniciens, chercheurs en sciences de base, un biostatisticien, et un expert a été convoqué en bioinformatique pour identifier les variables d'intérêt pour la capture dans la base. L'équipe a identifié les éléments de données liés à la démographie des patients, la caractérisation du cancer, les facteurs épidémiologiques, et l'annotation spécimens sur la base des besoins des chercheurs en oncologie thoracique et se référant aux normes établies concernant les éléments de données communs (CDES) par l'Institut national du cancer. L'équipe a développé un système de codage pour rendre les données analysables à des fins de recherche. Lorsque c'est possible, les données ont été codées en utilisant les variables numériques, afin de réduire la quantité de texte libre est entré dans la base. Les variables d'intérêt ont été répartis entre sept tableaux différents dans Microsoft Access pour saisir les aspects variés de l'information connexe. 5. Concevoir le contenu de chaque table: Sept tables primaires ont été créées: 1) Table des patients, 2) l'échantillon de données de table, 3) TMA table, 4) l'ADN des spécimens de table, 5) Table de conférence Poitrine Oncologie, 6) table de lignée cellulaire, et la 7) C. Table elegans. Le tableau des patients a été conçu comme la seule table dans la base de la maison de l'information clinique pertinente sur les patients, leur cancer, leur évolution clinique, les facteurs de risque, et de leurs résultats (Fig 1). Le but de cette conception particulière a été de limiter la redondance dans la base. Les liens échantillon de données de table échantillons pathologiques à leurs sources patient. Chaque échantillon est donné un numéro d'échantillon pathologie et ce nombre est lié au numéro du dossier médical du patient. Spécimens multiples peuvent être obtenus auprès de chaque individu et donc le tableau comprend également des informations sur la date de l'échantillon a été obtenu et le type de spécimen collectés: tumeur initiale, tumeur récidivante, ou d'un spécimen d'autopsie. Le tableau de TMA a été utilisée jusqu'à présent pour saisir des données d'expression de protéines pour 63 protéines uniques. Une TMA peut être utilisé pour caractériser la distribution des protéines différentiellement exprimés dans le tissu tumoral et non tumoral en utilisant des anticorps pour localiser des protéines (figure 2). L'expression protéique est représenté par un score de 0, 1, 2 ou 3 sur la base impression que le pathologiste de l'intensité et le pourcentage de coloration TMA. Lorsque coloration est mesurée pour cent, un score de 0 indique l'absence de coloration, une coloration indique moins de 11%, 2 indique coloration moins de 50%, et 3 indique coloration supérieure à 50%. Lorsque l'intensité est mesurée, un score est attribué en fonction de la quantité relative de la coloration, également sur une échelle de 0 à 3. Dans certains cas, des diapositives IHC sont également balayés à haute résolution et l'intensité de coloration est quantifiée par Automated Imaging System Cellular (SIAD) de logiciels d'imagerie en parallèle à marquer du pathologiste. Toutefois, pour les deux techniques, un score plus élevé indique une plus grande expression de la protéine. En outre, le tableau TMA annote l'emplacement du poinçon TMA pour référence future. Par ailleurs, la base de données comprend la source du tissu (tumeur, ganglions lymphatiques normaux, tissu métastatique), l'emplacement au sein de l'échantillon (centre, bord), l'histologie du cancer, et le numéro de dossier médical pour lier cette information aux Les patients de la table. Le tableau ADN des spécimens listes tout l'ADN stockés dans le laboratoire. Les échantillons d'ADN sont liées à leur patient source via le numéro du patient au dossier médical. Les informations de base sur le spécimen est capturé pour décrire la source de l'échantillon, y compris l'emplacement et l'histologie de la tumeur. Le but de cette table est de décrire les altérations génétiques qui ont été caractérisées au sein de l'échantillon en utilisant la réaction en chaîne par polymérase, séquençage d'ADN standard, et les analyses de mutation. Le tableau capte aussi des variables telles que les changements en acides aminés, les changements de nucléotides, homozygotie, synonymie, et le gène dans lequel la mutation s'est produite. Des exemples de gènes qui ont été étudiés incluent paxillin, CCBL, EGFR, p53, le gène KRAS, cMet et EphB4. L'enquêteur qui a caractérisé les mutations sont également répertoriés. La cinquième table dans la base de données est la table Conférence Poitrine Oncologie. La conférence de l'oncologie thoracique est une réunion hebdomadaire des oncologues médicaux, chirurgiens thoraciques, des pathologistes, des radiologues, oncologues, et d'autres membres de l'équipe d'oncologie thoracique clinique qui se rencontrent pour élaborer des plans coordonnés traitement du patient. Le but de ce tableau est de dresser la liste des patients qui ont été discutés lors de la conférence dans le cadre de leur norme de soins. L'information concernant la disponibilité des échantillons pathologiques de chaque patient est également capturé dans ce tableau. La sixième table est la table des lignées cellulaires. C'est une table debout libre dans la base de données car il n'est pas lié à aucune des autres tables. Il décrit les lignées cellulaires qui ont été d'utiliserD dans le laboratoire à des fins de recherche. Le tableau capte les changements d'acides aminés, les changements de nucléotides, l'homozygotie et synonymie de mutations, et la localisation des mutations dans l'ADN de lignées cellulaires. Le tableau septième est le C. elegans table et il ya aussi une table debout libre. Ce tableau répertorie kinases des récepteurs tyrosine orthologues et comprend le score aiguille, qui est une mesure de similarité avec des protéines humaines. 6. Établir des relations entre les tables: Chaque table se voit attribuer une clé primaire, qui sert d'identifiant unique pour chaque entrée dans la table. Par définition, une valeur d'identificateur unique ne peut pas être répété. Par exemple, dans la table des patients, la clé primaire est le numéro de dossier médical depuis un MRN ne peut signifier un individu unique. Dans le tableau des données de l'échantillon, la clé primaire est l'échantillon pathologie (SP) nombre. Comme les échantillons ADN de la TMA et des tables n'ont pas d'identificateurs uniques, un numéro fictif a été établi que la clé primaire. Les tableaux TMA et d'ADN ont été ensuite reliés aux autres tableaux en utilisant le MRN et les numéros de SP, respectivement. Cela garantit que chaque poinçon TMA et l'échantillon d'ADN sont liés dos à la fois à des renseignements précis sur l'échantillon et les informations cliniques du patient don. Dans Microsoft Access, tables individuelles sont liées par leurs clés primaires, telles que les relations logiques sont établies (figure 3). Ces relations sont nécessaires pour générer des requêtes où les données sont recueillies auprès de plusieurs tables. 7. Interrogation: Effectuer une recherche d'ensembles de données connexes est relativement simple dans Microsoft Access. Une requête peut être conçue en sélectionnant l'option «création de la requête" sous l'onglet Créer. Les tableaux contenant les champs d'intérêt sont sélectionnés et affichés. Variables à partir des tables d'intérêt sont sélectionnés et, si nécessaire, peuvent être filtrés en fonction de critères que le chercheur d'intérêt (figure 4). La requête peut ensuite être exécuté, ce qui entraîne dans les domaines souhaités énumérés sous forme de tableur. 8. Exportation des données: Une fois qu'une requête a été généré, les données peuvent être exportées. Alors que la plupart des chercheurs préfèrent que les données soient sous la forme d'un tableur Microsoft Excel, les données peuvent être exportées vers un certain nombre d'autres programmes en utilisant le menu d'exportation sous la rubrique «données externes» onglet. Les données peuvent être sauvegardées en utilisant l'extension de fichier approprié. Lorsque les données sont exportées à des fins statistiques, un ensemble prescrit de variables sont inclus dans l'exportation de sorte qu'une analyse complète peut être fait pour le contrôle des covariables. 9. Importation de données: Importation des données exige une correspondance parfaite entre le format des données importées et le format de la table dans Access. Les variables d'intérêt au sein de la table à importer doit avoir le même nom que la table Access. L'orthographe doit être exacte et il ne peut y avoir des espaces où les espaces n'existent pas dans la table Access. Une fois que la symétrie entre les deux tables est atteint, l'utilisateur a la possibilité d'utiliser une requête append ou mise à jour pour importer les données dans Access. Une requête Ajout permettra à l'utilisateur d'ajouter de nouvelles lignes de données dans la base de données Access. Par exemple, si l'information est disponible concernant les patients qui n'étaient pas déjà dans la base de données, une requête Ajout pourrait être utilisé pour ajouter ces patients. Cependant, si de nouvelles données sont disponibles sur les patients ou les spécimens qui doivent être modifiés, une requête Mise à jour doit être effectuée sur ces entrées. 10. Mise à jour de la base de données: Les membres du projet de base ont prescrit des rôles en s'assurant que la base de données est tenue à jour. Un employé à temps plein est chargé de peupler et mettre à jour régulièrement la base de données avec des informations cliniques basées sur des patients qui ont été consentis dans la clinique. Un autre employé à temps plein, servant en tant que gestionnaire de données, est chargé d'obtenir des données de laboratoire comme il devient disponible et la saisie de ces informations dans la base de données avec une mise à jour ou de la requête append. Les assistants de recherche qui sont formés dans le protocole sont responsables d'effectuer une mise à jour systématique de la base de données tous les six mois pour obtenir les données les plus récentes disponibles. Ceci est particulièrement important pour des domaines tels que le statut vital et la date du dernier contact, comme ces champs ont un impact direct sur l'analyse de survie effectuée sur les données. 11. Accès à la Base de données: La base de données est accessible uniquement aux personnes qui sont HIPAA et sont inclus dans le protocole de la CISR. L'accès est encore réduite à des personnes formées dans Microsoft Access et qui ont des responsabilités directes pour mettre à jour ou de modifier les données. Les chercheurs qui ont contribué à la base de données peut demander des renseignements de la base à partir du gestionnaire de données, mais ils sont eux-mêmespas autorisés à accéder directement aux données. Le gestionnaire de données fournit des informations anonymisées aux chercheurs demandant en supprimant les variables telles que le numéro de dossier médical et le nom du patient lors de la génération d'une requête d'exportation. 12. Les résultats représentatifs: Un chercheur peut être intéressé à connaître la signification clinique de la sur-expression de la protéine en paxillin non small cell lung cancer. Comme ce chercheur a généré une grande quantité de données TMA dans la base de paxillin, le gestionnaire de données approuve la demande du chercheur d'accéder à des informations cliniques à corréler avec les données de laboratoire. Le gestionnaire de données exécute une requête où il combine à la fois le tableau des patients et la Table de TMA. Les variables d'intérêt de la table de patients incluent la date de la patiente de naissance, leur race, de l'histologie de leur cancer, le stade de leur cancer, leur date de diagnostic, de leur statut vital, leur date de décès, et de leur date de dernier contact. En utilisant ces variables, telles que l'âge au moment du diagnostic et du stade, les facteurs de confusion importants peuvent être comptabilisés et contrôlés. De la table de la TMA, des informations importantes telles que le type de tumeur et l'expression des protéines peuvent être vérifiés. Comme les deux tables sont liées via le numéro de dossier médical, l'information du patient par des personnes dont les tumeurs ont été étudiés pour l'expression paxillin sont inclus dans la sortie. Les résultats peuvent être filtrés pour que seuls les patients avec des non-small cell lung cancer sont affichées. Les résultats peuvent être affinés en fonction des besoins du chercheur. Ces résultats peuvent être exportés pour une analyse des données primaires par le biostatisticien et les résultats sont ensuite partagés avec le chercheur. Page d'accueil du projet: modèle de base de données Access et les Standard Operating Procedure sont disponibles à: http://www.ibridgenetwork.org/uctech/salgia-thoracic-oncology-access-template Licence: Librement disponible pour un usage éducatif et non lucratif. Restrictions à l'utilisation par des non-universitaires: Les utilisateurs commerciaux doivent obtenir une licence. Pour toutes questions concernant les utilisations commerciales, s'il vous plaît communiquer avec le Bureau de l'Université de Chicago de la technologie et la propriété intellectuelle (UChicagoTech) au (773) 702-1692 ou www.tech.uchicago.edu Figure 1. Capture de la base de données Access représentant une section de la Table des patients. Figure 2. Schéma illustrant un tissu microarray (TMA) 2 Figure 3. Capture des relations établies entre les tables décrivant dans le base de données Access. Les tables sont reliées par des clés primaires. Figure 4. Exemple de requête pour une mutation paxillin, les résultats de TMA, et les variables cliniques.

Disclosures

The authors have nothing to disclose.

Acknowledgements

Ce travail a été soutenu par des subventions du NIH 5R01CA100750-07, 5R01CA125541-04, 3R01CA125541-03S1, 5R01CA129501-03, 3R01CA129501-02S1 à RS

Materials

Material Name Company Catalogue Number
Centrifuge Eppendorf
Conical centrifuge tube Falcon 518-PG
Minimum essential medium eagle (MEM) Sigma M4655-500ML
Fetal Calf Serum Cellgro FBS HI MTT35011CV
Dimethyl Sulfoxide (DMSO) American Bioanalytical AB03091
BD Vacutainer Serum Tubes Fischer Scientific 367815

References

  1. Adamski, J., Finnegan, K. New Perspectives on Microsoft Office Access. , (2007).
  2. Giltnane, J., Rimm, D. Technology Insight: Identification of biomarkers with tissue microarray technology. Nat Clin Pract Oncol. 1, 104-111 (2004).

Play Video

Cite This Article
Surati, M., Robinson, M., Nandi, S., Faoro, L., Demchuk, C., Kanteti, R., Ferguson, B., Gangadhar, T., Hensing, T., Hasina, R., Husain, A., Ferguson, M., Karrison, T., Salgia, R. Generation of Comprehensive Thoracic Oncology Database – Tool for Translational Research. J. Vis. Exp. (47), e2414, doi:10.3791/2414 (2011).

View Video