OpenProt는 진 핵 게놈의 polycistronic 모델 적용 자유롭게 액세스할 수 있는 데이터베이스입니다. 질량 분석 데이터 집합을 심문 하는 때 여기, 선물이 OpenProt 데이터베이스의 사용에 대 한 프로토콜. OpenProt를 사용 하 여 proteomic 실험의 분석을 위해 데이터베이스 소설과 이전 탐지 단백질의 발견에 대 한 수 있습니다.
게놈 주석 proteomic 프리의 윤곽을 그리는 대로 오늘날의 proteomic 연구 중심입니다. 오픈의 전통적인 모델 두 개의 임의의 기준 부과 프레임 (ORF) 주석 읽기: 100 codons 그리고 사본 당 단일 ORF의 최소 길이. 그러나, 연구의 증가 보고 혐의 비 코딩에서 단백질의 표현 영역, 현재 게놈 주석의 정확도 도전. 이러한 소설 단백질을 발견 했다 비 코딩 RNAs, 5′ 또는 3′ 내에서 mRNAs, 또는 대안 ORF에에서 알려진된 코딩 시퀀스 (CD)를 중복 되지 않은 지역 (Utr) 인코딩됩니다. OpenProt는 polycistronic 모델 진 핵 게놈을 적용 하는 첫 번째 데이터베이스 사본 당 여러 ORFs의 주석. OpenProt 자유롭게 액세스할 수 이며 10 종에서 단백질 시퀀스의 사용자 정의 다운로드를 제공 합니다. OpenProt를 사용 하 여 데이터베이스 proteomic 실험 소설 단백질 검색 및 진 핵 유전자의 polycistronic 특성을 강조 합니다. OpenProt 데이터베이스 (모든 예측 단백질)의 크기는 상당한 고 분석에 대 한 계정에 주의가 필요. 그러나, 적절 한 틀린 발견 비율 (FDR) 설정 또는 제한 된 OpenProt 데이터베이스를 사용 하 여, 사용자 proteomic 풍경의 현실적 보기를 얻을 것 이다. 전반적으로, OpenProt는 자유롭게 사용할 수 있는 도구입니다 proteomic 발견을 육성 합니다.
지난 수 십년 동안 질량 분석 (MS-) 기반 단백질 해독 진 핵 세포1,2,3,,45proteomes 황금 기술 되고있다. 이 방법은 가능성6,,78의 범위를 설명 하는 참조 단백질 시퀀스 데이터베이스를 생성 하기 위해 현재 게놈 주석에 의존 합니다. 그러나, 게놈 주석 ORF 주석 100 codons와 사본9,10당 단일 ORF의 최소 길이 같은 대 한 임의의 기준을 잡으십시오. 연구의 증가 현재 주석 모델 도전 및 진 핵 게놈8,,1112,13, unannotated 기능 ORFs의 발견을 보고 14. 이 비 발한 단백질에 인코딩된 혐의로 비 코딩 RNAs 발견, 5′ 또는 3′ 번역 mRNAs, 또는 다른 프레임에 정식 코딩 시퀀스 (cCDS) 중복의 영역 (UTR). 대부분 이러한 발견의 serendipitous 되었습니다, 하지만 그들은 현재 게놈 주석의 주의 사항 및 진 핵 유전자8의 polycistronic 특성을 보여줍니다.
여기, 우리는 MS 기반 proteomics에 대 한 OpenProt 데이터베이스를 사용 하 여 강조 표시합니다. OpenProt 진 핵 transcriptomes 위한 polycistronic 주석 모델을 보유 하는 첫 번째 데이터베이스입니다. 그것은 www.openprot.org15에서 자유롭게 이용하실 수 있습니다. 이들의 비율 ORFs 있을 것 예상 무작위와 이외의 기능을, 그래서 OpenProt 자신감 증가를 실험 하 고 기능적인 증거를 축적. 실험적인 증거 (MS)에 의해 단백질 표정 등 번역 증거 (리보솜 프로 파일링)15. 기능 증거 (와 함께 한에-접근 같은 편집증) 단백질 orthology 및 기능 도메인 예측15포함 됩니다.
OpenProt 맞춤 데이터베이스를 잘 지원 되 단백질만을 포함 하에서 여러 데이터베이스를 다운로드 하는 가능성을 제공 합니다. 여기, 우리 OpenProt 데이터베이스의 사용에 대 한 파이프라인을 발표할 예정 이다 실험적인 목적을 고려 선택 하는 데이터베이스에 대 한 통찰력을 제공할 것입니다. 그것은 오픈-액세스 및 사용 하기 쉬운, 하지만 데이터베이스 모든 워크플로16,,1718작업할 수 있습니다 여기 proteomics 분석 파이프라인은 프레임 워크에서 지원 됩니다. 우리 또한 proteomic 프리의 더 완전 한 보기를 제공할 것입니다 소설 단백질 양 사용 OpenProt 데이터베이스에서 검색에 추가 정보를 수집 및 proteomics와 바이오 마커의 발견을 촉진을 위한 OpenProt 웹사이트를 사용 하는 방법 제시 현재 방법 보다는 좀 더 체계적인 방법.
MS 데이터 집합; 심문 때이 프로토콜 OpenProt 데이터베이스15 의 사용을 강조 그것은 디자인을 검토 하지 것 이다 실험의 자체, 철저 하 게 되었습니다 검토20,,2122다른 곳. 완전히 오픈 소스를 유지 하기 위해, 프로토콜은 자유롭게 사용할 수 있는 (보충 자료 S1–S4). 쉽게 읽기에 대 한 모든 용어 사용 OpenProt에 의하여이 프로토콜을 통해 표 1에 정의 됩니다.
질량 분석기에서 데이터를 분석할 때 단백질의 품질은 부분적으로 사용된 데이터베이스6,20의 정확도에 의존 합니다. 현재 접근 전통적으로 UniProtKB 데이터베이스를 사용 하 여 아직 이러한 사본 당 단일 ORF의 게놈 주석 모델 100 codons (를 제외 하 고 이전 시연된 예)40의 최소 길이 지원 합니다. 여러 연구에서 추정 되 게 비 코딩 기능 ORFs의 발견과 같은 데이터베이스의 단점 관련 지역8,11,,1213. 지금, OpenProt 더 완전 한 단백질 식별으로 여러 transcriptome 주석에서 단백질 시퀀스를 그립니다 수 있습니다. NCBI RefSeq (GRCh38.p7)와 합 (GRCh38.83) transcriptomes와 UniProtKB 주석 (UniProtKB-SwissProt, 2017 년 09 월 27 일)을 검색 하는 OpenProt40,,4243. 현재 주석 작은 중복 제시, OpenProt 이렇게 하면 하나의 주석15제한 보다 잠재적인 proteomic 프리의 더 완전 한 보기 표시 됩니다.
또한, OpenProt는 polycistronic 모델을 적용, 그것은 여러 단백질 주석 사본 당에 대 한 허용. 이유로 통계 및 전산, OpenProt는 여전히 30 codons15의 최소 길이 임계값을 보유 하고있다. 그러나, 그것은 예측 함으로써 단백질 식별에 대 한 가능성의 범위를 확대 하는 소설 단백질 시퀀스의 수천. 이 방식으로 OpenProt 더 체계적인 방식으로 proteomic 발견을 지원합니다.
단백질의 품질 또한 사용 되는 매개 변수에 따라 달라질 수 있습니다. MS 기반 proteomics 분석은 일반적으로 1% 단백질 루즈벨트를 개최. 그러나, 전체 OpenProt 데이터베이스에는 약 6 배 더 많은 항목을 (그림 1) 포함 되어 있습니다. 검색 공간에 있는이 상당한 증가 대 한 계정, 0.001%의 더 엄격한 루즈벨트를 사용 하는 것이 좋습니다. 이 매개 변수는 벤치 마크 연구 및 무작위로 선택 된 스펙트럼15의 수동 평가 사용 하 여 최적화 되었다. 가양성 여전히 가능성, 하지만, 그리고 철저 한 검사 및 비 발한 단백질에 대 한 증거를 지원의 유효성 검사를 권합니다. 권장된 표준 배경 데이터 및 가양성 데이터 집합15사이 다 두 개의 다른 MS 실행에서 단백질의 식별 될 수 있습니다.
여기에 제공 된 및 사례 연구에 사용 되는 파이프라인 매개 변수 및 실험 설계에 맞게 만족 수정할 수 있습니다. 우리 감 성과 펩 티 드 식별32의 감도 증가 여러 검색 엔진을 사용 하 여 권해 드립니다. 또한, 우리는 최고의 실험 목표 (그림 1)에 해당 하는 데이터베이스를 사용 하 여 것을 권장 합니다. 엄격한 루즈벨트와 데이터베이스를 제공 전체 OpenProt를 사용 하 여, 진정한 식별 손실 될 수 있습니다. 따라서, 전체 데이터베이스 해야 될 위한 새로운 단백질의 발견 (예: 위의 사례 연구에서 사용 되는 OpenProt_2pep) 작은 OpenProt 데이터베이스 사용 해야 고전적인 단백질 프로 파일링 하는 동안.
OpenProt는 현재 여러 연구 다른 codons44,45번역 개시를 강조 하는 반면 ATG codon로 시작 하는 시퀀스를 예측 합니다. 새로운 단백질은 하나 또는 여러 개의 독특한 펩 티 드 식별, 진실한 개시 코 돈 추정된 ATG 아니다 가능 하다. 사용자가 번역 증거 OpenProt 웹사이트에서 찾을 수 있다. 현재, OpenProt만 보고 번역 이벤트 전체 예측된 단백질 시퀀스 (100% 중복)15를 염려 하는 경우. 따라서, 번역 증거의 부재 것 아닙니다 단백질은 번역 되지 않습니다, 하지만 그 시작 codon 주장된 ATG 하지 않을 수 있습니다.
그것의 현재 한계에도 불구 하 고 OpenProt는 진 핵 게놈 코딩 잠재력의 더 완전 한 보기를 제공합니다. OpenProt 데이터베이스 proteomic 발견 및 proteomic 기능 및 상호 작용의 이해를 육성. 비 ATG에서 번역 증거 시작 codon 그리고 전체 게놈 및 exome 시퀀싱 연구에 새로운 단백질을 포함 하는 파이프라인의 개발, OpenProt 데이터베이스의 미래 발달은 다른 종족의 주석 포함 됩니다.
The authors have nothing to disclose.
우리는 그의 도움, 토론 및이 작업에 대 한 조언을 위해 비비 안 Delcourt 감사합니다. X.R. Fonds de 검색 뒤 퀘벡 건강 FRQS 지원 센터 드 검색 뒤의 멤버인 센터 Hospitalier 대학 드 셔 브 룩. 이 연구는 X.R. 및 CIHR 그랜트 걸 레-137056 캐나다 연구의 자 기능 Proteomics와 소설 단백질의 발견에 의해 지원 되었다. 우리 퀘벡 거리와 계산 캐나다 대학교 드 룩에서 슈퍼 컴퓨터 mp2의 사용과 그들의 지원에 대 한 팀을 감사합니다. Mp2 슈퍼 컴퓨터의 작동에 의해는 캐나다 재단의 혁신 (CFI), 르 ministère 투자 드 l’ 경제학, 드 라 과학 외 드 l’innovation 뒤 퀘벡 (달) 및 레 Fonds de 검색 뒤 퀘벡-자연 외 기술 (FRQ-NT). 일부 proteomics 계산에 사용 된 갤럭시 서버 부분에 공동 연구 센터 992 의료 Epigenetics (DFG 부여 SFB 992/1 2012)과 독일 연방 교육부의 연구 자금 지원 (BMBF 부여 031 A538A/A538C RBC, 031L0101B /031L0101C 드입니다. NBI 피, 031 L 0106 드 계단 (드. NBI))입니다.
OpenProt website | open source | n/a | www.openprot.org |
Galaxy Server | open source | n/a | https://usegalaxy.eu/ |
TOPPview software | open source | n/a | www.openms.de |