여기에 우리가 현재 proteogenomic 도구 포고와 빠른, 양적, 포스트 번역 상 수정 및 변형에 대 한 프로토콜 사용 참조 게놈에 질량 분석을 통해 식별 하는 펩 티 드의 매핑. 이 도구는 사용 하 여 통합 및 proteogenomic 및 개인 proteomic 연구와 직교 게놈 데이터 시각화의.
유전자, 성적 증명서, 그리고 단백질 사이 잡담 하는 열쇠 세포질 응답; 따라서, 고유한 엔터티로 분자 레벨의 분석 세포 내에서 분자 역학의 이해를 통합 연구를 천천히 확장 되 고 됩니다. 시각화 및 다른 omics 데이터 집합과 proteomics의 통합에 대 한 현재 도구 대규모 연구에 적합 하지 않습니다. 또한, 그들은 기본적인 시퀀스 캡처할 식별, 포스트 번역 상 수정 및 정량 삭제. 이러한 문제를 해결 하려면 우리는 게놈 주석 참조를 정량화와 관련된 포스트 번역 상 수정 펩 티 드를 지도 하는 포고를 개발 했다. 또한, 도구 사용자 지정된 시퀀스 데이터베이스 통합 단일 아미노산 변종에서에서 식별 하는 펩 티 드의 매핑을 사용할 수 있도록 개발 되었다. PoGo는 명령줄 도구입니다, 하는 동안 그래픽 인터페이스 PoGoGUI 쉽게 펩 티 드 25 종 합 게놈 주석에서 지 원하는 지도를 비 생물 정보학 연구원을 수 있습니다. 생성 된 출력 파일 형식 유전체학 분야에서 빌려 고, 따라서, 시각화는 대부분 게놈 브라우저에서 지원 됩니다. 대규모 연구, 포고를 만드는 유전자를 또한 proteogenomics 데이터의 쉬운 공유에 매핑된 데이터의 웹에서 액세스할 수 있는 저장소 TrackHubGenerator에 의해 지원 됩니다. 약간의 노력으로이 도구는 단 몇 분 내 유전자를 참조 하 여 다른 사용 가능한 시퀀스 id 기반 도구를 능가 하는 펩 티 드의 수백만 매핑할 수 있습니다. 이 프로토콜에서는 proteogenomics 매핑 포고를 통해 공개적으로 사용 가능한 데이터 집합의 양적 그리고 phosphoproteomics, 뿐만 아니라 대규모 연구는 최고의 방법을 보여 줍니다.
셀, 게놈, transcriptome, 및 프로테옴에서 내부 및 외부 자극에 대 한 응답을 조절 하 여 건강 및 질병에 지도 하는 특정 기능을 수행 하기 위해 서로 상호 작용 하는 서로 영향을. 따라서, 특성화 및 정량화 유전자, 성적 증명서, 그리고 단백질 세포질 과정을 완전히 이해 결정적 이다. 차세대 시퀀싱 (NGS)를 식별 하 여 유전자 및 식 계량 가장 일반적으로 적용 된 전략 중 하나입니다. 그러나, 단백질 표정은 질량 분석 (MS)에 의해 일반적으로 평가 된다. 지난 10 년간 MS 기술에 있는 중요 한 전진은 더 완전 한 식별 및 proteomes, transcriptomics1대 등 데이터를 만들기의 정량화 활성화 됩니다. Proteogenomics와 멀티-omics NGS와 MS 데이터를 통합 하는 방법으로 되 고 여러 분자 수준에서 세포 프로세스를 평가 하기 위해 강력한 접근 암의 하위를 식별 하 고 암2 소설 잠재적인 약물 표적을 선도 , 3. 그 proteogenomics 유전자 및 주석4proteomic 증거를 제공 하기 위해 처음 사용 되었다 주의 하는 것이 중요 하다. 이전 비 코딩 하는 것으로 생각 하는 몇몇 유전자 최근 대규모 인체 조직 데이터 집합5,,67고려 재평가 받은. 또한, proteomic 데이터는 성공적으로 비 모형 유기 체8,9주석 노력을 지원 하기 위해 사용 됩니다. 그러나, proteogenomic 데이터 통합 하이라이트 단백질 표정 게놈 기능에 관하여 더 악용 될 수 있습니다 및 결합 된 레퍼런스 시스템 및 방법을 제공 하 여 성적 증명서와 단백질 사이 잡담을 명료 공동 시각화입니다.
Proteomics, transcriptomics, 및 게놈 데이터에 대 한 일반적인 참조를 제공 하기 위해 수많은 도구 매핑 펩 티 드 게놈 좌표10,,1112 에 MS를 통해 식별에 대 한 구현 되었습니다. 13,,1415,,1617. 접근 매핑 참조, 게놈 브라우저, 및 그림 1에서 보듯이 다른 proteomics 도구와의 통합도 지원 측면에서 다르다. 일부 도구 게놈16에 역 번역 된 펩 티 드, 지도 하는 동안 다른 펩 티 드15의 뉴클레오티드 순서를 재구성 하 단백질 및 유전자 주석 내의 검색 엔진 주석 위치를 사용 합니다. 아직도 다른 사람11,13에 대 한 펩 티 드를 지도 하는 게놈의 3 또는 6 프레임 번역을 사용 합니다. 마지막으로, 여러 가지 도구 뉴클레오티드 순서를 생략 하 고 중간으로 RNA 시퀀싱 매핑된 성적표에서 아미노산 시퀀스 번역을 사용 하 여 연결 된 게놈 좌표10,12, 펩 티 드 지도 14,17. 그러나, 뉴클레오티드 시퀀스의 번역은 느린 과정 그리고 사용자 지정 데이터베이스 오류 펩 티 드 매핑 전파를 하는 경향이 있다. 신속 하 고 높은 처리량 매핑에 대 한 작고 포괄적인 참조 중요 하다. 따라서, 관련 된 게놈 좌표와 표준화 된 단백질 참조 게놈 매핑 정확한 펩 티 드에 대 한 필수적입니다. 소설 측면 proteogenomics, 변형 및 포스트 번역 상 수정 (PTMs)2,3, 법인 등에서 최근 연구를 통해 추진력을 얻고 있다. 그러나,이 일반적으로 지원 되지 않습니다 그림 1에 표시 된 대로 도구를 매핑 현재 proteogenomic에 의해. 속도 매핑의 품질을 개선 하기 위해, 포고, 개발 되었다 게놈18펩 티 드의 빠르고 양적 매핑 수 있는 도구입니다. 또한, 포고 2 개의 순서 이체와 주석된 포스트 번역 상 수정와 펩 티 드의 매핑이 있습니다.
포고는 proteomes 및 글로벌 수정 캡처 양적 고해상도 데이터 집합의 급속 한 증가 대처 하기 위해 개발 되었습니다 하 고 개인적인 변이 및 정밀 의학 같은 대규모 분석에 대 한 중앙 유틸리티를 제공 합니다. 이 문서에서는 게놈 기능에 관하여 포스트 번역 상 수정의 존재를 시각화 하기 위해이 도구의 응용 프로그램을 설명 합니다. 또한,이 문서에는 매핑된 펩 티 드를 통해 다른 접합 이벤트의 식별 및 사용자 지정 variant 데이터베이스 참조 게놈을 통해 식별 하는 펩 티 드의 매핑 강조 표시 합니다. 이 프로토콜에서 포고의 이러한 기능을 보여 주기 위해 자존심 아카이브19 다운로드 공개적으로 사용 가능한 데이터 집합을 사용 합니다. 또한,이 프로토콜 대규모 proteogenomics 연구에 대 한 게놈에 매핑된 펩 티 드의 온라인 접근 허브의 창조에 대 한 TrackHubGenerator의 응용 프로그램을 설명 합니다.
이 프로토콜 소프트웨어 도구 포고 및 그래픽 사용자 인터페이스 PoGoGUI 게놈 좌표에 펩 티 드의 빠른 매핑을 사용 하는 방법에 대해 설명 합니다. 도구는 양적, 포스트 번역 상 수정 및 게놈 주석 참조를 사용 하 여 매핑을 변형 사용 등 독특한 기능을 제공 합니다. 이 문서는 대규모 proteogenomic 연구에서 메서드를 보여 줍니다 고18다른 사용 가능한 도구 비해 그 속도 메모리 효율을 강조. TrackHubGenerator 도구와 함께,이 게놈의 온라인 접근 허브 만들고 게놈 연결 데이터, 포고, 그래픽 사용자 인터페이스, 게놈 컨텍스트에서 데이터를 신속 하 게 시각화를 가능 하 게 대규모 proteogenomics 연구. 또한, 우리 변형 데이터베이스 및 양적 phosphoproteomics,2229에 대 한 검색 하는 데이터 집합으로 포고의 독특한 기능을 보여 줍니다.
GCT 파일 같은 단일 파일 귀중 한 시각화 및 펩 티 드 기능 및 게놈 loci 사이의 링크를 제공합니다. 그러나, 그것은 혼자이에 따라 해석 어렵거나 고유성, 포스트 번역 상 수정 등 양적 값 proteogenomics의 단일 측면에 그들의 제한으로 인해 오해의 소지가 있을 수 있습니다 주의 하는 것이 중요. 따라서, 그것은 신중 하 게 선택한 출력 파일, 옵션, 및 조합 손을 proteogenomic 질문에 대 한 적절 한 조합을 수정 하는 것이 중요. 예를 들어 특정 한 genomic 소재 시에 매핑의 특수성에 대 한 정보 있을 게놈 기능7의 주석에 대 한 큰 가치 다른 샘플에서 정량화와 관련 된 연구에 대 한 더 적절 한 수도 게놈 기능 변화 단백질 풍부29에. 각 설정에 대 한 포고 하 여 출력을 생성 합니다. 경우에 출력이 생성 되지 않습니다, 또는 빈 파일을 출력 폴더에 표시 됩니다, 원하는 내용과 필요한 파일 형식에 대 한 입력된 파일을 확인 하는 것이 좋습니다. 어디 파일 형식이 나 내용이 따르지 않는 포고의 기대 하는 경우에 (예를 들어, FASTA 파일 기발한 대 본 번역 시퀀스를 포함 하는 성적 증명서의 뉴클레오티드 시퀀스 포함), 오류 메시지가 사용자에 게 묻습니다 입력된 파일을 확인 하십시오.
프로토콜 및 도구 제한 주로 유전체학에 일반적으로 사용 되는 파일 형식의 재사용 기반으로 합니다. Proteogenomic 응용 프로그램에 대 한 게놈에 사용 되는 파일 형식 재사용 특정 한계 동반 된다. 이러한 게놈의 중심 게놈 시각화에 대 한 요구의 다른 세트는 및 proteogenomic 데이터, 포스트 번역 상 수정 단백질 데이터에서를 시각화 하는 필요 등. 이 단일 기능 사용 하 여 게놈 파일 형식으로 제한 됩니다. 많은 방법과 도구 자신 있게 지역화 펩 티 드 순서31,32,,3334내 포스트 번역 상 수정 단백질에 대 한 개발 되었습니다. 그러나, 여러 수정 게놈에 독특하고 뚜렷한 방식으로 시각화 게놈 파일 포맷의 구조에 의해 방해 된다. 따라서, 동일한 유형의 여러 PTMs의 단일 블록 시각화 수정 사이트의 어떤 모호함을 구성 하지 않습니다 하지만 게놈 지역 사회에서 서로 다른 요구 사항만 한 번에 하나의 기능을 시각화의 결과 이다. 그럼에도 불구 하 고, 포고 포스트 번역 상 수정에 단일 뉴클레오티드 변종 같은 게놈 기능 효과에 초점을 맞춘 연구 있도록 게놈 좌표에 매핑 포스트 번역 상 수정의 이점이 있다. 포고를 사용 하 여, 변형 매핑 총 매핑 수를 증가 합니다. 그러나, 매핑된 펩 티 드의 독특한 색 구분 신뢰할 수 없는 것 들 로부터 신뢰할 수 있는 매핑을 강조 한다. 알려진된 단일 뉴클레오티드 변종에서 식별 하는 variant 펩 티 드의 매핑 함께 VCF 형태로 변형 함께 매핑된 펩 티 드를 시각화 수 있습니다. 이 이렇게 변형 펩 티 드의 신뢰할 수 없는 매핑을 나타내는 색상 코드는 알려진된 뉴클레오티드 이체의 존재에 의해 기 각.
포고를 사용 하기 위한 중요 한 단계는 올바른 파일 및 포맷의 사용 이다. 단백질 시퀀스 동반 GTF 형식에서 주석으로 번역 된 사본 시퀀스의 사용은 주요 기준입니다. 포고 펩 티 드 아미노산 불일치와 지도를 사용 하 여 고려할 때 또 다른 중요 한 요소는 메모리입니다. 반면 높은 메모리 효율적인 표준 응용 프로그램에 대 한, 메모리 사용18에서 비슷하게 지 수 증가 크게 하 고 기 하 급수적으로 증가 하나 또는 두 개의 불일치와 가능한 매핑 수 리드. 우리는이 프로토콜을 먼저 불일치 없이 펩 티 드 지도 세트에서 그들을 제거에 설명 된 대로 단계적된 매핑을 제안 합니다. 후속 이전 매핑되지 않은 펩 티 드 다음 매핑할 수 한 불일치를 사용 하 여 그리고 매핑되지 않은 남은 펩 티 드에 대 한 두 가지 불일치와 절차를 반복할 수 있습니다.
질량 분석의 처리량을 크게 증가 연구 인터페이스 genomic와 proteomic 데이터 최근 몇 년 동안에서 더 자주 되 고 있다 때문에, 쉽게 이러한 유형의 동일한 좌표 시스템의 데이터 인터페이스를 사용 하는 도구는 점점 필수. 여기에 제시 된 도구는 게놈 결합 하는 필요 및 더 나은 이해 통합 연구의 크고 작은 데이터 집합에 걸쳐 참조 주석에 펩 티 드를 매핑하여 향상 proteomic 데이터 도움이 됩니다. 격려, 포고 펩 티 드 유전자 후보 참조 주석으로 동일한 형태로 제공 된 인간의 고환35에 표현 하는 새로운 유전자의 주석 노력을 지원 하기 위해 지도에 적용 되었습니다. 여기에 제시 된 접근 펩 티 드 식별을 위해 사용 되는 데이터베이스의 독립적입니다. 프로토콜 식별에 도움이 될 수 있습니다 사용 하 여 소설을 번역 제품의 시각화 번역 시퀀스에서 입력된 파일을 적응 하 고 관련 RNA-seq 실험에서 GTF 파일.
몇 가지 접근 및 다양 한 펩 티 드 펩 티 드 가이드 RNA 시퀀싱 매핑, 게놈 순서에 직접 매핑에서 배열 하는 게놈 좌표에 매핑하는 특별 한 응용 프로그램 시나리오 도구 도입된10, 되었습니다. 11 , 12 , 13 , 14 , 15 , 16 , 그러나 17., 이러한 포스트 번역 상 수정 고 RNA 시퀀싱 읽기의 기본 매핑에서 오류 펩 티 드 수준에 전파 될 수 있습니다 때 펩 티 드를 올바르게 지도 실패 귀 착될 수 있다. 포고는 구체적으로 그 장애물을 극복 하 고 양적 고해상도 proteomic 집합 직교 유전체학 플랫폼으로 통합의 급속 한 증가 대처 하기 위해 개발 되었습니다. 여기에 설명 된 도구 높은 처리량 워크플로로 통합 될 수 있습니다. PoGoGUI 그래픽 인터페이스를 통해 도구는 사용 하기 간단 하며 전문 생물 정보학 교육.
The authors have nothing to disclose.
이 작품은 Wellcome 신뢰 (WT098051)와 GENCODE 프로젝트에 NIH 교부 금 (U41HG007234)에 의해 투자 되었다.
PoGo (software) | NA | NA | https://github.com/cschlaffner/PoGo |
PoGoGUI (software) | NA | NA | https://github.com/cschlaffner/PoGoGUI |
TrackHubGenerator (software) | NA | NA | https://github.com/cschlaffner/TrackHubGenerator |
Integrative Genomics Viewer (software) | NA | NA | http://software.broadinstitute.org/software/igv/ |
UCSC genome browser (website) | NA | NA | https://genome.ucsc.edu/ |
GENCODE (website) | NA | NA | http://gencodegenes.org |
Ensembl (website) | NA | NA | http://ensembl.org |
bedToBigBed (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
fetchChromSizes.sh (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |