Summary

Coregulated 진스 잠재적인 규제 모티브를 식별하기 위해 범위를 사용하여

Published: May 31, 2011
doi:

Summary

공동 규제 유전자의 잠재적인 규제 모티브를 식별하는 똑바로 전달하고 강력한 방법을 제공됩니다. 범위는 사용자 매개 변수 및 규제 신호 우수한 후보자를 나타내는 반환 주제가 필요하지 않습니다. 이러한 규제 신호의 식별은 기본 생물학을 이해하는데 도움이 될 것이다.

Abstract

범위 이상 – 표현과 모티브의 게재 순위 환경 설정 1 잠재적인 규제 모티프를 확인하는 평행 세 구성 요소 알고리즘을 사용하여 앙상블의 모티프 찾기입니다. 각 구성 요소 알고리즘은 모티브의 다른 종류를 찾을 수 최적화되어 있습니다. 이 세 방법의 최선을 복용함으로써, 범위도 시끄러운 데이터 1의 면전에서, 어떤 하나의 알고리즘보다 수행합니다. 이 문서에서는, 우리는 telomere 유지 보수에 관련된 유전자를 검사 범위 2 웹 버전을 사용합니다. 범위가 프로그램 3,4를 찾는 적어도 다른 두 주제에 통합되어 연구와 다른 연구 5-8에서 사용되었습니다.

범위를 구성하는 세 개의 알고리즘이 아닌 타락한 주제 (ACCGGT)를 발견 BEAM 9, 주제 (ASCGWT)를 타락한 발견 PRISM 10, 그리고 더 이상 bipartite 모티브 (ACCnnnnnnnnGGT)를 발견 스페이서 11 일입니다. 이 세 가지 알고리즘은 모티브의 해당 유형을 찾아 최적화되었습니다. 함께, 그들은 범위가 매우 잘 수행할 수 있습니다.

유전자 집합 분석 및 후보 주제가 확인되면, 범위는 원래 집합에 추가하면 모티브 점수가 향상됩니다, 모티브를 포함하는 다른 유전자를 찾을 수 있습니다. 이것은 지나친 표현이나 모티프의 게재 순위 환경 설정을 통해 발생할 수 있습니다. 범위, 생물학 전사 인자 바인딩 사이트를 확인한 부분 유전자 세트와 함께 주어진 전사 인자에 의해 규제 유전자의 나머지의 대부분을 파악할 수있었습니다 작업.

범위에서 출력이 후보의 주제가, 그들의 중요성, 그리고 테이블과 그래픽 모티프지도로 모두 다른 정보를 보여줍니다. 미국의 소리는 이런 곳 및 비디오 자습서는 또한 사용자가 시운전을 수행할 수있는 '샘플 검색 "버튼을 포함하는 범위 웹 사이트에서 사용할 수 있습니다.

범위는 찾는 모티프의 생물 정보학 전문가가 될 필요없이 알고리즘의 전체 능력을 액세스할 수 초심자 사용자 수있는 매우 친숙한 사용자 인터페이스가 있습니다. 입력으로, 범위는 유전자 또는 FASTA 시퀀스의 목록을 취할 수 있습니다. 이들은 브라우저 텍스트 필드에 입력하거나, 파일에서 읽을 수 있습니다. 범위에서 출력은 자신의 점수, 일치하는 항목의 개수, 모티브를 포함하는 유전자의 일부분, 그리고 모티브를 식별하는 데 사용되는 알고리즘을 식별 모든 작품의 목록이 포함되어 있습니다. 각 주제에 대한, 결과의 세부 내용은 모티브의 합의 표현, 시퀀스 로고 위치 중량 매트릭스, 모든 모티프의 발생에 대한 인스턴스의 목록을 (정확한 위치 및 "스트랜드"표시)를 포함합니다. 결과는 브라우저 창에 또한 선택적으로 이메일로 반환됩니다. 이전 논문 상세 1,2,9-11의 범위 알고리즘을 설명합니다.

Protocol

<p class="jove_title"> 1. 이 범위의 분석을 위해 공동 규제 믿고 유전자에 대한 이름의 목록을 준비합니다.</p><p class="jove_content"> 텍스트 파일로 목록을 저장 또는 3 단계에서 범위에 붙여넣을 클립 보드에 복사합니다. 이 파일은 별도의 정보를 한 줄에 하나의 유전자의 이름을 포함해야합니다. 또는, 당신은 실제 시퀀스가​​ 분석을 포함 FASTA 파일로 목록을 작성하실 수 있습니다.</p><p class="jove_title"> 2. 웹 브라우저를 시작하고 URL에 연결 :<a href="http://genie.dartmouth.edu/SCOPE/"> http://genie.dartmouth.edu/SCOPE/</a</p><p class="jove_title"> 3. 범위 분석을 수행하기 위해 필요한 정보를 입력합니다.</p><p class="jove_content"> 초기 범위 페이지는 그림 1에 표시됩니다. 다른 섹션이 단계에서 해결됩니다.</p><ol><li> 당신이 검사됩니다 수종을 선택할 수있는 '종'팝업 메뉴를 사용하십시오. 범위가 조사하는 모든 후보 모티브에 대한 발생 배경 주파수를 계산하기 위해 게놈을 의미 때문에 정확한 수종을 선택하는 것이 중요합니다.</li><li> intergenic 또는 고정 길이 중 하나를 선택할 수있는 '업스트림 순서 "라디오 버튼을 사용합니다. Intergenic 당신이보고있는 유전자와 이전 (업스트림) 유전자의 사이에 모든 순서를 분석합니다. 이것은 그 다른 상류 길이가 사용됩니다 의미합니다 각각의 유전자. 고정 길이 선택은 현재 유전자의 시작부터 상류 세포핵의 정확히 그 번호 살펴볼 것입니다.이 경우, 범위는 각 유전자에 대한 상류 순서의 동일한 길이를 검토되며, 그 이전 유전자 (또는로 확장하더라도 하지 않음). 일반적으로, 800 국세청 선​​택하는 가장 좋은 길이 있지만,이 수종에 따라 달라질 수 있습니다.</li><li> 유전자 목록 텍스트 상자에 유전자 목록에 붙여 넣어, 또는 이전에 만든 유전자의 목록을 포함하는 파일을 선택하려면 '파일 선택'버튼을 누르면하거나 분석하기 설정된 어떤 유전자 범위를 말해 다음. 당신은, 또는 같은 텍스트 상자에 FASTA 시퀀스 파일에 붙여넣을 수 있습니다.</li><li> 페이지의 다음 섹션의 확인란이 포함되어 있습니다 '발견 모티브 (들)을 포함하는 다른 유전자에 대한 게놈을 검사를? " 범위 게놈의 모든 다른 유전자를 평가할 수있다 때문에이 옵션은 상당한 분석 시간을 추가할 수 있습니다. 그러나 이것은 시작 유전자 세트의 유전자와 공동 규제되는 좋은 후보자 다른 유전자를 식별에 매우 유용할 수 있습니다. 범위 분석은 비교적 빠른이므로, 그것은 여러분의 초기 분석에 벗어 두는 것이 좋습니다. 그것은 항상 분석을 다시 실행하기 위해 검색 결과 페이지에서 켜져 수로 결과 섹션에서 설명했다.</li><li> '결과 포함되어야합니다'섹션은는 분석에 포함 범위를 원하는 주제를 입력하는 데 사용할 수 있습니다. 당신이 특정 주제를 찾고있다면이 일을 할 수 있습니다.</li><li페이지> 마지막 섹션은 귀하의 이메일 주소와 분석으로 저장하는 코멘트를 입력하는 데 사용할 수 있습니다. 이것에 가득 차있다면, 범위는 결과를 포함하는 웹 페이지로 링크가 포함된 이메일을 보낼 것이며, 또한이 첨부 파일을 포함합니다. 하나는 사람이 읽을 수있는 형식으로 모든 분석 결과가 일반 텍스트 파일입니다. 두 번째 첨부 파일 범위가 컴퓨터에서 읽을 형식으로 찾을 수있다는 모든 결과를 가지고있는 XML 파일이 포함되어 있습니다. 당신은 결과에 몇 가지 추가 분석을 원하는 경우, XML 파일은 매우 유용합니다. 두 파일은 이메일로 보내지기 전에 "압축"입니다.</li><li>이 데모의 경우, 우리는 동일한 정보로 시작됩니다. 이것은 쉽게 필요한 정보를 작성합니다 '샘플 검색'버튼을 누르면 얻을 수 있습니다. 이제이 버튼을 누릅니다. 세 유전자는 당신과 다른 분야 만들어 적절한 선택으로 입력됩니다. 그들이 설정된 이러한 둡니다. 세 유전자는 telomere의 유지 보수에 관련된<em> Saccharomyces cerevisiae</em>. 양식에 채워이 그림 2에 표시됩니다. 분석을 시작 페이지의 하단에있는 '실행 범위'버튼을 누르십시오.</li></ol><p class="jove_title"> 4. 대표 결과 :</p><p class="jove_content"분석> 주요 결과는 그림 3에 표시됩니다. 페이지의 맨 위에는 범위에서 발견된 작품에 대한 정보의 테이블이 포함되어 있습니다. 첫 번째 열에는 발견하고 작은 색깔의 사각형은 아래의 그래픽 모티브지도에 대한 전설 역할을했다 작품의 목록이 포함되어 있습니다. 특정 주제의 디스플레이는 색상 상자 (또는 색 상자가 될 어디)에서 클릭하여 켜거나 토글 수 있습니다. 이것은 어려운 적은 널리 모티브 패턴을 볼 수 있도록 수도 높은 반복 모티프의 표시를 숨기려하는 것은 매우 유용할 수 있습니다.</p><p class="jove_content"데이터> 기타 열의 개수 (유전자 세트 전체에 모티브의 사건의 번호), 시그 값 (즉 모티프의 중요성의 표시), 범위 (아르 중 적어도 하나 인스턴스를 포함하는 제출한 유전자의 비율 그 모티브) 및 알고리즘 (모티브를 검색하는 데 사용되었다 세 가지 구성 요소 중 어떤 알고리즘).</p><p class="jove_content"> 나열된 작품의 모든 클릭은 ​​모티브에 대한 상세한 정보를 포함하는 페이지로 사용자를 취할 것입니다. 결과 세부 사항은 그림 4에서 청록색의 모티브 (atgnnnnttg)에 표시됩니다. 순서 로고 위치 중량 매트릭스, 그들의 위치, 가닥과 유전자 모든 모티프 인스턴스의 목록이 페이지에서 모티브는 세 가지 방법으로 표현됩니다.</p><p class="jove_content"페이지 아래로> 좀 더이 모티브를 포함하는 다른 유전자를 찾고 결과에 대한 자세한 내용이 있습니다. 볼 수 있듯이,이 경우에는 원래의 유전자 세트에 추가했을 때 실제로 시그 가치를 향상하는 모든 모티브를 포함하는 다른 유전자 1,344있었습니다. 이러한 유전자와 범위 설정 페이지로 돌아갑니다 '를 검색 확인 유전자를 추가'누르면 원래의 유전자 집합에 추가하고 그들이 이전에 그랬던 것처럼 매개 변수로 설정합니다. 이 경우, 10 여분의 유전자는 원래의 셋을에 추가됩니다.</p><p class="jove_content"> 그림 5는이 모티프에 대한 여분의 유전자를 포함하는 분석의 결과를 보여줍니다. 원래의 셋을 유전자 (낮은 경우) 결과의 하단에 있습니다. 이러한 여분의 유전자의 상류 지역에서 모티프의 패턴을보고하는 것은 분명히 그들이 비슷한 것으로 나타났습니다. 원래의 셋을 유전자 것처럼 사실이 유전자의 대부분은 telomere 유지 보수에 관여하고 있습니다. 원래 주제는 지금이 집합에서 가장 높은 점수 모티브입니다도 있습니다.</p><p class="jove_content"scope 결과> 또 다른 집합은 그림 6에 표시됩니다. 이 경우 유전자의 집합은 Saccharomyces cerevisiae의 ribosome의 biogenesis에 관여하는 사람입니다. 이 유전자는 실제로 ribosome의 일부가 아니지만 변이를 조립에 대한 책임 및 수정 효소의 숫자를 포함합니다. 어떤 그림에서 명확 것은 적색과 녹색의 그​​림이 세트의 유전자 조절에 관여하는 가능성이 신뢰할 수있는 패턴을 형성한다는 것입니다. 우리는 더 자세히 "모듈"의 패턴을 조사하고 나중에 출판에보고합니다.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig1.jpg" alt="Figure 1"><strong> 그림 1</strong>. 메인 범위 입력 페이지입니다. 이 페이지는 분석하는 유전자를 입력하고 수종을 정의하는 데 사용되며 상류 지역의 길이를 검사합니다. 선택, 사용자는 이메일로 결과를 요청하거나 특정 주제로 검색을 제한할 수 있습니다. 비디오 도움말도 가능합니다.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig2.jpg" alt="Figure 2"><strong> 그림 2</strong>. 가치 메인 범위 입력 페이지는 검색을 수행에 가득. 이 매개 변수는 '샘플 검색'버튼을 누르면 결과입니다. 이 경우, 범위에 의해 발견된 주제를 포함하는 다른 유전자를 찾을 수있는 확인란이 선택됩니다. 이 옵션은 (게놈의 모든 유전자가 검사되어야합니다)하지만, 흥미로운 통찰력을 제공할 수 계산 시간이 오래 걸립니다.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig3.jpg" alt="Figure 3"><strong> 그림 3</strong>. 메인 범위 결과 페이지입니다. 이 페이지는 범위 검색 결과를 요약한 것입니다. 모두 높은 점수 작품의 목록이 제공되고 색상 코드화된 모티프지도 분석 유전자의 집합에서 확인된 작품의 위치를​​ 보여줍니다. 주제 옆에 색상 상자를 클릭하면 모티브지도에서 또는 해제되는 모티프의 표시를 전환합니다. 중요한 점수 (시그 값), 모티브 (적용 범위)이있는 유전자의 분율, 그 모티브를 찾을하는 데 사용되는 알고리즘 이외에도 제공됩니다.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig4_1.jpg" alt="Figure 4 top"><img src="/files/ftp_upload/2703/2703fig4_2.jpg" alt="Figure 4 bottom"> 그림 4</strong>. 특정 모티프가 기본 검색 결과 페이지에 클릭하면이 결과 세부 페이지가 거론됩니다. 그것은 개별적인 모티브의 세부 사항을 보여줍니다. 시퀀스 로고, 위치 중량 매트릭스, 그리고 합의 순서는 각 또한 페이지에서 모티브 인스턴스의 목록의 요약의 다른 종류를 나타냅니다. 원래 검색 설정에서 선택되었다 '는 별도의 유전자가 발견'이후,이 모티프를 포함하는 게놈의 다른 유전자에 대한이 페이지에 대한 정보도 있습니다. 이 페이지에서이 페이지에서 확인 여분의 유전자를 포함하여 다른 범위를 시작하는 것도 가능합니다.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig5.jpg" alt="Figure 5"> 그림 5</strong>. 이 그림은 그림 4에 표시된 모티브로 'atgnnnnttg'에 대한 여분의 유전자를 찾고 결과를 보여줍니다. 원래의 셋을 유전자 모티브지도 하단의 소문자에 있습니다. 추가 유전자는 대문자로 표시됩니다. 이러한 유전자의 상류 지역에있는 모티브에 명확한 패턴이 있습니다. 그것이 확인이 얼마나 그 때문에 특정 주제가 'LOOKUP'와 같은 알고리즘을 보여주는 것 또한 알 수 있습니다. 그것은 실제로 5 일치<sup> 일</sup> 모티브는이 분석에서 스페이서에 의해 발견했습니다.</p><p class="jove_content"<img src="/files/ftp_upload/2703/2703fig6.jpg" alt="Figure 6"> 그림 6</strong>. Saccharomyces cerevisiae의 ribosome biogenesis에 관련된 유전자에 대한 범위 출력. 주제 'aaawtttbh'(적색)와 'abctcatcd'(녹색)에 대해 10-30 국세청으로 구분하고 유전자에 대한 전사 시작 상류 100-200 세포핵에 존재 구성된 모듈의 보존 패턴을합니다.</p>

Discussion

범위 coordinately 규제 유전자의 집합에서 잠재적인 규제 작품의 식별을 위해 사용하는 강력한 도구로 연구자를 제공합니다. 사용자는 주제 또는 사이트가 필요 찾는 많은 모티브로 주제의 발생의 숫자의 크기에 맞춰 필요하지 않습니다. 모티브가 확인하기 전까지 이러한 매개 변수는 기본적으로 불가합니다. 인터페이스는 순서이나 유전자 이름을 입력과 출력을 볼 수 모두 매우 간단합니다.

범위 출력 모티브 표현의 세 가지 다른 방법을 사용하여 식별하는 작품의 모든에 대한 자세한 정보를 제공합니다. 유전자의 모든 모티브의 각 인스턴스는 입장과 "스트랜드"정보와 함께 나열됩니다. 모티브지도의 형태로 그래픽 결과를 이해하기 쉽게 제시하는 주제에 패턴을 볼 수있는 직관적인 방법을 제공하는 시각적 표시를 제공합니다.

범위는 데이터에 노이즈가 존재하는 매우 강력한 것입니다. 일반적으로, 이것은 실제로 유전자의 나머지 부분과 함께 공동 규제되지 않는 시작 세트에 존재 여분의 유전자의 형태로 걸립니다. microarray 실험에서 공동 표현 유전자로 시작하는 경우에 이러한 문제가 종종 발생합니다. 때로는 실험 시끄러운, 또는 microarray 실험에 사용된 실험 조건에서 활성화 여러 전사 요소가있을 수 있습니다. 이러한 다양한 전사 요인 가능성이 DNA에 다른 타겟 사이트를합니다. 도 4 배 외부 유전자 (잡음 : 신호 비율 4시 1분입니다)의 면전에서, 범위는 여전히 사이트 1 예측의 정확성의 50 %를 유지합니다.

범위 유전자 이름 2 백만 이상의 동의어를 포함하고 있지만, 가끔은 유전자 이름을 식별하는 데 실패합니다. 우리는 끊임없이 우리의 동의어 목록을 업데이 트하지만, 때로는 다른 동의어는 동일한 유전자를 참조 것을 알게됩니다. 이러한 경우에, 우리는 때문에 모호함의 동의어를 포함하지 않습니다. 이 범위에 의해 발견되지 않은 유전자 이름이있다면, 그것은 당신이 범위에 사용할 수있는 다른 유전자 이름을 찾기 위해 게놈 특정​​ 사이트를 참조하는 것이 좋습니다. 각 종족에 대한 적절한 유전자 이름의 예로는 범위가에 의해 제공됩니다.

범위는 현재 새로운 종이 항상 추가되는 72 종의 포함되어 있습니다. 웹 사이트는 동영상뿐만 아니라 미국의 소리는 이런 곳으로 도움이 포함되어 있습니다. 소스 코드는 RHG에 서면으로 학술 사용자가 자유롭게 사용할 수 있습니다.

Divulgaciones

The authors have nothing to disclose.

Acknowledgements

이 연구는 국립 과학 재단 (National Science Foundation), DBI – 0445967에서 RHG에 부여에 의해 지원되었다.

Referencias

  1. Chakravarty, A., Carlson, J. M., Khetani, R. S., Gross, R. H. A novel ensemble learning method for de novo computational identification of DNA binding sites. BMC Bioinformatics. 8, 249-249 (2007).
  2. Carlson, J. M., Chakravarty, A., DeZiel, C. E., Gross, R. H. SCOPE: a web server for practical de novo motif discovery. Nucleic Acids Res. 35, 259-264 (2007).
  3. Blom, E. J., Roerdink, J. B., Kuipers, O. P., Hijum, S. A. v. a. n. MOTIFATOR: detection and characterization of regulatory motifs using prokaryote transcriptome data. Bioinformatics. 25, 550-551 (2009).
  4. Blom, E. J. DISCLOSE : DISsection of CLusters Obtained by SEries of transcriptome data using functional annotations and putative transcription factor binding sites. BMC Bioinformatics. 9, 535-535 (2008).
  5. Bushey, A. M., Ramos, E., Corces, V. G. Three subclasses of a Drosophila insulator show distinct and cell type-specific genomic distributions. Genes Dev. 23, 1338-1350 (2009).
  6. Znaidi, S. Identification of the Candida albicans Cap1p regulon. Eukaryot Cell. 8, 806-820 (2009).
  7. Sharma, D., Mohanty, D., Surolia, A. RegAnalyst: a web interface for the analysis of regulatory motifs, networks and pathways. Nucleic Acids Res. 37, W193-W201 (2009).
  8. Znaidi, S. Genomewide location analysis of Candida albicans Upc2p, a regulator of sterol metabolism and azole drug resistance. Eukaryot Cell. 7, 836-847 (2008).
  9. Carlson, J., Chakravarty, A., Gross, R. B. E. A. M. A beam search algorithm for the identification of cis-regulatory elements in groups of genes. J Comput Biol. 13, 686-701 (2006).
  10. Carlson, J., Chakravarty, A., Khetani, R., Gross, R. Bounded search for de novo identification of degenerate cis-regulatory elements. BMC Bioinformatics. 7, 254-254 (2006).
  11. Chakravarty, A., Carlson, J. M., Khetani, R. S., DeZiel, C. E., Gross, R. H. SPACER: identification of cis-regulatory elements with non-contiguous critical residues. Bioinformatics. 23, 1029-1031 (2007).

Play Video

Citar este artículo
Martyanov, V., Gross, R. H. Using SCOPE to Identify Potential Regulatory Motifs in Coregulated Genes. J. Vis. Exp. (51), e2703, doi:10.3791/2703 (2011).

View Video