ここでは、おいのアプローチと分析を提示して、遺伝子座の特定のレベルでライン1式を特定します。
長く散在した要素-1 (ライン/L1s) は、ゲノムの不安定性および突然変異をもたらし、複製し、無作為に遺伝子を挿入することができる反復的な要素である。個々のレベルでの L1 遺伝子座の発現パターンを理解することは、この変異原性要素の生物学の理解に役立つであろう。この自律要素は、ヒトゲノムのかなりの部分を50万以上のコピーで構成しますが、99% は切り捨てられ、欠陥があります。しかし、その豊かさと支配的な数の欠陥コピーにより、他の遺伝子の一部として表現された L1 関連の配列から、真に発現した L1s を同定することは困難になります。また、要素の反復的な性質のために特定の L1 軌跡がどのように発現しているかを特定することも困難である。これらの課題を克服し、遺伝子座特異的レベルで L1 発現を同定するための RNA-SEQ おいアプローチを提示します。要約すると、細胞質 RNA を収集し、ポリアデニル化転写産物として選択し、ヒト参照ゲノムの L1 遺伝子座への読み取りを一意にマップするために、ストランド固有の RNA-SEQ 分析を利用します。独自にマッピングされた読み取りで各 L1 軌跡を視覚的に選定し、独自のプロモーターからの転写を確認し、マッピングしたトランスクリプトの読み取りを調整して個々の L1 遺伝子座の mappability を説明します。このアプローチを、前立腺腫瘍細胞株 DU145 に適用し、少数の全長 L1 要素から発現を検出するこのプロトコルの能力を実証した。
L1s の Retrotransposition は、insertional 変異誘発、標的部位欠失、および再編成を含む様々なメカニズムによってヒト生殖細胞系列疾患を引き起こすことが報告されている13、14、15、 16.最近では、この変異原性要素の増加した発現および挿入事象が種々の上皮癌において観察されているように、L1s がもとづきおよび/または腫瘍進行において役割を果たす可能性があるという仮説がある17、18.すべての200の出生19に1つの新しい L1 挿入があると推定されます。したがって、積極的に発現する L1s の生物学をよりよく理解することが不可欠である。他の遺伝子の転写産物に見られる、重複する欠陥コピーの性質と豊富さは、このレベルの分析には困難を伴います。
幸いなことに、ハイスループットシーケンス技術の出現により、L1s は、遺伝子座固有のレベルで、真に発現しているサブテクノロジーを解析して識別するようになりました。RNA の次世代のシーケンシングを使用して表現された L1s を最もよく識別する方法にはさまざまな哲学があります。遺伝子座固有のレベルで L1 転写物をマッピングするために提案された2つの合理的なアプローチしかありませんでした。1つは、L1 ポリアデニル化シグナルを介して、および隣接配列20を読み取る可能性のある転写にのみ焦点を当てています。我々のアプローチは、L1 要素間の小さな配列差を利用して、1つの遺伝子座21に一意にマップする rna-seq の読み取りのみをマッピングします。これらの方法は両方ともトランスクリプトレベルの定量化の点で制限があります。各 L1 軌跡21の ‘ unique mappability ‘ に対する補正を追加するか、または特定の軌跡22に一意にマッピングできなかったマルチマッピングされた読み取りを再分配するより複雑なアルゴリズムを使用することにより、潜在的に定量を改善することができる。ここでは、遺伝子座特異的レベルにおいて発現した L1 元素を同定するための RNA 抽出と次世代シーケンシングとバイオインフォマティクスプロトコルについて段階的に詳述する。私たちのアプローチは、機能的 L1 要素の生物学の知識を最大限に活用しています。これには、l1 要素の開始時に開始される L1 プロモーターから機能的な L1 要素を生成する必要があることがわかっており、細胞質で翻訳されなければならず、その転写物はゲノムと共に直線的でなければなりません。簡単に言えば、私たちは新鮮な細胞質 RNA を収集し、ポリアデニル化転写産物を選択し、ストランド固有の RNA-SEQ 分析を利用して、ヒト参照ゲノムの L1 遺伝子座への読み取りを一意にマッピングします。これらの整列された読み取りでは、トランスクリプトの読み取りが、真の表現 L1 として位置を指定する前に L1 プロモーターから発生するかどうかを決定するための広範な手動キュレーションが必要です。我々は、DU145 前立腺腫瘍細胞株サンプルにこのアプローチを適用し、不活性なコピーの質量から比較的少数の積極的に転写された L1 メンバーを識別する方法を実証する。
L1 活動は、疾患27、28、29に寄与する遺伝的損傷および不安定性を引き起こすことが示されている。約5000の全長 L1 コピーのうち、大部分の retrotransposition 活動2については、数十の進化的に若い L1s が占めています。しかし、いくつかの古い、retrotranspositionally の incompentent L1s でも、DNA 損傷タンパク質30を生成することができるという証拠があります。ゲノム不安定性および疾患における L1s の役割を十分に理解するために、遺伝子座特異的レベルでの L1 発現が理解されなければならない。しかしながら、l1 retrotransposition に関係のない他の Rna に組み込まれた L1 関連配列の高い背景は、本物の L1 発現を解釈する上で大きな課題を提起している。個々の L1 遺伝子座の発現パターンを同定して理解することにおけるもう1つの課題は、多くの短いリード配列が単一のユニークな遺伝子座にマッピングされない反復的な性質のために生じる。これらの課題を克服するために、RNA-SEQ データを用いて個々の L1 遺伝子座の発現を同定する上で、上述した手法を開発しました。
当社のアプローチは高レベル (99% 以上) をフィルタリングします。l1 retrotransposition とは無関係で、いくつかのステップをとることによって生成された1次シーケンスから発生する転写ノイズのこと。第1のステップは、細胞質 RNA の調製を含む。細胞質 RNA を選択することによって、核内で発現している intronic mRNA 内で見出された L1 関連読み取りは著しく枯渇する。シーケンスライブラリの準備では、L1s とは無関係の転写ノイズを低減するための別のステップとして、ポリアデニル化転写物の選択が挙げられます。これは非 mRNA 種で見つかった L1 関連のトランスクリプトノイズを除去します。別のステップは、アンチセンス L1 関連転写産物を同定および除去するためのストランド特異的シーケンシングを含む。L1s にマップされている RNA-SEQ トランスクリプトの数を特定する際に機能プロモーター領域を持つ全長 L1s にアノテーションを使用すると、L1s ではなく切り捨てられたバックグラウンドノイズもなくなります。最後に、L1 retrotransposition に関係のない L1 配列の転写ノイズを除去する最後の重要なステップは、L1s 転写産物であることが特定された全長の手動キュレーションです。手動キュレーションには、周囲のゲノム環境のコンテキストで bioinformatically に識別された各非発現 L1 遺伝子座の視覚化が含まれ、その発現が L1 プロモーターから発生していることを確認します。このアプローチは、DU145、前立腺腫瘍細胞株に適用した。背景雑音を減少させるために取られた準備関連のすべてのステップでさえ、DU145 の bioinformatically を同定した L1 遺伝子座のおよそ 50% は、他の転写源に由来する L1 バックグラウンドノイズとして拒絶した (図 4)。信頼性の高い結果を生み出すために必要な厳しさを強調します。手動キュレーションを用いたこのアプローチは、労働集約的であるが、全長 L1 を取り巻くゲノム環境を評価し理解するために、このパイプラインの開発に必要である。次のステップは、いくつかのキュレーションルールを自動化することによって必要な手作業のキュレーションの量を減らすことですが、ゲノム発現の完全に知られていない性質、参照ゲノムにおける非アノテーションの表現源、低の領域mappability、さらには参照ゲノムの構築に関係する複雑な要因についても、現時点では L1 キュレーションを完全に自動化することはできません。
シーケンシングを伴う個々の L1 遺伝子座の発現を同定する際の第2の課題は、反復的な L1 転写物のマッピングに関するものである。このアライメント戦略において、トランスクリプトは、マッピングされるために、基準ゲノムと一意的に位置合わせする必要があります。Concordantly をマッピングする対末端配列を選択することにより、参照ゲノム中に見られる L1 遺伝子座に一意的に一致する転写産物の量が増加する。このユニークなマッピング戦略は、単一の L1 遺伝子座に特異的に読み取りマッピングの呼び出しに自信を提供しますが、それは潜在的に過小評価に表現された反復的な L1 の式の量を決定します。この過小評価をほぼ正確にするために、その mappability に基づいて各 L1 軌跡の「mappability」スコアを開発し、一意にマッピングされたトランスクリプト読み取りの数に適用しました (図 6)。理想的には、mappability は、一致する WGS サンプルに従って、完全な長さの L1 全体の完全なカバレッジ読み取りにスコアを付けなければならないことに注意してください。ここでは、DU145 前立腺腫瘍細胞株の L1 遺伝子座への読み取りマッピングを膨張または収縮させるために、WGS の HeLa 細胞を使用して各 L1 遺伝子座の mappability スコアを決定します。この mappability 計算は粗補正スコアであるが、400読み取りの選択された「完全なカバレッジ mappability」は、腫瘍細胞株の動的な性質を念頭において決定した。これは、図1の補足で観察することができますが、これには、値が割り当てられています。これらは、参照ゲノム内にない HeLa 内の重複した染色体配列に由来する可能性があり、これらの遺伝子座は完全な mappability カバレッジの代表として選択されなかった理由である。その代わりに、100% の読み取りカバレッジの平均が、補足図 1に従って400の読み取りの周りに発生し、その後、この平均が DU145 腫瘍前立腺細胞株にも適用されると仮定しました。
L1s からの 100-200 bp の読み出しとのこのアライメント戦略はまた、よりマッピングできるようにする古い L1s が時間をかけて蓄積してきたので、参照ゲノム内の進化的に古いのための選択を優先します。したがって、このアプローチは、L1s の最年少と同様に非参照、多形性 L1s を識別することになると、感度が制限されます。L1s の最年少を識別するために、我々はより長い読み取り21を利用する PacBio のような L1 トランスクリプトとシーケンス技術の 5 ‘ レース選択を使用することをお勧めします。これにより、よりユニークなマッピングが可能になり、したがって、表現された若い L1s の識別が確実になります。 RNA-SEQ と PacBio のアプローチを併用することで、真に表現された L1s のより包括的なリストにつながることができます。真に表現された多形性 L1s を同定するために、最初の次のステップは、参照ゲノムへの多形配列の構築および挿入を含む。
反復配列を研究する上での生物学的および技術的な課題は素晴らしいですが、RNA シーケンシング技術を使用して retrotransposition に非関連の L1 配列の転写ノイズを除去する上記の厳格な手順では、バックグラウンド・ノイズを転写する大規模なレベルは、個々の遺伝子座レベルで L1 発現パターンと量を確実かつ厳密に特定することです。
The authors have nothing to disclose.
DU145 前立腺腫瘍細胞のためのヤンドン博士に感謝したいと思います。ネイサン・ Ungerleider 博士がスーパーコンピュータスクリプトを作成する際の指導と助言に感謝したいと思います。この研究の一部は、NIH 助成 R01 GM121812 PD、R01 AG057597 VPB、および 5TL1TR001418 TK によって賄われていた。我々はまた、十字軍とチューレーン癌センターバイオインフォマティクスコアからの支持を認めたい。
1 M HEPES | Affymetrix | AAJ16924AE | |
5 M NaCl | Invitrogen | AM9760G | |
Agilent bioanalyzer 2100 | Agilent technologies | ||
Agilent RNA 6000 Nano Kit | Agilent technologies | 5067-1511 | |
bedtools.26.0 | https://bedtools.readthedocs.io/en/latest/content/installation.html | ||
bowtie-0.12.8 | https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/ | ||
Cell scraper | Olympus plastics | 25-270 | |
Chloroform | Fisher | C298-500 | |
Digitonin | Research Products International Corp | 50-488-644 | |
Ethanol | Fisher | A4094 | |
Gibco (Phosphate Buffered Saline) | Invitrogen | 10-010-049 | |
Homogenizer | Thomas Scientific | BBI-8541906 | |
IGV 2.4 | https://software.broadinstitute.org/software/igv/download | ||
Isopropanol | Fisher | A416-500 | |
mac2unix | https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/ | ||
Q-tips | Fisher | 23-400-122 | |
RNAse later solution | Invitrogen | AM7022 | |
RNaseZap RNase Decontamination Solution | Invitrogen | AM9780 | |
samtools-1.3 | https://sourceforge.net/projects/samtools/files/ | ||
sratoolkit.2.9.2 | https://github.com/ncbi/sra-tools/wiki/Downloads | ||
SUPERase·In RNase Inhibitor | Invitrogen | AM2694 | |
Trizol | Invitrogen | 15-596-018 | |
Water (DNASE, RNASE free) | Fisher | BP2484100 |