Dr. Bonoの生命科学データ解析 : 2章 生命科学分野のデータベース

じょん

Dec 16, 2017

about me

  • 某企業の会社員
    • 数年前までin vitroな創薬標的探索屋
    • 今はトランスクリプトームとかメタボロームとか
  • 水の中が好き
    • 今年は初めて本栖湖にもぐりました

integbio

はじめに

発表に際して

  • 正直、釈迦に説法な内容です
  • 気をつけているつもりですが間違いもあるかもしれません
  • 詳細はBono本を読んだほうがわかりやすいと思います

  • 読書会って何だろう

    • いち個人がどう読むのかを共有することだと解釈
    • 個人的な考えを紹介します。
    • そんな考え方もあるのねーと思っていただけると幸いです

個人的な考え

  • その解析の目的は何? 
    • 単なる作業だけなら出来ることはたくさん(でもコストはかかる)
    • その結果、ふーん、で終わらせてない?
  • 解析が今後の方針に寄与するかがひとつのポイント
    • ネガティブな結果でも方針に寄与すれば意味はあるはず
  • 埋没費用(サンクコスト)に引っ張られていない?
    • 「せっかく〜したんだから」は危険、未来にかかる費用も意識しよう

意外と起きがちな手段の目的化

  • 手段の目的化はいつ起こるか

    • いつ起きてもおかしくない
      • 集中してるとき
      • 焦ってるとき
      • 状況が変わったとき
  • 集中とトンネリング(視野の狭まり)は表裏一体

    • 自分がどの状態か、自覚が必要
      • 思い返すタイミングを用意するといいかも
    • 自覚があるならば手段の目的化は有効な場合もあると思う
      • 時間やリソースをコントロールして上手く使う

個人的な考えの話はここまで

  • 気をつけよう

    • 自戒をこめてます
    • 正直この資料作るときも何度か手段の目的化に陥りました

integbio

2章:生命科学の公共データベース

データベース活用の目的は…

  1. 調査
    • 知らないことの情報を得る
  2. 検索
    • 知りたいことの情報を得る
  3. 解析
    • 一見だけではわからないことで、かつ自分が知りたいことの情報を得る

調査

DB把握

DB検索

  • 生命科学DB横断検索
    • 日本語でもOK(ライフサイエンス辞書にあれば)
    • ※私は使いこなせていません…

integbio

DBニューストピックス

  • Nucleic Acids Research(NAR)
    • 毎年1月のDatabase issue
    • 毎年7月のWeb Server issue
  • その年のスナップショット
    • そのままずっと存在しているとは限らない
  • 他の論文や、同僚や他の組織の方との会話とかも NAR

検索

例えば:ハウスキーピング遺伝子

  • とある実験を計画中、qPCRの内部標準に使う適したハウスキーピング遺伝子を選びたい

    • 手元にはGAPDHとACTB, HPRT1のprimerはあるけど..とか
    • 測定予定のサンプルでも発現してるのかな
  • 検索してみましょう

検索例:UCSC genome browser

  • カリフォルニア大学サンタクルーズ校が開発・維持
  • 遺伝子名などを検索して、その遺伝子周辺の情報を取得することができる
  • 統合TVで検索するといろいろと使い方が紹介されている

UCSCgenomebrowser

自分の見たいものを見やすくカスタマイズ可能

  • ↓“hide all”ボタンを押した状態(GAPDH)

UCSCgenomebrowser

何を調べたい?

  • ヒトの各組織でGAPDHがどのくらい発現している?(GTEx)
  • 他の生物ではどのくらい配列が保存されているのかを可視化したい(Conservation)
    • trackの可視化方法 packなどを選択してrefresh UCSCgenomebrowser

こんなふうに

  • ↓閲覧したい情報(GTExとConsevation)をTrackから追加した(GAPDH)

UCSCgenomebrowser

GTEx部分をクリックすると

  • 前ページでの縦軸は対数らしい
  • MuscleとEBVtransformed lymphocyteで高発現

UCSCgenomebrowser

ACTBの場合

UCSCgenomebrowser

HPRT1の場合

UCSCgenomebrowser

わかったこと

  • GTExを見るとハウスキーピング遺伝子とはいえ組織ごとにちょっとずつ発現量は違う
    • Muscleと他の組織での遺伝子Xの定量比較をするときに、GAPDHで内部標準を引くのは気をつけた方がいいかも
  • 余談
    • 化合物の評価などの場合、内部標準に使う遺伝子の発現に影響することもありえます
    • 標的因子の周辺情報も調べたり、control対treatで変化がないことを確認したり
    • qPCRの生値から変動係数を算出して最適な内部標準を選択するなど

検索:例えば、組織特異的に発現する遺伝子について

例えば:組織特異的高発現遺伝子

  • 注目している組織で発現している代表的な遺伝子を見つけたい
    • siRNAのポジコンに使える?
  • そんな時はRefEX RefEx

肝臓で高発現する遺伝子は

MBL2などがあることがすぐわかる RefEx

UCSC genome browserでもMBL2を検索

UCSC genome browserでも一応みてみると RefEx

統合TV、便利!

TogoTV_UCSC

  • 自習に便利、 人に教えるときに便利!
  • 動画をダウンロードしての視聴も可能!!

解析

解析:対象は

  • 何が知りたいの?”目的”は?

    • 何に着目する?
    • 目的に応じて活用するDBはさまざま
  • ですが、今回は遺伝子発現DBをご紹介

解析:対照は

  • 何と比較する?
    • 健常と病態, 重症度, 時間, 薬剤濃度 etc.
    • 比較対照が変わると結果も変わる
    • 知りたいことを知るためには何が最適?

多分ここが腕の見せ所

結局はwetの実験と同じと思います

ArrayExpressとGEOとDOR

  • 遺伝子発現データベース
    • マイクロアレイやRNAseqなどのデータは論文投稿時に公共データベースに登録することが求められている
    • つまり論文上のデータは登録されている(はず)
  • ArrayExpress, EBI
    • 検索に強い
  • Gene Expression Omnibus(GEO), NCBI
    • 一部のデータについてはキュレート済み、簡単な解析は可能
  • DDBJ Omics Archive(DOR), DDBJ
    • 現在は設立準備中
  • ArrayExpress, GEO共に生データのダウンロード可能
    • つまり、自分の好きなように活用可能

IDについて

  • ArraryExpress
    • E-XXXX-から始まる:ひと実験のまとまり
      • ex. E-GEOD-74377(GEO経由で登録された場合)
    • A-XXXX-から始まる:アレイのバージョンなど
  • https://www.ebi.ac.uk/arrayexpress/help/accession_codes.html

  • GEO
    • GSEから始まるID:ひと実験のまとまり ex.GSE74377
    • GSMから始まるID:個々のサンプルのID
    • GPLから始まるID:アレイのバージョンなど
    • GDSから始まるID:キュレートされた実験データのセット

ArrayExpress

  • キーワード検索に優れている
    • タイトルだけでなくDBエントリまで検索範囲
    • Experimental Factor Ontology(EFO)の配下の語彙も合わせて検索結果に表示される
    • Expression Atlasへのリンクがあれば、発現定量のヒートマップも閲覧可 ArrayExpress

Gene Expression Omnibus(GEO)

  • GEO DataSetsに含まれているものはキュレーションされており、web上で任意の遺伝子発現を確認できる
  • DataSetsに登録されていないものでも、なかにはGEO2Rでえいやで解析できるものもある ArrayExpress

Bono本出版後の出来事…

  • ArrayExpressはGEOのデータ取得やめるみたい

  • 13 October 2017 - ArrayExpress is stopping import of GEO data

    • “Unfortunately, we are stopping the regular imports of Gene Expression Omnibus (GEO) data into ArrayExpress.”
  • ひとまずはどれも見ておいた方がよさそう

最後に

2章 生命科学の公共データベース

  • 目的, 内容によっては公共データベースを調査, 検索, 解析それぞれに活用できる
  • 知識があればネットがつながる場所で好きなように活用できる
  • 解析についてはこの後の発表者のみなさんのお話が楽しみです