オープンサイエンス・リレーエッセー ライフサイエンス分野におけるオープンサイエンスへの課題
~データインフラ整備だけでなく、研究者の意識改革に向けた議論へ~

坊農 秀雅さん
ぼうのうひでまさ 大学共同利用機関法人 情報・システム研究機構 データサイエンス共同利用基盤施設 ライフサイエンス統合 データベースセンター(DBCLS) 特任准教授
PROFILE
専門はバイオインフォマティクス、データベース生物学。
博士(理学)。現職にてライフサイエンス分野の公共データの流通、とくにデータベース統合利用環境の構築と利用普及を担当。
利用可能なデータのメタ解析とその生物学的な検証に興味を持つ。

1.公共財としてのオープンデータ

 「遺伝子配列を決定したらデータベース(DB)に登録してその登録番号を論文に載せなければ受理されない」――ライフサイエンス分野においては、このルールで学術研究が進められてきた。構造生物学におけるタンパク質立体構造の座標データに関しても同様のルールがあり、ある一定期間エンバーゴがあるものの、最終的にはDBに収録される。  本邦においてもDBにアーカイブするという文化は知られてはいるものの、欧米に比べるとその他の新しい種類のデータを公共財としてオープンにする歩みは遅い。また、それらを研究に再利用することも盛んではない。その背景には、実際には利用しているのにその利用した文献やデータをちゃんと記述しない、「引用する」ことに対する軽視があるのかもしれない。これだけ研究不正問題が騒がれているにもかかわらず、である。

2.日本初のオープンデータと可能性

 理化学研究所はマウス遺伝子のコピーであるcDNAのクローンを収集、その配列を解読し、機能を明らかにしてきた。そのプロジェクトは、FANTOM(Functional annotation of mouse)と呼ばれ、マウスのあらゆる臓器の様々な発生ステージにおける遺伝子発現情報のDBという成果を生んだ。このDBは、後に京都大学の山中伸弥教授のグループがiPS細胞を樹立する際に必要な24候補遺伝子の絞り込みに利用され、結果として学問の発展に貢献することとなった。日本発のオープンデータが、日本人のノーベル賞受賞につながったというとてもいい実例である。
 この他日本発のDBとしては、KEGG(Kyoto Encyclopedia of Genes and Genomes)があるが、FANTOMとKEGGの2つのDBは、世界的にもよく使われているスターコンテンツであると同時に、開始当初からオープンデータとして、インターネット上で誰でも利用できるリソースであったことは特筆すべき点である(残念なことに現在、KEGGは大量ダウンロードの際は有料となっている)。

3.この10年で築いたデータインフラ

 この10年来、私はライフサイエンス分野のDB統合のプロジェクトに関わってきた。はじめは大学共同利用機関である情報・システム研究機構にライフサイエンス統合データベースセンター(DBCLS)が設置され、DBCLSが中心となってDB統合を推進してきた。そして2011年から戦略立案やポータルサイトの構築・運営は、科学技術振興機構(JST)のバイオサイエンスデータベースセンター(NBDC)が担っている。これにより、維持できなくなったDBや個人情報が絡むヒトデータの受け入れ体制がNBDCで確立された。また、NBDCからの「お願い」として、研究成果をDBで公開することが、科研費を始めとする研究課題の募集要項に記されるようになった。これはオープンデータの観点から大きな成果である。
 この他、各省庁のDBを横断的に統合しうまく機能しているものとしては、「integbioDBカタログ」がある。同カタログは、ライフサイエンスに関係する関連省庁で作成したDBも含めて、どういったDBが利用可能かを横断検索して提供することができる。また維持できなくなったDBの「永代供養」を引き受けるというDBアーカイブ化の事業も関係省庁を越えて行われるようになった。

4.データの収集・保全から利活用に向けて

 一方でこういったDBインフラを構築するには苦労があったのも事実である。DBCLSやNBDCといった、DBセンターで収集可能な公開データの整備だけではもちろん不十分で、研究者からデータを出してもらう必要があった。そのために、NBDCに「統合化推進プログラム」として予算がつけられ、公募の結果、植物や微生物といった対象生物種やプロテオームやメタボロームなどデータの種類と研究分野ごとに、その分野の代表的な研究者がそれぞれデータを取りまとめるという形が取られている。
 この他にも、データを集めて保全するだけでなく、データ利用する際に役に立つ日本語コンテンツを独自に作成している。例えば、ウェブ上のツールやDBの使い方チュートリアル動画(統合TV)、我々が日本各所で講師として行脚してきたDB 講習会資料のアーカイブ(MotDB)が挙げられるだろう。また、「新着論文レビュー」は、誰でも自由に読める新しいタイプの日本語レビューオンラインコンテンツで、始めて6年経ったが、約千エントリの日本語レビューを掲載することで、研究者にも浸透しているサービスとなっている。

5.課題となる人材育成、そして行政への期待

 しかしながら、10年やっても積み残していることも多々ある。とりわけ人材育成の仕組みをつくることは重要だ。それには、まず現在いる研究者の意識改革を図ることである。ただ闇雲に実験をするだけでなく、公表した成果をDBで公開し、科学の発展に役立てるところまで含めて研究である、という意識の徹底をどう実現するのか。これはこれからの大きな課題の1つである。データ解析の実例づくりといったデータ利活用に向けたコンテンツの充実は、我々ライフサイエンス研究者が頑張ればなんとかなることであるが、人材育成の問題は、ときには行政の立場から強制力を発揮して変えていただかなければどうしようもないものである。
 もちろん人材育成には、DBセンターでのインターン受け入れのための仕組みづくりなど、今すぐ始めなければならないものもあるが、海外の施策を参考に日本の実情に合った形で、図書館組織も巻き込む形でデータキュレーションに向けて制度化していくべきではないか? 研究者自らは制度を変えられない。トップダウンな体制づくりを期待している。