Articles

「さあ赤色下线がポンチ絵をグイッ占拠して右肩上がりグラフドーン!?科学技术とイノベーションをデータ「伝える」方法?」(9/30)原泰史先生の讲义レポート

2017.10.2

玉置 雄大(2017年度 本科/学生)

今回は、科学技术とイノベーションにまつわるデータをどのように分析しているのか、その裏側についてお話しいただきました。講師は原泰史先生(政策研究大学科学技術イノベーション政策研究センター 専門職)です。

科学は経済を润していますか?

科学技術は経済に貢献しているのでしょうか?例えば、過去の大量の医薬品に貢献した基礎研究の论文が増えたことによって、日本人の平均寿命が2年伸びた、という結論が得られれば、国から基礎研究に多くの予算がつくでしょう。冒頭の「科学技術は経済に貢献しているか?」という問いに答えるためには過去何万、何十万の大量の论文、特許データを使って分析する必要があります。原先生は膨大な论文、特許データの分析、いわゆるビッグデータ分析を専門とされています。本讲义ではデータの分析を行うために必要なことを教えていただきました。

まずは、データを把握しよう!

分析をする前にまずはデータを把握する必要があります。论文データはWeb of Science

、特許はgoogle patentなどのデータベースにアーカイブされています。このようなデータベースにアクセスすることで、だれが、いつ、どこでどんな论文、特許を引用したのかわかります。この情報を利用することで、例えば、ある製品の论文、特許の過去の流れを、時間軸を追いながら体系的に把握することができるわけです。

ノーベル章受赏者の披引用パターン

原さんは论文データベースを利用して过去のノーベル章受赏者の主要论文の引用パターンを调べました。その结果、ノーベル赏受赏者の主要论文は引用され始まるタイミングが、他の论文に比べて遅いことが明らかとなりました。つまり、ノーベル赏受赏者の主要研究は、はじめは见向きもされないけれど、数十年后にやっとその価値に皆が気付いていくという倾向があるのです。天才は时代の何十年も先を行っているというわけなのですね。

データ解析をするまでが大変

データの分析と言えば、相関回帰分析といった统计処理や、主成分分析、クラスター解析等を思い浮かべる方もいるかもしれません。ソフトウェアの発达が着しい今日、分析自体は谁でもすぐにできるような环境が整いました。いまやスマホの上でも実行できるのです。原先生は、分析するためのデータを作ることこそが、実は大変なのだとおっしゃっていました。たとえば、名前が间违って登録されていたり、ほしいデータがなかったりした场合はその都度修正する、他のデータベースから补うといった作业が必要になります。分析のために生のデータを分析可能なデータフォーマットに変换する作业も必要です。特に、データの変换について一定の知识が要求され、ハードルが高くなってしまうのです。

(手持ちのデバイスで実际にデータの解析をしてみました)

相関か因果かを见分けるコツ

最后の质疑応答で「相関関係なのか因果関係なのか、见分ける方法はあるか?」という问いがありました。原先生は、自分でデータに触れて手を动かしてみること、常に「この変数とこの変数は本当に因果関係にあるのか?」といったツッコミを入れることが大切だとおっしゃっていました。また、自分の背景知识と照らしあわせることで、勘がよくなることも话されていました。実は因果関係を証明することは意外と难しいのです。だからこそ常に冷静な视点でデータを见つめる、いろんな角度から泥臭く分析してみることが大切なのです。

「ビッグデータの時代」と言われている現代、データを扱う仕事はますます重要になってくるでしょう。本讲义はデータと向き合う上で大切な心構えを学ぶことができました。

原先生、ありがとうございました!