科学研究で得られたデータの8割が20年以内に喪失しているという調査結果が明らかに
カナダのブリティッシュ・コロンビア大学の研究グループはこのたび、科学研究によって得られたデータの大部分は、論文が公開されてから一定の時間が経過することで消失してしまっているというショッキングな調査結果を発表しました。
この調査結果は、世界的なトップジャーナル「Cell」の系列誌である「Current Biology」に、今月19日付けの論文として掲載されたもの。研究を主導したTimothy Vines氏らは、1991年から2011年にかけて実施された516の研究に関して、論文に掲載されているデータのオリジナル元にアクセスを試みています。
その結果、論文が公開されてから2年後までは、ほぼ全てのデータへのアクセスが可能であったものの、その翌年には17%が確認不可能となっており、20年後には実に80%ものデータが「行方不明」となっていることが判明したそうです。
そんなバカな…と言いたくなるような結果ですが、実際問題、論文に掲載されているような数値は実験結果に統計的な処理などを加えたものがほとんどで、その基となっている「生データ」は、研究者個人が管理しているケースが多く存在しています。
当然、そのような状況下では、実際に実験を行って論文を執筆した人間が所属先を移動すれば、参考資料として残るのは実験ノートのコピー程度となってしまう(※)わけです。研究活動に少しでも携わった経験がある人なら、ミミズのような文字が走った実験ノートだけで当時の状況を再現することがどんなに難しいことか、実感があるのではないでしょうか?もちろん、またイチからデータを作ろうとすると、時間と労力・コストが大幅にムダになってしまうことは、言うまでもありません。
Vines氏は論文の中で「科学誌は、論文発表を行う研究者に対して、公的な共有アーカイブ上への研究データのアップロードを必須とするような仕組みづくりを進めるべき」と呼びかけています。
科学研究を支えるためのテクノロジーが高度に発展した現代においても、こうした次代への継承に関わる部分がお粗末なままであるというのは、何とも寂しいことですね。
[UPI via Slashdot] [Current Biology]
デジタルのほうが長期間データを保存できそうだな。誰でも見ることができるし。
そうなるとPDFが有利かな?
まぁ、当時はデジタルデータはろくに使い物にならんかったろうけど。
この記事でいいたいのは実験データが喪失してることを問題にしてるからpdfとかは関係ないよ。生の実験データがのこるならテキストファイルでもバイナリファイルでも何でもいい。
以前,教授がネガディブデータを集めたデータベースを作りたいとか言ってたな。
こういうのって大事だよね。統計ミスってた,とかありえるわけだし。
サンプルが少ない
1年前、2年前、・・・20年前で、遡る年数毎に到達出来ない資料の割合が不明
研究論文だけではなくて、他の資料ではどうなのかの分析がない
なので、突出して研究論文の場合でこうなのかが分からない
以上の理由から、科学的なようでいて不完全な調査結果だと言わざるを得ない
気象データ、人口統計、戸籍データ、納税記録ets.
民間人でも閲覧可能で、かつ比較できるデータはいくらでもあると思うよ?
それに統計資料としてみるなら「雑誌に掲載されるほどの研究」という条件で、十分抽出要件を満たしてる。
サンプル数としては十分じゃないかな?
20年以内にデータの8割が消失しているのではなくて、2割も残っていると
言えるのかもしれないよ
約20年前、1991年8月6日がWWWのサービスが実現した日
この研究ではアクセス方法はネットだけではなくてリアルのつてで人をあたって、
紙の資料も含めて調査したのか分からないけど、もしネット上だけで考えても、
民間人の無料や有料のサービス、個人的な資料も含めてみたら、消失の割合は
8割どころではないかもしれない
ネットの情報も永遠に残るとか言われてるけど、忘れ去られるのが大半だろうなぁ
未来にはネット考古学者みたいなのがいそうだな
情報のマイニングはとても大事な観点
この記事では割合に注目しているけど、実は情報量の残存割合よりも
価値のある情報の割合をいかに上げて、また、それを探しやすくするかが
とても重要
似たような情報、劣化した情報、無意味な情報、洗練された情報、
大量に蓄積された中からどうやって必要な情報をピックアップしていくか、
価値のある情報とそうでない情報を峻別していくか
きっと今その研究が一番進んでいるのは、情報の監視や分析、それに
情報操作が活発な情報機関だと思う
確かに、私のいた研究室もボスの退任で大部分の資料を廃棄したからなあ。
論文のデータバングとか無いん?
うちの研究室はデータ自体は残っていても実験した学生しか何のデータなのか分からないような状態だからなぁ
各々ファイル名でさえ揺れもあるのにそれが何かというのも違う媒体(ノートにファイル名)で記録してあるというのもあるしなぁ…
室単位で厳密な記載規則つくるというのも…