データサイエンス (英: data science、略称: DS)またはデータ科学 [ 1] [ 2] とは、データを用いて新たな科学的および社会に有益な知見を引き出そうとするアプローチのことであり、その中でデータを扱う手法である情報科学、統計学、アルゴリズム などを横断的に扱う。
概要
データサイエンスは、統計的、計算的、人間的視点から俯瞰することができる。それぞれの視点がデータサイエンスを構成する本質的な側面であり、これらの3つの視点の有機的結合こそがデータサイエンスという学問の神髄である(Blei and Smyth, 2017[ 3] )。
これまでのデータ解析における現場の知識の重要性に対する認識不足が、データサイエンスという学問に対する幅広い誤解の源泉であると考えられる(Hernan, Hsu and Healy, 2018[ 4] )。
手法・理論
データサイエンスで使用される手法は多岐にわたり、分野として数学 、統計学 、計算機科学 、情報工学 、パターン認識 、機械学習 、データマイニング 、データベース 、可視化 などと関係する。
実践・応用
データサイエンスは、はっきりとした応用の文脈をもち、超領域性の様相を呈していて、また研究成果に対しては明確な社会的説明責任が求められ、さらに、研究成果の質的保証のためには従来の座学的基準以外に質のコントロールのための追加の基準が必要とされる。
データサイエンスの有効な推進のためには組織の異種混合性も重要である。これらの要件を満たす科学はギボンズらが主張するモード2科学[ 5] の一種として認識することが出来る。
データサイエンスの研究者や実践者はデータサイエンティストと呼ばれる。
データサイエンスの応用としては、生物学 、医学 、工学 、経済学 、社会学 、人文科学 などが挙げられる。化学もそうである。
所得の平等
先進国でも発展途上国でも、データサイエンスのスキルに優れている国々では、所得の平等が高まっている。ドメイン全体での国の平均スキル能力と、国の上位10%が保有する収入の割合との間には負の相関関係がある[ 6] 。
歴史
データサイエンスという用語は古くから使われていた [要出典 ] が、特に1974年にピーター・ナウア が使用した[ 7] ことで注目を集めた。著書『Concise Survey of Computer Methods』[ 8] において、ナウアはデータ処理手法とその応用を述べる中でデータサイエンスという表現を使用した。
2010年代後半から世界的にデータサイエンティストが不足しているので、高度な知識をもたない利用者でも解析ができるシステムの開発が進んでいる[ 9] 。
一方、2012年、ハーバード・ビジネス・レビュー 誌が「21世紀で最もカッコいい仕事」[ 10] と位置づけたことから「データサイエンス」という言葉はバズワード になったと見る者もいる。フォーブス 誌においても、明確な定義がなく、大学院で習うビジネス分析 (英語版 ) が単に置き換えられただけだと批判された[ 11] 。
2020年、質の高いメタ分析によれば、データサイエンスの需要は増加する[ 12] 。人工知能の爆発的な成長により、データサイエンスのような分析系の仕事は人工知能に取って代わられるであろうが、コンビニ店員やタクシー運転手のような機械系の仕事が先に取って代わられると予測する専門家もいる一方で[ 13] 、将来のデータサイエンティストの需要は人工知能によって爆発的に伸びると予測する者もいる[ 14] 。
関連項目
脚注
^ 椿広計「システム科学とデータ科学 」『横幹』第14巻第1号、横断型基幹科学技術研究団体連合、2020年、64-69頁、doi :10.11487/trafst.14.1_64 、ISSN 1881-7610 、NAID 130007855120 。
^ 岡崎, 直観「データジャーナリズムとデータ科学(Data Journalism and Data Science) 」『電子情報通信学会誌』第99巻第4号、2016年、339頁、ISSN 0913-5693 、NAID 40020802401 。
^ Smyth, Padhraic; Blei, David M. (2017-08-15). “Science and data science” (英語). Proceedings of the National Academy of Sciences 114 (33): 8689-8692. doi :10.1073/pnas.1702076114 . ISSN 1091-6490 . PMID 28784795 . https://www.pnas.org/content/114/33/8689 .
^ Healy, Brian; Hsu, John; Hernán, Miguel A. (2018-04-28) (英語). Data science is science's second chance to get causal inference right: A classification of data science tasks . https://arxiv.org/abs/1804.10846 .
^ Baber, Zaheer; Gibbons, Michael; Limoges, Camille; Nowotny, Helga; Schwartzman, Simon; Scott, Peter; Trow, Martin (1995-11). “The New Production of Knowledge: The Dynamics of Science and Research in Contemporary Societies.” . Contemporary Sociology 24 (6): 751. doi :10.2307/2076669 . ISSN 0094-3061 . https://doi.org/10.2307/2076669 .
^ “Announcing the Coursera 2020 Global Skills Index ” (英語). Coursera Blog (2020年7月16日). 2020年11月11日 閲覧。
^ Cao Longbing (2017-06-29). “Data Science” (英語). ACM Computing Surveys 50 (3): 1–42. arXiv :2007.03606 . doi :10.1145/3076253 .
^ Peter Naur (1974). Concise Survey of Computer Methods . Studentlitteratur, Lund, Sweden. ISBN 91-44-07881-1 . http://www.naur.com/Conc.Surv.html 2022年1月12日 閲覧。
^ 『NEC、業務システムにおける大規模データ予測を自動化する「予測分析自動化技術」を開発 』(プレスリリース)日本電気株式会社、2016年12月15日。https://jpn.nec.com/press/201612/20161215_06.html 。2021年7月15日 閲覧 。
^ Davenport, Thomas H. ; Patil, DJ (2012-10). Data Scientist: The Sexiest Job of the 21st Century . Harvard Business Review . https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ .
^ “Data Science: What's The Half-Life Of A Buzzword? ”. Forbes (2013年8月19日). 2019年6月8日 閲覧。
^ Chao, Lemen; Xing, Chunxiao; Zhang, Yong; Zhang, Chen (2020-10-23). “Data Science: State of the Art and Trends” (英語). Data Science and Informetrics 01 (01): 22. doi :10.4236/dsi.2020.11002 . http://www.scirp.org/journal/Paperabs.aspx?PaperID=103596 .
^ “A Theory of AI Job Replacement - AI and the future of work ”. Coursera . 2023年8月7日 閲覧。
^ “Feel the Fear! AI Turns Deadly, Data Disappears, Criminals Clone Voices, and more ” (英語). Feel the Fear! AI Turns Deadly, Data Disappears, Criminals Clone Voices, and more (2023年10月25日). 2023年11月6日 閲覧。
学習用参考図書
講談社データサイエンス入門シリーズ
サイエンス社ライブラリデータ科学
第1巻、早稲田大学データ科学教育チーム:「データ科学入門 I データに基づく意思決定の基礎」,ISBN 978-4-7819-1540-1 (2022年4月10日)。
第2巻、早稲田大学データ科学教育チーム:「データ科学入門 II 特徴記述・構造推定・予測 ― 回帰と分類を例に」、ISBN 978-4-7819-1567-8 (2023年3月10日)。
第3巻、「データ科学入門III」(発行予定)。
第4巻、「データ科学入門IV」(発行予定)。
第5巻、「データ科学実践」(発行予定)。
第6巻、「回帰と分類のデータ科学」(発行予定)。
第7巻、「時系列構造のデータ科学」(発行予定)。
第8巻、「潜在構造のデータ科学」(発行予定)。
第9巻、「空間構造のデータ科学」(発行予定)。
第10巻、「因果構造のデータ科学」(発行予定)。
第11巻、「データ科学のためのモデリング」(発行予定)。
外部リンク