データサイエンスか統計学か
On 10月 28, 2021 by adminDonoho(2015)の論文「50 Years of Data Science」では、「データサイエンス」とは何か、他の学問、すなわち統計学とどう違うのかをより理解するために、意味を持って定義するという問題に取り組んでいる。
彼は、統計学の分野と、コンピュータ サイエンスや社会科学などの他の分野との比較から始めており、これらはすべて技術や手法を主張しているように見えます。
Donohoは、John Tukeyが始めたこと、そしてWilliam ClevelandやJohn Chambersなどの他の人々が唱えたことは、今日我々がデータ科学として知るものを含む統計の拡張であったということを論証しています。
この観点から、彼らは統計学を、対象となる集団について何かを知るためのデータがあるときに、誰かが推論モデルを構築することを可能にする統計学の理論に主に焦点を当てているとみなしています。
「データサイエンス」の初期の提案者たちは、現代の統計学が、データプロセスにおける収集とクリーニングの重要性を省いていると考えていました。
さらに、理論的に構築されたモデルをテストするためにデータを使用するのではなく、データから推論することを目的としたモデリングに加えて、モデルをデータに適用することによる予測力にも注目が集まっています。
Donoho は、データサイエンスの機械学習分野だけでなく、他の多くの使用例においてこれがいかに明確であるかと指摘しています。 統計理論に頼るのではなく、データそのものからパターンや複数の潜在的なモデルを見つけ出すことに焦点を当てたパラダイムシフトが起こったのです。
統計学からデータ解析へ
1990年代にこの分野を支配し始めたSPSS、SAS、そして最後にRなどの統計ソフトウェアの普及を通して見られるように、これらのプログラムへの依存と卓越性は「データ解析」と同義となり、その手法は多くの学術・商業用途に広まりました。 さらに、ほとんどすべての場面で、実務家が、以前使われていた古典的な統計手法ではなく、「ビッグデータ」や「データマイニング」に取り組み始めました。
The Common Task Framework (CTF)
次に重要な開発は、競争のための手法であるCommon Task Framework (CTF) でした。 CFT は、
- (1) 公開されたデータセット、
- (2) データから予測ルールを推論するという共通の目標を持つ競争相手/共同研究者、
- (3) 競争相手の提出物を得点化できる客観的な得点審判者/アービターが必要である。
CFT は、データ サイエンス コンテストを可能にするだけでなく、明確な測定可能回答と合意された目標があるため、データによる科学的問題をオープンソース化する文化も構築しています。
A New Branch of Science
Clearly something beyond statistics, data science now encompose programming, engineering, mathematics, design, and scientific methodology knowledge in almost all the applications.
Aditional, focusing on implementing solutions, including interfaces for products and services or simply providing data visualization for presenting results of the data science work.さらに、製品やサービスに対するインターフェイス、あるいは、データ サイエンスの結果を提示するためのデータの可視化を含むような、ソリューションを実装することが重視されています。
これは明らかに、以前はどの分野も重視していた以上のものですが、多くの分野がこれらのテクニックや知識を特定の問題に適用することで採用し利益を得ることができるという意味で普遍的でもあります。
1960年代にジョン・テューキーが宣言したように、データの科学は我々の世界でますます重要になり、我々の生活のほぼすべての面で急速に広まってきています。
コメントを残す