數據科學入門 - 思維和工具

數據科學（Data Science）是通過編程來分析和運用數據以解釋過去和預測未來的學問。數據科學是一個多學科技能組合的領域，它結合了統計學 ( Statistics )，機器學習 ( Machine Learning ) 和數據庫 ( Database ) 技術。在大數據急速發展的時代，數據科學在未來生活中的應用價值變得越來越高。企業和組織在多年的運營中儲存了大量數據，用數據科學的方法能夠從這些數據中提取非常有價值的知識，加上機器學習和人工智能的發展加快普及。企業和組織能將提取的知識應用到更廣更深層次的場景中。

數據科學的工作方向 – 解釋過去及預測未來

如要用一句話來說明數據科學家的工作性質是什麼的話，「解釋過去及預測未來」就是最直觀的了解。數據科學家在解釋過去和預測未來這兩個方向上有兩套完全不同的方法論和工具，所以開始一個項目時一定要界定清楚問題的本質和選擇正確的工具。

解釋過去的數據科學方法：探索式數據分析 (Exploratory Data Analysis)
預測未來的數據科學方法：機器學習 (Machine Learning)

探索式數據分析 Exploratory Data Analysis

探索式數據分析是通過統計學的方法和可視化技術來描述數據，找出數據的重點以進行進一步分析或歸因。在進行探索式數據分析時，最重要的工作之一是把數據定性為：

分類變數 Categorical variable
連續變數 Numerical variable

由於兩種數據所用的分析工具是完全不同的，在編程時把數據定性是最重要的步驟。

分類變數 Categorical variable

分類變數是具有兩個或更多類別的變數，如男女、低中高、冷暖熱等變量。分析工具有頻數表和棒形圖等。

連續變數 Numerical variable

連續變數可直接了解為可量化數值，是有大小之分、連續不斷的變量（例如，身高，體重，溫度，血糖，……）。分析工具有五數概括法、平均數、直方圖和相關係數等。

機器學習 Machine Learning

機器學習是透過創建數據模型和演算法，利用電腦的高運算能力來預測結果的過程。根據不同的工作目的、數據和事件類型，可選擇的模型和演算法組合可以是千變萬化。加上每日都有數據科學家推出新的演算法，初學者在學習時或會感到無從入手。筆者認入門級的同學最重要是先掌握一些比較常用的演算法類別，再根據遇上的個案慢慢進深學習。

根據筆者的經驗有 4 類基本演算法需要先學會：

迴歸分析 Regression Analysis
分類預測 Classification
關聯規則學習 Association Rules Mining
集群分析 Clustering Analysis

迴歸分析 Regression Analysis

迴歸分析是通過利用一個或多個變數（可以是連續或分類變數）來構建模型，預測目標變數的數值（如股價、人數）。
可用工具如：

簡單線性迴歸 Simple Linear Regression Analysis
多元線性迴歸 Multiple Regression

分類預測 Classification

分類預測是通過利用一個或多個變數（可以是連續或分類變數）構建模型，預測樣本所屬的類別（如預測一個銀行客戶會否違約，這裡會違約和不會違約就是兩個類別）。
可用工具如：

決策樹 Decision Tree
隨機森林 Random Forest

關聯規則學習 Association Rules Mining

關聯規則學習的目標是在數據庫中尋找有趣關係和發掘知識，經常被應用於零售業，讓公司研究哪些商品會同時被顧客購買。
可用工具如：

先驗算法 Apriori Algorithm

集群分析 Clustering Analysis

集群分析的目標是把特性相似的樣本聚集再分成群組。
可用工具如：

K-平均演算法 K-means Clustering