什麼是數據科學 (Data Science)?

當我告訴你我是一個數據科學家 (Data Scientist),你很難立即可以想像到我的專長和技能是什麼。數據科學這詞語這麼難理解,在於它並沒有一個精確的定義。特別在商業/媒體以及技術/招聘這兩個角度上,數據科學可以在指非常不同的東西。我希望可以透過比較這兩個範疇,讓大家更容易理解當我們在某地方看到「數據科學」這四個字時,發言者背後的意思究竟是什麼。


1) 商業及媒體角度講 Data Science : 把數據分析這品牌重新包裝

近年人工智能等技術的發展,大大提升了企業以至公眾對數據應用的興趣。當一個概念擁有商業潛力,傳媒以及相關產品/服務供應者便有動機去創造一個新的用語,以方便解釋所有相關概念。這便造就了「數據科學」這個流行用語。從商業推廣及媒體傳播角度來看,「數據科學」這字其實和曾經流行的數據分析 (Data Analysis)、數據挖掘 (Data Mining)、商業智能 (Business Intelligence) 等術語是可以互相取替的。情況有點像數年前紅極一時的「大數據」和現在的「人工智能(AI)」。這些流行用語人人也在談在追捧,但人人對它們的意思也有各自的解讀。現在當我們在網上看到一篇標題為「AI創新改變XX行業」的文章,它可以是在談論最頂尖的無人駕駛技術,但它亦可以只是一篇在宣傳一個新推出點餐App的廣告文章。

2) 技術及招聘角度講 Data Science : 應用工具及技術的變遷

以一個科學、有系統的工作流程來從原始數據中獲取有用資訊,這種工作模式其實一直都存在。但實行這套工作流程的工具及技術卻在不斷改變。以下這張由數據科學家Drew Conway製作,用於定義數據科學的圖表,很多讀者可能都曾看過:

此圖的重點是數據科學需要融合三個範疇的知識: 數學與統計 (Math & Statistics Knowledge)、編程與電腦科學 (Hacking Skills) 以及行業知識 (Substantive Expertise)。在「數據科學家」這個新興職位出現之前,當一間公司要招聘數據分析人員,一般都會用數據分析師(Data Analyst)、商業分析師(Business Analyst)、統計學家(Statistician)或者電腦科學家(Computer Scientist)等職稱。但傳統的數據分析人員一般只有數學統計或電腦科學知識,兩者兼備的人才是很罕有的。隨著近年機構企業可收集的數據變得越多越複雜,這就造成了一個新問題。我們有數學統計出身的分析師,他們很擅長利用各種分析技巧及統計學模型去解釋、演繹數據,但對如何有效整理大量多樣化數據卻毫無頭緒。另一方面,電腦科學出身的人員善於透過編程整合和整理不同來源的數據,提升分析海量數據的效率,但對於如何把原始數據轉化為有價值的資訊卻不是他們的專長。

在數據分析這個行業裡,電腦科學和數學統計曾經是兩門較獨立的技術分支,直到近年R及Python等應用工具的興起改變了數據分析的遊戲規則。像Python和R這兩個用於數據分析的編程語言,設計非常適合一個電腦科學或數學統計背景出身的人去學習並填補自己缺乏的那一門範疇。現今可收集數據的多元化,加上分析工具的變遷,把電腦科學和數學統計拉在一起,提升了「從原始數據中獲取有用資訊」這個工作流程的效益。什麼是數據科學家? 這是我聽過最喜歡的定義:

「數據科學家是一個比一般編程人員更會統計學,或比一般統計學家更會編程的人」

剛剛說過數據科學除了數學統計和電腦科學,還需要行業知識第三塊拼圖。但我認為現今數據科學的發展,越來越則重前兩者的技術需求多於後者。例如你到招聘網站試找一個零售業數據科學家的招聘廣告,較常見的情況是會看到一行行強調對統計和編程等技術的首要要求,附上一句「擁有X年零售業經驗為佳」的次要要求。一間公司裡正正已經擁有著大量行業知識豐富的人,所以對於一個數據科學家,可以相對容易地透過入職後的交流及研究邊做邊獲取行業知識。相反數據科學的統計及編程技術部份是現時很多企業和機構最需要,但市場上兩者兼備的人才卻是供不應求的。在技術以及招聘角度,市場需要新類型的人才,就需要一個新的職稱去標籤一套新的技能組合,這就造就了數據科學家這個當今熱門的職業出現。

總結 – Data Science 就是 統計學 + 編程 的強化版

如果你在媒體或者商業交流上聽到數據科學這字,非常需要細讀前文後理才可以理解發言者真正意思,因為他們可以在指任何東西 (從用Excel試算表整理數據到Tesla 的無人車技術)。但如果你是在一個專業數據分析團隊或招聘廣告中聽到數據科學,定義一般會相對較為精準。意指透過利用數學統計和編程工具,並配合行業/領域知識,從原始數據中獲取有用資訊。


數據科學速成班 (鬍子科技學院合作)

以專業 R coding 和 實用案例 為材料,助你在 30 天內掌握 Big Data (大數據) 和 A.I. (人工智能) 等複雜概念,並開始應用到你的個人及商業項目上。

導師:香港數據科學家 Warrington Hsu

學員:適合任何對數據科學有興趣的初學者 (沒有 coding 底子要求)