Data Science入行:懂數據分析比AI重要

到求職網站上看看,你會發現市場上越來越多給數據科學家 (Data Scientist) 的工作機會。這份工作的待遇和前景吸引了很多不同背景的人嘗試入行。但與律師、會計師等專業不同,數據科學家並沒有「考牌」這回事。有機會問問職位為 Data Scientist 的人,你會發現他們之間的背景、入行經歷可以很不一樣。要是你現在有興趣從事數據科學工作,在準備求職時或會好奇怎樣可以突圍而出。

我的數據科學顧問和教學工作,讓我經常接觸到很多現職數據科學家和想聘請數據人才的公司。尤其和一些公司管理層交流時,我可以直接聆聽他們的企業需要,了解他們期望找到怎樣的數據人才。在這一系列的文章我會提供一些和數據科學求職相關的資訊。並會分享我在這行業的觀察和經驗,希望能增加有興趣入行的朋友成功找到心儀工作的機會。

                                           


企業聘請數據科學家時在想什麼?

近年人工智能(AI)和大數據等概念很流行。但我觀察到至少在香港,真正投放資源、建立團隊來應用AI技術的企業其實並不多。一個常見情況是公司管理層被一些成功的AI商業應用案例吸引,便以「利用AI和大數據改善業務」這個目標為基礎,在招聘廣告中塞入一堆如 “random forest”, “neural network”等的技術關聯詞。成功被聘請的第一批數據科學家一般會先做一些研究性質工作,但當管理層發現成效不似如期(原因可以是發現公司並沒有足夠和有用的數據,或改善業務的成效不如預期來得即時,有機會日後再談),這些數據科學家的主要角色就變成了更像傳統數據分析師的數據整理、整合、分析及報告工作

根據我以上的觀察,如果你沒有任何數據科學相關經驗(例如統計及編程),我建議你在學習和為求職準備時,以這個心態作為基礎:

「首先掌握數據分析技術,人工智能理解基本概念就可以了」

今天先說掌握數據分析技術這部份。我指的是公司給你一些數據,你要有能力整理並找出一些對公司有價值的情報。「現在給你這堆數據,你去看看有沒有值得做的事情或對業務有用的資訊」這是我經常聽到企業對數據科學家的含糊指示。人工智能和機器學習演算法只是我們Data Science工具箱裡用來解決某類問題的方法(例如顧客習慣預測)。但實際操作上,你會花更多日常工作時間去整理數據、分析、找出結論並寫報告。除非你在一間研發數據產品的創新科技公司工作,否則我認為懂得利用數據說故事的能力,在商業上遠比能建立人工智能模型更有價值。

                                 


你的第一個數據科學項目

如果你有興趣入行,我會建議你先嘗試自行做一個小項目:拿一些原始數據然後加以整合和分析,最後報告你找到的有趣之處。留意我的指示也是很含糊,這是我們工作需要習慣的情境。原始數據可以在網上找,甚至你有心的話自行用Google Form等工具製作一份簡單問卷,在你朋友之間收集一些你有興趣知道的數據(例如問問疫情怎樣影響他們約會或交友習慣)。最後數據整合和分析部份不需要局限自己用什麼工具,不會Python或R,就用Excel (有空的話我會製作教學)。

就算覺得自己使用的分析方法、最後的結果不是很新奇特別也不要緊。更重要的是你要製作一份文件去記錄整個項目的過程,我稱它為數據日誌。這個日誌包括了你從收集數據到產生最後結果的詳細流程、及項目中遇到的所有問題和你選擇的解決方法。現在很多求職者只忙著在履歷表上塞滿一堆大數據/AI關聯詞,或是在網上找一些做貓、狗圖像辨識之類的編程碼範本來炫耀AI深度學習(deep learning)技術。在這情況下,你更為貼地的數據日誌能成為吸引招聘企業注意的重點。相比起你的分析結果和報告,這個日誌在你的作品集擔當了一個更重要的角色:它讓招聘者可以看到你解決數據問題的思路和創意,並顯示了你在項目裡的組織能力。這樣站在企業角度,就算最後用不著AI等進階技術,我也知道這個人至少有能力在沒有清晰指示下,能為我推行在數據中找價值的項目。你或會聽過一些科技公司面試會有像「需要多少顆網球才可以塞滿一輛巴士?」之類的奇怪問題。這些問題的重點並不是要尋求一個標準答案,而是要看求職者解決問題的思路和邏輯。數據日誌的意義正正是一樣。


總結:先學分析 後學AI

數據科技日新月異,我認為單純的統計或編程技能長遠並不能提供足夠的職業穩定性。相反數據分析專注的是如何把企業關注的問題與數據及科技連結,並透過有效的溝通將結果轉化為改善問題的方案。數據科學中講求的「軟技能」及面對問題的邏輯、彈性和創意 (例如如何把一個用來作網購產品推薦的數據分析系統,套用在尋找藥物副作用的醫學用途上),我認為是不能被自動化輕易取代的。

有讀者或會想:「但人工智能現在就是人人在談,我要找數據科學家的工作總不能不會啊!那我究竟要懂多少?」我下一篇文章就會談如何以最少努力來迎合數據工作市場中對AI背景的要求。


數據科學速成班

以專業 R coding 和 實用案例 為材料,助你在 30 天內掌握 Big Data (大數據) 和 A.I. (人工智能) 等複雜概念,並開始應用到你的個人及商業項目上。

導師:香港數據科學家 Warrington Hsu

學員:適合任何對數據科學有興趣的初學者 (沒有 coding 底子要求)