讓你真正認識何為數據科學家 – Data Scientist: The Sexiest Job of the 21st Century 中文翻譯

數據科學家:21世紀最性感的工作 (Data Scientist: The Sexiest Job of the 21st Century) 一文可以說是數據科學給外界人們的第一印象。究竟何為最 「性感」 (意譯為最 「正」 ) 的工作?來自著名哈佛商業評論2012年10月版本的文章,以專業和宏觀的角度帶出數據科學家這個新興行業的職能、技能、稀缺性、在組織裏的重要性和市場發展等方面的看法。對於有志成為數據科學家和希望組織數據科學團隊的管理者們都非常需要一閱。

數據科學家:21世紀最性感的工作 (中文翻譯版)

 

當 Jonathan Goldman 於 2006 年 6 月到著名社交網站 LinkedIn 工作時,這個地方仍然感覺像是一家初創公司。該公司的用家數量不到800萬,隨著現有會員邀請他們的朋友和同事加入,該數字迅速增長。但用戶並沒有按照高管們預期的速度尋找其他用家的聯繫。在社交體驗中顯然缺少某些元素。正如一位 LinkedIn 經理所說:〝這就像身處一個宴會中但你不認識任何人。所以你只能站在角落裡喝著你的飲料 – 你可能很早就會離開。〞

來自斯坦福大學的物理學博士 Goldman 對他在 Linkedin 中所看到的鏈接以及用戶檔案的豐富性感到好奇。這一切都是因為數據龐大雜亂和分析方法的笨拙,但當他開始探索人們的聯繫時,他開始看到可能性。他開始形成理論,測試預感,並找到模式,使他能夠預測某個特定的配置文件將進入哪個網絡。他甚至可以想像到利用正在開發的新功能能為用戶提供甚麼價值。但 LinkedIn 的工程團隊陷入大網站擴張的挑戰,似乎並不感興趣。一些同事公開蔑視 Goldman 的想法。Linkedin 已經有一個地址簿導入程序,可以提取所有成員的連接。為什麼用戶還需要 LinkedIn 為他們找出他們的網絡?

全新的品種的職位

Goldman 這種人是現代組織中新的 「關鍵人物」 的一個很好的例子:“數據科學家”。這是一個高級專業人士,具備相關專業和好奇心,可以在大數據世界中進行探索、發現和建設。這個頭銜已經存在了幾年。 (它是由我們中的一位,DJ Patil 和 Jeff Hammerbacher 於2008年創造的,然後是 LinkedIn 和 Facebook 的數據和分析工作發掦其概念。)即使已經有成千上萬的數據科學家在這兩家初創但建立了良好的基礎公司工作,他們突然發現在商業舞台上的一個現象,即公司正在苦於如何解決史上從未遇到過巨大信息量和種類。如果您的組織存儲了數PB的數據,如果對您的業務最關鍵的信息存在於數字的行和列之外的形式,或者如果回答您最大的問題將涉及多個分析工作的“混搭”,那麼您將獲得大數據的機會。

目前大數據的熱情主要集中在使其成為可能的技術上,包括Hadoop(最廣泛使用的分佈式文件系統處理框架)和相關的開源工具,雲計算和數據可視化。雖然這些都是重要的突破,但至少同樣重要的是擁有技能(和思維相關)的人才能充分發揮它們的價值。在這方面,需求已經超過供應。實際上,數據科學家的短缺正成為某些部門的嚴重製約因素。 Greylock Partners 是一家早期風險投資公司,曾為 Facebook,LinkedIn,Palo Alto Networks 和 Workday 等公司提供支持,他們對緊張的勞動力市場感到擔憂,因此特別建立了自己的專業招聘團隊,以便將人才引導到投資企業。領導該團隊的 Dan Portillo 說,“一旦企業擁有了數據,他們量需要的是能夠管理它並在其中找到見解的人。”

數據科學家都是些甚麼人?

大數據對企業的作用取決於人才市場上稀缺的數據科學家,那麼管理者面臨的挑戰就是學習如何識別人才,將其吸引到企業,並使其富有成效。這些任務都不像其他已存在的組織角色那樣簡單。首先市場上沒有提供數據科學學位的大學課程。關於角色在組織中的位置,數據科學家如何能夠增加最大價值以及如何衡量其績效,市場上也幾乎沒有清楚的共識。

因此,企業能充分運用數據科學家的第一步是了解他們在企業中所做的工作。然後問,他們需要什麼技能?這些技能在哪些領域內最容易尋找?

數據科學家們所做最重要的是在數據探索時進行發現。在數字領域中,他們能夠輕鬆地把事件結構化並帶入大量無形數據,使分析成為可能。他們識別豐富的數據源,將各種可能不完整的數據源連接,並找出使用方法。數據科學家在現今混亂的競爭格局中,挑戰不斷變化,永不停止發現相關數據的運用,幫助決策者從臨時分析轉向可持續的數據分析。

數據科學家意識到他們面臨技術層面上的限制,但他們不會讓自己陷入尋求新穎解決方案的困境。當他們做出發現時,他們懂得如何把所學到的知識理論投入到業務方向的影響。他們懂得如何在視覺上展示信息,具有創造性的方法讓人容易記住。他們讓高管和產品經理們了解到相關數據對產品,流程和決策的影響。

鑑於行業在初發展階段,數據科學家通常會設計自己的工具,甚至進行學術研究。雅虎是最早期僱用一組數據科學家的公司之一,它在開發Hadoop方面發揮了重要作用。 Facebook 的數據團隊為 Hadoop 項目的編程創建了 Hive 語言。許多其他公司特別是谷歌,亞馬遜,微軟,沃爾瑪,eBay,LinkedIn 和 Twitter 等數據驅動型公司工作的數據科學家,已經自行添加並改進了相關工具包。

這些都是甚麼人?什麼能力使數據科學家們成功?你可將他或她視為數據黑客,分析師,溝通者和可信賴顧問的混合體。這種組合非常強大 – 而且很少見。

現時數據科學家最基本的通用技能是編寫代碼的能力。而不久將來,或五年後,更多的人將在他們的名片上加入 “數據科學家” 頭銜。更長遠的是,數據科學家需要用所有利益相關者都能理解的語言進行交流,並展示講故事的特殊技能,包括口頭,視覺或理想兩種情況。

但我們可以說數據科學家的主要特徵是強烈的好奇心 – 渴望在問題的表面之下,找到問題的核心,並將它們提煉成一套可以測試的非常明確的假設。這通常需要聯想性思維,這是任何領域中最有創造力的科學家的特徵。例如,我們知道一位研究欺詐問題的數據科學家,他們意識到這類似於一種 DNA 測序問題。通過將這些不同的世界聚集在一起,他和他的團隊能夠制定出能夠大大減少欺詐損失的解決方案。

也許很明顯為什麼 “科學家” 這個詞適合這個新興的角色。例如,實驗物理學家還必須設計設備,收集數據,進行多次實驗,並傳達他們的結果。因此,企業都在尋找能夠在物理或社會科學領域處理複雜數據的人才,具有教育和工作背景的人才更具有優勢。一些最優秀和最聰明的數據科學家是生態學和系統生物學等深奧領域的博士。 George Roumeliotis 是矽谷 Intuit 數據科學團隊的負責人,擁有天體物理學博士學位。更令人驚訝的是,今天從事商業工作的許多數據科學家都接受過計算機科學,數學或經濟學方面的正式培訓。這些都任何具有強大數據和計算重點領域的重要學術技能。

重要的是要記住科學家的形象 – 因為 “數據” 這個詞很容易讓人在搜尋人才道路上做錯決定。一位定量分析師可以很好地分析數據,但不能製作大量非結構化數據並將其納入一種可以分析的模型。數據管理專家可能非常擅長以結構化形式生成和組織數據,但不能將非結構化數據轉換為結構化數據,也不能實際分析數據。雖然沒有強大社交技能的人可能會在傳統的數據專業中茁壯成長,但數據科學家必須具備這樣的技能才能有效。

Roumeliotis 對此非常清楚,他不會在統計或分析能力的基礎上聘用數據科學家。他選擇聘用時,詢問候選人是否可以用Java等主流編程語言開發原型。 Roumeliotis 尋求有技能組合的人才 – 數學,統計學,概率和計算機科學的堅實基礎 – 以及某些心靈特質。他希望聘用的人對商業問題有所了解,並對客戶展現出同理心。

一些大學正在計劃推出數據科學課程,現有的分析課程,如北卡羅來納州的分析科學碩士課程,正在忙於增加大數據練習和課程作業。一些公司也在努力開發自己的數據科學家團隊。收購大數據公司 Greenplum 後,EMC 決定數據科學家的可用性將成為其自身和客戶利用大數據的門檻因素。因此,其教育服務部門啟動了數據科學和大數據分析培訓和認證計劃。 EMC 設計的課程可供員工和客戶使用,其部分畢業生已經在公司內部開展大數據工作中實淺所學。

數據科學家想要建立的東西,不僅僅只是提供建議。

隨著教育產品的激增,人才渠道應該擴大。大數據技術的供應商也在努力使產品更易於使用。與此同時,一位數據科學家提出了一種縮小差距的創新方法。 Insight 數據科學研究員項目是由博士研究員 Jake Klamka(一名通過專業訓練的高能物理學家)設計,他從學術界接收科學家,並在六週內為數據科學家的基礎做好準備。該課程將來自本地公司(如 Facebook,Twitter,Google 和 LinkedIn)的數據專家的指導與實際的大數據挑戰相結合。最初的目標是10名研究員,但申請人數超過200人,Klamka 最終接受了30名。更多的組織正在排隊參加。Klamka 告訴我們 “公司的需求是驚人的,他們無法獲得這種高素質的人才。”

數據科學家想要的是甚麼?

即使數據科學家的隊伍膨脹,頂級人才的競爭仍將激烈。候選人根據大數據挑戰的有趣程度來擴大就業機會。正如其中一位評論所說:“如果我們想要使用結構化數據,那麼我們就會在華爾街工作。” 鑑於今天最合格的潛在客戶來自非商業背景,招聘經理可能需要弄清楚如何描繪解決其問題後令人興奮的願景。

薪酬當然是一個因素。一個優秀的數據科學家在市場上非常熱門,機會很多,工資提高是必然的。一些在初創企業工作的數據科學家說,他們會要求獲得大量該公司的股票。即使對於因其他原因接受職位的人,出於尊重和預期該職位將為企業增加的價值的補償也是必須的。但是,我們對數據科學家優先事項的非正式調查揭示更為根本的重要性。他們希望成為公司裏的 “on the bridge”。參考20世紀60年代的電視節目 “星際迷航”,其中星艦隊長詹姆斯柯克嚴重依賴斯波克先生提供的數據。數據科學家希望能夠處於一個發展中的情況,並實時了解它所呈現的不斷變化的選擇。

考慮到尋找和保留數據科學家的困難,人們會認為僱用他們作為顧問是一個好策略。大多數相關諮詢公司,即使是最大的公司,如埃森哲,德勤和 IBM,也處於為客戶領導大數據項目的早期階段。他們對員工所擁有的數據科學家的技能主要應用於傳統的定量分析上。海外分析服務公司,如 Mu Sigma,可能是與數據科學家進行第一次重大進展的公司。

但受訪的數據科學家表示,他們希望建立一些東西,而不僅僅是給決策者提供建議。有人將顧問描述為 “死區 – 所有你要做的就是告訴別人分析他們應該做些什麼。” 通過創造有效的解決方案,他們可以產生更大的影響,成為行業的先驅。

 

數據科學家在短時間段上表現未如理想。他們需要實驗和探索可能性的自由。也就是說,他們需要與業務的其他部門建立密切的關係。他們最希望與負責產品和服務的高管建立關係,而不是負責監督業務職能的人員。正如 Jonathan Goldman 所講述的那樣,他們增加價值的最大機會不是為高級管理人員創建報告或演示文稿,而是在面向客戶的產品和流程進行創新。

LinkedIn 並不是唯一一家使用數據科學家為產品,功能和增值服務提供創意的公司。在 Intuit 團隊中,數據科學家被要求為小企業客戶和消費者提供見解,並向大數據,社交設計和營銷的新高級副總裁匯報。 GE 已經在使用數據科學來優化工業產品的服務合同和維護間隔。當然,谷歌使用數據科學家來改進其核心搜索和廣告服務算法。 Zynga 使用數據科學家來優化遊戲體驗,以實現長期參與和收入。 Netflix 創建了著名的 Netflix 獎,授予數據科學團隊,該團隊開發了改善公司電影推薦系統的最佳方式。測試準備公司 Kaplan 利用其數據科學家發現有效的學習策略。

今天的數據科學家像是20世紀80年代和90年代的華爾街 “量子”。

然而,在快速發展的領域中擁有尖端技能的人在一般管理同事交流時,存在一些缺點。他們與類似專家的互動較少,他們需要保持技能的敏銳性和最先進的工具包。數據科學家必須與大型企業或外部的實踐社區聯繫起來。新的會議和非正式協會正在湧現,以支持合作和技術共享,公司應鼓勵科學家參與其中,並理行業環境的轉變。

當對數據科學家的期望越來越高時,數據科學家也會更有動力。探索和構建大數據時,有機會讓減少了其對預測或優化等複雜分析的精力和時間。然而,如果管理人員明確表示報告還不夠深入,數據科學家將會投入更多精力進行高級分析。始終大數據不應該等於 “小數學”。

未來十年的熱門工作

眾所周知,谷歌首席經濟學家哈爾瓦里安曾表示,“未來10年最性感工作將是統計學家。人們認為我在開玩笑,但是誰會猜到計算機工程師會成為20世紀90年代的性感工作?

如果 “性感” 意味著具有非常需要的稀有品質,數據科學家已經存在。他們招聘既困難又昂貴,而且由於其服務市場競爭非常激烈,留住人才非常困難。根本沒有很多人將他們的科學背景和計算與分析技能相結合。

今天的數據科學家類似於20世紀80年代和90年代的華爾街 “量子”。在那些日子裡,具有物理和數學背景的人們湧向投資銀行和對沖基金,在那裡他們可以設計出全新的算法和數據策略。然後,各種大學開發了金融工程碩士課程,培養了主流公司更容易獲得的第二代人才。這種模式在20世紀90年代晚些時候與搜索工程師一起重複,搜索工程師很快就開始在計算機科學課程中教授他們的技能。

提出的一個問題是,公司是否明智地要等到第二代數據科學家出現,候選人更多,更便宜,更容易在商業環境中審查和吸收時才找人才呢?為什麼跟大數據初創企業以及通用電氣和沃爾瑪這樣的公司一樣狩獵和馴化外來人才呢?

放眼市場,大數據的推進沒有顯示出放緩的跡象。如果公司因缺乏人才而處於放棄進入趨勢的早期階段,那麼隨著競爭對手和渠道合作夥伴未來將獲得幾乎無懈可擊的優勢。將大數據視為現在正在來臨的史詩般大浪潮,如果你想抓住它,你需要能夠衝浪的人。

正式文章出自2012年10月的 “哈佛商業評論” 。


數據科學速成班

以專業 R coding 和 實用案例 為材料,助你在 30 天內掌握 Big Data (大數據) 和 A.I. (人工智能) 等複雜概念,並開始應用到你的個人及商業項目上。

導師:香港數據科學家 Warrington Hsu

學員:適合任何對數據科學有興趣的初學者 (沒有 coding 底子要求)