R 編程語言在商業應用上的優勢

小編今次來轉譯一篇來自著名美國資訊網站 Fast Company 的文章 《Why The R Programming Language Is Good For Business》來了解
R 編程語言在商業應用上的有甚麼優勢和對企業有甚麼好處。

這文章包含對 Revolution Analytics 首席社區官 David Smith、Revolution Analytics 的數據科學家 Casey Herron、DataSong 分析總監 Tess Nesbitt 和 Facebook 的數據科學家 Solomon Messing 的採訪,綜合其意見來了解 R 編程語言對現時商業社會的影響。

很多企業有了數 TB 的數據,每個企業都在試圖找出了解客戶和自己信息的最佳方式。 但僅僅使用 Excel 來分析這些數量的信息是荒謬的做法,因此許多公司會選用 SAS 作為商業智能分析工具的替代品。

但 SAS 並不是開源語言,對於數據科學家需要面對變化快速的商業環境和千變萬化的問題上,幫助甚微。而 R 編程語言作為數據科學界的通用語言,更頻繁地出現於數據科學界的前沿,為企業提供最新的數據分析范例。

根據多位在商界有多年經驗的數據科學家的意見,R 編程語言在商業應用上有三大優勢:

優勢 1 : 處理巨量業務數據的能力

DataSong 是一家營銷分析公司,現在也是 Revolution Analytics 的客戶之一,他們利用 R 把在 Hadoop 大型數據節點中拆分客戶的數據集,作更精細的數據模型建立和分析。

DataSong 分析主管 Tess Nesbitt 使用 ScaleR 的軟件包,在巨量數據處理過程中對數據進行更複雜的統計分析和臨時檢查。Nesbitt 說 〝我們的數據處理模型受益於 R,現在不僅可以處理更多數據,更可以在數據上進行更多傳遞和對模型進行微調。並且與以往相比,獲得更多統計學上的優勢,準確的運用決策模型。〞

在 DataSong,Nesbitt 有一個項目名為 feature engineering 的工作。她創建了一系列關於零售客戶的變量分析,從根本上創建了一個定量模型。分析 60 個變量時,系統便需要運行 3000 萬行數據,現在 DataSong 使用 Revolution Analytics 商業 R 軟件包時可以在大約 10 分鐘內運行完成。表現比 SAS 更好。

Nesbitt 說,“自從我學校時代以來,我一直都是 R 的粉絲。” 儘管 Nesbitt 是在使用 SAS 系統的 DataSong 中開始了她的數據科學家生涯,但該公司最終還是轉向了 R 的全面應用。

優勢 2 : 獨有而強大的數據可視化能力

在 Facebook 公司裏,R 的數據可視化能力是其數據科學團隊能最好地概述千變萬化的數據類型的利器。數據的範圍可以從新聞 Feed 號碼到與用戶擁有的 Facebook 好友數量的相關性等繪出讓人快速易懂的圖像。

Facebook 的數據科學家 Solomon Messing 說〝一般情況下,團隊獲得新的數據集時,會快速把數據移往 R 系統作分析建模。使用 R,團隊不需要開發自定義工具或編寫一堆代碼。 他們利用快速去清理和探索數據。〞

Messing 和其他 Facebook 數據科學家經常使用來自 RStudio 首席科學家 Hadley Wickham 的開源 R 軟件包。 Wickham 的軟件包,如 ggplot2,dplyr,plyr 和 reshape,允許團隊通過自定義可視化來探索新數據。

Messing 特別喜歡使用 ggplot2 來創建點圖和散點圖。 在他的個人博客中,Messing 寫到了這些圖表如何最好地代表各種數據以及他如何使用 R 來執行數據可視化。Facebook 的數據科學團隊非常熱愛 R 的數據可視化能力,甚至創建了名為 MOOC 的課程供所有人學習和使用 R 的數據可視化能力。

Nesbitt 也同意 R 在可視化和圖形方面的數據分析能力很強大。 〝我喜歡 R 的一個原因是它可以創造出漂亮的圖形,例如 SAS,在這方面的能力遠不如 R。〞

優勢 3 : R 擁有最大人才儲備

Revolution Analytics 首席社區官 David Smith 說:〝我認為,使用 R 對企業的第一價值就是獲得人才。現在,許多企業在數據方面做得越來越多,特別是在大數據的分析方面需求很大。而每年大量學生由學校進入社會,他們已經懂得使用 R,在工作適應和培訓上有極大優勢。〞如在 Revolution Analytics 工作的數據科學家 Casey Herron,在學校時是使用 R 作為碩士課程本科研究工具。對 R 已經有深入的了解。像 Herron 這樣的數據科學家通常在大學裡接受了數年的 R 編碼訓練,剛進入 Revolution Analytics 就能為公司帶來貢獻。

David Smith 說:〝我們在 2007 年看到了 R 如何接管學術界。可以說今天正在研究統計學或機器學習的人,或者稱之為數據科學家的人都是在 R 中訓練出來的。〞

DataSong 的 Nesbitt 也是一名受過培訓的統計學家。 Nesbitt說:〝無論出於何種原因,SAS 只是在工業中使用。我有一個學術背景,很多其他有學術背景的人都受過 R 訓練。〞可見公司用 R 為分析公具可以輕鬆建立高學術背景的團隊。

結論

R 在商業運用上有多個優勢;一) 巨量數據分析上的表現比現香港市場流行的 SAS 更有效率和可塑性, 二) 連 Facebook 都主推的數據可視化能力, 三) 高學術背景的人才儲備。這三項優勢在未來企業面對數據快速變化的環境中能更好的發展。


數據科學速成班

以專業 R coding 和 實用案例 為材料,助你在 30 天內掌握 Big Data (大數據) 和 A.I. (人工智能) 等複雜概念,並開始應用到你的個人及商業項目上。

導師:香港數據科學家 Warrington Hsu

學員:適合任何對數據科學有興趣的初學者 (沒有 coding 底子要求)