感謝 香港電台第一台 節目 太陽底下新鮮事 的訪問邀請,Sky Catcher 創辦人及數據科學家許文強 Warrington Hsu 與主持人張鳳萍和何立彥在節目內談什麼是大數據和數據科技的發展。


RTHK 香港電台第一台 「太陽底下新鮮事」01/08/2021 – 達人教路:數據科學家 許文強 節錄

你想不想知道大數據是怎樣收集的呢?人們喜歡上網購物,很多時只是看過相關網站,就會有大量的廣告在社交媒體出現,令到人「心郁郁」想下單購買。

該集節目邀請了一位大數據達人 Sky Cather 創辦人及數據科學家:許文強 Warrington Hsu 來說說怎樣收集數據,幫你節省金錢,又會關心大數據收集和人工智能可能帶來的問題,例如在道德、法律、社會的爭議。

Q1: 我們看到很多大學把數據科學變成一門學科,那麼大數據真的是收集很多不同的數據?我們這個概念正確嗎?事實又是這樣呢?

許文強: 可以說部份正確。大數據的「大」是形容什麼呢?可以是指所有規模都是很「大」,數據量是一部份,還數據產生的速度和數據的多樣性來源都是大數據所說的「大」的部份。

用零售業作例子。大約十幾二十年前做生意都是租個地方開門市,在一間店舖內可以收集到的數據很單一。通常都是客人購物完後在收銀機系統內的資料。

但現在商舖會開網店,數據變得多樣性,儘管客人沒有買東西,但你也可以在他遊覽產品時收集到很多資訊,同時網店年終無休,所以數據的數量和產生速度也會快了很多。

Q2: 收集數據主要是用什麼方法?和主要是什麼行業/科技比較多應用這些大數據?

許文強: 在各平台的後台,會編寫一些程式在不同的地區去收集數據,例如客人在瀏覽網頁時,在每一頁停留多久、滑鼠按過什麼位置,又或者在一個頁面上的哪一個位置較吸引遊覽者等,這都是可以透過一些工具去收集的。

Q3:數據數量的多寡、多元性的程度,怎樣影響到人工智能學習的情況?

許文強: 人工智能就是我們一般說的演算法,其中一個最主要的用途是用來做預測。而人工智能(演算法),是需要利用大量的數據去訓練的,可以說大數據像是這些演算法的燃料。

除了數量外,數據的質素也很影響到人工智能最後出來的預測是否準確。所以我們數據科學家的工作,可能有七至八成的時間都是在整理數據,確認這些數據是準確的,沒有任何雜質!這樣才能讓演算法做到它的工作。

Q4:現在全球大數據發展的趨勢是怎樣的呢?而香港的角色是怎樣呢?香港在發展大數據中有甚麼潛力?

許文強: 現在全球大數據發展的趨勢是開始看能否將傳統上,不能拿來訓練演算法的數據轉化為可以使用,如圖像數據、聲音數據或者是一些手寫文字 (free text ) 的數據,嘗試使用 AI (人工智能),看能否閱讀我們一般人使用的語言等。

目前香港的階段,是在不同來源的數據去進行整理、整合。例如我所做的研究,主要是來自醫管局的數據。醫管局的病歷數據雖然很有價值,但很單一的。最突出的數據就是某病人患上某種病,或者他吃過什麼藥等,但其實影響健康的因素,除了病歷之外,還有很多不同因素可以影響到。例如遺傳的DNA,甚至是一些生活和工作相關的數據,都可以豐富到這些醫療研究。

Q5:在香港要取得不同來源的數據難不難呢?其他地方又是怎樣做的?

許文強: 其實都困難的。說到數據運用會有很多考慮,例如私隱和道德上的考慮,當你想開始一個項目,希望 NGO (非政府組織)可以提供數據給你,也可能要向政府申請一些數據等,中間需要很多考慮和協商。而向一些私營機構申請調用數據,這些數據都是他們的財產,這就更加難!

但我看到外國有些例子做得不錯。美國衛生局兩三年前開始一個叫做All Of Us (AOU) 的項目,是一個全民醫療大數據的研究項目。他的做法是希望市民能捐贈醫療數據出來,再跟不同機構合作做研究。由於是用捐贈出來的數據去做研究,減少了一些關於私隱上的爭議和一些用途上的爭議。

Q6:香港有沒有這個能力可以做到數據共享平台?

張鳳萍:我覺得是社會上的共識及認知程度的問題。以前說捐血就理解,但現在原來可以捐數據。

許文強:是的。這個想法挺新穎的,而我認為有這個機會存在。尤其是經歷過疫情,人們比較注重公共健康問題,這製造一個機會讓人意識到除了捐血、捐器官等方法可以幫到別人,原來捐數據也能做到同樣效果。

現在捐了數據,將來我老了,身體出現了什麼毛病,可能就是我十幾二十年前捐出來的數據,推進到一些研究,然後幫到自己。

Q7:個人資料是否做到一個足夠保安的程度呢?我們有沒有足夠的方法來收集這些數據?

許文強: 在保安方面,很多時要尋求一些私營機構的合作。而你說到怎樣取得數據,其實都有一些技術阻礙存在。取得數據都需要人力物力,要找一些相關的機構或者數據庫裏面把數據拿回來。這樣的做法,一個研究項目所需時間一定很長,也要用到很多資源。

一個比較好的例子可以參考英國衛生局。他們設立了一個平台,只要你拿到數據的權限,你就可以透過這個平台很安全地,遙距的在你辦公室下載數據。

Q8:現在建立大的數據庫是可以幫助到很多未來的發展,那收集到數據後最能幫到什麼?

許文強: 用醫療數據作例子,現在演算法的發展挺成熟的,即是有很多很準確的演算法,只要數據質素是好的,它就可以很精準地預測到一些結果出來。這些結果是什麼呢?可能是一些疾病的風險,或者可能是早期的一些篩查的結果。

例如我最近研究的自閉症項目,其實自閉症越早診斷,你可以做到的應對方法越多。但是這個事情非常困難,例如說是在兩歲之前,探測到一些訊號就是最理想。

張鳳萍: 嘗試在早期就做一個篩查,找一找有沒有一些徵兆,嘗試用一些演算法去估計是嗎?

許文強: 沒錯

張鳳萍: 如果大家願意交出自己的一些數據出來,是有機會做到的事情。今天我們很多謝許文強跟我們的分享。

訪問原篇來源:RTHK 香港電台第一台 「太陽底下新鮮事」

數據科學速成班

以專業 R coding 和 實用案例 為材料,助你在 30 天內掌握 Big Data (大數據) 和 A.I.(人工智能) 等複雜概念,並開始應用到你的個人及商業項目上。

導師:香港數據科學家 Warrington Hsu

學員:適合任何對數據科學有興趣的初學者 (沒有 coding 底子要求)

了解課程:https://bit.ly/scvidclass