「數據很值錢」成為了共識,但人們根本不知道怎樣能從中收益。業界開始著力研究數據資產化,而當中所面對的困難很多而且,主要技術「區塊鏈」仍未成熟。文中筆者跟大家討論當中所面了甚麼困難,而「區塊鏈」又能怎樣幫助數據資產化。


你的數據值錢嗎?

數據值錢嗎?人人都知道在大數據公司手中,數據非常值錢,就如馬雲所說:「數據是阿里最值錢的財富。」

那麼你的個人數據值錢嗎?值多少錢呢?筆者相信現時沒也有人能衡量出來,因為現時數據管理上我們還未做到數據資產化。

什麼是數據資產?數據到底是誰的?

如何讓數據資產化?筆者跟你分享一個案例,應該能讓你更易明白:

某家著名的製藥公司幾年前曾經以上百萬英鎊的巨資,購買了一個罕見的癌症患者的數據。這家公司之所以願意花這麼多錢,是因為該患者患有6種癌症,他的數據在世界上幾乎有獨一無二的價值。

換言之,這位患者的健康數據成為了一種可以進行交易的資產,就像房產、股票一樣。

這樣的交易之所以能發生,有一個大前提,那就是這家公司認定,這部分數據的所有權歸屬於患者本人。

看上去患者本人患病,健康數據當然是他的。 但如果你仔細想想,就沒這麼簡單了。的確,患者的身上可能有一個特別稀有的基因,這個基因是屬於他的。

但問題是,如果你不是一名生物學家,你可能永遠都不會發現這段基因,也就是說發現基因這件事,同樣具有很大價值。

假如你是某次去醫院做篩查的時候,醫生髮現了這段稀缺基因,那麼這個基因序列數據的所有權,到底應該屬於你,還是屬於醫生,亦或是屬於醫院呢?

如果這部分數據產生了收益,是只給患者本人呢?還是說,發現數據的醫院或者醫生也有權享有收益呢?

這其實是整個科技產業正在激烈爭論的問題:數據到底是誰的,以及數據創造的收益,到底應該怎麼分配。

對於這個問題,學者們提供了一個收益分配的模型。他說,要想理清這裡面的利益關係,我們可以藉鑑銀行的模型。

比如說,你去銀行存了一萬塊錢,這筆錢的產權當然屬於你。但是,你把它交給銀行託管了,銀行可以拿這筆錢去做投資。比如說它可以把很多用戶的錢聚集在一起,貸款給一家建築公司去蓋樓。建築公司會給銀行支付貸款的利息。

對於銀行來說,你的這筆錢,既給它創造了收益,也給它帶來了成本。

成本是什麼呢?是管理這筆錢要投入的人力、物力資源,所以銀行可以收管理費。但同時,它也應該支付你利息,因為這筆錢給銀行帶來了收入。用銀行放貸款的收益減去管理費,就是銀行應該給你支付的錢。

所以這裡面其實有三個角色:資產的擁有者、管理者和使用者。

有學者認為,在數據這個領域同樣有這三種角色:

一個是數據的擁有者,也就是像你我這樣的個人用戶,一個是數據的管理者,而另一個是數據的使用者和受益者。

目前,像谷歌、阿里巴巴、騰訊這樣的公司,是數據的管理者,也是數據的使用者。在他們的體系下,還有不少其他公司也會從數據中受益,也是使用者,比如說用阿里巴巴用戶數據盈利的電商。 

這就是一個理解數據資產的基本模型。

數據資產化的兩大困難

若想真的按這個模型去分配利益,現時業界存在兩大難題:

第一個難題是,我們未能搞清楚數據到底被用在哪了,怎麼用的。

以銀行體係作比喻,今天你把1萬元存進銀行,銀行是可以告訴你這筆錢是如何在金融系統中流動的,投資在了哪兒,產生了多少利息。

但是,現時的大數據公司完全說不清數據的流向,沒有人知道具體某個人的數據是如何被使用,用於了哪些產品,以及是否像數據公司所說的那樣,提高了用戶體驗,帶來了收益。總之,目前對於數據的用途和收益的查該方法太複雜,辯不明、分不清。

現在,歐盟出台了史上最嚴數據法GDPR,就在力圖解決這個問題。

這項法規規定,以後數據公司必須要說得清楚這些事情,並且要自己開發追踪數據使用情況的工具,以便於數據的擁有者和監管部門,能了解數據的使用情況。這項規定,已經開始在逐步實施了。因此各大數據公司都開始研究數數資產化的方法,阿里巴巴就出過一份數據資產化之路數據資產的估值與行業實踐,下面是這報告的連結,有興趣可研究一下。

數據資產化之路數據資產的估值與行業實踐

第二難題是,如何讓數據變得不能被隨便複製。

數據有一個特質,就是不排斥被多個主體同時擁有同項數據。

試想像一下,一筆存在銀行的錢,或者一套房、一輛車,這些東西能作為資產有一個共性,那就是它是獨一份。一套房,賣出去你手裡就沒有了。

但是數據不一樣。數據怎麼流通和交易?不是轉移,而是複制。一份數據,我賣給你,是拷貝給你一份,這時候你和我都各有一份。 

平時,我們的很多數據都被分散到多個網絡平台上,很難確定哪個平台是這份數據的第一擁有者。任何一方使用數據的過程,也不影響其他方的使用。

這就好比說,一幅畫市場上有很多複製品,誰也不知道哪幅是真品,那這幅畫的價值自然就沒那麼高了。

那這個問題怎麼解決呢?

區塊鏈技術可能是未來的發展方向

有了區塊鏈技術,每一份在區塊鍊網絡上生成的數據,都可以被打上標記,保證即使數據在流轉中發生了合併、拆分,也都有唯一標識、不可篡改,可追溯。

谷歌的前CEO埃里克•施密特在2014年的時候,就對區塊鏈的這層用途有非常深刻的理解。他說:“區塊鍊是一項了不起的加密成就,它能創建數字世界中不可複制的內容,具有巨大的價值。”

區塊鏈技術可以讓擁有數據、使用數據這兩個環節被清晰地切割開來。

再用醫療來舉了個例子

假如你去看病,你的病歷是屬於醫院的,患者自己反而拿不到,其他醫院也沒法用這種數據做研究。

如果區塊鏈技術成熟,能做到追踪每條數據動向,我們可以思考一件事:能否利用區塊鏈中查看信息和驗證信息分離的特點,把個人的病歷還給個人,然後讓患者授權醫生或者研究員,讓他們使用這些信息做統計研究呢?

這些醫療信息本身是會加密的,只有患者本人和被授權查看的醫生才能打開查看。研究人員在得到一定的使用授權後,可以通過提問的方式從病歷中獲得答案。

根據斯坦福大學的統計,美國大部分的醫生願意花錢查詢他們之前接觸不到的病歷,每一次查詢支付10-15美元。

如果這件事能夠做成,那些患有疑難雜症的病人,一年據估計可以收穫 1萬到 2萬美元的信息費,這些錢可以幫助他們支付醫藥費。更重要的是,當那些疑難雜症患者的病歷被大量醫生查看後,還有可能為他們找到醫治的方法。

往這個方向努力,全社會能夠形成巨大的數據資產,讓人人都有權去控制和出售自己的數據,人人都能讓中獲利。


數據科學速成班 (鬍子科技學院合作)

以專業 R coding 和 實用案例 為材料,助你在 30 天內掌握 Big Data (大數據) 和 A.I.(人工智能) 等複雜概念,並開始應用到你的個人及商業項目上。

導師:香港數據科學家 Warrington Hsu

學員:適合任何對數據科學有興趣的初學者 (沒有 coding 底子要求)