2015年6月18日 星期四

Big Data (2015.06.18)

Big Data指的是巨量資料,Big Data3種特性:VolumeVelocityVariety

l   Volume指的是資料量龐大。許多企業面臨單日資料量以數十、數百TB的速度增加,而總資料量也達到了PB (Petabyte)等級,這樣的資料量已讓傳統的資料庫難以處理。
l   Velocity是指資料增加的速度越來越快。諸如行動運算、社交網路的風行,使得資料增加的速度比傳統的企業應用程式來得快很多。
l   Variety則是指資料的多樣性。人們不斷在產出各種資料,如文字、照片、影片等。另一方面,生活中的各個層面,各式各樣的監控器、感應器也不停地產出各樣的機器資訊,資料的型式已不像過去那麼單純。

尤其像FacebookTwitter這樣面臨資料量大爆炸的網路公司,該如何處理的如此巨量的資訊並且分析運用,進而找出商機呢? 隨著新興技術的開發,如HadoopNoSQL等,目前巨量資料的分析已開始廣泛應用在各個商業領域,其中也包含醫療領域。

例如: 藥廠透過分析Twitter使用者的留言,分析感冒、流鼻水等症狀的字眼,就能了解流行病的趨勢,掌握市場脈動;而在過去,如果沒有可行的巨量資料分析工具,可能連想都不敢想要分析Twitter這麼一回事。
列如: 在大賣場中,如果看到啤酒和尿布被擺在一起,是不是覺得這樣的擺設方式毫無邏輯可言? 然而,事實證明啤酒的銷售量因此上升,而這也要拜巨量資料(Big Data)分析所致。 Walmart 在一次營業資料分析中偶然發現,嬰兒尿布和啤酒竟然常常被同時購買,原因為何? 原來就是美國嬰兒的父親常在下班回家前買尿布,而許多的嬰兒父親在買尿布時,會隨手買幾罐啤酒。根據這樣的分析結果,Walmart就在各個賣場把啤酒和尿布擺在一起,結果銷售量增加3成。

Big Data運用在醫療領域,其實Google早在2008年就推出流感趨勢預測 (Google Flu Trends),藉由統計關鍵字的搜尋次數,預測全球各地的流感疫情發展,以此首開Big Data應用到醫療領域的創舉,也打開資料分析者對於數據的想像力。

2014年伊波拉病毒 (Ebola) 肆虐西非,被世界衛生組織 (WTO) 視為近代最緊急的國際公共衛生事件。統計奪走超過4,000名生命,而通報遭感染的人數則高達 8,914人,死亡率高達7成。而在此次救災行動中,也利用 Big Data 巨量資料分析工具,試圖抑制病情擴散。

多家跨國電信業者和跨國衛生組織合作,提供非洲當地居民的匿名電話和簡訊記錄,透過 Big Data 分析工具,繪製居民的聚落地點和移動地圖,預測病毒散佈的位置。


透過數據地圖判斷最佳設立醫療中心的地點,甚至最安全、有效率的移動路徑,並同時可以遠離病源。幫助政府和相關組織預測伊波拉病毒如何擴散,在此之前當地政府只能依靠傳聞、地方調查、警察或醫院等資料來預估。
利用手機通訊資訊,結合 Big Data 追蹤疫情擴散地區。(圖片來源: BBC)
利用Big Data 數據資料提出一些有跡可尋的參考指標。未來甚至能利用Big Data 早期預防傳染病大規模流行1Big Data也能運用在遠距醫療照護、實證醫學、個人化醫療與疾病醫學研究(如阿茲海默症、神經膠質瘤等疾病)2, 3, 4。尤其在台灣,二十年來全民健康保險制度累積了全民的就醫資訊,早已具備一套巨量資料,對於未來推展Big Data分析應用於醫療健康照護上,將是很好的利基。


參考文獻
1.      Role of big data in the early detection of Ebola and other emerging infectious diseases. Lancet Glob Health. 2015 Jan;3(1):e20-1.
2.      Alzheimer's disease: From big data to mechanism. Nature. 2013 Aug 1;500(7460):34-5.
3.      Multiple Molecular Data Sets and the Classification of Adult Diffuse Gliomas. N Engl J Med. 2015 Jun 10.

4.      Learning from big health care data. N Engl J Med. 2014 Jun 5;370(23):2161-3.