:::

巨量資料 (Big data)


根據麥肯錫在2011年所發表的《大數據:創新、競爭和生產力的下一個新領域》報告,明白指出巨量資料將成為企業競爭的關鍵基礎,並成為下一波生產力提升、商業創新和為消費者創造價值的支柱。麥肯錫亦預估,未來10年美國保健產業與巨量資料有關的商機,將高達3000億美元,包含減少醫療糾紛、用藥避免浪費以及增進健康品質。IDC也預估,中國大陸的巨量資料技術服務市場,將以51.4%的年複合成長率高速成長,並在2016年達到6億1650萬美元。

根據IBM對巨量資料的定義,巨量資料有四個特性(4V),第一個是資料量「大」(Volume),指出資料規模的巨大性,因此首先必須對產生的大量數據資料進行處理與保存。第二個是變遷「快」速(Velocity),指出資料的即時性,對於資料的處理與反應的時效必須即時快速。第三個是資料型態的「多」樣性(Variety),指出顧客使用資料型態的多變性,巨量資料的來源包羅萬象,有文字、影音、網頁、串流資料、行動電話、感測裝置,包含結構化、半結構化以及非結構化的資料型態。第四個是真假「難辨」(Veracity),指出資料來源的真實性與正確性,因此必須檢驗資料來源本身的可靠度與品質是否足夠,若是資料來源本身就是錯誤失真的,那麼分析後的結果也不會是正確的,即是所謂的「Garbage in, Garbage out」。因此,若將此四大特性整合起來,巨量資料可以定義為「大量湧出且多元變動的即時資料,必須以高時效的方式完成取得、分析、處理、保存並反應,而且這些資料本身必須是真實可靠的。」

  也由於巨量資料同時具有「又大、又快、又多,又真假難辨」的四種特性,因此在處理這些資料數據時,要先辨別哪些資料才是真正有意義的資料來源,接著便需要透過一個可靠有效的資料分析方法,才能真正的萃取出有用的洞見,並真正有助於決策執行。