大數據到底是什麼意思?事實上,它是一種精神!

人們每天上傳至雲端的檔案數量,多達一億張相片、十億份文件… 更別提數位影音、交易、生物醫療… 每天全球所創造的資料量高達 2.5 艾位元組(exabyes,即 1000,000,000,000,000,000,百萬兆)。
但資料量大就是大數據嗎?究竟什麼是大數據?又為何大數據會在近幾年突然興盛起來?時常耳聞的 Hadoop、MapReduce、Spark 等技術又是什麼呢?
今天,就讓我們來聊聊什麼是「大數據」(Big Data)。

大數據的源起

「儲存成本」與「資料取得成本」因科技進步而大幅下降,造就了這個年代大數據的興起。30 年前,1 TB 檔案存儲的成本為 16 億美金,如今一個 1 TB 的硬碟不到 100 美金。
同時間,全球各行業的資料量成長更是急速攀升;根據預估,從 2013 年至 2020 年間將成長 10 倍的資料量,資料總量將從 4.4 ZB 增加至 44 ZB 。
以天文學為例, 2000 年美國太空總署在新墨西哥州發起的史隆數位化巡天(Sloan Digital Sky Survey)專案啟動時,望遠鏡在短短幾周內收集到的資料,已經比天文學歷史上總共收集的資料還要多。
在生物醫學領域,新型的基因儀三天內即可測序 1.8 TB 的量,使的以往傳統定序方法需花 10 年的工作,現在 1 天即可完成。在金融領域,以銀行卡、股票、外匯等金融業務為例,該類業務的交易峰值每秒可達萬筆之上。
Google 每天要處理超過 24 千兆位元組的資料,這意味著其每天的資料處理量是美國國家圖書館所有紙質出版物所含資料量的上千倍。
Facebook 每天處理 500 億張的上傳相片 ,每天人們在網站上點擊”讚”(Like)按鈕、或留言次數大約有數十億次。
YouTube 的使用者人數已突破十億人,幾乎是全體網際網路使用者人數的三分之一,而全球的使用者每天在 YouTube 上觀看影片的總時數達上億小時。
在 Twitter 上,每秒鐘平均有 6000 多條推文發布,每天平均約五億條推文。
千禧年開始,天文學、海洋學、生物工程、電腦科學,到智慧型手機的流行,科學家發現:仰賴於科技的進步(感測器、智慧型手機),資料的取得成本相比過去開始大幅地下降──過去十多年蒐集的資料,今朝一夕之間即能達成。
也因為取得數據不再是科學研究最大的困難,如何「儲存」、「挖掘」海量數據,並成功地「溝通」分析結果,成為新的瓶頸與研究重點。
接下來,我們將進一步介紹大數據的定義、特性,與發展重點。

什麼是大數據?

大數據意指資料的規模巨大,以致無法透過傳統的方式在一定時間內進行儲存、運算與分析。
至於「大」是多大,則各家定義不一,有兆位元組(TB)、千兆位元組(PB)、百萬兆位元組(EB)、甚至更大的規模單位;然而若真要找到符合這麼大規模數據量的企業倒也是不容易。
事實上,根據 451 Research 的資料科學家 Matt Aslett,他將大數據定義為「以前因為科技所限而忽略的資料」,討論這些以前無法儲存、分析的資料。
如本文第一段所言,由於在近年來儲存成本降低與資料獲取量變大,因而能觀察到不曾注意過的商業趨勢,讓企業做出更全面的考量。
無論企業規模大小,我們應注重的不僅是數據量本身,而應將「大數據」作為在科學研究與商業方法的運營心態:
大數據需要全新的處理方式,以新型的儲存運算方法分析數據、產出溝通圖表,並將該分析結果視為一種戰略資產。
Lynn 閒聊:
講白點:「大數據,是一種精神。」
你要說它是一個 Mindset、一個 Fu、一個 buzz word 的口號都可以。
如果你公司裡的主管對於幾 MB 的資料稱為大數據… 要說他錯也很難,大數據本來就沒甚麼定義。跟著我再唸一遍:大數據,是一種精神。不講潮一點就會跟不上時代。
Data 一詞,台灣通常翻譯成「資料」,中國翻譯成「數據」。所以 Database 台灣叫資料庫,中國叫數據庫。
早期台灣學術界和工研院等政府機構,都把 Big Data 翻成巨量資料。後來中國炒作大數據這個概念炒得太凶、紅回台灣,變成一般民眾習於「大數據」這個詞,而非巨量資料或大資料。
(跟某些叫知識經濟或 IP 的東西,好像是差不多的套路呢… 訂閱文章收錢可以炒作、著作權也可以炒作,通通都可以炒,我也是醉了...)
現在 Data Science 、Data Scientist 台灣還是叫資料科學、資料科學家,中國叫數據科學;但遇到 Big Data 就一起叫大數據。

大數據的特性?

目前大部份的機構將大數據的特性歸類為「3V」,包括資料量(Volume)、資料類型(Variety)與資料傳輸速度(Velocity)。


  1. VOLUME – 資料量
無論是天文學、生物醫療、金融、聯網物間連線、社群互動…每分每秒都正在生成龐大的數據量,如同上述所說的 TB、PB、EB 規模單位。
  1. VARIETY – 資料多元性
舉一個簡單的例子:
│資料類型│ 0 │ 0 │ 1 │ 0 │ 0 │ 1 │ 0 │ 0 │ 1 │ 0 │ 0 │ 1 │…
就算上述資料量高達 1 TB,採用傳統統計方法仍能很容易地找到資料規律。
也因此,真正困難的問題在於分析多樣化的資料──從文字、位置、語音、影像、圖片、交易數據、類比訊號… 等結構化與非結構化包羅萬象的資料,彼此間能進行交互分析、尋找數據間的關聯性。
  1. VELOCITY – 資料即時性
大數據亦強調資料的時效性。隨著使用者每秒都在產生大量的數據回饋,過去三五年的資料已毫無用處。
一旦資料串流到運算伺服器,企業便須立即進行分析、即時得到結果並立即做出反應修正,才能發揮資料的最大價值。
Previous
Next Post »