這幾年來,大數據的議題被媒體炒熱,加上AI人工智能經常倚賴大數據的支持,也造就了許多顯學如:資料科學家、數據分析師等職業;而大部分的人提到大數據,都直指其應用層面,但到底什麼是大數據,大數據的本質到底是什麼?這些根本性的議題倒是少人探究。

什麼是大數據?

什麼是大數據?大數據又稱為巨量資料、海量資料,也就是透過傳統軟體無法處理或分析的資料。在《雲端時代的殺手級應用》一書中提到:目前為止並沒有對「海量數據」有統一的定義,大多數的說法是,「超過典型資料庫工具的硬體環境和軟體工具所能獲取、儲存、管理和分析能力的資料」,就是所謂的海量資料。

到底大數據有多巨大?一般來說,這些資料通常以TB(1012位元組)、PB(1015位元組)計算,甚至是EB(1018位元組)來計算,而目前個人電腦所使用的儲存空間也才進入TB而已,可見得大數據的資料量遠比我們所想的還要巨大,所需要的儲存空間也很驚人。而這些海量資料中,只有少部分的資料屬於結構化資料,更多的資料屬於半結構化或非結構化資料,所以在資料處理的硬體上,也需要高速運算,才能夠完成這樣的數據分析與應用。

大數據的本質是檔案管理與應用

檔案管理的本質是:典藏文件、管理文件並使之加值。在《大數據的關鍵思考》中提到,數據營運就三件事:存、管、用,也就時保存、管理與應用。簡單來說,大數據是儲存資料後,透過分析與應用,使之產生價值。

在大數據的處理上,其實有很多的特點跟檔案管理非常雷同,像是:在儲存資料上,檔案需要有空間,並且進行清理,大數據也是需要應體儲存空間,並且定期確認硬體的運作。在資料處理上,檔案需要鑑定其價值性,而大數據也需要清理不必要的資料,節省儲存空間。在分析資料上,檔案需要分門別類,大數據也一樣需要將資料結構化,也需要將非結構或半結構的資料,依照分析的邏輯進行分類。在應用資料上,檔案應用需要好的命題去加值,而大數據也是需要一個好的命題去進行分析、研究或應用,這些資料也就只是資料。

透過這些分析,可以發現到其實大數據管理就是檔案管理中的一環;在本質上,大數據管理就是檔案管理的一部分,只是使用的工具、方法跟軟體不同,但本質上卻是一樣的。

大數據管理與檔案數位化管理

大數據管理就是檔案數位化管理的其中一項議題。所以透過大數據管理模式,可以反思檔案數位化管理,包括檔案數位化是否可以使用辨識軟體或是使用人工將檔案文字擷取出來,讓研究者或分析人員可以進行文本分析,就如同大數據分析海量文本分析。另外,檔案數位化的過程中,勢必碰到儲存容量與備份問題,這不但產生硬體問題,也產生了資訊安全需求。

同樣地,檔案管理也能提供大數據管理借鏡。大數據經常會蒐集許多雜亂的資訊,反而沒有蒐集該有的數據,這點從檔案管理角度思考,就是鑑定其數據的價值,也就是說:大數據管理必須要定期檢視數據蒐集的價值性,而不是胡亂蒐集;同時,檔案管理需要分門別類,甚至需要進行標籤,而大數據在處理過程中,也一定要清楚地分類,而不是每次都需要重新分類,所以標籤管理對大數據管理也很重要。

透過大數據管理的本質,可以清楚知道大數據與檔案管理有其相似之處,兩者可以類比的地方,包括後續的應用都有高度相似,從這個角度出發,可以這樣認為:大數據管理就是檔案管理的一環,了解檔案管理的原則,就可以理解大數據管理的核心!

參考資料:

  1. 胡世忠著,雲端時代的殺手級應用:海量資料分析(天下雜誌出版,2013),p52
  2. 車品覺,大數據的關鍵思考(天下雜誌出版,2014),p194~P205

發表留言