行政院近半年來兩度發布「大數據」調查結果,據報載,勞動部與教育部分別依據800萬筆勞健保投保資料、報稅資料統計國人依收入別、科系別的薪資狀況。以技術上來說,像這樣子的統計調查根本不能稱之為「大數據」,區區800萬筆資料量,上個世紀70年代定義的「關係式資料庫」(Relational Database)早就足夠游刃有餘的處理。台灣號稱科技島,但是政府部門在科技運用上的顢頇、落後、自欺欺人實在讓人感嘆。
所謂的大數據,一般以Gartner定義的3V為準則,必須同時具備大量(Volume)、快速(Velocity)、多變性(Variety)3項特質。舉例而言,美國每年感恩節、聖誕節檔期是線上購物的最高峰,能夠處理大數據的零售業網站,處理的搜尋、下訂資料是數以億計(大量),分析的資料來源並不局限於文字,你在YouTube上看的影片,在Instagram上找的圖片,統統會進到分析的資料庫裡(多變性),進而判斷一個用戶會想要在什麼時間買什麼樣的東西。
並且資料的匯入與匯出是即時的(快速),一個20歲單身男性在甲地下的訂單,會在數分鐘內進入資料庫裡,進而修正要推薦什麼樣的產品給在乙地、背景相似的客戶。美國線上零售業的龍頭amazon號稱能比你自己還要早知道你想要什麼,就是靠著這樣子的「大數據」。

 

10年前就能夠處理

 

相較之下,一年一度的報稅資料是可以早早預設架構的財務數字(不多變),行政院花了數個月(不即時)分析了800萬筆(不大量)資料,沾沾自喜的號稱「大數據」實在可笑。類似的調查,美國早在90年代即有民營報社,憑一己之力年年公布一樣的分析。遠在「大數據」這個詞出現的20年前就能做出同樣的結果。我相信台灣至少有上百家企業、學校,在至少10年前即有能力處理同樣的資料。從定義上、難易度而言,雙北市由民間自發、政府接手的即時救護整合系統還更能稱之為「大數據」。 
晚了數十年,政府終於知道運用手上的數據令人感到期待。然而,不免擔心主導這項計劃的人究竟有沒有足夠的專業處理手上的資料。如果現階段僅僅是拿著實驗性的資料作為參考那倒是無可厚非,但是看到教育部打算拿著這樣子分析出來的「大數據」決定科系補助的金額,讓我實在替政策決定的品質擔心。 

 

 

 

美國百大企業資深統計學家 

本文轉自:蘋果日報

http://www.appledaily.com.tw/appledaily/article/headline/20151221/36966199/%E6%94%BF%E5%BA%9C%E5%88%A5%E8%83%A1%E4%BA%82%E7%94%A8%E3%80%8C%E5%A4%A7%E6%95%B8%E6%93%9A%E3%80%8D%EF%BC%88%E6%A5%8A%E7%B4%B9%E5%AE%8F%EF%BC%89

(本篇著作及新聞,若有侵犯您的益權,請留言或通知我們。我們會立即刪除,謝謝。)

 

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 官逼民反人民當家 的頭像
    官逼民反人民當家

    官逼民反_人民當家

    官逼民反人民當家 發表在 痞客邦 留言(0) 人氣()