巨量資料(Big Data)又稱大數據,與傳統的資料分析不同,巨量資料專指從單憑人力無法解讀分析之大量資料中歸納整理出可用的訊息,其中又包括許多後網路時代所獨有的資料,這些資料在經過有系統的分析後,可以塑造出一個人生活的可能模式。
舉例來說,從搜尋引擎關鍵字的紀錄,或是在購物網站上買過什麼東西,可以推測出消費者現在可能需要的商品是什麼,甚至更搶先一步,在消費者想到之前就先告訴他他需要的是什麼。那麼,如果是全人類的巨量資料呢?經由整合這些大量的圖片和文字資訊,以及發達的運算技術,我們得以用一個更加宏觀的角度來檢視自己,進而解答我們尚待解決的許多問題。
從地球之外看世界
講者Dan Berkenstock是一個研究領域包括航太和數據科學的科學家,一方面製造太空船,一方面試圖從工業數據中尋找可能的核科技走私者。某天他靈機一動,結合自己的兩項專長,從衛星拍攝的照片進行分析,由於衛星照片可以一目瞭然地觀察到一個地方地貌的變化、產業規模大小、或是交通流量,從這些照片中他可以得到需要的資料,進而完成他的工作。
然而,他發現他所找到的照片都已經過時了!究其原因,由於衛星的造價十分昂貴,達數億美金之多,因此,我們不可能發射太多的衛星到外太空,衛星能夠拍到的照片量便被迫減少。事實上,大部分的地方一年照不到一張照片。這樣的照片量不足以作為有效的資料來使用,為了能到更多這些珍貴的資料,他開始尋找便宜的取得照片的方式。
用小型衛星紀錄地球
懷抱著將世界數據化的夢想,希望最終能夠達到數百萬的數據點,每日將全世界的情況以圖片記錄下來。他和夥伴開始設計小型衛星,並試著將構思化為實體。衛星的製造和發射本身並不困難,主要遭遇到的困難點在於小型衛星的望遠鏡頭不夠大,沒辦法得到解析度足夠的照片,在經過測試後,他們找到了100公分的解析度是衛星大小和成像品質的最佳組合。但接著他們又想要讓衛星縮得更小,方式是捨棄傳統使用照相紀錄照片的方式,改為使用低品質的影片紀錄,再將獲得的資料以系統還原出高品質的照片。
而現在,他們現在已經作好將第一號衛星SkySat發出去的準備,能夠提供一個地球以外的視野,為這些資料提供一個持續性的紀錄,Dan Berkenstock覺得十分興奮,這些資料不但能夠讓國與國之間的交流更加透明化,更讓其他領域的科學家有更多可以使用的資料。
穿越歷史的時光機
巨量的地球照片讓我們能夠更加看清地球,而加上足夠的歷史紀錄和圖片之後,這些資料甚至能帶你穿越時空!講者Frederic Kaplan在數位人類學研究室中主持將人文學與科技結合的研究。
他很喜歡Google Map讓人能夠突破空間限制的功能,在電腦前就能掌握世界。而他的夢想不只於此,他希望能夠加入時間參數,只要按個按鈕,就能看到十年間地圖的變化在眼前展開,甚至像時光機一樣,能夠看到任何時代我們想看到的任何地方,重建任何我們想重建的場所。
當然,要達到這樣的目標需要很大量的資料庫。網路化後的近代固然有較多的資訊可供擷取,但更早的資料卻嚴重不足。得到資料的方法之一是將史料(報刊雜誌、書籍)進行數位化。當然這樣的資料還是不夠,這時就需要歷史學的協助了。
歷史學的基礎是以文本資料為底,對未知的過去事實進行推論的學問。比如說,我們可以從某船員的日記,綜合其他的資料,去推論該時期船員的生活可能會是什麼樣子的。如果我們要完整重現某個地方的某種景象,我們需要兩個要件:足夠的資料、專家對資料進行分析和整理,而 義大利的威尼斯正好擁有這樣的條件。
你好,機器人學者
「威尼斯時光機」是由洛桑聯邦理工學院和威尼斯大學合作的數位計畫,目的是重現各個時代的威尼斯。威尼斯地方政府的官僚化程度相當高,他們要求所有關於威尼斯的一切都得被文字記錄下來,包括哪一天有什麼船出海,什麼船返航都有清楚的記載。我們將這些資料完整數位化以後,就能夠做到很多事情,我們可以問這樣的問題:「1434年時某市場一條鯛魚多少錢?」或是「某十年間玻璃工匠的薪水約是多少?」,你便可以悠遊於古代的威尼斯中。
這樣的計畫當然也有其限制和挑戰,例如數位化編碼時可能會發生錯誤,或者文件本身記載的時候就錯了。由於資料量的龐大,我們幾乎不可能一一仔細檢查把這些錯誤挑出來,因此,我們需要告訴系統我們是如何根據文件去重建歷史,讓系統告訴我們發生了什麼事,這是此計劃的終極目標。想像一個未來的博物館,遊客可以從一份手稿開始,看看我們如何從中重建一些東西,訊息是如何從裡面被解碼出來。這樣全新的系統可以說是人文學界的一個突破,一個前所未見的「數位」人文學時代即將來臨。
撰稿:Ivan Weng