大数据(英語:big data[2][3][4];亦稱作巨量资料[1]),指的是傳統数据處理應用软件不足以處理的大或複雜的数据集的形容術語[5][6]。
大数据也可以定義為来自各種來源的大量非結構化或結構化数据。從學術角度而言,大数据的出現促成廣泛主題的新穎研究。這也導致各種大数据統計方法的發展。大数据並沒有統計學的抽樣方法;它只是觀察和追踪發生的事情。因此,大数据通常包含的数据大小超出傳統软件在可接受的時間內處理的能力。由於近期的技術進步,發布新数据的便捷性以及全球大多數政府對高透明度的要求,大数据分析在現代研究中越來越突出。[7] [3]
截至2012年 (2012-Missing required parameter 1=month!)[update],技術上可在合理時間內分析處理的数据集大小單位為艾位元組(EB)[8]。在許多領域,由於数据集過度龐大,科學家經常在分析處理上遭遇限制和阻礙;這些領域包括氣象學、基因組學[9]、神經網路體學、複雜的物理模擬[10],以及生物和環境研究[11]。這樣的限制也對網路搜尋、金融與經濟資訊學造成影響。数据集大小增長的部分原因來自於資訊持續從各種來源被廣泛收集,這些來源包括搭載感測設備的行動裝置、高空感測科技(遥感)、軟體記錄、相機、麥克風、無線射頻辨識(RFID)和無線感測網路。自1980年代起,現代科技可儲存数据的容量每40個月即增加一倍[12];截至2012年 (2012-Missing required parameter 1=month!)[update],全世界每天產生2.5艾位元組(2.5×1018位元組)的数据[13]。
大数据幾乎無法使用大多數的数据庫管理系統處理,而必須使用「在數十、數百甚至數千台伺服器上同時平行运行的軟體」(電腦叢集是其中一種常用方式)[14]。大数据的定義取決於持有数据組的機構之能力,以及其平常用來處理分析数据的軟體之能力。「對某些組織來說,第一次面對數百GB的数据集可能讓他們需要重新思考数据管理的選項。對於其他組織來說,数据集可能需要達到數十或數百TB才會對他們造成困擾。」[15]
随着大数据被越来越多的提及,有些人驚呼大数据时代已经到来了,2012年《纽约时报》的一篇专栏中写到,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。但是并不是所有人都对大数据感兴趣,有些人甚至认为这是商学院或咨询公司用来哗众取宠的時髦術語(buzzword),看起来很新颖,但只是把传统重新包装,之前在学术研究或者政策决策中也有海量数据的支撑,大数据并不是一件新兴事物。
大数据时代的来临带来无数的机遇,但是与此同时个人或机构的隐私权也极有可能受到冲击,大数据包含各种个人信息数据,现有的隐私保护法律或政策无力解决这些新出现的问题。有人提出,大数据时代,个人是否拥有“被遗忘权”,被遗忘权即是否有权利要求数据商不保留自己的某些信息,大数据时代信息为某些互联网巨头所控制,但是数据商收集任何数据未必都获得用户的许可,其对数据的控制权不具有合法性。2014年5月13日欧盟法院就“被遗忘权”(Case of Right to be Forgotten)一案作出裁定,判决Google应根据用户请求删除不完整的、无关紧要的、不相关的数据以保证数据不出现在搜索结果中。这说明在大数据时代,加强对用户个人权利的尊重才是时勢所趋的潮流。
大数据由巨型数据集組成,這些数据集大小常超出人類在可接受時間下的蒐集(英语:data acquisition)、策展(英语:data curation)、管理和處理能力[16]。大数据的大小經常改變,截至2012年 (2012-Missing required parameter 1=month!)[update],單一数据集的大小從數太位元組(TB)至數十兆億位元組(PB)不等。
在一份2001年的研究與相關的演講中[17],麦塔集团(META Group,現為高德纳)分析員道格·萊尼(Doug Laney)指出数据長的挑戰和機遇有三個方向:量(Volume,数据大小)、速(Velocity,数据输入輸出的速度)與多變(Variety,多样性),合稱「3V」或「3Vs」。高德纳與現在大部份大数据產業中的公司,都繼續使用3V來描述大数据[18]。高德納於2012年修改對大数据的定義:「大数据是大量、高速、及/或多變的資訊資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理[原文 1][19]。」另外,有機構在3V之外定義第4個V:真实性(Veracity)為第四特點,即数据的真實性存疑或不能全然確定。[20]。
大数据必須藉由计算机對数据進行統計、比對、解析方能得出客觀結果。美國在2012年就開始著手大數據,歐巴馬更在同年投入2億美金在大數據的開發中,更強調大数据會是之後的未來石油。
資料探勘(data mining)則是在探討用以解析大数据的方法。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于特殊大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
大数据取得之來源影響其應用之效益與品質,依照取得的直接程度一般可分為三種[21][22]:
大数据的應用範例包括大科学、RFID、感測設備網路、天文學、大氣學、交通運輸、基因組學、生物學、大社會数据分析[26]、網際網路文件處理、製作網際網路搜尋引擎索引、通信記錄明細、軍事偵查、金融大数据,醫療大数据,社群網路、通勤時間預測、醫療記錄、照片圖像和影像封存、大規模的電子商務等[27]。
大型強子對撞機中有1億5000萬個感測器,每秒傳送4000萬次的数据。實驗中每秒產生將近6億次的對撞,在過濾去除99.999%的撞擊数据後,得到約100次的有用撞擊数据[28][29][30]。
將撞擊結果数据過濾處理後僅記錄0.001%的有用数据,全部四個對撞機的数据量複製前每年產生25拍位元組(PB),複製後為200拍位元組。
如果將所有實驗中的数据在不過濾的情況下全部記錄,数据量將會變得過度龐大且極難處理。每年数据量在複製前將會達到1.5億拍位元組,等於每天有近500艾位元組(EB)的数据量。這個數字代表每天實驗將產生相當於500垓(5×1020)位元組的数据,是全世界所有数据來源總和的200倍。
國際衛生學教授漢斯·羅斯林使用「Trendalyzer」工具軟體呈現兩百多年以來全球人類的人口統計数据,跟其他数据交叉比對,例如收入、宗教、能源使用量等。
目前,发达国家的政府部门开始推广大数据的应用。2012年奥巴马政府投资近两亿美元开始推行《大数据的研究与发展计划》,本计划涉及美国国防部、美国卫生与公共服务部门等多个联邦部门和机构,意在通过提高从大型复杂的的数据中提取知识的能力,进而加快科学和工程的开发,保障国家安全。
中華人民共和国政府计划建立全面的个人信用评分体系,其包含不少对个人行为的评定,有关指标会影响到个人贷款、工作、签证等生活活动。高科技公司在被政治介入为其目的服务,个人的大部分行为和社交关系受掌控,几乎无人可免于被纳入个人信用评价体系的监控中[31]。除獲取網絡数据外,中華人民共和國政府還希望從科技公司獲得分類和分析信息的雲端運算能力,透過城市监控摄像机、智慧型手機、政府数据庫等蒐集数据,以建造智慧城市和安全城市。人權觀察駐香港研究員王松蓮指出,整個安全城市構想無非是一個龐大的監視項目[32]。
而美国的大规模监控最早则可追溯到1919年的黑箱计划,自2001年911恐怖袭击后监控被升级。2013年爱德华·斯诺登向《卫报》曝光了美国四项大规模监控计划之一的棱镜计划,“他们(国家安全局)能够利用监控系统让时间倒流、明察秋毫,他们可以查出每一个你曾做过的决定,每一个和你说过话的朋友,在此基础之上制造出对你的怀疑,从而攻击你,将你描绘成一个罪犯,无论你的人生多么清白。”[33]
大数据产生的背景离不开Facebook等社交网络的兴起,人们每天通过这种公民媒體传播信息或者沟通交流,由此产生的信息被网络记录下来,社会学家可以在这些数据的基础上分析人类的行为模式、交往方式等。美国的涂尔干计划就是依据个人在社交网络上的数据分析其自杀倾向,该计划从美军退役士兵中拣选受试者,透过Facebook的行动app收集资料,并将用户的活动数据传送到一个医疗资料库。收集完成的数据会接受人工智能系统分析,接著利用预测程式来即时监视受测者是否出现一般认为具伤害性的行為。
運用資料探勘技術,分析網路聲量,以了解客戶行為、市場需求,做行銷策略參考與商業決策支援,或是應用於品牌管理,經營網路口碑、掌握負面事件等。如電信業者透過品牌的網路討論数据,即時找出負面事件進行處理,減低負面討論在網路擴散後所可能引發的形象危害。[40]
大数据的出現提升了對資訊管理專家的需求,Software AG、Oracle、IBM、微軟、SAP、易安信、惠普和戴爾已在多間数据管理分析專門公司上花費超過150億美元。在2010年,数据管理分析產業市值超過1,000億美元,並以每年將近10%的速度成長,是整個軟體產業成長速度的兩倍[35],這個成長速度亦在膨漲中。
經濟的開發成長促進了密集数据科技的使用,也促成發展了相對於資訊經濟的数据經濟。全世界共有約46億的行動電話用戶,並有10至20億人連結網際網路[35]。自1990年起至2005年間,全世界有超過10億人進入中產階級,收入的增加造成了識字率的提升,更進而帶動資訊量的成長。全世界透過電信網路交換資訊的容量在1986年為281兆億位元組(PB),1993年為471兆億位元組,2000年時增長為2.2艾位元組(EB),在2007年則為65艾位元組[12]。根據預測,在2013年網際網路每年的資訊流量將會達到667艾位元組[35]。
coauthors