• 大數據在公共政策和智慧城市中潛力巨大
    來源: 作者: 發布時間: 2015-12-22

    編者按:近年來,隨著互聯網信息技術的迅猛發展,大數據(big data)一詞正越來越多地被提及,大數據的重要價值日益凸顯,也為越來越多的國家和企業所認識,并將其置于戰略高度加以推動。今年5月召開的貴陽國際大數據產業峰會上透露,我國正在制定大數據國家戰略及行動計劃。7月1日,國務院辦公廳印發《關于運用大數據加強對市場主體服務和監管的若干意見》,要求在政府層面推動大數據應用,正是順應大數據時代潮流之舉。然而,面對大數據產業發展的有利時機,如何深入了解大數據可能帶來的深刻影響,如何使大數據技術為我所用?為此,國研網專訪了美國西塞羅集團(CICERO)首席執行官Randy Shumway。

    國研網:現如今,大數據及其應用的迅速發展,已經引起了社會各界的廣泛關注,對于大數據,您怎么看?您認為未來全球大數據發展趨勢如何?

    Randy Shumway:知識就是力量。二十一世紀的知識就是數據。幾十年來,企業出于對傳統流程和專業直覺的偏好,一直忽略數據。與此同時,全球數據量卻呈現指數增長。在這一進程中,一些企業看到數據的真正價值與潛力,于是努力抓住機會,像谷歌、百度、網飛、阿里巴巴、亞馬遜、騰訊和臉譜。正是這些公司的成功吸引了其它企業關注大數據。

    今天,“大數據”這個詞有了經典的含義,即企業不論大小均可獲取的、日益增多的海量數據。據估算2020年的數據量將達到2009年的44倍。2020年,全球數據量將高達44澤字節(或44萬億吉字節),這么大的字節量幾乎和宇宙中的星星數量相當。隨著更多設備和數據源(如交易數據、傳感器、點擊流、移動設備等)的加入,新興經濟體互聯網的日益普及,更多通訊技術基礎設施的完善,大數據還會繼續呈指數增長。

    中國大數據市場的三大公司分別是百度、阿里巴巴和騰訊,人稱“BAT”。這三家產生大量數據,但其數據的側重不同。百度采集的主要是用戶的搜索數據,阿里巴巴采集的是交易與信用卡數據,騰訊采集的則是社交數據。這里面的跨行業應用潛力極大,不僅包括針對客戶的交叉銷售與高端銷售,還包括更精準的定位促銷、假冒偽劣產品識別,乃至欺詐防范等。鑒于大數據所蘊含的巨大能量,預計BAT和其它中國企業在未來幾年將推出一系列復雜的數據模型和客戶應用。

    放眼全球其它區域,我們發現全球各地都在熱烈擁抱大數據。大家期待從大數據中挖掘寶藏,借助大數據使自己從激烈的市場競爭中脫穎而出。這股橫掃全球的大數據熱潮絕非心血來潮,而是有來頭的,在大數據成功案例日益增多的今天尤為如此。因此,我個人非常看好大數據在提升企業競爭力方面的積極作用,這一點毋庸置疑。但同時,我認為大數據并不完美,因此,搞大數據最好走一條平衡之路。

    譬如,大數據無論規模多大,它只是揭示了某些隱藏的規律。通過大數據,我們可大體了解哪些人屬于行動派、哪些人喜歡點擊廣告、哪類人的成功(或失敗)概率最高,等等。但大數據無法揭示問題的全部,尤其無法揭示個人經驗方面的問題(如消費體驗、品牌認知、回頭概率等)。大數據回答的是“什么”,而非“為什么”。任何組織若想推出富有創新精神的顛覆性戰略,就必須對“什么”和“為什么”兩個問題有清醒的認識。

    國研網:大數據會對哪類公共政策問題產生積極影響?

    Randy Shumway:運用大數據來制定公共政策,推進有社會影響力的倡議,這個話題令人激動。盡管大數據和公共政策的結合屬于新生事物,但我認為這里面的潛在社會效益是巨大而真實不虛的。無論在預防傳染病、控制大氣污染、降低犯罪率方面,還是在垃圾處理、優化交通、減少水污染、提高能源效率發面,莫不如此。

    大數據在公共政策領域發揮重大作用的前提之一是物聯網。“物聯網”這個詞是指日常產品所采集的各類數據。物聯網的數據主要源于傳感器,而傳感器可對無數應用進行監控,包括車輛速度、天氣狀況、空氣污染、水壓、機器運行狀態、化學成分等等。有了物聯網,我們就能以史無前例的方式持續獲取事件的精準可測量數據,這些數據的規模之大在以往是很難想象的。

    就大數據在優化公共政策、構建智慧城市方面的應用,我想舉幾個例子。瑞典的斯德哥爾摩市、美國的圣安東尼奧市的交管部門已開始利用大數據對紅綠燈的設置和布局進行監控和改進,以疏導交通,減少堵車。圣安東尼奧市估算,大數據項目上馬以來,大幅減少了人們在路上的堵車時間,為整座城市挽回了20億美元的效率損失。

    耶路撒冷市則在城市供水系統中安裝傳感器,對居民用水的水質和水流進行監控。通過這套系統,市政可對系統各節點的水質污染程度進行測量和監控,還可迅速定位滲漏點,在重大損失前即可做到防患于未然。

    荷蘭的阿姆斯特丹市和法國的尼斯市利用傳感器跟蹤空氣質量,識別污染源,并對公交政策改善空氣質量的效果進行評判。在美國,政府利用衛星圖像監控森林火情,還打算利用類似技術對全球各地大規模空氣污染進行監控。

    西班牙的巴塞羅納市啟動了八十多項大數據項目,其中涉及公交路線優化、儲水與用水效率、能源配給等。通過對土壤濕潤度進行監控,該市可在對城市綠地實行有效灌溉和管理的同時實現節水、省錢的雙重目的。

    類似的應用還有很多,如大數據在公共健康領域的應用。在美國和加拿大,安裝在患者家中的醫療傳感器可對偏遠地區的患者進行有效看護。通過對患者日常健康數據的監控,醫生在患者發病初期即可進行干預,不必被動等待患者上門。其它公共健康領域應用主要體現在監控大規模人口狀況、健康趨勢和傳染病方面。

    四川地震后,中國也利用類似的遠程數據技術和監控設備進行數據采集,以支持大城市的醫生為偏遠閉塞村莊的患者提供遠程診斷和治療。這些數據只是患者的具體健康數據,似乎和大數據的關系不大,但這至少說明物聯網領域內正在發生一些事情,同時也展示了有哪些數據采集的新手段可供選擇。

    因此,可以說在公共政策等領域的確有些良機,我們要及時抓住這些機會,好好利用數據、數據采集和大數據等工具來造福社會,改善人們的生活方式。

    國研網:您能否從專業角度解釋下到底什么是大數據技術?

    Randy Shumway:許多人認為大數據就是指數量大的數據。但量只是大數據的一方面。IDC在它的報告中給大數據下了一個定義,描述了大數據時代的三大特征,即俗稱的“3V”,分別是指量(volume)、類(variety)和速(velocity),這三個字的英文表達均以英文字母V開頭,因此合稱“3V”。只有將這三個特征結合起來,才能把大數據同傳統數據(如關聯式數據庫)有效區分開來。

    “量”指的是數據的規模(數量)。大數據自然數量要大,大得要以拍字節(千萬億字節)為單位來計算。數據量既然這么大,這對需要存儲或處理大數據但又缺乏必要基礎設施的企業來說自然是個挑戰。

    “速”指的是速度。大數據往往以極快的速度流向企業,這就要求有獨特的IT解決方案來對數據進行實時的采集、管理和儲存。

    “類”指的是采集的數據的不同種類。大數據的數據源與傳統數據有所不同,多源于離散的非結構化數據源(如文本、數字、音頻等),這就要求有強大的程序和算法對其進行適當解讀。

    國研網:大數據的數據源一般包括哪些?

    Randy Shumway:簡而言之,大數據無處不在,其數據源也必然隨著新技術、新平臺和新流程的出現不斷進化和發展。大數據的數據源多得難以想象。但從廣義分類的角度看,我們認為大數據的最大數據源是內部檔案、文件、媒體資料、數據存儲、商業應用、公網、社交媒體、機器運行數據、傳感器數據等。

    這些數據源主要包括:

    內部檔案:包括掃錨文檔、報表、與客戶的通訊記錄等;

    文件:包括PDF, XLS, CVS, DOC等格式的文檔;

    媒體資料:包括影像、視頻、音頻、實時流媒體等;

    數據存儲:包括SQL,和Hadoop等系統內文件;

    商業應用:包括業務流程方面的具體應用,如CRM、員工管理、人力資源、成本管理、市場營銷等;

    公網:指對天氣、交通、法律法規、公共財政、公共健康等方面的公共數據庫的跟蹤與文本清洗;

    社交媒體:包括臉譜、微博、領英、推特、優酷、QQ地帶、人人網等;

    機器運行數據:包括運行事件記錄、服務器數據、點擊流量數據、客戶呼叫記錄、移動定位數據、移動應用等;

    傳感器數據:此類設備包括智能電子測量儀、道路攝像頭、游戲機、車載電腦、醫療設備、家用電器等。

    國研網:目前最好的大數據分析技術是什么?

    Randy Shumway:我們可以退一步,對目前使用的規模不等、類型不同的大數據分析技術進行回顧總結。結果是相當驚人的。當初,大家在不同領域采用不同分析算法,包括機器學習技術、統計學、圖形識別、人工智能、數據庫系統等。現在,這些技術均進化成了強大而復雜的大數據專用工具。更厲害的是,為適應新數據源不斷出現的局面和企業在大數據應用方面的獨特需求,這些技術還在持續進化。

    鑒于大數據的應用案例分分秒秒都在刷新,因此,我們認為并不存在所謂的“最佳分析模型”或“最佳實踐分析模型”。說到底,大家采用的各類大數據分析技術和具體算法各有千秋,其效果也各不相同。

    上述分析技術只是各類大數據分析技術的冰山一角。其它的分析技術還包括:關聯規則挖掘、系集建模(袋翻法、隨機森林模型等)、決策樹(C&RT, CHAID)、文本分析、樸素貝葉斯分析、神經網絡建模、向量機輔助學習、市場購物籃分析、回歸分析(多變量分析、邏輯分析)等。

    在分析技術日益多元的同時,應用案例也越來越多。具體的應用包括:業務線索與銷售目標優先排序、產品推介服務、客戶發展成功概率打分、風險建模、客戶價值與收益率打分、客戶維系與流失預測、產品與服務內容優化、交叉推銷法與高端推銷法、消費意向分析、客戶營銷優化,等等。

    國研網:那么,數據專家要采用哪些技術來駕馭大數據?

    Randy Shumway:目前這場我們正在見證的最大技術革命是圍繞大數據基礎設施展開的。前面我說過,大數據的三大特色分別是量、速、類,也叫3V。這三大特色其實也是駕馭大數據的三大IT挑戰。某些企業嘗試將大數據轉化為競爭優勢,但經過內部IT審核后,卻發現自己根本不具備應對挑戰所需的必要IT基礎設施。原因在于多數企業依賴的是傳統企業基礎設施,而這種基礎設施的設計初衷只是管理和分析關聯式數據庫,因此根本無法處理未結構化數據、海量數據和高速數據。為應對這一挑戰,企業正逐漸采納所謂的“簇計算結構”,即可廉價高效滿足企業獨特大數據需求的系統。

    從較高的層次看,簇計算結構是一組互聯的電腦(多為低成本商用電腦),這些電腦一起工作來完成某項任務。一組互聯電腦如能以有組織的方式開展合作,其處理能力就會大幅提高,尤其是分析非結構化大型數據集的能力。與企業結構相比,簇計算結構在升級和處理速度方面更為可靠,可為致力于培養大數據能力的企業提供理想的平臺。目前,簇計算結構技術已發展了一段時間。另外還有個新生事物,就是把平臺和大數據有效結合起來的軟件平臺 - 哈杜普分布式計算平臺(Hadoop)。

    哈杜普是阿帕奇項下的開放源代碼項目,是為簇計算結構量身定做的系統。哈杜普和簇計算結構的結合之所以令人激動,是因為這種結合可讓企業實現想存多少數據就能存多少數據,且格式不限,廉價高效。哈杜普的特色主要表現在兩方面,一是數據存儲系統,二是數據處理系統。要了解哈杜普數據存儲系統,必須對哈杜普分布式文件系統 (HDSF)有所了解。同樣,要了解哈杜普數據處理系統,必須對MapReduce等并行編程技術有所了解。

    我先談談HDSF。假設有個數據集,這個數據集比電腦或服務器的儲存空間還大。 通過HDSF,就可把這個大文件轉化成許多方便存儲的小塊,然后把這些小塊以離散的方式存儲到多臺電腦上。這樣一來,企業就能成功存儲一臺電腦或服務器裝不下的數據集。

    關于哈杜普,我們還需了解一點,即它通過MapReduce來處理數據的方式(搜索、還原、提煉等)。在傳統企業機構中,通常把數據交付到任務處理的環節,但這樣可能會給整個網絡帶來巨大的壓力,特別在處理大數據集時。面對這一挑戰,MapReduce可把數據處理任務分配到各個單獨的數據點(如每臺單獨的電腦)上。在這一框架下,每臺單獨的電腦都會收到DHSF分配來的小型數據集,同時還負責處理MapReduce布置的數據處理任務。最后再由MapReduce 把每臺電腦的運算成果收集起來,之后“還原“成完整的最終成果。由此,我們可以看出:這一流程確實比傳統企業結構更迅捷、更高效。

    國研網:你認為哪些行業從大數據中獲益最大?如何獲益?

    Randy Shumway:最先從大數據中獲益的公司是谷歌、臉譜、網飛等網絡公司。谷歌的成功主要源于搜索引擎算法與定位廣告系統。同樣,網飛之所以在網絡流媒體方面具有領先優勢,在于其利用非結構化社交媒體數據和網絡分析工具來指導自有新媒體的創新與并購。經過短短幾年,大數據的好處便開始輻射所有行業領域,并通過對各行各業重要職能進行優化的方式實現跨行業發展。

    零售業就是典型例子。我們預測實施大數據銷售的零售商有望將毛利率提高60%。零售業有個經典的大數據案例,當事方是“目標”公司。2012年,“目標”公司開發了一套算法,可對懷孕顧客的購物行為變化進行偵測。該算法本來是為了向準父母們派送尿褲、嬰兒奶粉、兒童服裝等商品的購物券。但這套算法非常精確,導致大家紛紛擔心自己的個人隱私。最終,“目標”公司不得不在促銷時摻入其它類商品的購物券,以掩蓋其促銷活動的針對性。從上述案例中不難看出,大數據正在改變零售業的現有競爭格局。

    當然,從大數據中獲益的遠遠不止零售業。今天,幾乎所有企業均會產生所謂的“數據尾氣”,或者說,這種潛力至少是存在的。因此,我認為未來幾年下列行業將從大數據中獲益最多并呈指數增長:健康保健業、銀行業、通訊業、公用設施、零售業、保險業、能源行業和旅游業。

    國研網:中國企業同樣渴望挖掘數據的最大價值,對此您有何建議?

    Randy Shumway:過去十年,許多企業都致力于大數據戰略的推行。有些取得成功,有些卻失敗了。成功的企業往往都在踏實推行數據驅動型文化,而非簡單地把數據看作權宜之計。接受了數據驅動型文化,這些企業就能借助廣泛而系統的分析學應用來超越對手,無論思維上還是行動上。

    中國企業要最大程度地挖掘數據價值,要明白兩點。首先,大數據在真空里是沒有價值可言的。就是說,只有利用大數據來推動實際決策,大數據的潛力才能釋放出來。這不僅需要最佳實踐,而且需要決策者與分析人員的密切配合。其次,要產生有意義的成果,要有一個過程,而數據只是這個過程的一部分。如果我們把從數據中導出的結論比作冰山,那么露在水面上的僅是冰山的數據部分。與之相比,冰山的水下部分比重更大,這部分包括公司的數據戰略、數據技能、數據流程、數據系統等等。沒有數據不行,沒有推動數據互動的手段與能力更不行,這兩者缺一不可。因此,我認為致力于大數據挖掘的中國企業與組織(包括政府、國有企業和私營公司)擁有巨大的潛力。

    (受訪者系哈佛大學工商管理碩士,曾任答思咨詢公司執行董事,貝恩咨詢公司高級合伙人)

    地方動態

    首屆數字全民國防教育高峰論壇在京舉行

    第四屆信息技術及應用創新人才發展交流大會暨中國信息協會第三屆信息技術服務業應用技能大賽頒獎典禮在京隆重召開

    2023(第五屆)中國電子政務安全大會在京成功召開

    中國信息協會首次職業技能等級認定考試在黑龍江省舉行

    • 協會要聞
    • 通知公告
    初爱视频教程完整版免费观看高清