圍繞數據資產化過程主要有三大類:一是數據管理,當前數據管理的工具和智能化不夠,人為介入比較多,應該更技術化;二是數據安全,原來數據安全主要靠防火墻的邊界,只有在邊界內才是安全可控的,數據要素要求在流通中解決安全問題,就要將邊界安全變為數據的內生安全;三是數據流通,致力于從“流通即失控”變為“可用不可見”。
近日,中國信息通信研究院云計算與大數據研究所所長何寶宏發表了《數據要素技術概覽》的主題演講。何寶宏表示,讓數據資源向數據資產發展,從能存、能算到釋放價值、對外流通。
近年來,隨著技術的發展,大數據時代讓所有的數據能夠管起來、用起來,把原始數據提煉成數據資源,但仍然面臨著“用得不夠好、價值釋放不夠”的難題。從大數據到數據要素時代的目標,是讓數據資源發展成為數據資產,從能存、能算到釋放價值、對外流通,才算真正進入數據3.0時代。
何寶宏指出,圍繞數據資產化過程主要有三大類:一是數據管理,當前數據管理的工具和智能化程度較低,人為介入比較多,應該更技術化;二是數據安全,原來數據安全主要靠防火墻的邊界,只有在邊界內才是安全可控的,數據要素要求在流通中解決安全問題,就要將邊界安全變為數據的內生安全;三是數據流通,致力于從“流通即失控”變為“可用不可見”。
數據管理技術應滿足易用、好用的技術需求。易用,即靈活應對各類需求;好用,即數據質量全面提升。數據管理的基礎性技術現已成熟,而創新融合還在繼續。面向數據質量自動化管理的AI技術方案已基本成熟,有待進一步推廣應用;針對如何“讓數據更好地找到人,而不是讓人找數據”的問題,融合各類技術進行數據管理以實現“數據主動找人”的數據編織技術正在快速興起,但目前處于概念期;數據倉庫和數據湖技術已得到廣泛應用,融合數據倉庫、數據湖各自優勢的湖倉一體技術有待進一步提高性能。
何寶宏表示,數據安全保護技術已相對成熟,全生命周期的模式創新不斷。在數據安全技術方面,應從數據存儲、訪問、使用和流通安全及數據的分級分類幾個方面實現數據的有效保護和有力控制。建立“規則+AI識別”是當前常用的數據安全保護技術路線,分類分級、防泄露、零信任驗證等均在一定程度上依賴相應規則的設置和人工智能的精準度;基于“持續驗證,永不信任”理念的零信任技術架構進一步適應不斷突破邊界的云、網環境,進一步推動數據安全對全生命周期的覆蓋。
數據流通中的主要問題是確權、轉移和定價,在法律法規的基礎上需要相應技術手段的支持。在確權方面要解決聲明技術和共識問題:聲明權利可通過在數據內嵌入標識、憑證以聲明權利的數字水印等技術來實現;權利獲得共識且不可篡改則可通過數據各類權利共識存證、不可篡改、可追溯的區塊鏈/Web3等技術來實現。
數據轉移是核心問題,涉及很多相關技術。基于加密隱藏的多方安全計算技術是數據轉移的一個重要技術,其需要去中心化及支持通用計算。一方面,目前計算效率較低、開發難度較大,應用性距產業化推廣還需要一個過程;另一方面,傳遞建模中間信息隱藏原始數據的聯邦學習發展日趨成熟,廣泛適用于風控、營銷、政務、醫療、互聯網金融等應用場景,但這項技術的局限性在于目前缺乏嚴謹的安全證明機制,參與方可能通過交互的中間數據反推出原始數據,還易受到數據投毒和模型攻擊等。
定價問題的技術需求則是多方合作時的數據價值貢獻度量。對于多方聯合參與計算的場景,各方提供數據的價值衡量需要技術支持,即在聯合計算的過程中通過算法公平合理地衡量數據價值貢獻度,作為收益分配的依據。數據定價在多方參與聯合建模的場景中,綜合運用博弈論、人工智能模型、信息論等,探討數據價值與決策模型精度的關系,可以為度量各數據方的貢獻度、進一步分配收益提供依據。何寶宏認為,目前其應用的場景相對比較局限、產業化不足,新的應用場景還不多。總體而言,圍繞數據要素需要更多新技術,也需要相關法律法規的密切配合,目前依然面臨嚴峻考驗。