• 北大方正:新華網內容管理系統數據中心解決方案
    來源: 作者: 發布時間: 2005-11-03

    一、行業應用

        項目背景 

      新華網作為國內最大新聞網站之一,憑借信息的真實、豐富、快捷等特點一直處于行業權威地位。為了適應信息快速發展的市場需求,更好的服務新聞領域,新華網不斷完善采編流程,提高制作效率,增強網站的頁面效果,更快更好的凸顯新華網的優勢。多年來,新華網堅持以內容為核心思想,強調數據內容管理過程,為了能夠快速、自動、安全的管理并使用好這些數據,構建一個數據中心成為新華網新的需求。

      北大方正技術研究院自主知識產權的核心技術產品方正智思知識管理軟件是方正技術研究院攜多年積累的中文信息處理的技術精華,研發推出的一個中文智能信息挖掘與知識管理的軟件開發包與服務系統。它根據新華網的具體特點,方正知思知識管理軟件能夠快速實現具有智能信息挖掘與知識管理功能的應用,幫助新華網完成海量信息的智能分析處理,推動新華網的信息化進程。


        需求分析

      項目總體目標是:新華網利用方正智思知識管理軟件完成數據中心建設,具體體現功能為:數據采集、數據挖掘、數據加工推送、數據輸出、數據管理等。通過數據中心整合新華網總網的數據和各地分網的數據,形成完整的不重復的內容。并且在這個基礎上,利用數據挖掘與自然語言處理等先進技術,充分發揮新華網內容極其豐富的優勢,構建以內容管理為中心的知識管理的系統,形成以知識為基礎的數據自動處理與深度加工,從而提高工作效率、產生新的功能價值。

        新華網內容管理系統數據中心的功能分成幾個部分:

        1、數據采集:采集原始數據進入數據中心,并在進入數據中心前進行智能化地敏感稿件分析、自動消重、自動分類、自動關鍵字與摘要提取等數據加工工作;

        2、數據挖掘:利用數據中心已存貯的信息進行分析挖掘,為編輯人員進行智能檢索、專題制作、新聞追蹤、熱點分析等提供輔助支持;

        3、數據加工推送:當編輯進行稿件編輯時,數據中心為編輯人員提供服務,包括:為稿件提取關鍵字、摘要,推薦圖片、多媒體及專題等;

        4、數據輸出:對數據中心稿件及分析挖掘的結果按格式要求輸出到指定文件存儲位置以便WEB、電子郵件、短信等系統進行發布;

        5、數據管理:包括系統管理、權限控制等功能。

    二、應用方案

    該系統從功能需求上分為五大部分:數據采集、數據挖掘、數據服務、數據輸出、數據管理。

    應用系統采用多層客戶端/服務器和瀏覽器/服務器結構,以IBM CM 8作為數據存儲系統,采用“方正智思”知識管理產品實現應用需求。

    三、體系結構

    方正智思是一個中文智能信息挖掘與知識管理軟件開發包。它是以方正多年積累的中文信息處理技術、中文自然語言理解技術和圖形圖像處理技術為基礎,融合了最新的人工智能、信息檢索、文本挖掘的研究成果,進行嚴格的產品化開發而形成的軟件開發包。它提供對海量文檔、圖片、視音頻等數字化內容進行智能檢索、智能分析及智能化自動處理的功能。在其上可方便地進行應用系統的開發,快速實現具有智能信息挖掘與知識管理功能的應用。

    四、產品特點

        1、全文檢索

      全文檢索是海量文檔數據檢索的重要而基礎的技術手段。方正智思的全文檢索引擎將企業的全文檢索技術與WEB搜索技術相結合,大大提高檢索引擎的性能指標。

        以基于中文分詞的混合字詞為索引單位;

        以索引項為單位的多信息域的索引方式;

        以hash table為基本索引映射方式;

        以分段逐層合并為索引組織模式;

        以分頁延遲排序實現快速響應。

        豐富的檢索功能與檢索手段

      融合了多種相關技術,提供豐富的檢索手段,除傳統的表達式條件檢索外,還提供基于中文詞典支持智能查詢。對檢索結果集提供相關度排序、動態摘要、自動聚類構建樹狀結構等功能。該檢索引擎在速度、準確性與功能豐富性方面具有領先的優勢。

        2、自動分類

    方正智思的自動分類引擎采用文檔向量空間模型與分類算法的概率統計模型。其核心算法的基本原型是當前被學術界認為最好的SVM文本分類模型。算法在此模型基礎上結合了智能學習的方法,采用了優化的算法實現技術,適合于文本及其他類型數據的快速分類。

        3、自動聚類

    方正智思的自動聚類引擎采用文檔向量空間模型與K-means聚類算法。針對文檔與媒體數據的海量高維特性以及孤立點特性,引擎算法中融合了我們最新的研究成果,在處理海量文檔及媒體數據時具有優異的品質。

        4、主題檢索/追蹤

      方正智思的主題檢測/追蹤引擎采用了最新的國際研究成果,引入新的時間窗算法,結合我們在中文信息處理方面的優勢而實現的引擎核心,它對中英文文章均具有很好實用性能。實際應用系統中,在該引擎核心上可實現對新聞事件的分析,輔助進行專題報道,快速識別新事件、追蹤熱點事件。

        5、相關推薦與消重

        自動文本消重是利用文檔的內在特征信息進行智能分析,判斷文檔的相似性與重復性。方正智思的文本文檔自動消重引擎采用了我們最新的文章相似度量技術與相似索引技術的研究成果,適合于海量文檔場合的快速相似判斷。方正智思的這一引擎功能同樣適用于圖像的消重與相似檢索。

        6、關聯分析與趨勢分析

       關聯分析是從海量數據中挖掘信息之間的關聯關系,趨勢分析是實現與時間相關的分析。

        7、自動摘要與自動關鍵詞提取

      自動摘要是通過智能的手段為文檔自動形成摘要的技術。自動關鍵詞提取是通過智能的手段為文檔自動提取關鍵詞的技術。方正智思的自動摘要與自動關鍵詞提取引擎采用了我們在篇章分析與指代消解方面的最新研究成果,大大提高摘要與關鍵詞的準確性與可讀性。同時,該引擎提供靜態摘要與動態摘要的功能。

        8、基于圖片內容檢索

      傳統的圖片檢索主要是通過圖片的描述信息進行檢索,方正智思的圖片檢索引擎不僅提供基于圖片描述的檢索,還提供對圖片內容的檢索,如:顏色、紋理、以及整體相似性的檢索,以及結合描述信息與內容信息的綜合檢索。該引擎中采用了我們的特征提取技術與索引技術的研究成果,能夠從海量數據中進行快速檢索。

        9、視頻檢索

      方正智思的視頻檢索引擎不僅提供基于視頻描述的檢索,還提供對視頻內容的檢索,如:關鍵幀、場景、主題,以及結合描述與內容的綜合檢索。該引擎中采用了我們的特征提取技術與索引技術的研究成果,能夠從海量數據中進行快速檢索。

    五、小結

      新華網利用方正智思知識管理軟件,建設以知識管理為特征的數據中心,不僅有效的整合了總網與各分網的數據,而且通過智能化的手段,實現了稿件自動消重、自動分類、自動摘要等工作,大大降低了編輯的工作強度。另外,新華網通過方正智思知識管理軟件實現了智能檢索、聚類分析、主題追蹤等功能,很好的實現了專題深度報道、熱點分析等新的功能,對于提高新聞報道的質量起到了很大的推動作用。

    地方動態

    首屆數字全民國防教育高峰論壇在京舉行

    第四屆信息技術及應用創新人才發展交流大會暨中國信息協會第三屆信息技術服務業應用技能大賽頒獎典禮在京隆重召開

    2023(第五屆)中國電子政務安全大會在京成功召開

    中國信息協會首次職業技能等級認定考試在黑龍江省舉行

    • 協會要聞
    • 通知公告
    初爱视频教程完整版免费观看高清