• 電子政務中的數據挖掘
    來源: 作者: 發布時間: 2013-05-10

    數據挖掘電子政務網絡數據分析數據庫internet電子政務是從政府的角度出發,服務于社會、企業和個人的電子商務應用之一。作為一種基于網絡,符合Internet標準,面向政府機關、企業以及社會公眾的信息服務和信息處理系統,信息的獲取、利用和開發是必須解決的問題。目前的網絡技術不具備信息自主開發能力。網絡提供給用戶的只是信息素材或粗加工過的信息,不能立即應用于實際,而且為了得到這類原始信息或數據,通常要經過一連串的網上操作,查詢效率低,即信息的利用率低。特別是,對于不熟悉英文的大多數中文用戶而言,即使有良好的中文交互環境,仍然不可能充分利用Internet上本來可以利用的大量信息資源,這種現狀無法適應電子政務對高質量的網絡信息服務的需求,網絡信息中的數據挖掘(DataMining)技術就是在這樣一種環境下應運而生的。

    一、電子政務需要數據挖掘數據挖掘技術是人們對數據庫技術不斷研究和開發的結果,是繼網絡之后的又一個技術熱點。自1989年出現以來,經過十多年的發展,數據挖掘技術已趨于成熟,并已投入商業應用。世界上比較有影響的典型數據挖掘系統有:SPSS公司的Clementine、IBM公司的IntelligentMiner、SGI公司的SetMiner、SAS公司的EnterpriseMiner、RuleQuestResearch公司的See5,還有CoverStory、EXPLORA、KnowledgeDiscoveryWorkbench、DBMiner、Quest等。知名的GartnerGroup的一次高級技術調查將數據挖掘和人工智能列為“未來3~5年內將對工業產生深遠影響的五大關鍵技術之首”。

    數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,抽取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。從更廣義的角度來講,數據挖掘就是在一些事實或觀察數據的集合中尋找模式的決策支持過程。因此,挖掘的對象不僅是數據庫,還可以是任何組織在一起的數據集合。數據挖掘最初針對的是大型數據庫,而電子政務中的數據挖掘技術是基于網絡的,即所謂的網絡數據挖掘,它除了處理傳統數據庫中的數值型的結構化數據外,處理更多的是文本、圖形、圖像、WWW信息資源等半結構、非結構的數據。

    二、網絡數據挖掘有固定流程關于網絡數據挖掘技術,目前眾說紛紜。有人認為,網絡數據挖掘就是利用數據挖掘技術,自動地從網絡文檔以及服務中發現和抽取信息的過程。可以將網絡數據挖掘分為四個步驟:

    (1)確定業務對象雖然網絡數據挖掘的最后結構是不可預測的,但對要探索的問題應該有所預見,不能盲目地為了數據挖掘而數據挖掘。清晰地定義出業務問題,認清數據挖掘的目的是網絡數據挖掘的重要一步。

    (2)數據準備網絡數據挖掘的數據來自兩個方面:一方面是客戶的背景信息,主要來源于客戶登記表;而另外一部分數據主要來自瀏覽者的點擊流(Click-stream),人們主要用這部分數據考察客戶的行為表現。由于客戶的背景信息涉及個人隱私,因此客戶不愿意把個人信息如實填寫在登記表上,這給數據分析和挖掘帶來困難。在這種情況下,不得不從瀏覽者的表現數據中推測客戶的背景信息,進而再加以利用。數據準備首先檢索所需的網絡文檔,發現資源;然后進行數據預處理,從發現的網絡資源中自動挑選和預處理得到專門的信息。

    (3)網絡數據挖掘從單個的Web站點以及多個站點之間的網絡資源中發現普遍的模式。

    (4)結果分析對挖掘出的結果,即普遍模式進行確認或者解釋。

    在整個網絡數據挖掘的過程中,被研究的業務對象是挖掘過程的基礎,它驅動整個網絡數據挖掘的全過程,同時,也是檢驗挖掘結果和引導分析人員完成挖掘的依據。數據挖掘的過程并非自動的,許多工作需要人工完成。數據挖掘對數據有著嚴格的要求,先期的數據準備工作要占用60%的時間,且對數據挖掘的成敗至關重要。

    三、網絡數據挖掘離不開專業人員由于網絡數據挖掘的若干工作需要人工完成,并且數據挖掘過程是分步實現的,因此不同步驟的工作需要具有不同專長的人員,大體可以將他們分為三類:

    (1)業務分析人員:精通業務,能夠解釋業務對象,并根據各業務對象確定出用于數據定義和挖掘算法的業務需求。

    (2)數據分析人員:精通數據分析技術,并較熟練地掌握統計學方法,能夠把業務需求轉化為數據挖掘的各步操作,并為每步操作選擇合適的技術。

    (3)數據管理人員:精通數據管理技術,能從數據庫、數據倉庫和各種網絡資源中檢索、收集適于挖掘的數據。由此可見,數據挖掘是一個多種專家合作的過程,也是一個在資金上和技術上高投入,同時獲得高回報的過程。

    四、網絡數據挖掘形式多樣根據不同的網絡數據挖掘對象,人們將網絡數據挖掘分為網絡內容挖掘(Webcontentmining)、網絡結構挖掘(Webstructuremining)以及網絡用法挖掘(Webusagemining)。

    (1)網絡內容挖掘網絡信息內容是由文本、圖像、音頻、視頻、元數據等形式的數據組成的。網絡內容挖掘就是一個從網絡信息內容中發現有用信息的過程。由于網絡信息內容有很多是多媒體數據,因此網絡內容挖掘也將是一種多媒體數據挖掘形式。

    (2)網絡結構挖掘網絡結構挖掘就是挖掘Web潛在的鏈接結構模式。通過分析一個網頁鏈接和被鏈接數量以及對象來建立Web自身的鏈接結構模式。這種模式可以用于網頁歸類,并且由此可以獲得有關不同網頁間相似度及關聯度的信息。網絡結構挖掘有助于用戶找到相關主題的權威站點。

    (3)網絡用法挖掘網絡內容挖掘和網絡結構挖掘的挖掘對象是網上的原始數據,而網絡用法挖掘面對的則是在用戶和網絡交互的過程中抽取出來的第二手數據,包括網絡服務器訪問記錄、代理服務器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息、用戶提問方式等。通過網絡用法挖掘,可以了解用戶的網絡行為數據所具有的意義。

    五、在電子政務中應用網絡數據挖掘電子政務位于世界各國積極倡導的“信息高速公路”五個領域(電子政務、電子商務、遠程教育、遠程醫療、電子娛樂)之首,說明政府信息化是社會信息化的基礎。電子政務包括政府的信息服務、電子貿易、電子化政府、政府部門重構、群眾參與政府五個方面的內容。將網絡數據挖掘技術引入電子政務中,可以大大提高政府信息化水平,促進整個社會的信息化。具體體現在以下幾個方面:

    (1)政府的電子貿易在服務器以及瀏覽器端日志記錄的數據中隱藏著模式信息,運用網絡用法挖掘技術可以自動發現系統的訪問模式和用戶的行為模式,從而進行預測分析。例如,通過評價用戶對某一信息資源瀏覽所花費的時間,可以判斷出用戶對何種資源感興趣;對日志文件所收集到的域名數據,根據國家或類型進行分類分析;應用聚類分析來識別用戶的訪問動機和訪問趨勢等。這項技術已經有效地運用在政府電子貿易中。

    (2)網站設計通過對網站內容的挖掘,主要是對文本內容的挖掘,可以有效地組織網站信息,如采用自動歸類技術實現網站信息的層次性組織;同時可以結合對用戶訪問日志記錄信息的挖掘,把握用戶的興趣,從而有助于開展網站信息推送服務以及個人信息的定制服務,吸引更多的用戶。

    (3)搜索引擎網絡數據挖掘是目前網絡信息檢索發展的一個關鍵。如通過對網頁內容挖掘,可以實現對網頁的聚類、分類,實現網絡信息的分類瀏覽與檢索;同時,通過對用戶所使用的提問式的歷史記錄的分析,可以有效地進行提問擴展,提高用戶的檢索效果;另外,運用網絡內容挖掘技術改進關鍵詞加權算法,提高網絡信息的標引準確度,從而改善檢索效果。

    (4)決策支持為政府重大政策出臺提供決策支持。如,通過對網絡各種經濟資源的挖掘,確定未來經濟的走勢,從而制定出相應的宏觀經濟調控政策。從世界范圍來看,電子政務并未真正得以實現。英國雖然在這一方面全球領先,但也僅有60%的政府機構的互連網服務網站已開通或正在建設。隨著電子政務和網絡用戶對高品質、個性化的信息需求的不斷擴大,將對網絡數據挖掘技術提出更高的要求,推動這一技術不斷地發展與完善,更好地為電子政務服務,從而提高全球的信息化水平。

    地方動態

    首屆數字全民國防教育高峰論壇在京舉行

    第四屆信息技術及應用創新人才發展交流大會暨中國信息協會第三屆信息技術服務業應用技能大賽頒獎典禮在京隆重召開

    2023(第五屆)中國電子政務安全大會在京成功召開

    中國信息協會首次職業技能等級認定考試在黑龍江省舉行

    • 協會要聞
    • 通知公告
    初爱视频教程完整版免费观看高清