? 鸿翼罗永秀:基于ECM内容管理的非结构化数据管理体系与实践分享_公司动态 - 知识管理-企业网盘-文档管理系统-档案管理-上海鸿翼

传统足彩


公司動態


返回公司動態

鴻翼羅永秀:基于ECM內容管理的非結構化數據管理體系與實踐分享


传统足彩  

本文根據羅永秀先生在【DQMIS 2020第四屆數據質量管理國際峰會】現場演講內容整理而成。
 

圖1.1

鴻翼聯合創始人兼CTO 羅永秀

演講嘉賓介紹 - 羅永秀

  • 中國ECM(企業內容管理)資深專家。近20年來一直專注于ECM領域,推動ECM相關技術的演進和產業化應用,是中國ECM創新技術、實踐應用和理論體系的集大成者。

  • 作為總技術負責人,他主導鴻翼參與了貴州大數據平臺、中國銀聯非結構化數據中心等數百個國家大數據項目;打造的構建于鴻翼強大的ECM底層平臺和與各行業緊密結合的內容業務中臺之上的解決方案服務了招商銀行、上汽、揚子江藥業等逾3000家企業。他還參與了工信部《DCMM數據管理能力成熟度評估模型》等多個國家標準的建設。

演講目錄

  • 非結構化數據現狀分析

  • 非結構化數據管理體系

  • ECM內容管理國內外發展史

  • ECM內容管理全景產品介紹

  • 非結構化數據應用解決方案

 

羅總:大家好!我是上海鴻翼軟件技術股份有限公司的羅永秀,非常感謝主辦方的邀請,今天能有機會把鴻翼近20年專注于ECM內容管理和非結構化數據領域的內容做一個完整的整理和分享。

 

今天我分享的主題是“基于ECM管理的非結構化數據管理體系與最佳實踐”,我們先來看一下非結構化數據與結構化數據的比較。

 


圖1.2

 

可以看到非結構化數據占有80%,其信息量是非常豐富多彩的,有描述性的、有情感描述的、有各種記錄的,可以說數據價值的挖掘更多是要依靠這80%的非結構化數據。

 

比較于國際上,我們知道國內的非結構化數據的發展應該說是才剛開始。當前我們面臨一系列的非結構化數據管理的問題,包括連接方面、業務融合方面、服務輸出方面、獲取利用方面、支撐架構方面、數據治理方面;還有,一直困擾著國內外非結構化數據的安全問題、合規問題、體系化建設問題等。

 

圖1.3

 

數據當下,新基建里的大數據更多是非結構化數據;人工智能依賴于數據,更是依賴于非結構化數據;工業互聯網產生了海量的非結構化數據;數據成為一種生產要素,數據從資源、資產再到資本,其中數據資產更是從非結構化數據開始。

 

 圖1.4

 

在國內,非結構化數據的重要性與其在認知、管理體系和平臺建設的現狀形成了一種劇烈反差。最近,與DAMA汪主席等業界同仁在溝通,大家都強烈意識到了這種反差。這種反差是:數據標準更多是從結構化視角去制定的標準,大數據建設更多是結構化大數據建設,首席數據官更是結構化數據的CDO,數據中臺更多是結構化數據中臺;但數據之80%是非結構化數據,每天大家80%時間在接觸和處理文檔、設計文件、音視頻等各種類型非結構化數據,80%安全、合規事件都是因為非結構化數據造成的……

 

圖1.5

 

這種反差正在改變,現在國家、學術和行業層面都越來越強烈認識到非結構化數據的認知文化、體系標準和平臺建設的重要性。

 

大家都知道我們國家有一個類似于國際數據治理DAMA的在國內最權威的數據治理標準,是2018年發布的DCMM,鴻翼因為專注深耕于非結構化數據領域近20年而有幸能成為起草單位參與其中。

 

圖1。6

 

在DCMM數據治理標準框架指引下,結合多年行業實踐,鴻翼也整理出了非結構化數據管理體系框架。頂層是戰略,左側是體系支撐,然后又分為價值體系與管理體系。

 

圖1。7

 

價值體系包括協作、流轉、服務與洞察。區別于結構化數據,非結構化數據具有內容的豐富和完整性等特征,其協作是非常關鍵的,例如在線協同文檔編輯、多專業間協同設計,這些都基于單體非結構數據進行快速協作,當然協作還包括融合業務流程的體系化協作等。對于非結構化數據洞察,底層支撐是AI智能引擎與Graph知識圖譜引擎,其中圖譜包括實體圖譜、語義主題圖譜和文件關聯圖譜,實現了各種非結構數據的結構化以及各種類型非結構化數據間的內容關聯,以滿足用戶自助式智能探索、智能推薦、智能安全分析、結構化內容分析等,這也是完全不同于結構化數據的洞察(更多是增強型BI分析)。

 

管理體系包括底層的安全、合規和上層的采集集成、數據標準、元數據管理和數據質量。其中安全合規是數據價值釋放的前提,要實現有效可控的非結構化數據安全管理,要具有統一存儲安全管控理念和全生命周期安全管理機制。

 

圖1.8

 

這是非結構化數據管理戰略,我們需要從現狀評估、數據文化、業務效率、安全合規和洞察創新去思考以進行頂層設計與規劃。

传统足彩  

其中現狀評估很重要,要對企業組織在非結構化數據的協作、應用、管理、安全、合規、治理等方面進行全面現狀評估。評估當前是處于離散數據階段,還是通過元數據連接并形成統一存儲的內容階段,還是業務知識階段或內容智能階段。

 

在數據文化層面,當前國內非結構化數據意識是較為薄弱的,在該領域從業這么多年感慨特別多,迫切需要我們大家一起能形成更多非結構化數據管理和ECM內容管理的白皮書、標準等,以更好地指引行業進行非結構化數據管理規劃與建設。

 

在業務效率方面,要重視非結構化數據與業務保持一致性,以及融合的深度與廣度;另外,業務是快速變化地,如何讓內容管理平臺快速適應業務變化尤為關鍵。當前環境下,安全防護與合規遵循是數據價值釋放的底線,安全方面須將不同環境下的非結構化數據全生命周期活動都納入考慮以進行全面、立體式防控,合規方面不僅要遵循各種法規、行規和內審要求,而且要滿足隱私數據保護和各種領域的文件體系化管理要求。

 

圖1.9

 

非結構化數據治理是一種跨時空、端到端的治理。從采集、傳輸、存儲、交換到管理、歸檔等是從文件生命周期時間軸考慮,空間軸是要統籌協調文件在OA、ERP、PLM、SAAS等各種應用系統中的集成與流轉,另外還要實現在不同群體之間、端到端地有序高效傳遞和交互。從而,才能實現非結構化數據從混亂、到有序,再到更高效、更智慧。

 

圖1.10

 

基于這個理念,整個非結構化數據治理過程與實施路徑如圖,從左側上方企業信息價值鏈分析,到各種業務流程,到文件歸入內容庫。如同結構化數據中的數據模型,非結構化管理也有內容模型,而且極為重要。每種業務對應一個內容庫,每個內容庫具有獨立而完整的內容模型。內容模型包括各種標準規范、訪問權限、安全策略、活動模型等,其與實際業務一一映射,從而讓內容庫能適應實際業務對非結構化數據管理的各種要求。同樣,非結構數據標準、數據質量、元數據和數據安全,在整個數據治理過程和實施路徑中都是重要環節。

 

圖1.11

 

文件“從業務中來,到業務中去”,連接匯聚是非結構化數據管理的基礎,支持歸檔型與平臺型兩種集成模式。基于鴻翼多年實踐沉淀了廣泛的兼容國內主流業務系統的適配器,包括OA類、ERP類、加密安全類、PLM類等。匯聚內容包括文件、附件、關聯文件、屬性、元數據和業務權限,通過連接管道各種內容數據持續灌入進內容庫,其采集過程也可實時感知、可監控管理。

 

圖1。12

 

內容標準包括編碼命名規范、來源存儲規范、權限分配規則、內容分類原則、文件版本、內容規范和元數據規范。其中權限分配要遵循穩定性、大權限小范圍小權限大范圍等規則,內容分類原則包括MECE原則、方便性原則、穩定性原則、業務相關性和安全性原則等。

 

圖1。13

 

內容模型是企業組織業務價值鏈的實現框架與指引,其與結構化的數據模型差異比較大。根據實際業務情況從不同維度進行子域(即子文件夾)規劃;通過流程驅動、主動事件等賦予原本靜態文件以各種自主活動能力;設置各種OCR識別策略對非結構化數據進行結構化處理;元數據策略保障該內容域下所有文件必須賦以策略要求的各種業務元數據;對于類似制造ISO等體系化要求高的內容域要進行文件新增、修訂、分發等動作流程控制;細顆粒度文檔訪問權限機制保證了非結構化數據的全方位訪問安全等等。內容模型是內容架構的重要組成,是非結構化數據管理能否有效落地的關鍵。

 

圖1.14

 

在ECM內容管理領域,因為其管理主體是各種類型非結構化數據,因此能準確地描述非結構化數據的數據(即元數據)就更為重要了。其能幫助用戶理解、獲取、使用、保護和洞察非結構化數據,除了基于表單引擎的元數據設計、元數據權限、元數據應用和元數據策略外,元數據分析是對非結構化數據的內容BI分析,是非結構化資產管理的核心內容,是非結構化數據資產充分釋放價值的關鍵能力。

 

圖1.15

 

這是鴻翼多年來總結的非結構化數據安全管控體系,上周與Gartner分析師溝通時,他眼前一亮,非常認同非結構化數據安全管控需要多方面、立體式。主要有三條主線,分別是全生命周期的安全治理、基于統一存儲后的全空間安全管控和企業安全管理五步驟。

 

圖1.16

 

接下來講一下ECM內容管理國內外發展史,從最初無紙化為目的EDMS發展起來的ECM在國際上已有20年,其是一種專注于非結構化數據的戰略、方法和工具。在2018年初Gartner重新定義了ECM,把ECM分成CCP、CSP和CSA,國內外也稱之為ECM+。ECM在國外是一種軟件類型,在國外各種IT軟件分類站點都能看到除ERP、PLM等外還有一個ECM軟件分類,其下包含文檔協作類、文檔業務類、文檔展現類、文檔合規安全類等應用軟件。我覺得,我們國內也迫切需要能把ECM推到同ERP、ERP、HR等類似的專注于非結構化數據領域的一種軟件類型,以讓行業能方便地獲取各種以非結構化數據為主的應用解決方案。

 

 
圖1.17

 

與國際上相比,國內ECM發展是非常緩慢的。我覺得,自90年代末至國內第一款完整ECM產品edoc2發布到2008年,是屬于國內ECM孕育期;然后進入到長達十年有余的漫長成長期。今年2020年因數據成為一種生成要素,占80%的非結構化數據逐漸被各界高度重視;再加上國內部分網盤廠商因為遇到各種業務系統連接、元數據、文件業務化等需求而開始啟動ECM產品建設;還有,據鴻翼對市場的不完全統計,這兩年國內主要行業CIO都已將ECM納為企業信息化建設的必備平臺。綜上三點分析,我認為今年2020是國內ECM內容管理的真正元年,也是國內非結構化管理的元年。

 

圖1.18

 

經過多年行業實踐積累,我們鴻翼形成了ECM內容管理成熟度模型CM³,該模型也得到了標準院、人大、Gartner和行業協會等的高度認可。從第一階的離散文件的數據階段;到連接著企業組織各種業務系統,將業務成果文件和體系文件匯聚一起并構建起統一非結構化數據平臺的內容階段;再到類似文檔檔案一體化、GMP醫藥質量管理等融合各種垂直業務的知識體系階段;然后到通過AI和Graph引擎對非結構化數據進行各種結構化和洞察分析的智能階段。

 

圖1.19

 

這是鴻翼ECM內容管理產品全景圖,以ECM Core為內核,近20年構建起了內容協作、內容管理、內容業務、內容智能和大數據服務五大基礎平臺,并在上層形成了非結構化數據協作、應用、安全、合規、平臺、管理、業務、治理、智能等多方面的標準對于不同應用場景的業務產品。

 

圖1。20

 

接下來,我來分享一下國內非結構化數據的主要應用解決方案。企業網盤我相信大家都很熟悉,但可能沒有完全了解到網盤之重要性。基于虛擬盤技術的真正網盤,其是完全替換了本地C盤D盤,它其實是一種基礎設施,其承載著企業80%的離散過程數據的存儲和服務,兼具企業效率提升與數據安全雙重關鍵屬性。

 

 圖1.21

 

安全級別稍高的企業都設有不同安全域,比如軍工領域有涉密網和非涉密網,知識密集型制造企業有紅網和藍網,銀行有運營網、開發網、測試網和辦公網。通過安全交換云來實現不同安全域之間的文件傳遞,其可對交換數據進行事前、事中和事后分析與控制,并留存完整操作日志與交換副本,從而實現即安全可控又業務創新正常開展。

 

圖1.22

 

非結構化數據中臺是非結構化數據治理的落地平臺,基于ECM底座支撐可方便連接匯聚各種類型的非結構化數據,依托于完整的內容模型架構和內容數據質量管理,實現了以元數據為中心的非結構化數據資產管理,借助于可視化平臺可實時查看各種數據采集和數據服務,通過各種內容分析并調整配置和策略,讓非結構化數據中臺更好服務于前臺各種業務場景。

 

圖1.23

 

自今年6月30號新檔案法正式發布,國內檔案迎來了千年之變,傳統檔案管理要進行全面信息化建設,一直困擾著我國檔案管理的難題:檔案收不及時、收不完整、收的沒質量,必須通過文件檔案一體化來解決,將檔案策略延伸到前端文件業務中去,才能實時、高質量地獲取有保存價值的檔案電子文件及其檔案元數據;同樣,企事業單位最有價值的非結構化數據都在檔案文件中,檔案必須要被充分利用,其要借助于知識化、智能化等手段,以讓用戶更容易發現各種檔案數據,才能讓檔案數據釋放價值。毫無疑問,現在檔案管理正在發生翻天覆地的變化,新形勢下檔案一定會連著文件,新形式下檔案一定會被全面知識化,為企事業單位的新業務和下一輪生產活動提供全面有力地知識支撐。

 

圖1.24

 

前面與賽迪吳主任還在溝通,為什么今年2020市場對KM知識管理需求那么旺盛呢?我們分析,這與當前糟糕的國際環境是相關的,環境越惡劣企業越要提升競爭力,那么如何提升呢?拍腦袋去創新嗎?顯然不是!一定是把已經存在的各種非結構化數據進行整理、提煉和洞察發現,才能提升生產力、增強競爭力。我們也要切記,新一輪知識管理建設要更多聚焦于顯形知識上,要重視非結構化數據的資產管理與價值釋放,我們不能重蹈過去10年因過度重視隱形知識挖掘而導致大部分知識管理項目的失敗結果。

 

最后,我還想講兩句,實際上這一年來我強烈地感受到:不管是國家政府、學術專業,還是各種協會,更不用說行業客戶,都越來越重視非結構化數據管理,但其實我們才剛剛開始,我們要走的路還很長。我希望在座各位、在線各位,也呼吁更多的人能更加關注、更加重視非結構化數據的方方面面,一起推動讓ECM內容管理盡快成為一種專注于非結構化數據領域的軟件類型,從而對行業起到一定引導作用,指導大家在非結構化數據協作、流轉、安全、合規、應用、管理和洞察等方面能進行更全面地戰略制定和更有效地應用落地。

 

我的演講到此結束,謝謝。