华为数据之道|03 差异化的企业数据分类管理框架|③以特性提取为焦点的非

分享
程序员 2024-9-8 20:16:45 23 0 来自 中国
华为的非布局化数据包罗文档(邮件、Excel、Word、PPT)、图片、音频、视频等。
相较于布局化数据,非布局化元数据管理除了须要管理文件对象的标题、格式、Owner等根本特性和定义外,还需对数据内容的客观明白举行管理,如标签、相似性检索、相似性毗连等,以便于用户搜索和消耗使用。
因此,非布局化数据的管理焦点是对其根本特性与内容举行提取,并通过元数据落地来开展的。


非布局化数据的元数据可以分为根本特性类(客观)和内容增强类(主观)两类。
1)根本特性类:参考都柏林十五个焦点元数据,实现对非布局化数据对象的规范化定义,如标题、格式、泉源等。
2)内容增强类:基于非布局化数据内容的上下文语境,分析目标文件对象的数据内容,加深对目标对象的客观明白,如标签、相似性检索、相似性毗连等。
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2024-10-19 11:45, Processed in 0.184144 second(s), 32 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表