人工智能如何保存企业数据目录?
[资讯科技168点评]数据目录的概念并不新鲜。早在大型机时代,企业就开始通过数据目录跟踪和管理其数据资产。数据目录保存与数据或元数据相关的数据。企业的数据目录需要记录整个公司的所有数据库和文件,并向它们添加描述。例如,如果可能,记录文件之间的关系。
数据目录允许业务用户快速找到他们需要的信息源——,无论是资产数据、公司的地理位置,还是关于产品和供应商的信息。然而,数据目录只有保持最新才能有效,这在快速变化的行业中可能很难做到。
元数据和数据目录
理解元数据的一个简单方法是使用电影作为类比。电影存储在广播公司的电影库中,但是您需要保存的不仅仅是电影的标题。重要的是要知道这部电影持续多长时间,里面有哪些演员,谁是导演,谁是编剧,以及关于剧本的信息,所有这些都是关于这部电影的元数据。
我想你已经知道数据目录、数据字典和业务术语表的概念了。业务术语表面向业务用户,而数据字典面向更多了解技术的受众。这两者略有不同。然而,这三个概念显然与元数据——相关,它们都面临类似的挑战。
企业数据目录的挑战
早期的数据目录主要关注技术数据,例如数据库中有多少字段,这些字段是基于数字还是字符,字段有多长,以及它是否具有有效范围。后来,定义被扩展到包括关于业务数据类型的信息,甚至包括数据的定义,例如什么是“客户”、“产品”或“资产”。
关键问题之一是企业数据目录可能会过时。一般来说,热情的员工会输入有关各种系统和数据库内容的信息,但几乎没有动力确保信息始终是最新的。当部署新系统时,整个公司被收购,他们的系统被添加到企业投资组合或重组,费力输入的描述性元数据变得过时,因此不再被信任,也就不再被使用。
虽然许多公司花费了大量精力来实现有效的目录,但是随着业务的快速变化,很少有公司会继续努力保持企业数据目录完全同步。因此,尽管今年有几家软件供应商提供了产品服务,如数据目录、数据字典和业务术语表,但它们并没有真正得到广泛推广。
AI和企业数据目录
在数据量和类型不断增加的时代,更新企业数据目录变得越来越困难。然而,人工智能和其他技术的应用可以改变这种情况。
机器学习应用程序可以筛选企业数据目录和文件系统,并自动收集元数据标签。整个过程类似于谷歌在互联网上搜索网站、编目和索引的方式。将该技术应用于数据目录可以帮助企业自动填充和更新——,而无需手动干预。这可以解决阻碍企业数据目录的关键问题:许多复杂的工作需要手动完成。可以预测,人工智能可能有助于数据目录市场繁荣。
原作者:安迪·海勒