> 文章列表 > AI能解决IT长期存在的数据问题吗?

AI能解决IT长期存在的数据问题吗?

AI能解决IT长期存在的数据问题吗?

人工智能和机器学习已经为企业带来了很多实际价值,从欺诈检测到聊天机器人再到预测分析。然而,ChatGPT大胆的创意写作技能使人们对AI/ML的期望提高到了新的高度。IT领导者不禁要问:AI/ML是否终于准备好超越点状解决方案,解决核心企业问题?

以最大、最古老、最令人困惑的IT问题为例:在整个企业范围内管理和整合数据。如今,随着数据量、类型、变化和分布在本地和云平台上不断呈指数级增长,这项工作迫切需要AI/ML技术的帮助。正如IDC数据集成和智能软件副总裁Stewart Bond所说:“你需要机器来帮助你管理这些。”

AI/ML真的能帮助在数据混乱中实现秩序吗?答案是肯定的,但业界共识是,我们只是触及了未来可能实现的目标的皮毛。集成软件的老牌公司,如Informatica、IBM和SnapLogic已经添加了AI/ML功能以自动化各种任务,而一批较新的公司,如Tamr、Cinchy和Monte Carlo则将AI/ML作为他们产品的核心。然而,没有哪个公司接近实现能够自动化端到端数据管理和集成过程的AI/ML解决方案。

没有任何产品或服务可以在没有人工干预的情况下解决每一个数据异常,更不用说重塑混乱的企业数据架构了。然而,这些新的AI/ML驱动解决方案现在可以在各种数据整理和集成工作中大幅减少人工劳动,从数据编目到构建数据管道,再到提高数据质量。

这些成果可能值得关注。但要产生真正持久的影响,需要CDO(首席数据官)的方法,而不是冲动地为一次性项目抓取集成工具。在企业能够确定将哪些AI/ML解决方案应用在何处之前,他们需要对整个数据资产(客户数据、产品数据、交易数据、事件数据等)有一个连贯的、自上而下的视角,并完全了解定义这些数据类型的元数据。

企业数据问题的范围

如今,大多数企业都维护着大量的数据存储,每个数据存储都与其自身的应用和用例相关联——云计算加剧了这种繁殖,因为业务部门可以快速启动具有自己数据孤岛的云应用。这些数据存储中的一部分可能用于交易或其他操作活动,而另一部分(主要是数据仓库)则为从事分析或商业智能的人员提供服务。

为了进一步复杂化问题,Forrester Research的副总裁兼首席分析师Noel Yuhanna表示,“地球上的每个组织都有超过两打的数据管理工具。这些工具彼此之间没有交流。”这些工具处理从数据编目到MDM(主数据管理)再到数据治理和数据可观察性等所有事务。一些供应商已经将AI/ML功能融入了他们的产品,而另一些则尚未这样做。

在基本层面上,数据集成的主要目的是映射各种数据源的模式,以便不同的系统可以共享、同步和/或丰富数据。后者对于构建客户全景视图至关重要。但是,看似简单的任务,如确定同名的客户或公司是否属于同一实体以及哪些记录中的哪些详细信息是正确的,都需要人为干预。领域专家通常被要求帮助建立处理各种异常的规则

这些规则通常存储在集成软件中的规则引擎中。关系数据库的发明者之一Michael Stonebraker是Tamr的创始人之一,Tamr开发了一个基于机器学习的MDM系统。Stonebraker举了一个现实世界的例子来说明基于规则的系统的局限性:一家大型媒体公司创建了一个“自制”的MDM系统,该系统已经积累了12年的规则。

Stonebraker表示:“他们已经编写了300,000条规则。如果你问某人,你能理解多少规则,一个典型的数字是500。逼得紧些,我会给你1,000。扭我的胳膊,我会给你2,000。但是50,000或100,000条规则完全无法管理。之所以有这么多规则,是因为有很多特殊情况。”

Tamr 的首席产品官 Anthony Deighton 声称,他的 MDM 解决方案克服了基于规则的系统的脆弱性。“基于机器学习的方法的好处在于,当你添加新的数据源,或者更重要的是,当数据本身的形状发生变化时,系统可以优雅地适应这些变化,”他说。然而,与大多数 ML 系统一样,需要使用大量数据进行持续的培训,而且仍然需要人类判断来解决差异。

AI/ML 不是灵丹妙药。但它可以为 MDM 以及许多数据集成领域提供非常有价值的自动化。然而,要充分利用这些优势,企业需要整顿自己的秩序。

将 AI/ML 融入数据结构

“数据结构”是描述企业内部有用数据繁杂组合的关键词。确定这个结构的范围首先要知道数据在哪里——并对其进行目录化。这项任务可以通过使用诸如 Informatica 的 AI/ML 结合的 CLAIRE 引擎或 IBM 的 Watson 知识目录等解决方案的 AI/ML 能力来部分自动化。其他目录软件供应商包括 Alation、BigID、Denodo 和 OneTrust。

Gartner 研究总监 Robert Thanaraj 对首席数据官的信息是:“你需要设计你的数据结构。购买必要的技术组件,构建并根据你期望的成果进行协调。”他说,这个结构应该是“元数据驱动的”,由围绕企业数据本身的所有重要信息编织而成。

他给企业的建议是“投资元数据发现”。这包括“组织内部人与人之间合作的模式,人们处理数据的模式,以及他们使用的数据组合。他们拒绝哪些数据组合?数据存储在哪里、数据传输在哪里的模式?”

Informatica 的首席产品官 Jittesh Ghai 表示,Informatica 的 CLAIRE 引擎可以帮助企业获取元数据洞察并采取行动。“我们将 AI/ML 能力应用于提供预测性数据……通过将所有元数据维度连接在一起以提供上下文。”除其他外,这种预测性数据智能可以帮助自动化创建数据管道。“我们自动生成从各种源项映射到通用元素,并将其粘附到目标系统的模式。”

IDC 的 Stewart Bond 指出,SnapLogic 集成平台具有类似的管道功能。“因为它们是基于云的,所以它们可以查看……所有其他已经建立了管道的客户,从而找出下一个最佳 Snap:在这个管道中,你应该采取什么样的下一个最佳行动,基于数百或数千个其他客户所做的事情。”

然而,Bond 观察到,在这两种情况下,系统提供的是建议,而不是系统独立行动。人类必须接受或拒绝这些建议。“目前还没有太多的自动化。我认为即使在映射中,仍有很多机会实现更多的自动化、更多的 AI。”

提高数据质量

据 Bond 说,AI/ML 在提高数据质量方面产生了最大的影响。Forrester 的 Yuhanna 也表示同意:“AI/ML 确实在推动数据质量的提高,”他说。这是因为机器学习可以发现并从大量数据中的模式中学习,并推荐新的规则或调整,而人类则没有足够的带宽来确定这些规则或调整。

高质量数据对于处理关键客户、员工、供应商和产品数据的交易和其他操作系统至关重要。但它还可以让从事分析的数据科学家的生活变得更加轻松。

通常说数据科学家有 80% 的时间都花在清理和准备数据上。Michael Stonebraker 对这个估计表示质疑:他引用了与一位数据科学家的谈话,她说她有 90% 的时间用于识别她想要分析的数据来源,整合结果和清理数据。然后她在剩下的 10% 的时间里的 90% 用于修复清理错误。任何能够为她节省部分时间的 AI/ML 数据目录或数据清洗解决方案都将改变游戏规则。

数据质量永远不是一劳永逸的工作。数据的不断变化以及它经过的众多系统导致了新一类解决方案的出现:数据可观测性软件。“这个类别正在做的是观察数据在数据管道中的流动过程。它能识别数据质量问题,”Bond 说。他提到了初创公司 Anomolo 和 Monte Carlo 作为两个声称“使用 AI/ML 监控数据质量的六个维度”的参与者:准确性、完整性、一致性、唯一性、及时性和有效性

如果这听起来有点像持续测试对 devops 至关重要,那并非巧合。越来越多的公司正在接受 dataops,Bond 说:“你要对仪表板、ETL 作业以及使这些管道运行并分析这些管道中的数据的事物进行持续测试。” “但你还要为此添加统计控制。”

问题是,观察到的数据问题是事后诸葛亮。在不让管道陷入瘫痪的情况下,你无法阻止错误的数据传递给用户。但正如 Bond 所说,当 dataops 团队成员应用了一个修正并捕获它时,“那么下次出现该异常时,机器就可以进行修正。”

未来将有更多智能

数据管理和集成软件供应商将继续快速添加有用的AI/ML功能——以自动化数据发现、映射、转换、管道、治理等。然而,Bond 提到,我们面临一个黑盒子问题:“每个数据供应商都会说他们的技术是智能的。其中一些仍然是虚有其表。但在这些产品的核心深处,确实有一些真正的AI/ML发生。”

对这种智能的需求是显而易见的。“如果我们要提供数据,并且要在这个异构、多云、碎片化的环境中进行大规模(PB级)处理,我们需要将AI应用到数据管理中,”Informatica 的 Ghai 说。Ghai 甚至将目光投向了 OpenAI 的 GPT-3 系列大型语言模型。“对我来说,最令人兴奋的是理解人类文本指令的能力,”他说。

然而,没有任何产品具备将数据混乱合理化或在无人干预的情况下清理数据的智能。“一个完全自动化的数据基础设施是不可能实现的,”Gartner 的 Thanaraj 说。“在可以自动化、可以增强和仍然需要人类参与的补偿之间,必须达到平衡。”

Stonebraker 提到了另一个限制:AI/ML 人才的严重短缺。数据管理和集成的AI/ML解决方案并非开箱即用,因此需要AI/ML专业知识进行正确的实施。“如果让企业自己去做,他们总是会犯同样的错误,”他说。“我认为最重要的建议是,如果你对这些东西不熟悉,找一个懂行的合作伙伴。”

这个声明的另一面是,如果你的数据架构基本完善,并且有足够的人才确保你能正确部署AI/ML解决方案,那么数据管理员、分析师和科学家的大量繁琐工作可以被消除。随着这些解决方案变得更智能,这些收益将只会增加。


本文作者:Eric Knorr(曾担任Foundry企业网站的主编)

更多内容请关注公号“云原生数据库”