如何让机器学习更好地为企业提供服务？

根据 Gartner Hype Cycle 于 2023 年 8 月发布的一份新闻稿，人们对人工智能及其应用的热情或许会坠入最低点，生成式人工智能几乎处于“期望膨胀期的顶峰”，即将陷入“幻灭的低谷”。

快速浏览一下社交媒体，你也会发现一些端倪。有些页面上充斥着定向广告，主题平淡无奇，比如“为你的一堆收据提供 GPT”。这是一个很好的证据，表明人工智能热潮正在寻找各式各样的落地方式。

根据麦肯锡的数据，尽管人工智能的采用率自 2017 年以来增加了一倍多，但在过去几年里，它已经稳定在 50% 到 60% 左右。

IBM 透露，与采用人工智能相关的挑战中，近一半集中在数据复杂性（24%）和集成与扩展项目的难度（24%）上。虽然营销人员的“给它加上一个 GPT 后缀，并称之为人工智能”的策略可能是权宜之计，但努力真正实施、整合人工智能和机器学习的企业面临着双重挑战。

首先，这很困难且昂贵。其次，因为它很困难且昂贵，所以很难找到测试用的“沙盒”，这是实验和证明新人工智能产品价值所必需的，这将保证进一步的投资。简而言之，人工智能和机器学习没有我们想象中那么“平易近人”。

数据，数据，还是数据

历史表明，大多数业务转型一开始似乎都很困难，成本也很高。然而，在这些努力上花费的时间和资源已经为创新者带来了回报。企业发现新的资产，并使用新的流程来实现新的目标，有时甚至伴随着崇高的、意想不到的目标。人工智能热潮的核心资产是数据。

世界正在经历数据爆炸。根据 Seagate 和 IDC 在 2020 年发布的报告，未来两年，企业数据预计将以 42.2% 的年增长率增长。然而，目前只有 32% 的数据被投入使用。

有效的数据管理，包括数据的存储、标记、编目、保护、连接和查询，处处充满挑战。一旦克服了这些挑战，企业将需要确定用户不仅在技术上足够精通这些数据的访问和利用，而且能够以全面的方式这样做。

如今，企业发现自己给普通分析师布置了有针对性的、假设驱动的工作。这种工作可以概括为一句不痛不痒的话:“我通常让分析师拉出数据子集，并在其上运行数据透视表。”

为了避免局限性并更全面地使用数据，这种假设驱动的分析得到了商业智能（BI，business intelligence）的帮助，其中大规模的数据被可视化，变成了报告和仪表图。

但即便如此，令人眼花缭乱的图表规模也对阅读者提出了更高的要求，必须清楚地知晓重要的信息和要寻找的信息，才能以假设为前提，更好地理解发生了什么。否则人类根本无法处理认知超载。

这是人工智能和机器学习出马的大好时机。理想情况下，这意味着大量的数据科学家、数据工程师和机器学习工程师团队可以提供这样的解决方案，而成本也可以符合 IT 部门的预算。

此外，理想情况下，企业已经准备好了数量可观的技术，包括 GPU、计算和编排基础设施，用于大规模构建和部署人工智能和机器学习解决方案。但就像过去的商业革命一样，真实情况并非如此。

市场上有大量基于两种方法的解决方案：为现有的商业智能工具添加更多的智能和洞察力，在不断增长的机器学习操作或 MLOps（Machine Learning Operations）领域，使开发和部署机器学习解决方案变得越来越容易。

商业智能在利用机器学习增强其能力方面取得了重大进展，但仍有认知超载挑战需要克服。机器学习功能被深度嵌入到了商业智能接口中，以至于它们不容易被提取出来，定制的应用案例也因此被限制。

另一方面，作为对比，机器学习操作可以简化机器学习模型的开发和推广。它面临的挑战是，虽然它使数据科学家和机器学习工程师的工作效率更高，更多地构建和训练模型，更少地纠结数据、部署和生产，但它并没有解决这样一个事实，即这些数据科学家和机器学习工程师仍然是稀缺和昂贵的资源。

因此，企业需要找到解决方案，使没有博士学历的普通分析师成为有价值的机器学习从业者，这就是机器学习的民主化。

Capital One 在十多年前就开始为机器学习的民主化之旅奠定基础，当时它完全使用云服务，创造了一个现代化的计算环境，能够提供基础设施并提高数据处理能力。这种现代计算环境使复杂和大规模的数据集分析成为可能，并提高了效率。

Capital One 采用了中心化、标准化的平台和治理理念。对于人工智能和机器学习，它构建了一个机器学习平台，为工程师和科学家提供对算法、组件和基础设施的管理访问，以供重复使用。

计算环境和平台理念为机器学习的民主化提供了必要条件。Capital One 的机器学习工程师和数据科学家团队奉行“技术落地”的信条，采用了业务问题优先的方法。他们没有收集技术需求，而是收集问题。

例如，Capital One 的信用卡交易欺诈团队曾寻找一种方法来全面检测欺诈行为，并自动开启实时防御。为此，该公司开发了机器学习算法、组件和基础设施来构建解决方案。在这个过程中，这些组件被发布到一个中央机器学习平台上，以便在未来需要类似方法的业务问题上进行重用和改进。

随着组织扩展其业务用例范围并开发解决方案，他们经常会发现可用于更广泛利益的重复模式。认识到这些模式的存在可以带来更大的利益，通过常用的机器学习库、工作流和组件，企业可以在整个企业中释放机器学习的潜力，而不需要深入的数据科学或工程专业知识。

机器学习的民主化可以解决一些挑战，包括认知超载、资源限制和可访问性问题。它为试验和测试铺平了道路，这对于将机器学习变成一种有价值的工具至关重要，它不仅仅代表了一种过去的趋势。

现在，如果业务分析师想要识别异常，或跟踪其投资组合的细粒度细分趋势，再或者如果营销助理想要执行传统分析工具无法提供的深度活动分析，机器学习可以以最小的工程资源需求满足这些需求。

机器学习民主化，可以将这项技术从一个花里胡哨的噱头，转变为具有实用价值的核心技术。在一个工作日内，没有机器学习知识或编程技能的分析师，也可以从他们选择的任何数据集中发现有价值的信息。这种转变大大降低了探索机器学习潜力，以及其在各个业务领域应用的成本。

我们已经看到了技术民主化转变的出现。通过技术进步，比如无代码解决方案，机器学习将继续变得更容易使用。

作者：DeepTech深科技

本站文章收集整理于网络，原文出处：DeepTech深科技，本站仅提供信息存储空间服务。如若转载，请注明出处。