|
借助人工智能技术,可靠性风险比更传统的软件应用程序更难量化。大多数非AI软件故障可以分为两类:异常和语义问题。异常通常会产生某种错误,从而停止进一步处理请求。对于软件开发人员以外的任何人来说,这些看起来都很糟糕,因为它们通常伴随着难以破译的消息,清楚地表明出现了问题。然而,如果您正在编写代码,它们通常更可取,因为您可以获得系统生成的特定信息来帮助诊断故障。
相比之下,语义错误是指程序执行与设计目的不同的操作。这些问题更难解决,但通常可以列举一系列潜在结果,以确定操作是否成功,并为其开发测试。
尽管人工智能工具得到的描述试图将其部分拟人化,例如“计算机视觉”、“机器学习”等,但所使用的方法具有机械化、工业起源,并且远没有许多人想象的那么复杂。从设计上 电子邮件列表数据库 来说,所采用的概念是相对基本的,主要是因为它们越复杂,它们的普遍适用性就越差,这使得它们在预定样本范围之外使用时可靠性降低。我回顾过的许多人工智能产品都使用旨在将图像简化为线条和形状的策略。然后,他们使用内部示例数据库并为每个示例分配分数或排名。基于标准差的统计技术变体用于查看它们是否高于给定阈值,以预测具有一定置信度的匹配。
人工智能的一个重要概念差异是,与常规软件不同,它不可能获得 0% 或 100% 的结果。人工智能的目标是让二进制设备(计算机)以非二进制方式处理输入,模拟人类的行为。因此,人工智能工具的故障更难以合理的方式预测、诊断和解决,因为系统不知道低分结果和自身算法的限制(甚至可能是开发人员的编码错误)之间的区别。
可用于帮助限制这种影响的最实用方法是让人检查结果,然后优化算法。这还可能引入更多不可预见的问题。通常不可能在不限制算法潜在用途的情况下定义全部结果。此外,参与审查工作的人员的主观意见可能会扭曲结果,并导致“经过训练的”系统仍然错过大多数人会立即发现的明显错误。
许多人工智能工具使用的评分方法会忽略给定边界之外的异常值,但其基础数学理论存在缺陷。即使在机械工程和金融服务等广泛使用依赖这些技术的方法的行业中,“尾部风险”(即完全意外的事情发生)也被认为很难减轻,而且比人们普遍认为的更为常见。三个标准差相当于 99.73%。这听起来像是一个相当高的门槛,但考虑到人工智能系统有 100 万张图像来推断标签,这意味着其中 2,700 张将是错误的。此外,这是一个平均分布,您可能会连续得到 13,500 个错误识别,然后得到 500 万个完美识别。从我所看到的大多数计算机视觉算法来看,准确率远远低于 99.7%(即使只考虑大多数系统生成的最高分建议)。
正如我们在 DAM 新闻中所描述的,在进行定量 DAM 投资回报率研究时,不建议用数字资产的平均值来讨论,因为重要的是高度依赖于上下文的 – 即您(或其他系统)需要在某个时间找到什么。精确的时刻。这意味着一系列资产现在无法被隔离,无法判断这些资产是否有用,并且它们的价值可能会随着时间的推移而根据事件而波动。在或多或少的程度上,人工智能技术从根本上来说是不可靠的,而且永远都是。
|
|