AIAI·

技术领导者需要知道的 5 个关于生成式 AI 的残酷真相

Publié à 2024-08-27 09:59:51Vu 19 fois
Article ordinaire
Réimpression Veuillez indiquer la source
Catégories d'écriture

围绕生成式 AI 的创业,如何才能具有竞争优势?如何让用户选择你而不是 ChatGPT?如果你困惑于时下的“泡沫”和“炒作”,本文作者分享了 5 个残酷的真相,帮你认清现实。

原文:https://www.montecarlodata.com/5-hard-truths-about-generative-ai-for-technology-leaders/

作者 | Barr Moses 译者 |baoyu.io

创造真正商业价值的生成式 AI 需要付出真正的努力,但这绝对值得。

生成式 AI ( Generative AI ) 已经无处不在。各行各业的组织正迫切要求他们的团队加入这场风潮 — 有 77% 的商业领导担心他们已经错过了利用生成式 AI 的机遇。

数据团队正在努力应对这一挑战。但是,打造一个真正能促进商业增长的生成式 AI 模型并非易事。

长期来看,仅依靠快速接入 OpenAI API 是远远不够的。我们谈论的是生成式 AI,但你的竞争优势在哪里?为什么用户会选择你而不是 ChatGPT?

这种照本宣科接入 AI 的做法看似是进步,但如果你还没有开始思考如何将大语言模型 ( LLM ) 与你独有的数据和商业环境相结合,以实现真正的差异化价值,那你就已经落后了。

这不是夸张。就在这周,我就和多位数据领域的领导者讨论了这个问题。他们都清楚,这是一场竞赛。在终点,将会有赢家和输家,就像 Blockbuster 和 Netflix 的故事。

如果你感到比赛已经开始,但你的团队还在起跑线上犹豫不决,困惑于“泡沫”和“炒作”,这里有 5 个残酷的真相,帮你认清现实。

残酷真相 1:你的生成式 AI 功能使用率很低,变现缓慢

“ Barr,既然生成式 AI 这么关键,为什么我们当前推出的功能却没什么人用呢?”

这里面有几个原因。首先,你们的 AI 项目并不是为了解决用户的具体问题而设计的。对于许多数据团队来说,这只不过是因为你们正处于激烈竞争中,希望在初期探索阶段收集些数据和积累一些经验。但不久的将来,当你的产品能用生成式 AI 来去帮助用户解决真实的问题时 —— 相比于你们的专案小组(tiger team)头脑风暴如何将生成式 AI 应用到具体场景,你们会获得更高的用户接受度。

由于还在初期阶段,目前接入的生成式 AI 功能就像是“ ChatGPT 的另一个版本”。

以一个例子来说明。想象一下你可能每天都在用的一个提高工作效率的应用,它用来分享组织知识。这样的应用可能会提供一些功能,比如执行“总结这部分内容”,“扩写这些内容”或“改变写作风格”等命令来处理非结构化的文本。每个命令就消耗一个 AI 积分。

没错,这些功能确实有用,但并不具备特色。

团队可能会决定购买一些 AI 使用机会,或者他们可能会简单地切换到另一个标签使用 ChatGPT。我不想完全忽略不使用 ChatGPT 从而避免泄露专有数据的好处,但这种做法在愿景和解决方案的规模上,与全国各地的财报电话会议上所描述的相比,显得较为有限。

将概念转化为价值,这是一个棘手的中间步骤

所以,你需要考虑的是:你的生成式 AI 有哪些独特之处和附加价值?我来给你一点提示:高质量的专有数据。

这就是 RAG 模型(或有时是微调模型)对于生成式 AI 计划至关重要的原因。它让大语言模型(LLM)能够接触到企业的专有数据。(我将在后面解释这个原因。)

残酷真相 2:你不敢深入集成生成式 AI,担心可能产生的风险

确实,生成式 AI(Generative AI)的潜力和复杂性让人望而却步。

你当然可以将 AI 模型更加深入地融入到组织的运作中,但这样做似乎充满了风险。让我们坦白说,ChatGPT 有时会给出不切实际的回答,其结果很难预料。它存在一个知识更新的限制,可能导致用户接收到过时的信息。更不用说,在处理数据上的失误和无意中向消费者提供错误信息可能带来的法律问题了。

听起来足够真实,对吗?Llama 2 也是这么认为的。

你的数据处理失误可能会带来严重后果。因此,了解你提供给生成式 AI 的数据,并确保这些数据的准确性是至关重要的。

在我们向数据领导者发出的一项匿名调查中,询问他们离实现生成式 AI 应用还有多远时,有人回答说:“我认为并非我们的基础设施在阻碍我们。我们在这方面非常小心——随着技术快速变化和一个失误可能造成的巨大声誉损害,我们正在观望,等待这波热潮稍微退去。”

这是我在与许多数据领导者交流时经常听到的观点。如果数据团队突然暴露了面向客户的敏感数据,他们就必须承担责任。数据治理是一个重要的考虑因素,达到这一标准并非易事。

这些都是真实存在的风险,需要找到解决办法。但只是站在一旁观望,并不会解决问题。同样真实的风险是,如果你不采取行动,可能会看着自己的业务被那些率先解决这些问题的团队所颠覆。

将大语言模型(LLM)通过微调和 RAG 方法结合到你自己的数据中,是解决这个难题的关键一环,但这并非易事……

残酷真相 3:做好 RAG 和微调其实并不容易

我认为,RAG(检索增强生成)和微调是未来企业级生成式 AI 的核心技术。虽然从大体上来看,RAG 在多数情况下是一个较为简单的方法,但开发 RAG 应用程序仍具有一定的复杂性。

为什么我们不能轻松地开始使用 RAG 呢?问题究竟在哪里呢?

RAG 看似是个为你的大语言模型量身定制的理想选择。然而,RAG 的开发过程涉及一定的学习曲线,即使是最优秀的数据工程师也需要花时间掌握。他们需要学习 prompt engineering、向量数据库与嵌入向量、数据建模、数据协调以及数据管道等技术,所有这些都是为了更好地运用 RAG。由于 RAG 是一种新技术(2020 年由 Meta AI 提出),很多公司还没有足够的经验来形成最佳实践。

RAG 应用的架构图

以下是对 RAG 应用架构的一个简化说明:

RAG 架构结合了信息检索和文本生成模型,这使得它在尝试回答用户问题时能够访问数据库。

数据库应该是一个可信赖的来源,它包含专有数据,允许模型在回应和推理时融入最新和可靠的信息。

在后台,一个数据管道会将各种结构化和非结构化的数据源输入数据库中,确保其内容的准确性和时效性。

RAG 链接接收用户的查询(文本),从数据库中检索相关数据,然后将这些数据及查询一起传递给大语言模型,以生成高度准确且个性化的回答。

这种架构虽然复杂,但却带来了重要的好处:

它确保了大语言模型基于精确的专有数据,大大增加了模型的价值。

它采用了一种将模型带到数据而非将数据带到模型的方法,这种方法相对简单且成本效益高。

我们可以看到,这种做法正在现代数据架构中逐渐成为现实。行业的主要参与者们正以极快的速度努力简化 RAG 的使用,他们在自己的环境中提供大语言模型服务,这些环境中储存了企业的数据。

Snowflake Cortex 现在让各个组织能够在 Snowflake 平台上快速分析数据,并直接开发 AI 应用。Databricks 推出的新 Foundation Model APIs 使得用户能够在 Databricks 内即时接入大语言模型 ( LLMs ) 。微软推出了 Microsoft Azure 的 OpenAI Service,而亚马逊也最近发布了 Amazon Redshift Query Editor。

Snowflake 数据云的图片

我认为这些功能很有可能被广泛采用。但同时,它们也让我们更加关注这些数据存储中的数据质量。如果你的 RAG ( 可重用生成模型 ) 管道所依赖的数据存在问题,比如数据异常、过时或不可靠,那么你的生成式 AI 项目的前景又该如何呢?

残酷真相 4:你的数据还没有准备好

仔细检查你的数据基础设施。如果你已经有了一个完美的 RAG 管道、经过微调的模型,以及明天就能用的清晰案例,你可能仍然缺少一个整洁、结构良好的数据集来实现这一切。

例如,你想让你的聊天机器人与客户交流。为了做到有效沟通,它需要了解你的组织和客户之间的关系。对于现在的企业组织来说,这种关系可能分散在 150 个数据源和 5 个孤立的数据库中,其中还有 3 个是本地部署的。

如果你的组织也是这种情况,那么可能还需要一到两年的时间,才能让你的数据基础设施准备好集成生成式 AI。

这意味着,如果你想在不久的将来利用生成式 AI 做出一些成果,你就需要尽快在现代数据平台上整合并创建出有用的、高度可靠的、完善记录的数据集。否则,当机会来临时,你可能会措手不及。

数据工程团队是保障数据健康的核心力量。现代数据技术栈能够帮助数据工程团队持续监控数据质量,确保未来数据的健康和可用性。

残酷真相 5:你可能不自觉地忽视了生成式 AI 中的关键角色

在生成式人工智能的发展中,团队合作至关重要。不少数据团队在组建生成式 AI 专案小组时,常常忽略了一些关键角色,这种做法最终会影响项目的长远发展。

那么,谁是 AI 专案小组不可或缺的角色呢?首先是领导层或主要业务干系人,他们负责推动项目并时刻提醒团队其商业价值。接着是软件工程师,他们负责编写代码、开发用户界面应用和 API 调用。数据科学家则需要思考新的应用场景,对模型进行精细调整,并引导团队探索新方向。但在这个团队中,还缺少了哪个重要角色?

那就是数据工程师。

数据工程师在生成式 AI 项目中扮演着至关重要的角色。他们能够深入理解那些能够为公司在像 ChatGPT 这样的产品中提供竞争优势的专有业务数据,并负责搭建将这些数据通过 RAG 传输到大语言模型的数据管道。

如果没有数据工程师的参与,AI 专案小组就无法发挥最大效能。那些在生成式 AI 领域处于领先地位的公司已经开始在所有开发团队中加入数据工程师。

如果上述的难以接受的事实适用于你,不必过于担忧。生成式 AI 目前仍处于发展的早期阶段,现在重新开始并接受挑战仍不晚。

你需要退一步,深入理解 AI 模型能够解决的客户需求,从项目初期就将数据工程师纳入开发阶段,以确保从一开始就建立竞争优势。同时,花时间构建一个能够提供稳定、高质量、可靠数据流的 RAG 管道。

此外,投资于现代化的数据处理技术,确保数据质量成为优先考虑的因素。因为缺乏高质量数据的生成式 AI,不过是虚有其表的泡沫而已。

Section des commentaires

Pas encore de commentaire, ajoutez le premier.

弦圈热门内容

暗物质:奇异黑洞可能是暗物质的副产品

对于我们能看到的每一公斤物质,无论是你桌上的电脑,还是遥远的恒星和星系,都有5公斤不可见的物质渗透在我们的周围。这种“暗物质”是一种神秘的存在,它规避了所有形式的直接观测,然而却通过它对可见物体的无形牵引力让我们感受到它的存在。图片来源网络五十年前,物理学家斯蒂芬·霍金提出了一个关于暗物质可能是什么的想法:一个黑洞群体,它们可能在大爆炸后不久就形成了。这样的“原始”黑洞不会是我们今天探测到的巨人,而是微观区域的超密物质,它们会在大爆炸后的第一枚万亿分之一秒形成,然后崩溃并散布在宇宙中,以一种可以解释我们今天所知的暗物质的方式牵引周围的时空。现在,麻省理工学院的物理学家发现,这个原始过程也会产生一些意想不到的伴侣:更小的黑洞,它们拥有前所未有的称为“色荷”的核物理属性的数量。这些最小的,“超负荷”的黑洞将是一种全新的物质状态,它们可能在诞生后不久的一小部分秒内蒸发。然而,它们仍可能影响了一个关键的宇宙学转变:第一次原子核被锻造的时候。物理学家假设,带色荷的黑洞可能影响了融合核的平衡,在一种天文学家将来可能通过未来测量检测到的方式。这样的观测将有说服力地指向原始黑洞作为今天所有暗物质的根源 ...

cover

如果一个人身体死了但大脑活在营养液中,是不是活在虚拟世界里?

在现代科幻电影的奇异世界中,常常会出现这样的场景:一个人的身体已经死亡,但大脑却被保存在营养液中,继续在虚拟世界里体验着生命。《黑客帝国》中的就是这样一种构想,人类的大脑通过电信号与计算机系统连接,生活在一个被编程的虚幻世界中。然而,这种幻想并非纯粹的娱乐创作,它也反映了人们对大脑与身体关系的深层思考。哲学家希拉里·普特南提出的“缸中之脑”假想,把这种思考推向了极致。他设想了一个邪恶科学家通过手术将人的大脑取出,放置在营养液中维持生命,再通过计算机程序向大脑输入信息,制造出一个人工的虚拟现实。在这个假想中,被操作的大脑仍然可以体验到生活的一切,但所有的感知和记忆都可能是虚假的。这样的假想引发了一个问题:如果一个人的大脑被置于这样的环境中,那他或她是否真的活在虚拟世界里?揭秘大脑的复杂运作机制要探讨这个问题,我们需要从大脑的运作机制入手。每个人体内都存在着一个错综复杂的神经系统,这个系统由神经纤维构成,包括各种神经组织,如大脑和脊髓。这些神经组织负责将神经信号传递给身体的各个器官,同时也将各个器官的信号传递回大脑和脊髓。正是通过这样的信号传递,我们才能感受到外部世界的各种刺激,并做出相应 ...

cover

最新发现:火星上有大量液态水,多到可覆盖整个火星,且水深1.6公里

多年来的探测数据表明,在火星表面存在着大量类似地球河道和河床的地形结构,其长度往往可达数百公里,明显是由液态水长时间侵蚀和冲刷而形成的,而火星表面的很多盆地和低洼地区,其边缘还存在着类似海岸线的特征。除此之外,在火星表面,还发现了广泛分布的水合矿物以及类似于地球上由水过程形成的沉积岩,这些分层岩石通常显示出交错层理等特征,被认为有水流过时形成的痕迹。所以科学家据此认为,在遥远的过去,火星表面曾经也存在由大量液态水形成的江河湖海,而那时的火星很可能也像地球一样宜居。然而我们都知道,现在的火星表面是一片干涸的荒芜世界,那么,火星上的水到哪里去了呢?对此,一个常见的观点就是,由于火星太小,其核心早早地冷却了,这会导致其磁场的消失,在没有了磁场的保护之后,火星的大气就被太阳风持续剥离,这导致了火星表面的气压显著下降,使得液态水无法在表面存在,于是水开始蒸发并被太阳风不断地“吹”走,而火星大气的变薄还导致了火星表面的温度急剧下降,于是剩余的液态水都冻结起来,形成了火星两极的冰盖或隐藏在火星地下的冰土之中。(↑火星北极的冰盖)可以看到,这样的解释是比较合理的,该观点也因此得到了较多的认同,所以人们 ...

光速存在极限是因为处理器有局限?

长期以来,物理学家一直在努力解释,为什么宇宙一开始就具备条件适合生命进化?为什么物理定律和常数,恰好是允许恒星、行星以及生命最终能出现的非常具体的数值?而让宇宙膨胀的那种力,暗能量,就比理论认为的要弱得多。实际应该是让宇宙物质全都聚集在一起,而不是像观察到的在膨胀撕裂。一个常见的答案是我们生活在一个无限多的宇宙中,即多重宇宙,所以我们不应该对其中至少有一个宇宙 会变成我们这个宇宙感到惊讶。但另一个看上去天方夜谭的答案,却越来越被重视,那就是我们的宇宙是被一个外在的计算机模拟出来的,这个计算机有人(或许是一个先进的外星物种)在微调各种参数。这个看上去很离谱的理论,目前已经得到信息物理学这门科学分支的理论支持。信息物理学认为时空和物质并不是宇宙的本质。相反,我们所处的物理现实,本质上是由信息比特组成的,而我们感受到的时空体验就是从这些信息比特中产生的。而所谓的温度,只是原子聚集在一起运动的另一种说法。从根本上说,没有一个原子具有温度。这极大地让科学家相信,我们的整个宇宙,实际上只是计算机模拟出来的事实,存在巨大可能性。不过,这个想法并不是最近才提出的。早在1989 年,传奇物理学家约翰·阿 ...

cover

有感而发,给小猫咪讲讲康德

前言:某日某夜,路遇小猫,小猫两步一回头,最后谨慎地坐在我脚边蹭我,我兴致忽起,遂边投喂边给小猫讲起来康德1 给猫讲康德在【牛顿猫】和【莱布尼茨猫】发展了微积分后,猫界对自然哲学的 研究就突飞猛进,而大众对猫的【认识论】依旧停滞不前,基础不牢,则地动山摇,科学认知的大厦有摇摇欲坠的风险。此时的认识论两派打架,分别是以【莱布尼茨猫】为代表的【纯粹理性派】,和以【休谟猫】为代表的【经验派】。那时候【亚里士多德猫】主义派把知识判断分为两类,【分析的】和 【综合的】。【分析】意思的可以从主体对象上直接得到的,比如这句话“一 只聪明的小猫 ”,“聪明 ”这一个特性可以直接从我们的主体,也就是这整 句话分析得到,我们就会说“小猫 ”的特性是“聪明 ”;而【综合】则代表其包括了其他的经验性的东西, 比方说“小猫 ”的特性是“吃小鱼干 ”, 我们从“一只聪明的小猫 ”这句话里,得不出“吃小鱼干 ”这个特性,“小猫 ”和“吃小鱼干 ”这作为认识到的经验我们曾见过,会很自然地联系起来。那么猫如何认识这个世界的呢?当然是靠芝士(知识)! 一只小猫天生就会喝奶,它不需要任何感观经验,这叫【先天知识】,一只小猫 ...

cover

当一个人张嘴闭嘴都说这些话,大概率,他要坑你了

人情社会的本质,就是人搞人,人整人,人坑人。所有的人情世故,要么是为了自己谋求利益,要么是跟别人搞好关系,间接谋求利益,要么是算计别人。基本上,人情世故就是“人整人”的直接反映。要想在充满人情世故的社会当中生存,就需要我们具备一种本事——听得懂别人的言外之意。别人说什么,我们不仅要把表面的言语搞清楚,还需要把言语背后的深意搞清楚。如此,才能避免被人算计,避免被人套路。普通人之所以容易被人套路,就是因为他们只看表象,只听场面话,而无法透过现象看本质。当一个人张嘴闭嘴都说这些话,大概率,别人要坑你了。一、张嘴闭嘴都是“仁义道德”。在《水浒传》里边,有一个超级伪君子,及时雨宋江。他文不如吴用,武不如林冲,但他还是当了梁山之主,因为宋江足够虚伪,懂得忽悠人。宋江跟吴用坑了玉麒麟卢俊义,害得他家破人亡,逼得卢俊义不得不投靠梁山。对于被他害惨的卢俊义,宋江非但没有羞愧,还满嘴仁义道德,声称要为卢员外报仇雪恨,同时还要让卢员外当梁山之主。宋江说的这些话,听得卢俊义一愣一愣的。哪怕卢俊义知道是宋江等人坑了自己,他也不好说什么,也就心甘情愿入伙了,当了梁山二当家。江湖中,永远都不缺像宋江这样的人。他们一 ...