AIAI·

技术领导者需要知道的 5 个关于生成式 AI 的残酷真相

投稿時間:2024-08-27 09:59:51閲覧数:20
一般記事
転載は出所を明記してください
執筆カテゴリー

围绕生成式 AI 的创业,如何才能具有竞争优势?如何让用户选择你而不是 ChatGPT?如果你困惑于时下的“泡沫”和“炒作”,本文作者分享了 5 个残酷的真相,帮你认清现实。

原文:https://www.montecarlodata.com/5-hard-truths-about-generative-ai-for-technology-leaders/

作者 | Barr Moses 译者 |baoyu.io

创造真正商业价值的生成式 AI 需要付出真正的努力,但这绝对值得。

生成式 AI ( Generative AI ) 已经无处不在。各行各业的组织正迫切要求他们的团队加入这场风潮 — 有 77% 的商业领导担心他们已经错过了利用生成式 AI 的机遇。

数据团队正在努力应对这一挑战。但是,打造一个真正能促进商业增长的生成式 AI 模型并非易事。

长期来看,仅依靠快速接入 OpenAI API 是远远不够的。我们谈论的是生成式 AI,但你的竞争优势在哪里?为什么用户会选择你而不是 ChatGPT?

这种照本宣科接入 AI 的做法看似是进步,但如果你还没有开始思考如何将大语言模型 ( LLM ) 与你独有的数据和商业环境相结合,以实现真正的差异化价值,那你就已经落后了。

这不是夸张。就在这周,我就和多位数据领域的领导者讨论了这个问题。他们都清楚,这是一场竞赛。在终点,将会有赢家和输家,就像 Blockbuster 和 Netflix 的故事。

如果你感到比赛已经开始,但你的团队还在起跑线上犹豫不决,困惑于“泡沫”和“炒作”,这里有 5 个残酷的真相,帮你认清现实。

残酷真相 1:你的生成式 AI 功能使用率很低,变现缓慢

“ Barr,既然生成式 AI 这么关键,为什么我们当前推出的功能却没什么人用呢?”

这里面有几个原因。首先,你们的 AI 项目并不是为了解决用户的具体问题而设计的。对于许多数据团队来说,这只不过是因为你们正处于激烈竞争中,希望在初期探索阶段收集些数据和积累一些经验。但不久的将来,当你的产品能用生成式 AI 来去帮助用户解决真实的问题时 —— 相比于你们的专案小组(tiger team)头脑风暴如何将生成式 AI 应用到具体场景,你们会获得更高的用户接受度。

由于还在初期阶段,目前接入的生成式 AI 功能就像是“ ChatGPT 的另一个版本”。

以一个例子来说明。想象一下你可能每天都在用的一个提高工作效率的应用,它用来分享组织知识。这样的应用可能会提供一些功能,比如执行“总结这部分内容”,“扩写这些内容”或“改变写作风格”等命令来处理非结构化的文本。每个命令就消耗一个 AI 积分。

没错,这些功能确实有用,但并不具备特色。

团队可能会决定购买一些 AI 使用机会,或者他们可能会简单地切换到另一个标签使用 ChatGPT。我不想完全忽略不使用 ChatGPT 从而避免泄露专有数据的好处,但这种做法在愿景和解决方案的规模上,与全国各地的财报电话会议上所描述的相比,显得较为有限。

将概念转化为价值,这是一个棘手的中间步骤

所以,你需要考虑的是:你的生成式 AI 有哪些独特之处和附加价值?我来给你一点提示:高质量的专有数据。

这就是 RAG 模型(或有时是微调模型)对于生成式 AI 计划至关重要的原因。它让大语言模型(LLM)能够接触到企业的专有数据。(我将在后面解释这个原因。)

残酷真相 2:你不敢深入集成生成式 AI,担心可能产生的风险

确实,生成式 AI(Generative AI)的潜力和复杂性让人望而却步。

你当然可以将 AI 模型更加深入地融入到组织的运作中,但这样做似乎充满了风险。让我们坦白说,ChatGPT 有时会给出不切实际的回答,其结果很难预料。它存在一个知识更新的限制,可能导致用户接收到过时的信息。更不用说,在处理数据上的失误和无意中向消费者提供错误信息可能带来的法律问题了。

听起来足够真实,对吗?Llama 2 也是这么认为的。

你的数据处理失误可能会带来严重后果。因此,了解你提供给生成式 AI 的数据,并确保这些数据的准确性是至关重要的。

在我们向数据领导者发出的一项匿名调查中,询问他们离实现生成式 AI 应用还有多远时,有人回答说:“我认为并非我们的基础设施在阻碍我们。我们在这方面非常小心——随着技术快速变化和一个失误可能造成的巨大声誉损害,我们正在观望,等待这波热潮稍微退去。”

这是我在与许多数据领导者交流时经常听到的观点。如果数据团队突然暴露了面向客户的敏感数据,他们就必须承担责任。数据治理是一个重要的考虑因素,达到这一标准并非易事。

这些都是真实存在的风险,需要找到解决办法。但只是站在一旁观望,并不会解决问题。同样真实的风险是,如果你不采取行动,可能会看着自己的业务被那些率先解决这些问题的团队所颠覆。

将大语言模型(LLM)通过微调和 RAG 方法结合到你自己的数据中,是解决这个难题的关键一环,但这并非易事……

残酷真相 3:做好 RAG 和微调其实并不容易

我认为,RAG(检索增强生成)和微调是未来企业级生成式 AI 的核心技术。虽然从大体上来看,RAG 在多数情况下是一个较为简单的方法,但开发 RAG 应用程序仍具有一定的复杂性。

为什么我们不能轻松地开始使用 RAG 呢?问题究竟在哪里呢?

RAG 看似是个为你的大语言模型量身定制的理想选择。然而,RAG 的开发过程涉及一定的学习曲线,即使是最优秀的数据工程师也需要花时间掌握。他们需要学习 prompt engineering、向量数据库与嵌入向量、数据建模、数据协调以及数据管道等技术,所有这些都是为了更好地运用 RAG。由于 RAG 是一种新技术(2020 年由 Meta AI 提出),很多公司还没有足够的经验来形成最佳实践。

RAG 应用的架构图

以下是对 RAG 应用架构的一个简化说明:

RAG 架构结合了信息检索和文本生成模型,这使得它在尝试回答用户问题时能够访问数据库。

数据库应该是一个可信赖的来源,它包含专有数据,允许模型在回应和推理时融入最新和可靠的信息。

在后台,一个数据管道会将各种结构化和非结构化的数据源输入数据库中,确保其内容的准确性和时效性。

RAG 链接接收用户的查询(文本),从数据库中检索相关数据,然后将这些数据及查询一起传递给大语言模型,以生成高度准确且个性化的回答。

这种架构虽然复杂,但却带来了重要的好处:

它确保了大语言模型基于精确的专有数据,大大增加了模型的价值。

它采用了一种将模型带到数据而非将数据带到模型的方法,这种方法相对简单且成本效益高。

我们可以看到,这种做法正在现代数据架构中逐渐成为现实。行业的主要参与者们正以极快的速度努力简化 RAG 的使用,他们在自己的环境中提供大语言模型服务,这些环境中储存了企业的数据。

Snowflake Cortex 现在让各个组织能够在 Snowflake 平台上快速分析数据,并直接开发 AI 应用。Databricks 推出的新 Foundation Model APIs 使得用户能够在 Databricks 内即时接入大语言模型 ( LLMs ) 。微软推出了 Microsoft Azure 的 OpenAI Service,而亚马逊也最近发布了 Amazon Redshift Query Editor。

Snowflake 数据云的图片

我认为这些功能很有可能被广泛采用。但同时,它们也让我们更加关注这些数据存储中的数据质量。如果你的 RAG ( 可重用生成模型 ) 管道所依赖的数据存在问题,比如数据异常、过时或不可靠,那么你的生成式 AI 项目的前景又该如何呢?

残酷真相 4:你的数据还没有准备好

仔细检查你的数据基础设施。如果你已经有了一个完美的 RAG 管道、经过微调的模型,以及明天就能用的清晰案例,你可能仍然缺少一个整洁、结构良好的数据集来实现这一切。

例如,你想让你的聊天机器人与客户交流。为了做到有效沟通,它需要了解你的组织和客户之间的关系。对于现在的企业组织来说,这种关系可能分散在 150 个数据源和 5 个孤立的数据库中,其中还有 3 个是本地部署的。

如果你的组织也是这种情况,那么可能还需要一到两年的时间,才能让你的数据基础设施准备好集成生成式 AI。

这意味着,如果你想在不久的将来利用生成式 AI 做出一些成果,你就需要尽快在现代数据平台上整合并创建出有用的、高度可靠的、完善记录的数据集。否则,当机会来临时,你可能会措手不及。

数据工程团队是保障数据健康的核心力量。现代数据技术栈能够帮助数据工程团队持续监控数据质量,确保未来数据的健康和可用性。

残酷真相 5:你可能不自觉地忽视了生成式 AI 中的关键角色

在生成式人工智能的发展中,团队合作至关重要。不少数据团队在组建生成式 AI 专案小组时,常常忽略了一些关键角色,这种做法最终会影响项目的长远发展。

那么,谁是 AI 专案小组不可或缺的角色呢?首先是领导层或主要业务干系人,他们负责推动项目并时刻提醒团队其商业价值。接着是软件工程师,他们负责编写代码、开发用户界面应用和 API 调用。数据科学家则需要思考新的应用场景,对模型进行精细调整,并引导团队探索新方向。但在这个团队中,还缺少了哪个重要角色?

那就是数据工程师。

数据工程师在生成式 AI 项目中扮演着至关重要的角色。他们能够深入理解那些能够为公司在像 ChatGPT 这样的产品中提供竞争优势的专有业务数据,并负责搭建将这些数据通过 RAG 传输到大语言模型的数据管道。

如果没有数据工程师的参与,AI 专案小组就无法发挥最大效能。那些在生成式 AI 领域处于领先地位的公司已经开始在所有开发团队中加入数据工程师。

如果上述的难以接受的事实适用于你,不必过于担忧。生成式 AI 目前仍处于发展的早期阶段,现在重新开始并接受挑战仍不晚。

你需要退一步,深入理解 AI 模型能够解决的客户需求,从项目初期就将数据工程师纳入开发阶段,以确保从一开始就建立竞争优势。同时,花时间构建一个能够提供稳定、高质量、可靠数据流的 RAG 管道。

此外,投资于现代化的数据处理技术,确保数据质量成为优先考虑的因素。因为缺乏高质量数据的生成式 AI,不过是虚有其表的泡沫而已。

コメント欄

まだコメントがありません。最初のコメントを投稿しましょう!

弦圈热门内容

cover

我们所处的世界会是虚拟的吗?盘点六种可疑迹象

我们人类对外界的感知,其实是我们的大脑对各种生物电信号处理后生成的结果,比如说我们的视觉系统会将外界的光线转化为生物电信号,然后这些信号会被传入大脑,经过大脑的处理之后,我们就“看”到了外界的情况,同样的,我们的听觉、触觉、嗅觉、味觉也是这样产生的。假如传入我们大脑的生物电信号是一台电脑模拟出来的,而不是来自我们真实的感觉系统,那我们能不能察觉到不同呢?很明显,只要这台电脑足够强大,其模拟出来的生物电信号足够真实,那么我们的大脑就无法区分,在这种情况下,我们同样可以产生“真实”的感知。进一步想,从理论上来讲,大脑的功能应该可以用足够复杂的程序代替,这就意味着,大脑还有可能只是一个程序,并没有实体。所以一个合理的推测就是,假如有一个超级系统连接着所有人类的大脑,甚至这些大脑有可能只是程序,那么如果这个系统能够完美地给每个大脑提供各式各样的实时信号,那所有的人类就都会认为自己生活在一个真实的世界中,但实际情况却是,这个世界只不过是系统虚拟出来的而已。那么问题就来了,我们所处的世界是虚拟的吗?实际上,有不少人都认为世界有可能是虚拟的,还有研究者指出,有六种可疑的迹象表明,我们所处的世界可能是 ...

cover

斯诺登揭秘:地下世界真相,地心人真的存在吗?

以目前而言的科技水平是到不了地下的,眼见为实,耳听为虚。到底存不存在地底人只能等到真正进入地下的那天才能证明!不是说居住,而是一个通道的问题,地球人把地球分为东南西北,那么在地球中层肯定有四通八达的通道,不信你保留我的观点,到若干年后看。恒定的地球肯定有恒定的能量,地球下层,中层也需要进化。我们人类就是这样进化到上层约。我们需要的是到宇宙,管宇宙。地球空心论科学家们又不是没提出过,只不过大部分科学家更赞同实心论,还有实践是检验真理的唯一标准,人类对地球的探索远远太浅,苏联才挖了一万多米。后来还传说是因为地下总是穿出怪声还有一系列诡异事件才停止的,不论这个事是真是假,人类对地球的探索远远太少。科学也只是一个提出严谨假设然后再进行论证的过程,没被证实的也仅仅是科学家提出的假设跟观点。地心人应该是地球上第二代的人类,第一代就是巨人族,当时地球上的金字塔就是他们建造的,要知道当时地球上的生物都是异常的巨大,恐龙很有可能就是他们运输那些超大石块的工具。突然某一天,从天而降的灾难将这个文明毁灭,第二代的人类就是现在生活在地心里的人,他们个头矮小,但是极度聪明,地表由于不确定因素太多,他们就将家园搬 ...

地球有没有被精心设计过?1万年前的壁画,可能给出了答案

1科学家们测算出地球的年龄是45.5亿岁,大约是38亿年前地球上出现了生命,人类最早是在距今300万年前出现在地球上。但是地球是怎么出现的,是自然生成,还是被神创造的呢?耶稣说:“当然是我创造的了。”盘古却说:“你那是创造的人类,明明是我一神斧劈开的。”地球真的是由神创造的吗?地球上的人类也是由神创造的吗?仰望浩瀚的星空,思想也随之神游于银河系中。无比广阔的宇宙中还有和我们一样的人吗?那一闪一闪的群星中,是否有生命存在?繁星点点的天空是否也正有一个和我一样的人,也在思索着,其它的生命在哪里?2英国天文学家,哈雷彗星的发现者艾德蒙·哈雷曾经说过:“太阳系并非自然形成,而是经过人为设计的。”这是真的吗?2014年7月15日,印度权威考古学家JR·巴格特在恰蒂斯加乐邦的一个洞穴中发现了一些保存良好的壁画,距今大约有1万年的历史了。令人惊喜的是这些壁画虽然历经岁月的洗礼,但色彩依然鲜艳。历史悠久的壁画,在世界上有许多,例如我国敦煌莫高窟的壁画,所以这些壁画的出现不是最稀奇的,年代久远也不是壁画的最奇怪之处。重点是壁画中所描绘的图画,匪夷所思,震惊了人类。壁画中大多描绘的是史前人类之间的一些日常 ...

宇宙大爆炸瞬间究竟发生了什么?深入解读宇宙漫长演化史!

当我们举头仰望浩瀚的星空,眼前所展示的是一个宁静而广阔的宇宙。然而,在这一片宁静的面纱之下,隐藏着一个充满生机与神秘色彩的历史。大约138亿年前,我们所知道的这个宇宙的全部,居然只是一个比原子还要微小的存在。就在那个难以想象的一刻,发生了一场伟大的爆炸——即我们所知的宇宙大爆炸,它不仅拉开了宇宙历史的序幕,也彻底改变了我们对空间和时间的理解。宇宙大爆炸,亦称为“大爆炸”,是宇宙学中至关重要的事件之一。在这一刻,整个宇宙从一个极其微小的点开始,经历了一场剧烈且迅速的膨胀,进而塑造成今天我们所观察到的宇宙模样。这一理论首次由比利时神父兼宇宙学家乔治·勒梅特在20世纪20年代提出,随后经过不断的科学研究及观测,逐渐成为了现代宇宙学的支柱理论。但关于大爆炸的瞬间究竟发生了什么,这仍是让科学家着迷的一个未解之谜。奇点与大爆炸:宇宙的起源在大爆炸的理论框架下,宇宙的起源被描述为一个极其渺小的点,其中包含了宇宙中所有可能的未来物质和能量。这个概念对我们这些生活在三维空间及一维时间中的人类来说是极为难以理解的。不过,这个所谓的奇点并非普通的物质点,它实际上是一种密度和温度都达到无限状态的特殊存在。在这 ...

cover

在寻找外星人的过程中,出现什么情况,是最让人类感到恐惧的?

在宇宙中,人类总是怀着无尽的好奇与探索欲望,试图揭开外星生命的神秘面纱。而在这个过程中,一个普遍的观点逐渐浮现:外星人的科技一定会比人类高很多,甚至有人认为,对于外星人来说,人类可能就像蚂蚁一样微不足道。那么,这种观念究竟从何而来?又是否站得住脚呢?人类对于外星生命的了解几乎为零。我们尚未发现确凿的外星生命存在证据,更无从知晓他们的科技水平。因此,关于外星人科技远超人类的观点,很大程度上是基于一种推测和想象。这种推测往往源于我们对宇宙尺度和复杂性的敬畏,以及对未知事物的恐惧和好奇。然而,即使在没有确凿证据的情况下,我们依然可以从一些侧面来探讨这个问题。一方面,宇宙的广阔与复杂超出了我们的想象。在如此庞大的宇宙中,存在着无数可能孕育生命的星球和星系。这些星球上的生命形式,可能经历了与地球生命完全不同的进化历程,从而发展出独特的科技体系。如果某些外星生命能够在极端环境下生存和繁衍,那么他们的科技水平很可能超越了我们。另一方面,我们也要看到,科技的发展并非一蹴而就的过程,而是需要长时间的积累和创新。即使外星生命存在,他们的科技水平也不一定就比我们高。毕竟,科技的发展受到多种因素的影响,包括生 ...

cover

上帝根本不存在!霍金晚年到底发现了什么,临终遗作彻底否定神学

综述斯蒂芬·霍金,作为现代最为家喻户晓的物理学家之一,尽管身患重病,却凭借杰出的科学成就享誉全球。他的世界观独树一帜,尤其是在对宇宙本质的探索上,给世人带来了深刻的思考。早年间,霍金对上帝的存在问题持有保留态度,而到了晚年,他却坚定地否认了上帝的存在。在临终前的著作中他直言:宇宙的诞生无需借助上帝之手!霍金究竟发现了什么?为何会有这样的转变?思想转变早年间,霍金对于上帝是否存在其实并不是那么坚定。1988年出版的《时间简史》中,他虽然提到了物理学能够解释宇宙的运作规律,但并未完全排除上帝在宇宙创造中的作用。或许是为了尊重那些深信上帝创造宇宙的人,也可能是他对“创造力”的某种敬畏。他当时还在书中写道,如果我们能够发现一套完整的理论,就可以理解“上帝的思维”。这也表明,霍金早年在探索宇宙的奥秘时,依然对上帝保留了一神秘感。然而,随着霍金在科学研究上的深入,他逐渐开始动摇这个信念。2010年出版的《大设计》,霍金的立场发生了重大改变。他明确提出:上帝并不需要存在,宇宙可以通过自身的物理法则自发生成。他提出,“由于有万有引力这样的定律存在,宇宙能够而且必定是无中生有。”这句话也意味着他彻底抛弃 ...

揭秘宇宙的奥秘:大爆炸、暗物质、暗能量以及神秘的平行宇宙存在吗?

有过一段时间,你或许觉得自己手中的咖啡杯,心中的梦想,身边的人和物,都是独特而独一无二的。然而,当你看向星空时,你是否曾经想过,也许在另一个角落,另一个宇宙中的你,正在面临同样的问题,活在一个完全不同而又相似的世界中?这就是平行宇宙理论中我们要讨论的问题。这个问题或许曾在我们心中悄然滋生,然而科学家们已经在努力寻找答案。这个故事要从一颗原初的原子开始讲述。梅特勒的宇宙大爆炸理论描绘了一个宇宙的诞生过程。数十亿年前,一个比太阳还要巨大的、密度极高的原子在一场大爆炸中破裂,荡涤出今天宇宙的蓝图,铸造了我们眼前的一切。然而,这个理论仍有许多未解之谜,如大爆炸之前的世界,以及大爆炸的原因。当哈勃发现宇宙中的星系在距离我们越远,颜色就越偏红,他发现了宇宙正在膨胀——这便是著名的哈勃红移现象。这种膨胀快速而不间断,使得一切都变得愈加模糊,无法分辨。但闪耀在暗淡淡度之外的,是还未被触摸的暗物质和暗能量。这两者虽无法直接观察,但却在无形中塑造了宇宙的形状和运动轨迹。如果说宇宙是一场最伟大的烟火,那么我们也许只能欣赏到其中一小段的辉煌。就像无限宇宙理论的倡导者们所说,我们所处的宇宙可能只是一个更大无边无 ...

AI到底是解放生产还是替代生产?AI将如何影响人类的未来?

在这个飞速发展的时代,人工智能的崛起成为了无法忽视的现实。人们对于AI的态度也各不相同,有人担心它会取代人类的工作岗位,有人却认为它能够解放人类的生产力。到底AI是来解放我们,还是取代我们?人类未来的命运又将何去何从?AI发展的背后:机器智能与人类解放的关系人工智能的发展并不意味着人类将被取代,相反,它可以帮助人类解放双手,从繁重的体力劳动和重复性工作中解脱出来。通过自动化技术和智能化系统,人类可以更加高效地进行生产和工作,节约时间和精力,从而有更多的时间去追求更有意义的事物。机器智能的出现可以让人类把更多的精力放在创造性工作上,提高生产效率和生活质量。人工智能的发展为人类提供了更多的可能性。通过机器学习和大数据分析,人工智能可以帮助人类更好地理解世界,预测未来趋势,为人类的决策提供更科学的依据。在医疗、金融、交通等领域,人工智能的应用已经取得了显著成果,为社会发展带来了巨大的便利和益处。人类可以借助机器智能的力量解决更多的问题,实现更多的理想,推动社会向更美好的方向发展。人工智能的发展也需要人类的参与和监督。虽然机器智能具有高效和智能的优势,但它仍然无法完全取代人类的思维和创造力。人 ...