人工智能人工智能·

技术领导者需要知道的 5 个关于生成式 AI 的残酷真相

发布时间:2024-08-27 09:59:51阅读量:22
普通文章
转载请注明来源

围绕生成式 AI 的创业,如何才能具有竞争优势?如何让用户选择你而不是 ChatGPT?如果你困惑于时下的“泡沫”和“炒作”,本文作者分享了 5 个残酷的真相,帮你认清现实。

原文:https://www.montecarlodata.com/5-hard-truths-about-generative-ai-for-technology-leaders/

作者 | Barr Moses 译者 |baoyu.io

创造真正商业价值的生成式 AI 需要付出真正的努力,但这绝对值得。

生成式 AI ( Generative AI ) 已经无处不在。各行各业的组织正迫切要求他们的团队加入这场风潮 — 有 77% 的商业领导担心他们已经错过了利用生成式 AI 的机遇。

数据团队正在努力应对这一挑战。但是,打造一个真正能促进商业增长的生成式 AI 模型并非易事。

长期来看,仅依靠快速接入 OpenAI API 是远远不够的。我们谈论的是生成式 AI,但你的竞争优势在哪里?为什么用户会选择你而不是 ChatGPT?

这种照本宣科接入 AI 的做法看似是进步,但如果你还没有开始思考如何将大语言模型 ( LLM ) 与你独有的数据和商业环境相结合,以实现真正的差异化价值,那你就已经落后了。

这不是夸张。就在这周,我就和多位数据领域的领导者讨论了这个问题。他们都清楚,这是一场竞赛。在终点,将会有赢家和输家,就像 Blockbuster 和 Netflix 的故事。

如果你感到比赛已经开始,但你的团队还在起跑线上犹豫不决,困惑于“泡沫”和“炒作”,这里有 5 个残酷的真相,帮你认清现实。

残酷真相 1:你的生成式 AI 功能使用率很低,变现缓慢

“ Barr,既然生成式 AI 这么关键,为什么我们当前推出的功能却没什么人用呢?”

这里面有几个原因。首先,你们的 AI 项目并不是为了解决用户的具体问题而设计的。对于许多数据团队来说,这只不过是因为你们正处于激烈竞争中,希望在初期探索阶段收集些数据和积累一些经验。但不久的将来,当你的产品能用生成式 AI 来去帮助用户解决真实的问题时 —— 相比于你们的专案小组(tiger team)头脑风暴如何将生成式 AI 应用到具体场景,你们会获得更高的用户接受度。

由于还在初期阶段,目前接入的生成式 AI 功能就像是“ ChatGPT 的另一个版本”。

以一个例子来说明。想象一下你可能每天都在用的一个提高工作效率的应用,它用来分享组织知识。这样的应用可能会提供一些功能,比如执行“总结这部分内容”,“扩写这些内容”或“改变写作风格”等命令来处理非结构化的文本。每个命令就消耗一个 AI 积分。

没错,这些功能确实有用,但并不具备特色。

团队可能会决定购买一些 AI 使用机会,或者他们可能会简单地切换到另一个标签使用 ChatGPT。我不想完全忽略不使用 ChatGPT 从而避免泄露专有数据的好处,但这种做法在愿景和解决方案的规模上,与全国各地的财报电话会议上所描述的相比,显得较为有限。

将概念转化为价值,这是一个棘手的中间步骤

所以,你需要考虑的是:你的生成式 AI 有哪些独特之处和附加价值?我来给你一点提示:高质量的专有数据。

这就是 RAG 模型(或有时是微调模型)对于生成式 AI 计划至关重要的原因。它让大语言模型(LLM)能够接触到企业的专有数据。(我将在后面解释这个原因。)

残酷真相 2:你不敢深入集成生成式 AI,担心可能产生的风险

确实,生成式 AI(Generative AI)的潜力和复杂性让人望而却步。

你当然可以将 AI 模型更加深入地融入到组织的运作中,但这样做似乎充满了风险。让我们坦白说,ChatGPT 有时会给出不切实际的回答,其结果很难预料。它存在一个知识更新的限制,可能导致用户接收到过时的信息。更不用说,在处理数据上的失误和无意中向消费者提供错误信息可能带来的法律问题了。

听起来足够真实,对吗?Llama 2 也是这么认为的。

你的数据处理失误可能会带来严重后果。因此,了解你提供给生成式 AI 的数据,并确保这些数据的准确性是至关重要的。

在我们向数据领导者发出的一项匿名调查中,询问他们离实现生成式 AI 应用还有多远时,有人回答说:“我认为并非我们的基础设施在阻碍我们。我们在这方面非常小心——随着技术快速变化和一个失误可能造成的巨大声誉损害,我们正在观望,等待这波热潮稍微退去。”

这是我在与许多数据领导者交流时经常听到的观点。如果数据团队突然暴露了面向客户的敏感数据,他们就必须承担责任。数据治理是一个重要的考虑因素,达到这一标准并非易事。

这些都是真实存在的风险,需要找到解决办法。但只是站在一旁观望,并不会解决问题。同样真实的风险是,如果你不采取行动,可能会看着自己的业务被那些率先解决这些问题的团队所颠覆。

将大语言模型(LLM)通过微调和 RAG 方法结合到你自己的数据中,是解决这个难题的关键一环,但这并非易事……

残酷真相 3:做好 RAG 和微调其实并不容易

我认为,RAG(检索增强生成)和微调是未来企业级生成式 AI 的核心技术。虽然从大体上来看,RAG 在多数情况下是一个较为简单的方法,但开发 RAG 应用程序仍具有一定的复杂性。

为什么我们不能轻松地开始使用 RAG 呢?问题究竟在哪里呢?

RAG 看似是个为你的大语言模型量身定制的理想选择。然而,RAG 的开发过程涉及一定的学习曲线,即使是最优秀的数据工程师也需要花时间掌握。他们需要学习 prompt engineering、向量数据库与嵌入向量、数据建模、数据协调以及数据管道等技术,所有这些都是为了更好地运用 RAG。由于 RAG 是一种新技术(2020 年由 Meta AI 提出),很多公司还没有足够的经验来形成最佳实践。

RAG 应用的架构图

以下是对 RAG 应用架构的一个简化说明:

RAG 架构结合了信息检索和文本生成模型,这使得它在尝试回答用户问题时能够访问数据库。

数据库应该是一个可信赖的来源,它包含专有数据,允许模型在回应和推理时融入最新和可靠的信息。

在后台,一个数据管道会将各种结构化和非结构化的数据源输入数据库中,确保其内容的准确性和时效性。

RAG 链接接收用户的查询(文本),从数据库中检索相关数据,然后将这些数据及查询一起传递给大语言模型,以生成高度准确且个性化的回答。

这种架构虽然复杂,但却带来了重要的好处:

它确保了大语言模型基于精确的专有数据,大大增加了模型的价值。

它采用了一种将模型带到数据而非将数据带到模型的方法,这种方法相对简单且成本效益高。

我们可以看到,这种做法正在现代数据架构中逐渐成为现实。行业的主要参与者们正以极快的速度努力简化 RAG 的使用,他们在自己的环境中提供大语言模型服务,这些环境中储存了企业的数据。

Snowflake Cortex 现在让各个组织能够在 Snowflake 平台上快速分析数据,并直接开发 AI 应用。Databricks 推出的新 Foundation Model APIs 使得用户能够在 Databricks 内即时接入大语言模型 ( LLMs ) 。微软推出了 Microsoft Azure 的 OpenAI Service,而亚马逊也最近发布了 Amazon Redshift Query Editor。

Snowflake 数据云的图片

我认为这些功能很有可能被广泛采用。但同时,它们也让我们更加关注这些数据存储中的数据质量。如果你的 RAG ( 可重用生成模型 ) 管道所依赖的数据存在问题,比如数据异常、过时或不可靠,那么你的生成式 AI 项目的前景又该如何呢?

残酷真相 4:你的数据还没有准备好

仔细检查你的数据基础设施。如果你已经有了一个完美的 RAG 管道、经过微调的模型,以及明天就能用的清晰案例,你可能仍然缺少一个整洁、结构良好的数据集来实现这一切。

例如,你想让你的聊天机器人与客户交流。为了做到有效沟通,它需要了解你的组织和客户之间的关系。对于现在的企业组织来说,这种关系可能分散在 150 个数据源和 5 个孤立的数据库中,其中还有 3 个是本地部署的。

如果你的组织也是这种情况,那么可能还需要一到两年的时间,才能让你的数据基础设施准备好集成生成式 AI。

这意味着,如果你想在不久的将来利用生成式 AI 做出一些成果,你就需要尽快在现代数据平台上整合并创建出有用的、高度可靠的、完善记录的数据集。否则,当机会来临时,你可能会措手不及。

数据工程团队是保障数据健康的核心力量。现代数据技术栈能够帮助数据工程团队持续监控数据质量,确保未来数据的健康和可用性。

残酷真相 5:你可能不自觉地忽视了生成式 AI 中的关键角色

在生成式人工智能的发展中,团队合作至关重要。不少数据团队在组建生成式 AI 专案小组时,常常忽略了一些关键角色,这种做法最终会影响项目的长远发展。

那么,谁是 AI 专案小组不可或缺的角色呢?首先是领导层或主要业务干系人,他们负责推动项目并时刻提醒团队其商业价值。接着是软件工程师,他们负责编写代码、开发用户界面应用和 API 调用。数据科学家则需要思考新的应用场景,对模型进行精细调整,并引导团队探索新方向。但在这个团队中,还缺少了哪个重要角色?

那就是数据工程师。

数据工程师在生成式 AI 项目中扮演着至关重要的角色。他们能够深入理解那些能够为公司在像 ChatGPT 这样的产品中提供竞争优势的专有业务数据,并负责搭建将这些数据通过 RAG 传输到大语言模型的数据管道。

如果没有数据工程师的参与,AI 专案小组就无法发挥最大效能。那些在生成式 AI 领域处于领先地位的公司已经开始在所有开发团队中加入数据工程师。

如果上述的难以接受的事实适用于你,不必过于担忧。生成式 AI 目前仍处于发展的早期阶段,现在重新开始并接受挑战仍不晚。

你需要退一步,深入理解 AI 模型能够解决的客户需求,从项目初期就将数据工程师纳入开发阶段,以确保从一开始就建立竞争优势。同时,花时间构建一个能够提供稳定、高质量、可靠数据流的 RAG 管道。

此外,投资于现代化的数据处理技术,确保数据质量成为优先考虑的因素。因为缺乏高质量数据的生成式 AI,不过是虚有其表的泡沫而已。

评论区

暂无评论,来发布第一条评论吧!

弦圈热门内容

Vue初学记录

网站开发,需要前端与后端的开发。前端指用户端、浏览器端,是用户能看得到的部分。后端指服务器端,是用户看不到的部分。前端开发,需要用到CSS3和HTML5以及JavaScript。后端开发能用的编程语言则很多了,主流的有python、java等,只要我们电脑能够使用的编程语言,服务端都能使用。目前流行前后端分离,后端只需要提供好接口就行了,前端直接使用后端的接口。前端三大框架:Vue、react、AngularVue是目前中国使用比较多的框架,因为创造这个框架的是中国人——前谷歌员工Even You。React框架则是Meta公司(原Facebook公司)创造的框架,Angular是谷歌建立的框架。从最近GitHub的数据上看,Vue是目前全世界下载量最多的框架,第二大的为React,第三为Angular。前端框架建立的目的,其实是为了方便开发,提高开发效率,降低开发难度。本质上,最后到浏览器那里,都是转换为CSS3、HTML5、JavaScript的语言。前端的开发,代码实现前,还需要设计UI界面,提高用户体验。因此,网站前后端开发分别对应三个职位——前端工程师、后端工程师、UI设计师 ...

如何使用Nuxt实现高亮代码块?

你也想像其他网站那样,可以高亮用户写的代码块吗?有两个Javascript库可以帮助你实现这一点,他们分别是Prism.js和highlight.js。在本教程中,我们将使用PrismJS来讲解如何实现代码块高亮。首先,使用npm安装PrismJS:npm install prismjs然后前往composables文件夹,并在里面新建文件prism.js,其内容如下:import Prism from 'prismjs' import 'prismjs/themes/prism-tomorrow.css' // You can choose other themes export default Prism就这样,PrismJS就安装并配置好了,你只需要每次需要高亮代码的时候调用highlightAll()函数就可以了。具体例子如下:<script lang="ts" setup> onMounted(()=>{ Prism.highlightAll() }) $fetch('https://www.example.com') .then((res)=& ...

Nginx服务器反向代理

1. nginx服务器Nginx与Apache为两大主流web服务器。而我的轻量级云服务器使用了nginx。因为nginx相比与apache更轻量,性能更好,不怎么占内存,适合中小型服务器。同时Nginx善于应对高并发场景,在多用户同时点击的情况下,服务器能负荷得住。又由于nginx的负载均衡,让多个用户打开网站没那么卡。nginx官网安装教程Installing NGINX Open Source | NGINX DocumentationDebian12安装nginx:sudo apt-get update sudo apt-get install nginx最后输入sudo nginx -v验证安装。2. Nginx服务器反向代理客户端对代理是无感知的,只需将请求发送到反向代理服务器,由反向代理服务器去选择目标服务器获取数据后,再返回给客户端,此时反向代理服务器和目标服务器对外就是一个服务器,暴露的是代理服务器地址,隐藏了真实服务器IP地址

代数几何简介

1. Introduction代数几何是数学的核心领域,也是如今国际数学界的主流。代数几何与许多数学分支都存在广泛的联系,比如数论、微分几何、代数拓扑、复几何、表示论、同调代数、交换代数、偏微分方程等等,这些分支的发展同时也对代数几何起到促进作用。数学史上的许多重大的事件,比如,费马大定理、莫德尔猜想、韦伊猜想的证明都跟代数几何有关。同时,代数几何存在广泛的应用,比如密码学、弦理论、大数据、统计学习理论等等。代数几何之下有众多分支,比如复代数几何,热带几何,算术几何,远阿贝尔几何,$p$进霍奇理论(complex algebraic geometry, tropical geometry, arithmetic geometry, anabelian geometry, p-adic hodge theory),每个分支代表代数几何研究的一个大方向,而在每个大方向下,又有各种以不同的问题为导向的子方向。在这篇文章中,我们将会对代数几何,包括它的分支算术代数几何,做一个简短的介绍。2. An Introduction to Arithmetic Geometry算术几何是算术代数几何的简 ...

Python pip安装SSL证书错误

问题描述:正常使用pip install xxx安装会弹出错误,导致下载失败。必须增加trust host字段,才能下载成功:pip --trusted-host pypi.python.org install在cmd运行python -c "import ssl; print(ssl.get_default_verify_paths())"在默认路径里没有找到ca证书,而在Lib\site-packages\certifi文件夹中,却发现了cacert.pem文件。故而认为原因是ca证书丢失或者寻找ca证书路径出错,因此尝试修改pip的默认ca证书路径。pip.ini文件中有大量的pip配置信息,因此需要先找到该文件。在cmd通过pip -v config list发现,在多个路径中,都没有找到pip.ini文件。且了解到,pip会有一个默认的pip.conf文件(其实就是pip.ini),因此断定默认pip.ini配置文件丢失。解决办法:在python根目录中,新建pip.ini,在里面写上[global] index-url = https://mirrors.aliyun.co ...

Django上传图片时ImageField的max_length报错

我使用的版本是Django 4.2,有一个模型里定义了ImageField,以下面这个为例:class Example(models.Model) image = models.ImageField( blank=True, upload_to=my_image_path, )当我上传图片的时候,django返回了这样一个错误:Ensure this filename has at most 100 characters (it has 107)。在django文档中,我们可以发现:FileField 实例在数据库中被创建为 varchar 列,默认最大长度为 100 个字符。与其他字段一样,你可以使用 max_length 参数改变最大长度。并且要知道ImageField是FileField的子类:继承 FileField 的所有属性和方法,但也验证上传的对象是有效的图像。ImageField 实例在数据库中创建为 varchar 列,默认最大长度为 100 个字符。与其他字段一样,你可以使用 max_length 参数改变 ...