AIAI·

一文带你了解大模型的RAG(检索增强生成) | 概念理论介绍+ 代码实操(含源码)

投稿時間:2024-08-27 11:29:26閲覧数:45
専門記事
転載は出所を明記してください
執筆カテゴリー

针对大型语言模型效果不好的问题,之前人们主要关注大模型再训练、大模型微调、大模型的Prompt增强,但对于专有、快速更新的数据却并没有较好的解决方法,为此检索增强生成(RAG)的出现,弥合了LLM常识和专有数据之间的差距。

今天给大家分享的这篇文章,将介绍RAG的概念理论,并带大家利用LangChain进行编排,OpenAI语言模型、Weaviate 矢量数据库(也可以自己搭建Milvus向量数据库)来实现简单的 RAG 管道。

什么是RAG?

RAG的全称是Retrieval-Augmented Generation,中文翻译为检索增强生成。它是一个为大模型提供外部知识源的概念,这使它们能够生成准确且符合上下文的答案,同时能够减少模型幻觉。

知识更新问题

最先进的LLM会接受大量的训练数据,将广泛的常识知识存储在神经网络的权重中。然而,当我们在提示大模型生成训练数据之外的知识时,例如最新知识、特定领域知识等,LLM的输出可能会导致事实不准确,这就是我们常说的模型幻觉。如下图所示:

因此,弥合大模型的常识与其它背景知识之间的差距非常重要,以帮助LLM生成更准确和更符合背景的结果,同时减少幻觉。

解决方法

传统的解决方法是通过微调神经网络模型来适应特定领域的专有信息。尽管这种技术很有效,但它属于计算密集型的,并且需要技术专业知识,使其难以灵活地适应不断变化的信息。

2020 年Lewis等人,在知识密集型 NLP 任务中,提出了一种更灵活的技术,称为检索增强生成(RAG)[参考论文:https://arxiv.org/abs/2005.11401]。在本文中,研究人员将生成模型与检索器模块相结合,以提供来自外部知识源的附加信息,并且这些信息可以很方便的进行更新维护。

简单来说,RAG 对于LLM来说就像学生的开卷考试一样。在开卷考试中,学生可以携带参考材料,例如课本或笔记,可以用来查找相关信息来回答问题。开卷考试背后的想法是,测试的重点是学生的推理能力,而不是他们记忆特定信息的能力。

同样,事实知识与LLM的推理能力分离,并存储在外部知识源中,可以轻松访问和更新:

  • 「参数知识」:在训练期间学习到的知识,隐式存储在神经网络的权重中。
  • 「非参数知识」:存储在外部知识源中,例如向量数据库。

一般的 RAG 工作流程如下图所示:

「检索(Retrive)」 根据用户请求从外部知识源检索相关上下文。为此,使用嵌入模型将用户查询嵌入到与向量数据库中的附加上下文相同的向量空间中。这允许执行相似性搜索,并返回矢量数据库中最接近的前 k 个数据对象。

「增强(Augment)」 用户查询和检索到的附加上下文被填充到提示模板中。

「生成(Generate)」 最后,检索增强提示被馈送到 LLM。

LangChain实现RAG

上面介绍了RAG产生和工作原理,接下来将展示如何使用LangChain,结合 OpenAI LLM 、Weaviate 矢量数据库在 Python 中实现 RAG Pipeline。

基础环境准备

1、安装所有需要依赖的相关python包,其中包括用于编排的langchain、大模型接口openai、矢量数据库的客户端 weaviate-client。

pip install langchain openai weaviate-client

2、申请OpenAI的账户,要获取 OpenAI API 密钥,如下图所示:

3、在项目根目录创建.env文件,用来存放相关配置文件,如下图所示。

4、在main目录中,加载配置文件信息,这里用到了python-dotenv包。

向量数据库

接下来,你需要准备一个矢量数据库作为保存所有附加信息的外部知识源。该矢量数据库是通过以下步骤填充的:1)加载数据;2)数据分块;3)数据块存储。

「加载数据」:这里选择了一篇斗破苍穹的小说,作为文档输入 。文档是txt文本,要加载文本这里使用 LangChain 的 TextLoader。

from langchain.document_loaders import TextLoader
loader = TextLoader('./斗破苍穹.txt')
documents = loader.load()

「数据分块」:因为文档在其原始状态下太长(将近5万行),无法放入大模型的上下文窗口,所以需要将其分成更小的部分。LangChain 内置了许多用于文本的分割器。这里使用 chunk_size 约为 1024 且 chunk_overlap 为128 的 CharacterTextSplitter 来保持块之间的文本连续性。

from langchain.text_splitter import CharacterTextSplitter
text_splitter = CharacterTextSplitter(chunk_size=1024, chunk_overlap=128)
chunks = text_splitter.split_documents(documents)

「数据块存储」:要启用跨文本块的语义搜索,需要为每个块生成向量嵌入,然后将它们与其嵌入存储在一起。要生成向量嵌入,可以使用 OpenAI 嵌入模型,并使用 Weaviate 向量数据库来进行存储。通过调用 .from_documents(),矢量数据库会自动填充块。

from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Weaviate
import weaviate
from weaviate.embedded import EmbeddedOptions

client = weaviate.Client(
  embedded_options = EmbeddedOptions()
)

vectorstore = Weaviate.from_documents(
    client = client,    
    documents = chunks,
    embedding = OpenAIEmbeddings(),
    by_text = False
)

RAG实现

「第一步:数据检索」 将数据存入矢量数据库后,就可以将其定义为检索器组件,该组件根据用户查询和嵌入块之间的语义相似性获取相关上下文。

retriever = vectorstore.as_retriever()

「第二步:提示增强」 完成数据检索之后,就可以使用相关上下文来增强提示。在这个过程中需要准备一个提示模板。可以通过提示模板轻松自定义提示,如下所示。

from langchain.prompts import ChatPromptTemplate
template = """你是一个问答机器人助手,请使用以下检索到的上下文来回答问题,如果你不知道答案,就说你不知道。问题是:{question},上下文: {context},答案是:
"""
prompt = ChatPromptTemplate.from_template(template)

「第三步:答案生成」 利用 RAG 管道构建一条链,将检索器、提示模板和 LLM 链接在一起。定义了 RAG 链,就可以调用它了。

from langchain.chat_models import ChatOpenAI
from langchain.schema.runnable import RunnablePassthrough
from langchain.schema.output_parser import StrOutputParser
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)

rag_chain = (
    {"context": retriever,  "question": RunnablePassthrough()} 
    | prompt 
    | llm
    | StrOutputParser() 
)

query = "萧炎的表妹是谁?"
res=rag_chain.invoke(query)
print(f'答案:{res}')

总的来说,RAG的生成过程如下图所示:

总结

本文介绍了 RAG 的概念及其背后的一些理论,本文通过Python、LangChain将其实现,在此过程中使用了 OpenAI的ChatGPT接口(可以自己搭建chatGLM3)、Weaviate矢量数据库(可以自己搭建Milvus )、OpenAI 嵌入模型实现了 RAG 管道。


原文链接:https://blog.csdn.net/m0_59596990/article/details/135310933

コメント欄

まだコメントがありません。最初のコメントを投稿しましょう!

弦圈热门内容

cover

为什么说外国教材好?国外教材与国内教材的区别

首先,不是所有国外的教材都是好的,也不是所有国内的教材写得不好。但整体上看,绝大多数的国外大学教材,要比国内的要好,而国内的教材好的屈指可数。国内的有些教材往往写得更加冗长和复杂,让人看得云里雾里、似懂非懂。而且封面简陋,排版一般,给学生的体验不太好,编者可能心里并没有将学生放在平等的位置上。这里就不具体列举国内哪些教材不好了😅😅😅。。国外的教材,往往有精美的封面,内容写得清晰明了,有舒服整齐的排版,有的时候会配上精美的图片或图案。国外的教材给人的感觉是大制作,把学生放在重要的位置,阅读体验非常好。有些比较基础的教材,比如说微积分,看教材能感觉到作者想方设法让你能学懂,巴不得背你上去。老师的本职应该是服务学生,如果没有学生来上学,那么学校也没有开的必要了,老师也会丢掉工作。因此,国内外的教育环境差别,通过教材也能撇到冰山一角。以下以国外的《大学物理》教材为例:精美的封面舒适的排版精美的图案清晰详细的内容可见,如果我们上课的时候,能够用上这样的教材,也不至于这么苦逼来啃教材,而是享受阅读。然而,国外的教材大制作,价格往往比国内的教材要贵得多,一本教材换成人民币可能要几百块。但国外的网上教 ...

Django将已经存在的字段改为外键

我有一个Django模型,它之前是这样的class Car(models.Model): manufacturer_id = models.IntegerField()然后还有另一个名为Manufacturer的模型,id字段所指的就是它。然而,后来我意识到使用Django自带的外键功能,会更方便。因此,我将这个模型改为现在这样class Car(models.Model): manufacturer = models.ForeignKey(Manufacturer)这次修改似乎一下就弄好了,查询出来的结果也没有任何报错,但是当我试着运行数据迁移的时候,Django输出了以下结果- Remove field manufacturer_id from car - Add field manufacturer to car执行这个迁移会清除所有已经存在于数据库里的关系,所以我并不想这么做。我其实并不想做任何的迁移,毕竟像Car.objects.get(manufacturer__name="Toyota")这样的查询没有一点问题。我更想要一个恰当的数据库外键限制,但不是高优先级的那种。总的来说,我的问题是:是否存在一种迁移方法或者别的,能让我将一个已经存在的字段转变为外键?我不能使用--fake因为我需要可靠地在开发、生产和同事的电脑上工作。内容来源于 Stack Overflow, 遵循 CCBY-SA 4.0 许可协议进行翻译与使用。原文链接:Django change an existing field to foreign key

网站和APP产品举步艰难,AI产品前途未卜

你抄你的内容,我写我的原创内容,我们都有光明的未来。在如今移动互联网时代后期、生成式ai时代初期,互联网上劣币驱逐良币的现象可以说是越来越严重。😂前有百度封杀,后有谷歌的不合理审查。只能说pc端互联网已经进入了一个存量竞争及其激烈的特殊时期。百度在国内早已是被很多人口诛笔伐,搜索出来的结果被不良广告霸占,找不到好的优质内容。这其实还好,早在09年时候百度就传出恶意封杀网站,后来谷歌退出🇨🇳市场以后,有了垄断地位更是可以为所欲为。而谷歌呢,“不作恶”的谷歌相比于百度还是好那么一些,至少对于新网站,不至于像百度那样一下子摁死,根本不给机会,谷歌还是会给些流量。但是谷歌对于中文互联网的搬运抄袭也是睁一只眼闭一只眼,或者说退出了🇨🇳市场,谷歌早也不想在中文互联网投入过多精力。虽然谷歌明面上是说,会打压搬运抄袭,但实际上有不少网站里面的内容全是一字不差的复制,结果非但不是限流,反而是让他们做起来了,不断给他们推流,甚至谷歌广告都给他挂上了,也不知道谷歌广告的审查为什么这么双标,全是原创内容的网站能说成是低质量内容。其实这也是目前很多搜索引擎面对的通病,对于这种内容农场没有很好的处理和解决,导致一 ...

JSON Parse报错: Unterminated string

我在JSON parse函数中使用转义引号时,遇到了一个常见的问题。如果存在转义引号,在本例中为“test”,则会导致以下错误'SyntaxError: JSON Parse error: Unterminated string'.var information = JSON.parse('[{"-1":"24","0":"","1":"","2":"","3":"0.0000","4":"","5":"0.00","6":"0.00","7":"1.00","8":"0","9":"false","10":"false","11":[""],"12":"","13":"","14":"test\""}]');JSON Lint验证该JSON为有效的。

乘坐超光速飞船,来到距离地球2241光年的位置,能否看到秦始皇登基?

在各方面条件均合适的前提下,理论上来说是有一定概率看到秦始皇登基的。在咱们上中学的时候,可能我们的物理老师就给我们讲过非常有趣的现象:夏天打雷下雨,往往在打雷之前会有一串闪电滑向天空,闪电过后就是雷声,对不对?那么我们为什么会先看到闪电,然后再听到雷声呢?再听到雷声呢原因很简单,因为闪电属于光,它的传递速度是光速。而雷属于声音,它的传播速度是声速。一个是30万公里每秒,一个是340米每秒。从这个理论来出发的话,我们就不能发现,在闪电打雷的过程当中,我们往往是最先看到闪电,然后才能听到打雷的声音。好的,在这样一个理论前提之下,我们会就更容易来理解这个话题了,简而言之:光和闪电本质上来说没有太大的区别,它们都是光的一种形式,而它们在传播的过程当中往往和周边的环境介质都有着密切联系。但是我们把这些通通排除在外的话,当一束光飘向外太空的过程当中,在最短的时间之内,它可能到达一个极远值。但是如果想把这个光传递得更远,这中间就需要时间了,而这个时间我们是以光年来衡量的。这个光年指的是什么呢?常规情况下来说,指的是光在一年内传播的距离。拿地球和太阳当一个引子太阳每天东升西落,我们早已经习惯了这样的一 ...

84个万能生活小常识,家家都能用!(收藏起来慢慢看)

生活里爱护一个人,从不该只有空口白牙承诺,还有这些点点的细心照顾,吉米老师准备了84个万能小常识,希望你遇到的人和你彼此照顾,一起感受生活细水长流。01 厨房篇1、炒菜时,不要加冷水,冷水会使菜变老变硬不好吃,而加开水炒出来的菜又脆又嫩。2、炒藕丝时,一边炒一边加些水,能防止藕变黑。3、炒鸡蛋时,一个蛋加一汤匙温水搅匀,就不会炒老,而且炒出的蛋量多,松软可口。4、豆腐下锅前,可先放在开水里浸渍一刻钟,这样可清除泔水味。5、用冷水炖鱼无腥味,并应一次加足水,若中途再加水,会冲淡原汁的鲜味。6、蒸鱼或蒸肉时待蒸锅的水开了以后再上屉,能使鱼或肉外部突然遇到高温蒸气而立即收缩,内部鲜汁不外流,熟后味道鲜美,有光泽。7、熬骨头汤时,中途切莫加生水,以免汤的温度突然下降导致蛋白质和脂肪迅速凝固,影响营养和味道。8、煎荷包蛋时,在蛋黄即将凝固之际,可浇上一汤匙冷开水,会使蛋熟后又黄又嫩,色味俱佳。9、熬猪油时,先在锅内放入少量水,再将切好的猪油放入,这样熬出来的油,颜色晶亮而无杂质。02 食醋篇1、外出容易晕车,如喝下不很酸的食醋水,可以清爽精神,减轻晕车症状。2、失眠,可将一汤匙食醋倒入冷开水中, ...

宇宙是被精心设计出来的吗?造物主真的存在吗?

我们对宇宙了解得越多,就会越发惊叹宇宙的精巧之处,宇宙中的各种规律,仿佛就是为我们量身定制一般,宇宙的精巧之处有很多很多,这里随便列举几项意思意思。图片来源网络宇宙诞生时膨胀的速度,如果快一点星系就无法形成,慢一点物质又会因为太过密集而重新坍塌。基本粒子形成时,中子的质量必须比质子稍大一点,使得中子可以衰变成为质子,这样宇宙中才可以有大量的氢元素,从而形成恒星。在四大基本力中,如果引力比现在稍强一点,那么宇宙中的恒星就会很快的耗尽自身的燃料,而如果稍弱一点,太阳又不可能点燃核聚变,宇宙空间将变成一片冰冷、黑暗。同样的,如果其他的基本力与现有的数值稍有不同,宇宙就会出现巨大的改变。图片来源网络需要说明的,上述参数都必须设计得非常精准,其精度通常都要求在小数点之后10几位。对于我们来讲,最精巧的设计莫过于我们的地球,与太阳恰到好处的距离、既不厚也不薄的大气层、足够的水资源、完美的磁场……,在地球附近,有月球帮地球稳定倾角(地球才有四季之分),有木星清理对我们威胁巨大的小行星。图片来源网络……总之一句话,宇宙中的任何细节出了一丁点的差错,我们的世界就将不复存在,甚至整个宇宙都不会出现。那么, ...

如果万物皆有意识,那么意识从何而来?石头拥有意识吗?

在人们的普遍认知中,意识是最特殊的存在,是我们认识和改造世界的基础条件。而物质是意识的载体,二者存在哲学意义上相互作用的关系。作为已知唯一的智慧生命体,人类自认为我们的意识是最复杂的。因为目前人类已经能够展开一系列的探索活动,而其他生物甚至都没有表现出意识活动的迹象,这也成为科学家们探索的重点。并非只有高级动物才拥有意识活动究竟意识是怎样的存在呢?我们能够与一些小动物进行情感交流,是不是意味着它们的意识活动与人类存在相似之处……在一部分科学家们的探索过程中,他们惊奇地发现,其实不仅只有高级动物拥有意识活动,植物同样可以进行交流,甚至一块石头都有可能拥有复杂的意识,只是我们的探索方式一直存在问题。从表面上看,一块石头可能存在了亿万年,除了地质环境的变化和人为因素影响它们的状态之外,它们几乎不会出现任何变化。而人们认为意识存在于大脑中,所以石头这样的非生命物质不可能存在意识活动。巴特斯克效应实验证明植物有情感巴特斯克效应实验利用特殊的仪器证明,植物拥有情感,在面对人类和动物的威胁时,它们也能够释放出防御以及害怕等信号给周围的同类。而人们无论如何也不会想到,主张进行该实验的科学家最初只是利用 ...