·

【机器学习】ChatTTS:开源文本转语音(text-to-speech)大模型天花板

发布时间:2024-08-27 23:14:40阅读量:169
专业文章
转载请注明来源

一、引言

我很愿意推荐一些小而美、高实用模型,比如之前写的YOLOv10霸榜百度词条,很多人搜索,仅需100M就可以完成毫秒级图像识别与目标检测,相关的专栏也是CSDN付费专栏中排行最靠前的。今天介绍有一个小而美、高实用性的模型:ChatTTS。

二、TTS(text-to-speech)模型原理

2.1 VITS 模型架构

由于ChatTTS还没有公布论文,我们也不好对ChatTTS的底层原理进行武断。这里对另一个TTS里程碑模型VITS原理进行简要介绍,让大家对TTS模型原理有多认知。VITS详细论文见链接

VITS论文对训练和推理两个环节分别进行讲述:

2.2 VITS 模型训练

VITS模型训练:在训练阶段,音素(Phonemes)可以被简单理解为文字对应的拼音或音标。它们经过文本编码(Text Encode)和映射(Projection)后,生成了文本的表示形式。左侧的线性谱(Linear Sepctrogram)是从用于训练的音频中提取的 wav 文件的音频特征。这些特征通过后验编码器(Posteritor)生成音频的表示,然后通过训练对齐这两者(在模块 A 中)。节奏也是表达的重要因素,因此还加入了一个随机持续时间预测器(Stochasitic Duration Predictor)模块,根据音素和对齐结果对输出音频长度进行调整。

2.3 VITS 模型推理

VITS模型推理:在推理过程中,输入是文本对应的音素。将映射和对长度采样输入模型,将其转换为语音表示流,然后通过解码器将其转换为音频格式。

根据论文中描述的逻辑,文本数据被转换为音素(即词的拼音)并输入模型。模型学习了音素与音频之间的关系,包括说话者的音质、音高、口音和发音习惯等。

三、ChatTTS 模型实战

3.1 ChatTTS 简介

ChatTTS 是一款专门为对话场景(例如 LLM 助手)设计的文本转语音模型。

3.2 ChatTTS 亮点

1. 对话式 TTS: ChatTTS 针对对话式任务进行了优化,能够实现自然且富有表现力的合成语音。它支持多个说话者,便于生成互动式对话。
2. 精细的控制: 该模型可以预测和控制精细的韵律特征,包括笑声、停顿和插入语。
3. 更好的韵律: ChatTTS 在韵律方面超越了大多数开源 TTS 模型。我们提供预训练模型以支持进一步的研究和开发。

3.3 ChatTTS 数据集

1. 主模型使用了 100,000+ 小时的中文和英文音频数据进行训练。
2. HuggingFace 上的开源版本是一个在 40,000 小时数据上进行无监督微调的预训练模型。

3.4 ChatTTS 部署

3.4.1 创建conda环境

conda create -n chattts
conda activate chattts

3.4.2 拉取源代码

git clone https://github.com/2noise/ChatTTS
cd ChatTTS

3.4.3 安装环境依赖

pip install -r requirements.txt

3.4.4 启动WebUI

export CUDA_VISIBLE_DEVICES=3 #指定显卡
nohup   python examples/web/webui.py --server_name 0.0.0.0 --server_port 8888 > chattts_20240624.out 2>&1 & #后台运行

执行后会自动跳转出webui,地址为server_name:server_port

3.4.5 WebUI推理

个人感觉:其中夹杂着“那个”、“然后”、“嗯...”等口头禅,学的太逼真了,人类说话不就是这样么。。

1. [uv_break]、[laugh]等符号进行断句、微笑等声音控制。
2. Audio Seed:用于初始化随机数生成器的种子值。设置相同的 Audio Seed 可以确保重复生成一致的语音,便于实验和调试。推荐 Seed: 3798-知性女、462-大舌头女、2424-低沉男。
3. Text Seed:类似于 Audio Seed,在文本生成阶段用于初始化随机数生成器的种子值。
4. Refine Text:勾选此选项可以对输入文本进行优化或修改,提升语音的自然度和可理解性。
5. Audio Temperature️:控制输出的随机性。数值越高,生成的语音越可能包含意外变化;数值较低则趋向于更平稳的输出。
6. Top_P:核采样策略,定义概率累积值,模型将只从这个累积概率覆盖的最可能的词中选择下一个词。
7. Top_K:限制模型考虑的可能词汇数量,设置为一个具体数值,模型将只从这最可能的 K 个词中选择下一个词。

3.5 ChatTTS 代码

import os, sys
 
if sys.platform == "darwin":
    os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
 
now_dir = os.getcwd()
sys.path.append(now_dir)
 
import random
import argparse
 
import torch
import gradio as gr
import numpy as np
 
from dotenv import load_dotenv
load_dotenv("sha256.env")
 
import ChatTTS
 
# 音色选项:用于预置合适的音色
voices = {
    "默认": {"seed": 2},
    "音色1": {"seed": 1111},
    "音色2": {"seed": 2222},
    "音色3": {"seed": 3333},
    "音色4": {"seed": 4444},
    "音色5": {"seed": 5555},
    "音色6": {"seed": 6666},
    "音色7": {"seed": 7777},
    "音色8": {"seed": 8888},
    "音色9": {"seed": 9999},
    "音色10": {"seed": 11111},
}
 
def generate_seed():
    new_seed = random.randint(1, 100000000)
    return {
        "__type__": "update",
        "value": new_seed
        }
 
# 返回选择音色对应的seed
def on_voice_change(vocie_selection):
    return voices.get(vocie_selection)['seed']
 
def generate_audio(text, temperature, top_P, top_K, audio_seed_input, text_seed_input, refine_text_flag):
 
    torch.manual_seed(audio_seed_input)
    rand_spk = chat.sample_random_speaker()
    params_infer_code = {
        'spk_emb': rand_spk,
        'temperature': temperature,
        'top_P': top_P,
        'top_K': top_K,
        }
    params_refine_text = {'prompt': '[oral_2][laugh_0][break_6]'}
 
    torch.manual_seed(text_seed_input)
 
    if refine_text_flag:
        text = chat.infer(text,
                          skip_refine_text=False,
                          refine_text_only=True,
                          params_refine_text=params_refine_text,
                          params_infer_code=params_infer_code
                          )
 
    wav = chat.infer(text,
                     skip_refine_text=True,
                     params_refine_text=params_refine_text,
                     params_infer_code=params_infer_code
                     )
 
    audio_data = np.array(wav[0]).flatten()
    sample_rate = 24000
    text_data = text[0] if isinstance(text, list) else text
 
    return [(sample_rate, audio_data), text_data]
 
 
def main():
 
    with gr.Blocks() as demo:
        gr.Markdown("# ChatTTS Webui")
        gr.Markdown("ChatTTS Model: [2noise/ChatTTS](https://github.com/2noise/ChatTTS)")
 
        default_text = "四川美食确实以辣闻名,但也有不辣的选择。[uv_break]比如甜水面、赖汤圆、蛋烘糕、叶儿粑等,这些小吃口味温和,甜而不腻,也很受欢迎。[laugh]"
        text_input = gr.Textbox(label="Input Text", lines=4, placeholder="Please Input Text...", value=default_text)
 
        with gr.Row():
            refine_text_checkbox = gr.Checkbox(label="Refine text", value=True)
            temperature_slider = gr.Slider(minimum=0.00001, maximum=1.0, step=0.00001, value=0.3, label="Audio temperature")
            top_p_slider = gr.Slider(minimum=0.1, maximum=0.9, step=0.05, value=0.7, label="top_P")
            top_k_slider = gr.Slider(minimum=1, maximum=20, step=1, value=20, label="top_K")
 
        with gr.Row():
            voice_options = {}
            voice_selection = gr.Dropdown(label="音色", choices=voices.keys(), value='默认')
            audio_seed_input = gr.Number(value=2, label="Audio Seed")
            generate_audio_seed = gr.Button("\U0001F3B2")
            text_seed_input = gr.Number(value=42, label="Text Seed")
            generate_text_seed = gr.Button("\U0001F3B2")
 
        generate_button = gr.Button("Generate")
 
        text_output = gr.Textbox(label="Output Text", interactive=False)
        audio_output = gr.Audio(label="Output Audio")
 
        # 使用Gradio的回调功能来更新数值输入框
        voice_selection.change(fn=on_voice_change, inputs=voice_selection, outputs=audio_seed_input)
 
        generate_audio_seed.click(generate_seed,
                                  inputs=[],
                                  outputs=audio_seed_input)
 
        generate_text_seed.click(generate_seed,
                                 inputs=[],
                                 outputs=text_seed_input)
 
        generate_button.click(generate_audio,
                              inputs=[text_input, temperature_slider, top_p_slider, top_k_slider, audio_seed_input, text_seed_input, refine_text_checkbox],
                              outputs=[audio_output, text_output])
 
        gr.Examples(
            examples=[
                ["四川美食确实以辣闻名,但也有不辣的选择。比如甜水面、赖汤圆、蛋烘糕、叶儿粑等,这些小吃口味温和,甜而不腻,也很受欢迎。", 0.3, 0.7, 20, 2, 42, True],
                ["What is [uv_break]your favorite english food?[laugh][lbreak]", 0.5, 0.5, 10, 245, 531, True],
                ["chat T T S is a text to speech model designed for dialogue applications. [uv_break]it supports mixed language input [uv_break]and offers multi speaker capabilities with precise control over prosodic elements [laugh]like like [uv_break]laughter[laugh], [uv_break]pauses, [uv_break]and intonation. [uv_break]it delivers natural and expressive speech,[uv_break]so please[uv_break] use the project responsibly at your own risk.[uv_break]", 0.2, 0.6, 15, 67, 165, True],
            ],
            inputs=[text_input, temperature_slider, top_p_slider, top_k_slider, audio_seed_input, text_seed_input, refine_text_checkbox],
        )
    
    parser = argparse.ArgumentParser(description='ChatTTS demo Launch')
    parser.add_argument('--server_name', type=str, default='0.0.0.0', help='Server name')
    parser.add_argument('--server_port', type=int, default=8080, help='Server port')
    parser.add_argument('--root_path', type=str, default=None, help='Root Path')
    parser.add_argument('--custom_path', type=str, default=None, help='the custom model path')
    args = parser.parse_args()
 
    print("loading ChatTTS model...")
    global chat
    chat = ChatTTS.Chat()
 
    if args.custom_path == None:
        chat.load_models()
    else:
        print('local model path:', args.custom_path)
        chat.load_models('custom', custom_path=args.custom_path)
 
    demo.launch(server_name=args.server_name, server_port=args.server_port, root_path=args.root_path, inbrowser=True)
 
 
if __name__ == '__main__':
    main()

通过import ChatTTS和chat = ChatTTS.chat()以及chat.infer对ChatTTS类进行引用,通过装载多个配置项进行不同语音类型的生成。

四、总结

本文首先以VITS为例,对TTS基本原理进行简要讲解,让大家对TTS模型有基本的认知,其次对ChatTTS模型进行step by step实战教学,个人感觉4万小时语音数据开源版本还是被阉割的很严重,可能担心合规问题吧。其次就是没有特定的角色与种子值对应关系,需要人工去归类,期待更多相关的工作诞生。

实用性上来讲,对于语音聊天助手,确实是一种技术上的升级,不需要特别多的GPU资源就可以搭建语音聊天服务,比LLM聊天上升了一个档次。最近好忙,主要在做一个人工智能助手,3天涨了1.3万粉丝。最近计划把ChatTTS应用于这个人工智能助手(微博:面子小行家)的私信回复中,涉及到音频文件与业务相结合。期待我的成果吧!


原文链接:https://blog.csdn.net/weixin_48007632/article/details/139929395

0 人喜欢

评论区

暂无评论,来发布第一条评论吧!

弦圈热门内容

动画效果

以 https://www.manitori.xyz/circles/9/encyclopedia/27  这个界面为示例,相关内容哪里,鼠标上下移动的时候会出现动画,但是动画效果不太好,字体上下浮动给人视觉压力较大,字体抖动严重

弹窗不自动关闭

提交以后该界面不会自动关闭,应再提交以后自动关闭该弹窗

【荐读】十首最美现代诗,一生至少读一次

如果席慕容 今生今世 永不再将你想起除了除了在有些个因落泪而湿润的夜里 如果如果你愿意   可笑时间哪有什么如果,可是没有如果,只是没有如果。爱情叶挺王 有一天路标迁了希望你能从容有一天桥墩断了希望你能渡越有一天栋梁倒了希望你能坚强有一天期待蔫了希望你能理解   是期待么?可能只是不甘吧,用最深情且最无奈的语气。远和近顾城 你一会看我一会看云我觉得你看我时很远你看云时很近   距离,什么都不用说,什么都不用表达。断章卞之琳 你站在桥上看风景,看风景人在楼上看你。明月装饰了你的窗子,你装饰了别人的梦。   含蓄隽永,优美如画,别有一番滋味在心头。独语覃子豪 我向你倾吐思念你如石像沉默不应如果沉默是你的悲抑你知道这悲抑最伤我心   明快晓畅,冷峻凄怆,思念繁复,用情至深。一代人顾城 黑夜给了我黑色的眼睛我却用它寻找光明 短短两句诗,诠释了一代人的不屈精神。面朝大海,春暖花开海子 陌生人,我也为你祝福愿你有一个灿烂的前程愿你有情人终成眷属愿你在尘世获得幸福我只愿面朝大海,春暖花开   面朝大海,春暖花开。只这一句,就足以让这位流星诗人得以永恒。乡愁余光中 后来,乡愁是一方矮矮的坟墓我在外头 ...

谷歌量子计算突破引发争议,国产科技潜力不可小觑

2024年12月9日,谷歌宣布推出新一代量子计算芯片Willow,引发了网友们的热烈讨论。在很多评论中,有人认为谷歌的技术遥遥领先,激起了外界的关注和质疑。量子计算技术作为未来科技发展的重要前沿,始终是科技界讨论的热点。一般来说,量子计算机的表现取决于其拥有的量子比特(qubits)数量及其稳定性。按照目前的研究,数量越多,出错的几率也越高。然而,谷歌的研究人员在此次发布会上自信地表示,Willow芯片通过创新的设计,成功大幅减少了错误,扭转了这一不利局面。其重要的技术突破包括量子纠错的新方法,和在更大规模的量子比特基础上实现指数级的计算效率提升。根据谷歌的说法,Willow芯片在不足五分钟内就完成了一项“标准基准计算”,而现有最快的超级计算机需要耗费一个近乎无法想象的时间——“10的25次方”年才能完成这一任务,这个数字远超宇宙的年龄。显然,在威力如此巨大的技术背后,量子计算机的实际应用也在不断拓宽,包括药物研发、聚变能研究和电池设计等领域,潜力无限。不过,谷歌的这一宣称也受到了一些业内人士的怀疑,认为其技术创新或许只是个噱头。电动汽车巨头、科技创新推动者马斯克也对此发表了意见,建议 ...

潘禺:谷歌量子计算芯片给了国内产业界紧迫感

【文/观察者网专栏作者 潘禺】12月10日,谷歌重磅推出量子计算芯片“Willow”,在公关宣传攻势下,马斯克送上了“Wow”,奥特曼也发来了贺电。Willow是一款拥有105个物理量子比特的量子芯片,亮点在于其惊人的计算速度和错误校正能力。据报道,Willow能在不到5分钟的时间内完成一个标准计算任务,而这个任务如果交给全球最快的超级计算机,可能需要超过10-25年,这个数字甚至超过了宇宙的年龄。Willow的另一个成就是其指数级减少错误率的能力。随着量子比特数量的增加,错误率通常会指数增长,但Willow通过先进的量子纠错技术,实现了错误率的指数级降低。每当晶格从3x3增加到5x5,再到7x7时,编码错误率就会以2.14的倍率降低。这种对逻辑错误的潜在抑制为运行有纠错的大规模量子算法奠定了基础。Google Quantum AI团队的工作环境权威专家的反应量子计算的教主和旗手,美国计算机科学家Scott Joel Aaronson在他的博客也做了一些点评,尽管整体上比较积极乐观,但话里话外还是有一些玄机。比如,Aaronson要读者明确,进步大体上符合多数人的预期:对于过去五年一直 ...

一文读懂量子计算:现已进入“实用阶段”,“量子时代”即将到来

划重点:量子计算首次出现于20世纪80年代初,主要依靠量子力学来解决复杂的、以前不太可能解决的计算问题。IBM于2019年推出了首个IBM Q System One量子计算系统,谷歌也声称其实现了“量子霸权”。尽管量子计算行业的实际同比增长率仅为1%,但该领域初创企业2022年获得的总投资达到23.5亿美元。多数首席信息官和IT领袖认为量子计算并未被过分炒作,他们希望更多地关注这项技术,以了解即将到来的颠覆。十年内具有主动纠错功能的大型量子计算机有望诞生,21世纪也将因此被视为“量子时代”。腾讯科技讯 量子计算是一个新兴的科学领域,由于它在许多行业拥有着巨大的应用潜力,已经引起了许多国家和公司的兴趣。随着更多资源和资金的投入,量子计算技术正以极快的速度向前飞跃。有科学家预言,量子计算机正进入“实用”阶段,十年内具有主动纠错功能的大型量子计算机有望诞生,“量子时代的黎明”即将到来。01 量子计算将成改变人类历史进程的新里程碑量子计算这种变革性技术虽然仍处于起步阶段,但它将成为改变全球技术进程的科学趋势之一。量子计算首次出现于20世纪80年代初,是一种变革性的技术趋势,旨在通过快速有效地解 ...

理论深度高的数学分支(如代数几何,代数拓扑)的新一代一流数学家(如恽之玮)做研究之前一般学了多久呀?

知乎提问:感觉所需的预备知识太多,代数几何和代数数论目前只学了半年多一点。要不是我不够聪明,要不是从事这些方向的研究的预备学习时间过高。Peter Scholze倒16岁就能搞明白不少费马大定理的证明,估计他当时的学习速度比我现在的高好几倍。因此,我在学习这些过程中稍微产生了点消极感。我的回答(已删):扯淡,又在这里造谣,都说过了不要神化Peter Scholze,这是对人家的羞辱。建议看看我之前的回答,里面已经把具体的情况解释得很清楚了。求证:关于菲尔兹奖得主舒尔茨的这个非常特殊的说法,是否属实?Peter Scholze确实16岁的时候看费马大定理的证明了,但他什么都看不懂。在我看来,文献看不懂没关系,最重要的是你看不懂还能继续看下去,发现motivation,这最考验一个人的数学成熟度。数学家在做一个问题的时候,也不是全部知识都懂的,往往都是一边做问题一边学的,需要什么就学什么,这样才是效率最高的。我其实不是很明白为什么总要比多少岁看什么什么,好像这真的能完全反应一个人数学的科研能力、创造能力一样。不同的数学家风格截然不同,数学发展的路径也完全不同,很多都是非线性的。只能说有的大 ...

🇩🇪12.25 科隆

专门奔着科隆大教堂来的,只为一睹比圣家堂还牛逼,盖了600多年才交楼的烂尾楼。在里面休息的时候发现游客突然都不见了,然后发现刚好被困在了弥撒时间,来都来了于是硬着头皮速成天主教徒()管风琴的悠扬,唱诗班的吟唱,加上科隆大教堂内部本身就高大宽敞,现场气氛顿时圣洁了起来,亲身体验过真的非常震撼人心。下面的信徒们也纷纷起立捧着唱词本跟着吟唱,我只能强行跟着站起来aiueo了几句然后划十字阿门(毕生所学)神父念念有词了十来分钟只听懂了哈利路亚(悲)本来还想跟完事去讨块圣体尝尝,不知道为什么这次没有领用圣体的环节。不过也算是达成成就参加了一场天主教法事,还是在大名鼎鼎的科隆大教堂()

求证:关于菲尔兹奖得主舒尔茨的这个非常特殊的说法,是否属实?

知乎提问:这是我在一篇自媒体文章里看到的关于舒尔茨的学习、科研方式的说法:令人非常吃惊的是,舒尔茨对代数几何产生兴趣竟然是因为看了怀尔斯关于费马大定理的证明。与常人不同的是,舒尔茨几乎不会花时间去学基础知识,比如线性代数,抽象代数这种,他都是直接去看一些论文,当遇到一些不懂的问题时,才会去查阅相关资料,并且他还可以立即学会这些知识,例如他通过研究费马大定理的证明,学会了模形式和椭圆曲线的相关知识。这个说法和我以前理解的学习、科研方式大相径庭,所以我觉得有必要来求证一下是否属实。谢谢!我的回答(已删):你看到的这个中文翻译的采访非常有问题,严重歪曲了Peter Scholze的真实情况。首先这个采访原文的地址是The Oracle of Arithmetic | Quanta Magazine。原文中说到Peter Scholze中学的时候得知Wiles证明了费马大定理,因此去看费马大定理的证明,结果是understood nothing!At 16, Scholze learned that a decade earlier Andrew Wiles had proved the fa ...

学习成绩差是一种罪吗?

知乎提问:学习成绩差是一种罪吗?我的回答(已删):能问出这种问题,证明如今社会上很多人被这种唯分数论洗脑的太严重了。学习成绩差怎么了,得罪谁了?学习成绩差本身没啥大不了的,但在zg的教育体制下,却有学习成绩差=坏孩子这种荒谬的事情。就好像在如今社会躺平就会被骂懒惰、不进取,被披上各种不友好的标签。这些都只不过是资本主义社会的产物,因为你懒惰不工作,就不能使资本发生增值,然后资本家就会跳出来给人们洗脑说这样做是不对的。况且学习成绩也跟一个人的实力没必然关系。就数学而言,数学成绩多少跟你数学的研究水平没有半毛钱关系。今年的fields奖得主Hub据说连Gre考试都做不完卷子,反应很慢,学习成绩很差,但这不影响他拿fields奖。本来考试这东西就是在有限的时间内考你教材里的内容,跟创新能力啥没有一点关系。原文发布于 2022-10-21 22:152022年当时应该大二吧,当时的菲尔兹奖得主对我还是挺鼓舞的,可以说是进一步鼓舞了我。之前我一直拿Witten、Bott等半路出家人的事例鼓舞自己,因为我就一普通得不能再普通的学生,在社会上毫无任何优势,唯一的优势或许就是早了解了那么点数学吧。

学高数有什么技巧么?

知乎提问:学高数有什么技巧么?我的回答(已删):学高等数学首先不能去想需要什么技巧,因为学高等数学最需要的是你对其的理解,技巧什么的其实是次要的。因为,理解决定了你数学的高度,如果你遇到某些概念理解不了的话,靠技巧是解决不了的。技巧大多是应用于证明上面的。想要对数学有足够深入的理解,在多看书的同时,对于同一样东西需要反复揣摩,反复与其它相关的概念对比,正如Grothendieck所说,通过构建不同数学对象之间的联系来理解数学。当你通过多次反复学习,对数学的理解到了足够高的程度,其实很多东西就变得trivial了,也并不需要太多的技巧。当然技巧还是有一些的,比如对于一些抽象的概念多看一些例子帮助理解;如果遇到某些东西理解不了,想了很久还是没有想到,可以先跳过,过段时间再去想;可以适当做些习题,但不需要做太多重复的题目,etc.原文发布于 2020-08-15 22:31这又是一篇高考后写的回答,甚是感慨。说实话那个时间段写的回答,比我现在写的会更加真实,也更加有效果,因为那个时间段我就是初学阶段。不像我现在早已过了初学阶段,进入Research做数学的阶段,过去的一些做法和细节已经遗忘了 ...

读基础数学如何解决经济问题?

知乎提问:读基础数学如何解决经济问题?我的回答(已删):读基础数学还想着赚钱干嘛,想赚钱就别读纯数了。因为如果想赚钱,这难度系数指数级上升,你做纯数可能做得已经很不错了还不如那些IT行业人士赚个月入过万。因此,如果你想靠纯数赚钱,你会觉得很不公平,而且在这浮躁的社会环境里,你怀着这种心态也很难沉得下心来做研究。对于经济问题,正如刘宇航前辈所说,降低需求是最好的办法。原文发布于 2021-05-24 19:06下面引用一下lyh的回答,话说我以前刚开始学数学的时候,知乎还是挺多数学大佬的,这种是真的专业的,不像现在一些数学大v压根没啥数学水平。目前来看,绝大多数数学大v都退乎了,有不少还注销账号了,回答一个也没留下来。lyh算是少数几个还坚持在知乎发言,并且还是持续性更新的,别的哪怕还留在知乎基本也很少发言了。

想做朗兰兹纲领方向,请问如何安排学习进度?

知乎提问:最近对朗兰兹纲领感兴趣,主要是向往大一统的理论,但因为这个领域很庞大,不知道从哪里入手,希望能提供学习顺序,推荐一些书目,越详细越好。另外,想知道哪些院校这方面做的比较好我的回答(已删):我并不是做Langlands programs方向的,但是也对其有所兴趣,因为算术几何跟Langlands programs也有所联系。个人觉得可以从Shimura varieties作为学习的切入点,具体的references可以看Milne的note,直接百度就有了。同时,可以看看欧阳毅的Galois representation,Scholze关于local Langlands的文章,还有Harris和Taylor的The Geometry and Cohomology of Some Simple Shimura Varieties。在看的过程中,看不懂就往下补知识,并且不要忘记了解相应知识的诞生背景,这样做效率是最高的。不过,这些东西都特别难读,反正我也很多看不懂,还是找个该方向的专家带最好。原文编辑于 2022-05-02 22:30原文评论区Milne的course notes ...