《自然语言处理:大模型理论与实践》(预览版)由赵宇教授编写,是一本深入探讨大语言模型世界的专业著作。作为一名正在学习和研究自然语言处理的学生,这本书为我提供了宝贵的理论基础和实践指导。
赵宇教授简介西南财经大学教授,博导,四川省学术和技术带头人后备人选,金融智能与金融工程四川省重点实验室副主任,通用人工智能与数字经济创新团队负责人,计算机与人工智能学院实践能力中心主任,西南财经大学学术百人,美国罗切斯特大学联合培养博士,法国巴黎六大高级访问学者,中国人工智能学会自然语言理解专委会委员,四川省计算机学会自然语言理解专委会副主任委员。
任福继教授简介日本工程院院士,欧盟科学院院士,日本工程会院士。
【这本书已整理好,放在公Z号:AI智能江河】
通过阅读《自然语言处理:大模型理论与实践》(预览版),我对自然语言处理(NLP)的核心目标和其在当今人工智能时代中的重要性有了更深刻的认识。NLP作为计算机科学与人工智能领域的关键技术,其核心目标在于让计算机能够理解、解释并生成自然语言。随着科技的迅速发展,NLP技术已经深入渗透到我们日常生活的各个方面,无论是智能助手的语音识别,还是机器翻译与文本生成,NLP正在以前所未有的速度改变着我们的生活方式。
特别是在2022年底,随着以ChatGPT为代表的大语言模型技术的崛起,NLP领域迎来了颠覆性的变革。大模型技术不仅刷新了自然语言处理的传统知识体系,也推动了新一代人工智能技术的发展。这一现象令我意识到,大语言模型不仅是技术进步的产物,更是NLP未来发展的方向。
赵宇教授和任福继教授撰写的《自然语言处理:大模型理论与实践》(预览版),正是在这一背景下应运而生。这本书不仅为学术界和工业界提供了系统性、前瞻性和实践性兼备的权威指导,也为我在学习和研究NLP过程中提供了宝贵的理论和实践框架。
本书主要面向高校的本科生、研究生及教学科研人员,适合作为教学用书。而书中附录部分特别介绍了与NLP密切相关的基础知识,如概率论、信息论、机器学习与强化学习等,这些内容对我加深对NLP核心理论和技术的理解起到了重要作用。此外,书中对大语言模型的发展历程及其在实际应用中的技巧与优化方法的深入分析,也让我掌握了应对NLP复杂挑战的实践经验。
通过系统学习这本书,我不仅对自然语言处理的基础理论和技术有了更加全面的掌握,还深刻理解了大语言模型在实际应用中的重要性和其背后的理论支持。这些收获为我未来在NLP领域的研究和应用打下了坚实的基础,也让我对这一领域充满了信心与期待。
【这本书已整理好,放在公Z号:AI智能江河】
以下是本书的目录:目录第一章绪论
1.1自然语言处理概述…1
1.2自然语言处理简史…2
1.3自然语言处理传统研究内容…4
1.3.1传统基础技术…6
1.3.2实际应用…30
1.4自然语言处理与大模型发展现状…31
1.5本书内容安排…41
1.6讨论…42
1.7习题…42
第一部分语言模型基础
第二章词向量
2.1概述…47
2.2文本表示方法…48
2.2.1独热表示…48
2.2.2分布式表示…49
2.3Word2Vec模型…50
2.3.1CBOW模型…50
2.3.2Skip-gram模型…53
2.4GloVe模型…54
2.5ELMo模型…56
2.6讨论…58
2.7习题…59
第三章统计语言模型…61
3.1概述…61
3.2N-gram模型…62
3.3平滑技术…64
3.3.1加一平滑…64
3.3.2其他平滑…65
3.4讨论…67
3.5习题…67
第四章神经语言模型…71
4.1概述…71
4.2神经概率语言模型…71
4.2.1模型约束条件…72
4.2.2模型架构…73
4.2.3具体结构…74
4.3基于循环神经网络的语言模型…75
4.3.1循环神经网络结构…76
4.3.2RNNLM模型的原理…81
4.3.3RNNLM模型的训练…82
4.4讨论…82
4.5习题…82
第五章预测语言模型…85
5.1概述…85
5.2Seq2Seq模型…85
5.2.1模型架构…86
5.2.2模型训练与使用技巧…88
5.3注意力机制…90
5.3.1定义与原理…91
5.3.2引入注意力机制的编码器-解码器模型…91
5.3.3查询、键和值…92
5.4Transformer模型…93
5.4.1模型整体结构…93
5.4.2模型推理过程…95
5.5预训练语言模型…98
5.5.1BERT模型…98
5.5.2GPT-1模型…103
5.6语言模型的使用范式…108
5.6.1预训练-传统微调范式…108
5.6.2大模型+提示工程范式…113
5.7讨论…114
5.8习题…115
第二部分大模型理论…117
第六章大语言模型架构…119
6.1概述…119
6.2基于Transformer的模型架构…119
6.2.1编码大语言模型…120
6.2.2解码大语言模型…122
6.2.3编解码大语言模型…124
6.3非Transformer的模型架构…125
6.3.1FAT模型…126
6.3.2AFT模型…127
6.3.3RWKV模型…129
6.4大模型架构配置…132
6.4.1归一化技术…132
6.4.2激活函数…135
6.4.3位置编码…137
6.4.4注意力与偏置…138
6.5讨论…140
6.6习题…141
第七章多模态大模型架构…137
7.1概述…137
7.2ViT模型…137
7.2.1ViT模型架构…138
7.2.2ViT模型计算过程…139
7.2.3预训练与微调…141
7.3CLIP模型…142
7.3.1模型架构…142
7.3.2训练过程…142
7.3.3CLIP模型实现零样本分类…144
7.3.4CLIP模型其他应用…145
7.4BLIP模型…146
7.4.1模型架构…147
7.4.2预训练目标…148
7.4.3CapFilt算法…151
7.5BLIP-2模型…152
7.5.1概要…152
7.5.2BLIP-2架构…152
7.6讨论…154
7.7习题…155
第八章大模型预训练…157
8.1概述…157
8.2预训练数据工程…157
8.2.1预训练数据源…158
8.2.2多模态数据集…160
8.2.3数据处理…163
8.2.4模型性能关系…164
8.3预训练方法…167
8.3.1预训练任务…167
8.3.2优化参数设置…168
8.3.3可扩展训练技术…170
8.4讨论…173
8.5习题…174
第九章大模型微调…175
9.1概述…175
9.2指令微调…175
9.2.1指令微调概念…175
9.2.2构造指令实例…176
9.2.3指令微调任务…178
9.2.4多轮检索指令微调…184
9.2.5指令微调优化方法…186
9.2.6指令微调的效果…188
9.3对齐微调…189
9.3.1RLHF算法…189
9.3.2RLHF的发展历程…190
9.3.3对齐微调技术…192
9.3.4偏好数据集…197
9.4微调算法…199
9.5讨论…200
9.6习题…200
第十章提示工程…203
10.1概述…203
10.2提示工程基础…204
10.2.1提示词的组成…204
10.2.2提示工程方法…205
10.2.3图片提示…212
10.3情境学习…212
10.3.1定义…212
10.3.2示例设计方法…213
10.4提示链…215
10.4.1提示方法…216
10.4.2过程优化…217
10.4.3外部补偿…219
10.5提示工程安全…222
10.5.1提示攻击…222
10.5.2提示防御…224
10.6讨论…225
10.7习题…225
第十一章概现…229
11.1概述…229
11.2概现现象…230
11.2.1概现的概念定义和特征…230
11.2.2概现的普适模型…234
11.3大语言模型中的概现…237
11.3.1大语言模型中概现的定义…237
11.3.2大语言模型的概现能力…241
11.4缩放法则…241
11.4.1缩放法则的概念…241
11.4.2模型性能的影响因素…242
11.5大模型可解释性…244
11.5.1“黑箱”问题…244
11.5.2可解释AI…246
11.5.3大模型的可解释性…249
11.6讨论…253
11.7习题…254
第十二章大模型评估…257
12.1概述…257
12.2评估方式…257
12.2.1人工评估…257
12.2.2自动评估…258
12.3评估任务…262
12.3.1基本评估任务…262
12.3.2高效评估任务…267
12.3.3评估数据集…268
12.4评估指标…270
12.4.1准确性…271
12.4.2鲁棒性…272
12.4.3齐整性…274
12.4.4高效性…275
12.4.5其他指标…279
12.5讨论…280
12.6习题…280
第十三章探讨…283
13.1概述…283
13.2基于大模型的智能体和具身智能…284
13.2.1智能体…284
13.2.2具身智能…285
13.3大模型在新领域的应用…286
13.3.1金融…286
13.3.2法律…288
13.3.3医疗…289
13.3.4旅游…294
13.4大模型的挑战与局限…296
13.4.1幻觉现象…296
13.4.2计算成本高昂…297
13.4.3时效性差…299
13.4.4专业领域表现欠佳…300
13.4.5输出不稳定…301
13.5大模型的社会影响…302
13.5.1虚构事实…302
13.5.2煽动与偏见…303
13.5.3学术造假…304
13.5.4失业风险…305
13.5.5伦理挑战…306
13.6讨论…306
13.7习题…307
第二部分大模型实践…309
第十四章大模型实践应用…311
14.1概述…311
14.2Transformers编程基础…312
14.2.1Transformers关键组件…312
14.2.2对话模型实战…314
14.3大模型微调…317
14.3.1使用Transformers微调大模型…317
14.3.2使用LLaMA-Factory微调大模型…320
14.4讨论…322
14.5习题…323
第十五章基于大模型的应用开发…323
15.1概述…323
15.2基于OpenAI的应用开发…325
15.2.1关键概念…325
15.2.2入门程序…326
15.2.3OpenAI模型…326
15.2.4开发指南…327
15.2.5应用案例…329
15.2.6使用AzureOpenAI…340
15.3基于通义千问的应用开发…346
15.3.1入门程序…346
15.3.2通义千问模型…347
15.4基于LangChain的应用开发…350
15.4.1LangChain入门程序…351
15.4.2LangChain的模型…352
15.4.3LangChain的数据连接…353
15.4.4LangChain的链…357
15.4.5LangChain的记忆…359
15.5讨论…360
15.6习题…361
附录A预备知识…363
概率论基本概念…363
概述…363
概率…363
条件概率…364
贝叶斯定理…365
随机变量…366
二项式分布…367
联合概率分布和条件概率分布…368
期望与方差…369
贝叶斯决策理论…369
信息论基本概念…369
概述…369
熵…370
联合熵和条件熵…370
互信息…371
相对熵…372
文本熵…374
困惑度…374
机器学习基本概念…375
概述…375
训练方式…377
常用算法和模型…378
强化学习基本概念…383
概述…383
强化学习中的马尔可夫过程…385
策略优化…387
价值函数…389
近端策略优化算法…394
免责声明:本文章如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系