大模型好书分享丨读《自然语言处理:大模型理论与实践》

《自然语言处理:大模型理论与实践》(预览版)由赵宇教授编写,是一本深入探讨大语言模型世界的专业著作。作为一名正在学习和研究自然语言处理的学生,这本书为我提供了宝贵的理论基础和实践指导。

赵宇教授简介

西南财经大学教授,博导,四川省学术和技术带头人后备人选,金融智能与金融工程四川省重点实验室副主任,通用人工智能与数字经济创新团队负责人,计算机与人工智能学院实践能力中心主任,西南财经大学学术百人,美国罗切斯特大学联合培养博士,法国巴黎六大高级访问学者,中国人工智能学会自然语言理解专委会委员,四川省计算机学会自然语言理解专委会副主任委员。

任福继教授简介

日本工程院院士,欧盟科学院院士,日本工程会院士。

【这本书已整理好,放在公Z号:AI智能江河】

通过阅读《自然语言处理:大模型理论与实践》(预览版),我对自然语言处理(NLP)的核心目标和其在当今人工智能时代中的重要性有了更深刻的认识。NLP作为计算机科学与人工智能领域的关键技术,其核心目标在于让计算机能够理解、解释并生成自然语言。随着科技的迅速发展,NLP技术已经深入渗透到我们日常生活的各个方面,无论是智能助手的语音识别,还是机器翻译与文本生成,NLP正在以前所未有的速度改变着我们的生活方式。

特别是在2022年底,随着以ChatGPT为代表的大语言模型技术的崛起,NLP领域迎来了颠覆性的变革。大模型技术不仅刷新了自然语言处理的传统知识体系,也推动了新一代人工智能技术的发展。这一现象令我意识到,大语言模型不仅是技术进步的产物,更是NLP未来发展的方向。

赵宇教授和任福继教授撰写的《自然语言处理:大模型理论与实践》(预览版),正是在这一背景下应运而生。这本书不仅为学术界和工业界提供了系统性、前瞻性和实践性兼备的权威指导,也为我在学习和研究NLP过程中提供了宝贵的理论和实践框架。

本书主要面向高校的本科生、研究生及教学科研人员,适合作为教学用书。而书中附录部分特别介绍了与NLP密切相关的基础知识,如概率论、信息论、机器学习与强化学习等,这些内容对我加深对NLP核心理论和技术的理解起到了重要作用。此外,书中对大语言模型的发展历程及其在实际应用中的技巧与优化方法的深入分析,也让我掌握了应对NLP复杂挑战的实践经验。

通过系统学习这本书,我不仅对自然语言处理的基础理论和技术有了更加全面的掌握,还深刻理解了大语言模型在实际应用中的重要性和其背后的理论支持。这些收获为我未来在NLP领域的研究和应用打下了坚实的基础,也让我对这一领域充满了信心与期待。

【这本书已整理好,放在公Z号:AI智能江河】

以下是本书的目录:目录

第一章绪论

1.1自然语言处理概述…1

1.2自然语言处理简史…2

1.3自然语言处理传统研究内容…4

1.3.1传统基础技术…6

1.3.2实际应用…30

1.4自然语言处理与大模型发展现状…31

1.5本书内容安排…41

1.6讨论…42

1.7习题…42

第一部分语言模型基础

第二章词向量

2.1概述…47

2.2文本表示方法…48

2.2.1独热表示…48

2.2.2分布式表示…49

2.3Word2Vec模型…50

2.3.1CBOW模型…50

2.3.2Skip-gram模型…53

2.4GloVe模型…54

2.5ELMo模型…56

2.6讨论…58

2.7习题…59

第三章统计语言模型…61

3.1概述…61

3.2N-gram模型…62

3.3平滑技术…64

3.3.1加一平滑…64

3.3.2其他平滑…65

3.4讨论…67

3.5习题…67

第四章神经语言模型…71

4.1概述…71

4.2神经概率语言模型…71

4.2.1模型约束条件…72

4.2.2模型架构…73

4.2.3具体结构…74

4.3基于循环神经网络的语言模型…75

4.3.1循环神经网络结构…76

4.3.2RNNLM模型的原理…81

4.3.3RNNLM模型的训练…82

4.4讨论…82

4.5习题…82

第五章预测语言模型…85

5.1概述…85

5.2Seq2Seq模型…85

5.2.1模型架构…86

5.2.2模型训练与使用技巧…88

5.3注意力机制…90

5.3.1定义与原理…91

5.3.2引入注意力机制的编码器-解码器模型…91

5.3.3查询、键和值…92

5.4Transformer模型…93

5.4.1模型整体结构…93

5.4.2模型推理过程…95

5.5预训练语言模型…98

5.5.1BERT模型…98

5.5.2GPT-1模型…103

5.6语言模型的使用范式…108

5.6.1预训练-传统微调范式…108

5.6.2大模型+提示工程范式…113

5.7讨论…114

5.8习题…115

第二部分大模型理论…117

第六章大语言模型架构…119

6.1概述…119

6.2基于Transformer的模型架构…119

6.2.1编码大语言模型…120

6.2.2解码大语言模型…122

6.2.3编解码大语言模型…124

6.3非Transformer的模型架构…125

6.3.1FAT模型…126

6.3.2AFT模型…127

6.3.3RWKV模型…129

6.4大模型架构配置…132

6.4.1归一化技术…132

6.4.2激活函数…135

6.4.3位置编码…137

6.4.4注意力与偏置…138

6.5讨论…140

6.6习题…141

第七章多模态大模型架构…137

7.1概述…137

7.2ViT模型…137

7.2.1ViT模型架构…138

7.2.2ViT模型计算过程…139

7.2.3预训练与微调…141

7.3CLIP模型…142

7.3.1模型架构…142

7.3.2训练过程…142

7.3.3CLIP模型实现零样本分类…144

7.3.4CLIP模型其他应用…145

7.4BLIP模型…146

7.4.1模型架构…147

7.4.2预训练目标…148

7.4.3CapFilt算法…151

7.5BLIP-2模型…152

7.5.1概要…152

7.5.2BLIP-2架构…152

7.6讨论…154

7.7习题…155

第八章大模型预训练…157

8.1概述…157

8.2预训练数据工程…157

8.2.1预训练数据源…158

8.2.2多模态数据集…160

8.2.3数据处理…163

8.2.4模型性能关系…164

8.3预训练方法…167

8.3.1预训练任务…167

8.3.2优化参数设置…168

8.3.3可扩展训练技术…170

8.4讨论…173

8.5习题…174

第九章大模型微调…175

9.1概述…175

9.2指令微调…175

9.2.1指令微调概念…175

9.2.2构造指令实例…176

9.2.3指令微调任务…178

9.2.4多轮检索指令微调…184

9.2.5指令微调优化方法…186

9.2.6指令微调的效果…188

9.3对齐微调…189

9.3.1RLHF算法…189

9.3.2RLHF的发展历程…190

9.3.3对齐微调技术…192

9.3.4偏好数据集…197

9.4微调算法…199

9.5讨论…200

9.6习题…200

第十章提示工程…203

10.1概述…203

10.2提示工程基础…204

10.2.1提示词的组成…204

10.2.2提示工程方法…205

10.2.3图片提示…212

10.3情境学习…212

10.3.1定义…212

10.3.2示例设计方法…213

10.4提示链…215

10.4.1提示方法…216

10.4.2过程优化…217

10.4.3外部补偿…219

10.5提示工程安全…222

10.5.1提示攻击…222

10.5.2提示防御…224

10.6讨论…225

10.7习题…225

第十一章概现…229

11.1概述…229

11.2概现现象…230

11.2.1概现的概念定义和特征…230

11.2.2概现的普适模型…234

11.3大语言模型中的概现…237

11.3.1大语言模型中概现的定义…237

11.3.2大语言模型的概现能力…241

11.4缩放法则…241

11.4.1缩放法则的概念…241

11.4.2模型性能的影响因素…242

11.5大模型可解释性…244

11.5.1“黑箱”问题…244

11.5.2可解释AI…246

11.5.3大模型的可解释性…249

11.6讨论…253

11.7习题…254

第十二章大模型评估…257

12.1概述…257

12.2评估方式…257

12.2.1人工评估…257

12.2.2自动评估…258

12.3评估任务…262

12.3.1基本评估任务…262

12.3.2高效评估任务…267

12.3.3评估数据集…268

12.4评估指标…270

12.4.1准确性…271

12.4.2鲁棒性…272

12.4.3齐整性…274

12.4.4高效性…275

12.4.5其他指标…279

12.5讨论…280

12.6习题…280

第十三章探讨…283

13.1概述…283

13.2基于大模型的智能体和具身智能…284

13.2.1智能体…284

13.2.2具身智能…285

13.3大模型在新领域的应用…286

13.3.1金融…286

13.3.2法律…288

13.3.3医疗…289

13.3.4旅游…294

13.4大模型的挑战与局限…296

13.4.1幻觉现象…296

13.4.2计算成本高昂…297

13.4.3时效性差…299

13.4.4专业领域表现欠佳…300

13.4.5输出不稳定…301

13.5大模型的社会影响…302

13.5.1虚构事实…302

13.5.2煽动与偏见…303

13.5.3学术造假…304

13.5.4失业风险…305

13.5.5伦理挑战…306

13.6讨论…306

13.7习题…307

第二部分大模型实践…309

第十四章大模型实践应用…311

14.1概述…311

14.2Transformers编程基础…312

14.2.1Transformers关键组件…312

14.2.2对话模型实战…314

14.3大模型微调…317

14.3.1使用Transformers微调大模型…317

14.3.2使用LLaMA-Factory微调大模型…320

14.4讨论…322

14.5习题…323

第十五章基于大模型的应用开发…323

15.1概述…323

15.2基于OpenAI的应用开发…325

15.2.1关键概念…325

15.2.2入门程序…326

15.2.3OpenAI模型…326

15.2.4开发指南…327

15.2.5应用案例…329

15.2.6使用AzureOpenAI…340

15.3基于通义千问的应用开发…346

15.3.1入门程序…346

15.3.2通义千问模型…347

15.4基于LangChain的应用开发…350

15.4.1LangChain入门程序…351

15.4.2LangChain的模型…352

15.4.3LangChain的数据连接…353

15.4.4LangChain的链…357

15.4.5LangChain的记忆…359

15.5讨论…360

15.6习题…361

附录A预备知识…363

概率论基本概念…363

概述…363

概率…363

条件概率…364

贝叶斯定理…365

随机变量…366

二项式分布…367

联合概率分布和条件概率分布…368

期望与方差…369

贝叶斯决策理论…369

信息论基本概念…369

概述…369

熵…370

联合熵和条件熵…370

互信息…371

相对熵…372

文本熵…374

困惑度…374

机器学习基本概念…375

概述…375

训练方式…377

常用算法和模型…378

强化学习基本概念…383

概述…383

强化学习中的马尔可夫过程…385

策略优化…387

价值函数…389

近端策略优化算法…394

免责声明:本文章如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系