本書深入闡述了大語(yǔ)言模型的基本概念和算法、研究前沿以及應(yīng)用,涵蓋大語(yǔ)言模型的廣泛主題,從基礎(chǔ)到前沿,從方法到應(yīng)用,涉及從方法論到應(yīng)用場(chǎng)景方方面面的內(nèi)容。首先,本書介紹了人工智能領(lǐng)域的進(jìn)展和趨勢(shì);其次,探討了語(yǔ)言模型的基本概念和架構(gòu)、Transformer、預(yù)訓(xùn)練目標(biāo)和解碼策略、上下文學(xué)習(xí)和輕量級(jí)微調(diào)、稀疏專家模型、檢索增強(qiáng)型語(yǔ)言模型、對(duì)齊語(yǔ)言模型與人類偏好、減少偏見和有害性以及視覺語(yǔ)言模型等內(nèi)容;最后,討論了語(yǔ)言模型對(duì)環(huán)境的影響。
本書內(nèi)容全面、系統(tǒng)性強(qiáng),適合高年級(jí)本科生和研究生、博士后研究人員、講師以及行業(yè)從業(yè)者閱讀與參考。
內(nèi)容豐富。本書全面且深入介紹了大語(yǔ)言模型及其前沿進(jìn)展,適合所有需要了解這個(gè)領(lǐng)域或掌握這種方法與工具的科學(xué)家、工程師和學(xué)生參考。
內(nèi)容緊貼前沿領(lǐng)域。大語(yǔ)言模型作為當(dāng)前爆火的chatGPT背后的技術(shù),受到廣泛關(guān)注,預(yù)計(jì)未來(lái)將推動(dòng)人工智能技術(shù)進(jìn)一步發(fā)展。
深入淺出,理論與實(shí)踐相結(jié)合。本書摒棄了純理論的說(shuō)教模式,從案例入手,采用庖丁解牛的方式幫助讀者理解與認(rèn)識(shí)大語(yǔ)言模型。
作者權(quán)威,大廠海外技術(shù)骨干。本書作者熊濤曾擔(dān)任多家中美高科技公司的首席科學(xué)家,長(zhǎng)期深耕人工智能領(lǐng)域,發(fā)表相關(guān)論文百余篇。
行業(yè)專家背書,包括清華大學(xué)教授陳文光、復(fù)旦大學(xué)浩清特聘教授漆遠(yuǎn)、阿里巴巴集團(tuán)阿里云副總裁葉杰平、螞蟻集團(tuán)副總裁趙聞飆。
熊濤,美國(guó)明尼蘇達(dá)大學(xué)雙城分校電子與計(jì)算機(jī)工程博士。曾在多家中美知名高科技公司擔(dān)任高級(jí)管理職位和首席科學(xué)家,在人工智能的多個(gè)領(lǐng)域,包括大語(yǔ)言模型、圖神經(jīng)網(wǎng)絡(luò)等從事研發(fā)和管理工作多年。
第 1章 大語(yǔ)言模型:辯論、爭(zhēng)議與未來(lái)發(fā)展方向 1
1.1 新時(shí)代的曙光 1
1.2 LLM有意識(shí)嗎 3
1.2.1 理解LLM的層次結(jié)構(gòu) 3
1.2.2 意識(shí)是否需要碳基生物學(xué) 4
1.2.3 具身化與落地 4
1.2.4 世界模型 7
1.2.5 溝通意圖 8
1.2.6 系統(tǒng)性和全面泛化 9
1.3 未來(lái)發(fā)展方向 10
1.4 小結(jié) 13
第 2章 語(yǔ)言模型和分詞 15
2.1 語(yǔ)言建模的挑戰(zhàn) 16
2.2 統(tǒng)計(jì)語(yǔ)言建模 16
2.3 神經(jīng)語(yǔ)言模型 18
2.4 評(píng)估語(yǔ)言模型 19
2.5 分詞 19
2.5.1 按空格分割 20
2.5.2 字符分詞 21
2.5.3 子詞分詞 21
2.5.4 無(wú)分詞器 24
2.5.5 可學(xué)習(xí)的分詞 25
2.6 小結(jié) 27
第3章 Transformer 29
3.1 Transformer編碼器模塊 29
3.2 編碼器-解碼器架構(gòu) 31
3.3 位置嵌入 32
3.3.1 絕對(duì)位置編碼 32
3.3.2 相對(duì)位置編碼 34
3.4 更長(zhǎng)的上下文 38
3.5 外部記憶 42
3.6 更快、更小的Transformer 45
3.6.1 高效注意力 45
3.6.2 條件計(jì)算 47
3.6.3 搜索高效Transformer 48
3.6.4 在單個(gè)GPU上一天內(nèi)訓(xùn)練一個(gè)語(yǔ)言模型 49
3.7 推理優(yōu)化 49
3.7.1 推測(cè)解碼 49
3.7.2 簡(jiǎn)化Transformer 51
3.7.3 修剪 52
3.7.4 蒸餾 53
3.7.5 混合精度 54
3.7.6 高效擴(kuò)展Transformer推理 54
3.8 小結(jié) 56
第4章 預(yù)訓(xùn)練目標(biāo)和解碼策略 57
4.1 模型架構(gòu) 57
4.2 預(yù)訓(xùn)練目標(biāo) 60
4.3 具有代表性的語(yǔ)言模型 62
4.4 解碼策略 67
4.5 小結(jié) 72
第5章 上下文學(xué)習(xí)和輕量級(jí)微調(diào) 73
5.1 上下文學(xué)習(xí) 74
5.1.1 示范樣本選擇 75
5.1.2 樣本排序 82
5.1.3 指令生成 82
5.1.4 思維鏈 84
5.1.5 遞歸提示 87
5.1.6 為什么ICL有效 90
5.1.7 評(píng)估 93
5.2 提示語(yǔ)言模型的校準(zhǔn) 94
5.3 輕量級(jí)微調(diào) 97
5.3.1 基于添加的方法 98
5.3.2 基于規(guī)范的方法 100
5.3.3 基于重新參數(shù)化的方法 101
5.3.4 混合方法 103
5.4 小結(jié) 104
第6章 訓(xùn)練更大的模型 107
6.1 擴(kuò)大尺度法則 107
6.1.1 預(yù)訓(xùn)練Transformer擴(kuò)大尺度的啟示 107
6.1.2 預(yù)訓(xùn)練和微調(diào)Transformer帶來(lái)的新啟示 110
6.1.3 k比特推理擴(kuò)大尺度法則 111
6.1.4 挑戰(zhàn)與機(jī)遇 112
6.2 涌現(xiàn)能力 113
6.3 人工智能加速器 115
6.4 并行 117
6.4.1 數(shù)據(jù)并行 119
6.4.2 流水線并行 126
6.4.3 張量/模型并行 131
6.4.4 專家混合 133
6.5 混合訓(xùn)練和低精度訓(xùn)練 133
6.5.1 單位縮放 133
6.5.2 FP8與INT8 135
6.6 其他節(jié)省內(nèi)存的設(shè)計(jì) 136
6.7 小結(jié) 137
第7章 稀疏專家模型 139
7.1 為什么采用稀疏專家模型 139
7.2 路由算法 142
7.2.1 每個(gè)詞元選擇top-k個(gè)專家 142
7.2.2 每個(gè)專家選擇top-k個(gè)詞元 144
7.2.3 全局最優(yōu)分配 145
7.2.4 隨機(jī)路由 148
7.2.5 雙層路由 149
7.2.6 針對(duì)不同預(yù)訓(xùn)練領(lǐng)域的不同專家 149
7.3 其他改進(jìn)措施 152
7.3.1 加快訓(xùn)練速度 152
7.3.2 高效的MoE架構(gòu) 153
7.3.3 生產(chǎn)規(guī)模部署 154
7.3.4 通過(guò)稀疏MoE擴(kuò)展視覺語(yǔ)言模型 154
7.3.5 MoE與集成 155
7.4 小結(jié) 156
第8章 檢索增強(qiáng)型語(yǔ)言模型 157
8.1 預(yù)訓(xùn)練檢索增強(qiáng)型語(yǔ)言模型 158
8.2 詞元級(jí)檢索 161
8.3 通過(guò)高效和精簡(jiǎn)檢索進(jìn)行問(wèn)答和多跳推理 163
8.4 檢索增強(qiáng)型Transformer 166
8.5 檢索增強(qiáng)型黑盒語(yǔ)言模型 168
8.6 視覺增強(qiáng)語(yǔ)言建模 169
8.7 小結(jié) 170
第9章 對(duì)齊語(yǔ)言模型與人類偏好 171
9.1 基于人類反饋進(jìn)行微調(diào) 172
9.1.1 基于人類反饋的強(qiáng)化學(xué)習(xí) 172
9.1.2 KL散度:前向與反向 174
9.1.3 REINFORCE、TRPO和PPO 174
9.1.4 帶有KL懲罰的強(qiáng)化學(xué)習(xí):貝葉斯推理觀點(diǎn) 178
9.1.5 通過(guò)分布控制生成進(jìn)行語(yǔ)言模型對(duì)齊 180
9.1.6 通過(guò)f散度最小化統(tǒng)一RLHF和GDC方法 182
9.2 基于語(yǔ)言反饋進(jìn)行微調(diào) 183
9.3 基于監(jiān)督學(xué)習(xí)進(jìn)行微調(diào) 184
9.4 基于人工智能反饋的強(qiáng)化學(xué)習(xí) 185
9.5 基于自我反饋進(jìn)行迭代優(yōu)化 188
9.6 基于人類偏好進(jìn)行預(yù)訓(xùn)練 190
9.7 小結(jié) 193
第 10章 減少偏見和有害性 195
10.1 偏見 196
10.2 有害性 199
10.3 偏見和有害性的檢測(cè)與減少 200
10.3.1 基于解碼的策略 201
10.3.2 基于提示的脫毒 202
10.3.3 基于數(shù)據(jù)的策略 204
10.3.4 基于投影和正則化的方法 205
10.3.5 基于風(fēng)格轉(zhuǎn)換的方法 205
10.3.6 基于強(qiáng)化學(xué)習(xí)的微調(diào)和基于人類偏好的預(yù)訓(xùn)練 206
10.4 小結(jié) 206
第 11章 視覺語(yǔ)言模型 207
11.1 語(yǔ)言處理的多模態(tài)落地 207
11.2 不需要額外訓(xùn)練即可利用預(yù)訓(xùn)練模型 208
11.2.1 視覺引導(dǎo)解碼策略 208
11.2.2 作為大語(yǔ)言模型提示的視覺輸入 209
11.2.3 基于相似性搜索的多模態(tài)對(duì)齊 212
11.3 輕量級(jí)適配 213
11.3.1 鎖定圖像調(diào)優(yōu) 213
11.3.2 作為(凍結(jié))語(yǔ)言模型前綴的學(xué)習(xí)視覺嵌入 214
11.3.3 視覺-文本交叉注意力融合 216
11.4 圖文聯(lián)合訓(xùn)練 219
11.5 檢索增強(qiáng)視覺語(yǔ)言模型 222
11.6 視覺指令調(diào)整 225
11.7 小結(jié) 227
第 12章 環(huán)境影響 229
12.1 能源消耗和溫室氣體排放 229
12.2 估算訓(xùn)練模型的排放量 230
12.3 小結(jié) 231
參考文獻(xiàn) 232