多模態(tài)大模型:技術(shù)原理與實(shí)戰(zhàn)
定 價(jià):100 元
- 作者:彭勇 等
- 出版時(shí)間:2023/11/1
- ISBN:9787121465628
- 出 版 社:電子工業(yè)出版社
- 中圖法分類(lèi):N945.12
- 頁(yè)碼:300
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
本書(shū)詳細(xì)介紹了大語(yǔ)言模型和多模態(tài)大模型的發(fā)展歷史、技術(shù)原理和亮點(diǎn)、主要的開(kāi)源框架、配套工具、部署細(xì)則和實(shí)戰(zhàn)案例。為了讓讀者更好地進(jìn)行大模型的應(yīng)用實(shí)戰(zhàn),本書(shū)還詳細(xì)介紹了使用大模型為商業(yè)賦能的3個(gè)應(yīng)用案例。期望本書(shū)能夠幫助讀者打開(kāi)通往大模型尤其是多模態(tài)大模型的學(xué)習(xí)、實(shí)戰(zhàn)和商業(yè)成功之路。
彭勇,國(guó)家公派留法博士,全球金融專(zhuān)業(yè)人士協(xié)會(huì)(GIFP協(xié)會(huì))特聘專(zhuān)家,2020年歐耕互聯(lián)網(wǎng)保險(xiǎn)十大風(fēng)云人物,《數(shù)據(jù)中臺(tái)建設(shè):從方法論到落地實(shí)戰(zhàn)》作者。從事大數(shù)據(jù)和人工智能在金融行業(yè)的研究與應(yīng)用工作約18年,負(fù)責(zé)相關(guān)的落地項(xiàng)目超過(guò)100個(gè),在金融行業(yè)數(shù)據(jù)中臺(tái)建設(shè)、數(shù)字化營(yíng)銷(xiāo)和運(yùn)營(yíng)體系建設(shè)、大數(shù)據(jù)和人工智能賦能、大模型研發(fā)和應(yīng)用、風(fēng)險(xiǎn)管理、數(shù)智化轉(zhuǎn)型等方面經(jīng)驗(yàn)豐富,F(xiàn)就職于蘇州數(shù)擎智技術(shù)有限公司和北京長(zhǎng)正咨詢(xún)有限公司,擔(dān)任兩個(gè)公司的總經(jīng)理。彭旋,本科和碩士畢業(yè)于中國(guó)石油大學(xué)(華東)數(shù)學(xué)與應(yīng)用數(shù)學(xué)專(zhuān)業(yè),從事多模態(tài)大模型、知識(shí)圖譜、信息抽取、自然語(yǔ)言處理等方面的研發(fā)工作,具備豐富的多模態(tài)大模型訓(xùn)練、研發(fā)和企業(yè)落地經(jīng)驗(yàn)!吨R(shí)圖譜與大模型融合實(shí)踐研究報(bào)告》《知識(shí)圖譜互聯(lián)互通白皮書(shū)》的主要作者之一。鄭志軍。研究領(lǐng)域主要包括文本理解、自然語(yǔ)言生成等。從事自然語(yǔ)言處理研究7年有余,其中有近4年大模型使用、研發(fā)經(jīng)驗(yàn),F(xiàn)擔(dān)任公司AIGC組組長(zhǎng),所研發(fā)的大模型在公共評(píng)測(cè)和客戶(hù)應(yīng)用上均取得了優(yōu)異的成績(jī),在大模型研發(fā)領(lǐng)域具有豐富的理論和實(shí)踐經(jīng)驗(yàn)。茹炳晟,騰訊Tech Lead,騰訊研究院特約研究員,中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)TF研發(fā)效能SIG主席,“軟件研發(fā)效能度量規(guī)范”標(biāo)準(zhǔn)核心編寫(xiě)專(zhuān)家,中國(guó)商業(yè)聯(lián)合會(huì)互聯(lián)網(wǎng)應(yīng)用工作委員會(huì)智庫(kù)入庫(kù)專(zhuān)家,中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)TC608云計(jì)算標(biāo)準(zhǔn)和開(kāi)源推進(jìn)委員會(huì)云上軟件工程工作組副組長(zhǎng),騰訊云、阿里云、華為云最具價(jià)值專(zhuān)家,國(guó)內(nèi)外很多技術(shù)峰會(huì)的聯(lián)席主席、出品人和演講嘉賓。公眾號(hào)“茹炳晟聊軟件研發(fā)”主理人。多本技術(shù)暢銷(xiāo)書(shū)作者,著作有軟件研發(fā)行業(yè)創(chuàng)新實(shí)戰(zhàn)案例解析《測(cè)試工程師全棧技術(shù)進(jìn)階與實(shí)踐》《軟件研發(fā)效能提升之美》《高效自動(dòng)化測(cè)試平臺(tái):設(shè)計(jì)與開(kāi)發(fā)實(shí)戰(zhàn)》《軟件研發(fā)效能提升實(shí)踐》《軟件研發(fā)效能權(quán)威指南》,譯作有《持續(xù)架構(gòu)實(shí)踐:敏捷和DevOps時(shí)代下的軟件架構(gòu)》和《現(xiàn)代軟件工程:如何高效構(gòu)建軟件》等。
第1章 OpenAI一鳴驚人帶來(lái)的啟示 1
1.1 OpenAI的成長(zhǎng)并非一帆風(fēng)順 2
1.2 OpenAI的成功因素 5
1.3 OpenAI特殊的股權(quán)設(shè)計(jì)帶來(lái)的啟示 7
1.4 思考 11
第2章 自然語(yǔ)言處理的發(fā)展歷程 13
2.1 自然語(yǔ)言處理的發(fā)展史 14
2.1.1 背景介紹 14
2.1.2 自然語(yǔ)言處理發(fā)展的7個(gè)階段 15
2.2 從BERT模型到ChatGPT 30
2.3 BERT模型到底解決了哪些問(wèn)題 31
2.4 BERT模型誕生之后行業(yè)持續(xù)摸索 38
2.5 ChatGPT的誕生 41
2.5.1 InstructGPT模型的構(gòu)建流程 42
2.5.2 ChatGPT和InstructGPT的差異 44
2.5.3 ChatGPT和BERT模型在公開(kāi)數(shù)據(jù)集上的測(cè)試 45
2.5.4 高質(zhì)量的數(shù)據(jù)標(biāo)注 46
2.6 思考 48
第3章 讀懂ChatGPT的核心技術(shù) 50
3.1 基于Transformer的預(yù)訓(xùn)練語(yǔ)言模型 50
3.2 提示學(xué)習(xí)與指令微調(diào) 55
3.3 基于人工反饋的強(qiáng)化學(xué)習(xí) 59
3.4 思維鏈方法 62
3.5 集成學(xué)習(xí) 64
3.6 思考 67
第4章 看清GPT的進(jìn)化史和創(chuàng)新點(diǎn) 68
4.1 GPT技術(shù)的發(fā)展歷程 68
4.1.1 GPT-1技術(shù)的發(fā)展歷程 68
4.1.2 GPT-2技術(shù)的發(fā)展歷程 72
4.1.3 GPT-3技術(shù)的發(fā)展歷程 73
4.2 GPT的創(chuàng)新點(diǎn)總結(jié) 75
4.3 思考 77
第5章 大模型+多模態(tài)產(chǎn)生的“化學(xué)反應(yīng)” 78
5.1 多模態(tài)模型的發(fā)展歷史 78
5.2 單模態(tài)學(xué)習(xí)、多模態(tài)學(xué)習(xí)和跨模態(tài)學(xué)習(xí)的區(qū)別 82
5.3 多模態(tài)大模型發(fā)展的重大里程碑 85
5.4 大模型+多模態(tài)的3種實(shí)現(xiàn)方法 94
5.5 多模態(tài)大模型的效果評(píng)估 99
5.6 思考 102
第6章 多模態(tài)大模型的核心技術(shù) 103
6.1 文本多模態(tài)技術(shù) 104
6.1.1 基于模板的圖像描述方法 105
6.1.2 基于檢索的圖像描述方法 105
6.1.3 基于深度學(xué)習(xí)的圖像描述方法 105
6.2 圖像多模態(tài)技術(shù) 106
6.2.1 基于對(duì)抗網(wǎng)絡(luò)的文本生成圖像方法 107
6.2.2 基于VAE的文本生成圖像方法 109
6.2.3 基于擴(kuò)散模型的文本生成圖像方法 110
6.3 語(yǔ)音多模態(tài)技術(shù) 111
6.3.1 基于非深度學(xué)習(xí)的文本生成語(yǔ)音技術(shù) 111
6.3.2 基于深度學(xué)習(xí)的文本生成語(yǔ)音技術(shù) 113
6.4 視頻多模態(tài)技術(shù) 116
6.4.1 非擴(kuò)散模型的文本生成視頻技術(shù) 117
6.4.2 基于擴(kuò)散模型的文本生成視頻技術(shù) 118
6.5 跨模態(tài)多重組合技術(shù) 119
6.6 多模態(tài)大模型高效的訓(xùn)練方法 120
6.7 GPT-4多模態(tài)大模型核心技術(shù)介紹 121
6.8 多模態(tài)技術(shù)的發(fā)展趨勢(shì) 122
第7章 國(guó)內(nèi)外多模態(tài)大模型對(duì)比 124
7.1 國(guó)內(nèi)多模態(tài)大模型介紹 125
7.1.1 LLaMA-Adapter V2 125
7.1.2 VisualGLM-6B 128
7.1.3 mPLUG-Owl 129
7.2 國(guó)外多模態(tài)大模型介紹 131
7.2.1 Visual ChatGPT 131
7.2.2 InstructBLIP 132
7.2.3 MiniGPT-4 134
7.3 多模態(tài)大模型評(píng)測(cè)數(shù)據(jù)集 135
7.3.1 國(guó)內(nèi)評(píng)測(cè)數(shù)據(jù)集 136
7.3.2 國(guó)外評(píng)測(cè)數(shù)據(jù)集 136
7.4 多模態(tài)大模型的評(píng)測(cè)標(biāo)準(zhǔn) 137
7.4.1 國(guó)內(nèi)評(píng)測(cè)標(biāo)準(zhǔn) 137
7.4.2 國(guó)外評(píng)測(cè)標(biāo)準(zhǔn) 138
7.5 多模態(tài)大模型對(duì)比 139
7.5.1 感知能力評(píng)測(cè) 139
7.5.2 認(rèn)知能力評(píng)測(cè) 141
7.6 思考 145
第8章 中小公司的大模型構(gòu)建之路 146
8.1 微調(diào)技術(shù)介紹 147
8.1.1 LoRA技術(shù) 148
8.1.2 AdaLoRA技術(shù) 149
8.1.3 QLoRA技術(shù) 149
8.1.4 微調(diào)加DeepSpeed的ZeRO-3 150
8.2 模型壓縮技術(shù)介紹 151
8.2.1 剪枝 151
8.2.2 知識(shí)蒸餾 153
8.2.3 量化壓縮 154
8.3 微調(diào)實(shí)戰(zhàn) 155
8.3.1 部分參數(shù)微調(diào)實(shí)戰(zhàn) 156
8.3.2 全參數(shù)微調(diào)實(shí)戰(zhàn) 157
8.4 模型壓縮實(shí)戰(zhàn) 159
8.4.1 8位量化壓縮實(shí)戰(zhàn) 159
8.4.2 4位量化壓縮實(shí)戰(zhàn) 160
8.5 思考 162
第9章 從0到1部署多模態(tài)大模型 163
9.1 部署環(huán)境準(zhǔn)備 163
9.2 部署流程 165
9.3 使用Flask框架進(jìn)行API開(kāi)發(fā) 167
9.4 使用Gradio框架進(jìn)行Web頁(yè)面開(kāi)發(fā) 171
9.5 其他部署方法介紹 176
9.6 部署過(guò)程中常見(jiàn)的問(wèn)題總結(jié) 179
第10章 多模態(tài)大模型的主要應(yīng)用場(chǎng)景 183
10.1 多模態(tài)大模型的應(yīng)用圖譜 183
10.1.1 多模態(tài)大模型的30個(gè)基礎(chǔ)應(yīng)用 183
10.1.2 多模態(tài)大模型在六大領(lǐng)域中的應(yīng)用 189
10.2 多模態(tài)大模型在金融領(lǐng)域中的應(yīng)用 193
10.2.1 語(yǔ)音質(zhì)檢 194
10.2.2 智能顧問(wèn) 196
10.3 多模態(tài)大模型在出行與物流領(lǐng)域中的應(yīng)用 201
10.4 多模態(tài)大模型在電商領(lǐng)域中的應(yīng)用 203
10.4.1 智能客服 203
10.4.2 智能試穿 205
10.5 多模態(tài)大模型在工業(yè)設(shè)計(jì)與生產(chǎn)領(lǐng)域中的應(yīng)用 207
10.6 多模態(tài)大模型在醫(yī)療健康領(lǐng)域中的應(yīng)用 210
10.7 多模態(tài)大模型在教育培訓(xùn)領(lǐng)域的應(yīng)用 215
10.8 思考 216
第11章 用多模態(tài)大模型打造AI助理實(shí)戰(zhàn) 218
11.1 應(yīng)用背景 218
11.2 方法論介紹 219
11.2.1 思維鏈解決復(fù)雜的推理問(wèn)題 219
11.2.2 思維樹(shù)進(jìn)一步提升推理能力 220
11.2.3 采用插值法解決長(zhǎng)文本輸入問(wèn)題 220
11.3 工具和算法框架介紹 222
11.3.1 使用的工具 222
11.3.2 使用的算法框架 222
11.4 優(yōu)化邏輯介紹 224
11.4.1 如何提高多輪對(duì)話能力 225
11.4.2 如何提高角色扮演能力 225
11.4.3 如何提高長(zhǎng)文本閱讀能力 226
11.5 多模態(tài)大模型的部署 227
11.6 多模態(tài)大模型的性能評(píng)估 228
11.6.1 綜合性能評(píng)估 228
11.6.2 長(zhǎng)文本閱讀示例 229
11.6.3 多輪對(duì)話示例 230
11.6.4 角色扮演示例 233
11.6.5 LangChain框架賦能Ziya在限定域內(nèi)的問(wèn)答示例 234
11.7 思考 235
第12章 多模態(tài)大模型在情緒識(shí)別領(lǐng)域的應(yīng)用 236
12.1 應(yīng)用背景和待解決的問(wèn)題 236
12.2 方法論介紹 238
12.3 工具和算法框架介紹 243
12.3.1 算法的輸入和輸出 243
12.3.2 算法框架的整體構(gòu)建流程 244
12.3.3 文本預(yù)訓(xùn)練任務(wù) 245
12.3.4 圖像預(yù)訓(xùn)練任務(wù) 247
12.3.5 多模態(tài)預(yù)訓(xùn)練任務(wù) 248
12.3.6 算法的求解 249
12.3.7 算法的應(yīng)用 250
12.4 優(yōu)化邏輯介紹 251
12.5 部署流程 253
12.6 效果評(píng)測(cè) 254
12.6.1 評(píng)測(cè)數(shù)據(jù)集 254
12.6.2 評(píng)測(cè)指標(biāo) 257
12.6.3 評(píng)測(cè)結(jié)果 257
12.7 思考 259
第13章 大模型在軟件研發(fā)領(lǐng)域的實(shí)戰(zhàn)案例與前沿探索 261
13.1 LLM在軟件研發(fā)過(guò)程中的單點(diǎn)提效 262
13.1.1 基于GitHub Copilot的代碼片段智能生成 262
13.1.2 基于Copilot X實(shí)現(xiàn)增強(qiáng)的代碼片段智能生成 266
13.1.3 基于GitHub Copilot X實(shí)現(xiàn)對(duì)選中代碼的理解與解讀 268
13.1.4 基于GitHub Copilot X的Pull Requests提效 269
13.1.5 基于LLM實(shí)現(xiàn)的“代碼刷” 270
13.1.6 使用Copilot Voice實(shí)現(xiàn)語(yǔ)音驅(qū)動(dòng)的代碼開(kāi)發(fā) 272
13.1.7 使用Copilot CLI實(shí)現(xiàn)命令行的自動(dòng)生成 274
13.1.8 使用TestPilot實(shí)現(xiàn)單元測(cè)試用例的自動(dòng)生成 275
13.1.9 更多的應(yīng)用 277
13.2 代碼LLM為軟件研發(fā)帶來(lái)的機(jī)遇與挑戰(zhàn) 277
13.2.1 對(duì)于軟件研發(fā)來(lái)說(shuō),什么變了 278
13.2.2 對(duì)于軟件研發(fā)來(lái)說(shuō),什么沒(méi)有變 278
13.3 在LLM時(shí)代,對(duì)軟件研發(fā)的更多思考 283
13.3.1 思考1:替代的是“碼農(nóng)”,共生的是工程師 283
13.3.2 思考2:有利于控制研發(fā)團(tuán)隊(duì)規(guī)模,保持小團(tuán)隊(duì)的
效率優(yōu)勢(shì) 284
13.3.3 思考3:不可避免的“暗知識(shí)” 284
13.3.4 思考4:Prompt即代碼,代碼不再是代碼 285
13.3.5 思考5:Prompt to Executable軟件研發(fā)范式的可能性 286
13.4 思考 286