《偏最小二乘法優(yōu)化及其在中醫(yī)藥領域的應用研究》內容是在充分利用偏最小二乘原理優(yōu)勢的基礎上,重點研究改進與優(yōu)化偏最小二乘的不足方面,使其更好地適應中醫(yī)藥數(shù)據分析。主要內容包括分別引入非徑向數(shù)據包絡分析和降噪稀疏自編碼器優(yōu)化偏最小二乘的噪聲處理,使其處理缺失值和噪聲更有效;分別引入特征相關、L1正則項和灰色關聯(lián)優(yōu)化偏最小二乘的特征提取,實現(xiàn)有效降維和提取特征子集;分別融合受限玻爾茲曼機、稀疏自編碼器、深度置信網絡提取非線性成分,優(yōu)化偏最小二乘線性提;采用模型樹、隨機森林和softmax實現(xiàn)偏最小二乘非線性回歸,使非線性領域模型構建更有效。
適讀人群 :其他 《偏最小二乘法優(yōu)化及其在中醫(yī)藥領域的應用研究》作者針對多成分、多靶點、多藥效指標以及非線性等特點的中醫(yī)藥數(shù)據專門建立偏最小二乘法改良方法。作者從數(shù)據預處理、特征選擇、非線性特征提取和非線性回歸研究四個方面,系統(tǒng)闡述了優(yōu)化模型的建模原理及系統(tǒng)操作方法,在解決中醫(yī)藥數(shù)據分析中的實際問題方面有很重要的參考意義。
全書框架合理,科學性、學術性強,內容闡述系統(tǒng)詳實,結合實際數(shù)據集驗證分析方法的優(yōu)勢,科學嚴謹,能使讀者全面、系統(tǒng)地掌握偏最小二乘的優(yōu)化方法在中醫(yī)藥數(shù)據分析方面的應用。全書內容豐富,文筆流暢,是醫(yī)藥數(shù)理統(tǒng)計方面的專業(yè)學術論著,具有很好的社會效益。
前 言
2019年10月25日,全國中醫(yī)藥大會隆重召開,習近平總書記對中醫(yī)藥的發(fā)展提出了“傳承精華,守正創(chuàng)新”的指示要求。數(shù)據的定量化、客觀化是中醫(yī)藥事業(yè)發(fā)展的其中的一個難題。中醫(yī)藥治療疾病,往往是中藥的多成分對應病證的多靶點,因此采集的中醫(yī)藥數(shù)據存在多成分、多靶點和非線性等特點。以藥物的量效關系為例,化學藥藥效成分清楚,結構明確,單成分指標量效關系的概念、原理、方法和應用已形成較為完善的體系。中醫(yī)方藥復雜性和系統(tǒng)性主要體現(xiàn)在多成分、多靶點、多藥效指標以及非線性等特點上,反映其量效關系和組效關系的數(shù)據呈現(xiàn)多自變量、多因變量和非線性的特點,其復雜性是化學藥所不能比擬的,無法用化學藥的模型來闡釋中醫(yī)方藥的量效關系。研究適合中醫(yī)藥數(shù)據特點的多元分析方法顯得尤為迫切。
作為一種多元統(tǒng)計分析方法,偏最小二乘法是斯萬特·伍德(Svante Wold)等人1983年率先提出的。偏最小二乘法通過集成主成分分析、典型相關分析和多元線性回歸的基本功能,實現(xiàn)多因變量對多自變量的回歸建模,并且可以有效地解決多重共線性以及變量個數(shù)大于樣本數(shù)等問題。由于偏最小二乘法解決了傳統(tǒng)統(tǒng)計分析方法無法解決的難題,該方法在各領域的發(fā)展非常迅速,所涉及的學科不僅包含了化學、社會學和地質學,還逐漸擴充到生物學、醫(yī)學以及經濟學等領域,同時也給中醫(yī)藥信息處理領域帶來了啟發(fā)。
作者工作單位江西中醫(yī)藥大學具有中藥固體制劑國家工程中心和現(xiàn)代中藥制劑教育部重點實驗室等高水平科研平臺,承擔了國家973、新藥創(chuàng)制重大專項、國家科技支撐計劃等課題,積累了大量實驗數(shù)據。自2006年起,作者帶領科研團隊承擔了多項重大科研項目的數(shù)據分析工作。本書提出的諸多偏最小二乘優(yōu)化方法都是在作者團隊分析處理中醫(yī)藥數(shù)據的實踐過程中產生的。針對數(shù)據預處理,作者提出了融合降噪稀疏自編碼器的偏最小二乘法和融合非徑向數(shù)據包絡分析的偏最小二乘法;針對中藥物質基礎研究高維數(shù)據的特征選擇,作者提出了基于特征相關的偏最小二乘特征選擇方法、基于偏最小二乘的特征選擇方法以及基于灰色關聯(lián)的偏最小二乘輔助分析方法;針對具有多成分、多靶點、非線性關系的中醫(yī)藥數(shù)據分析,以及經典偏最小二乘法內部采用線性提取成分和線性回歸問題,作者提出了分別利用受限玻爾茲曼機、稀疏自編碼器、深度置信網絡實現(xiàn)非線性成分提取,以及分別融入模型樹、隨機森林和softmax實現(xiàn)非線性回歸的三種偏最小二乘優(yōu)化方法。這些優(yōu)化方法不但包含了理論、方法、步驟、實驗結果與分析,以及多種方法的結果比較,并且還采用UCI標準數(shù)據集進行實驗驗證,再以圖形和表格的形式實現(xiàn)結果的可視化。同時本書還提供一款數(shù)據分析軟件,該軟件集成了書中提出的優(yōu)化方法,為中醫(yī)藥科研工作者提供了一種實用工具。全書內容的安排總體上遵從數(shù)據挖掘的一般步驟,包含數(shù)據挖掘和統(tǒng)計學基本知識、數(shù)據預處理、特征提取、特征選擇、建模、評估等,也符合中醫(yī)藥數(shù)據分析的基本要求,全書的理論、方法和實驗三者相互結合,循序漸進,條理清晰,圖文并茂,通俗易懂,適合對數(shù)理統(tǒng)計、機器學習感興趣的研究生以及從事醫(yī)藥數(shù)據分析研究的科研工作者學習參考。
在本書研究方法形成的過程中,作者得到了固體制劑國家工程中心和現(xiàn)代中藥制劑教育部重點實驗室科研團隊的大力支持和幫助。劉紅寧教授、王躍生教授、余日躍教授、徐國良教授、饒毅教授、黃麗萍教授、付劍江教授、劉波教授等提出了很好的指導意見,李冰濤副教授、陳銀芳副教授在數(shù)據采集、處理、解釋等方面提供了諸多具體的幫助,周麗老師在數(shù)學方面給予了指導,衷心感謝各位老師的指導和幫助!在本書編寫過程中,碩士研究生郝竹林、朱志鵬、喻芳、曾青霞、羅計根、黃燦奕、李歡、賀佳、李郅琴、李天賜、楊延云、周婷、陳裕鳳、胡定興等對全書內容進行了整理和校對,付出了辛勤的汗水,衷心感謝各位同學的幫助!在本書的撰寫過程中,作者閱讀、參考了大量國內外文獻,借鑒了其方法與思路,在此對所涉及的專家和研究人員表示衷心的感謝。在本書出版過程中,清華大學出版社領導、審稿專家、責任編輯羅健提出了大量寶貴的修改意見和建議,為本書高質量的出版付出了辛勤的勞動,表示衷心的感謝!此外,本書的出版得到了國家自然科學基金(項目編號:61363042、61562045、61762051)的支持,在此一并表示衷心的感謝!
經過多年研究,我們認為偏最小二乘及其優(yōu)化方法不僅可以較好地處理多成分、多靶點以及多藥效指標的中醫(yī)藥數(shù)據,而且可以較好地解決中醫(yī)藥數(shù)據存在的多重共線性、非線性特點以及高維小樣本等問題。但是在中醫(yī)藥領域中,有待解決的問題仍然很多,本書涉及的內容僅能解決其中的小部分。希望本書的出版能夠起到拋磚引玉的作用,給讀者帶來靈感或者啟發(fā)。由于編寫時間和水平有限,本書難免有錯誤和不足之處,敬請各位專家和讀者批評指正。
作者
2021年2月1日
目 錄
第1章 緒論 001
第2章 數(shù)據基本表述 005
2.1 數(shù)據基本知識 005
2.2 度量中心趨勢 006
2.3 度量離散程度 010
2.4 正態(tài)分布 011
2.5 本章小結 012
第3章 數(shù)據常規(guī)預處理 013
3.1 數(shù)據清理 013
3.1.1 缺失值處理 013
3.1.2 噪聲數(shù)據處理 015
3.2 數(shù)據標準化 016
3.2.1 數(shù)據中心化處理 017
3.2.2 數(shù)據的無量綱化處理 018
3.2.3 標準化處理 018
3.3 本章小結 019
第4章 線性回歸分析 021
4.1 線性回歸模型 021
4.1.1 一元線性回歸 021
4.1.2 多元線性回歸 022
4.2 最小二乘法原理 023
4.2.1 計算方法的推導 023
4.2.2 總體參數(shù)估計量的性質 027
4.3 多重共線性問題 028
4.3.1 問題的提出 028
4.3.2 多重共線性的影響 029
4.3.3 多重共線性的診斷 031
4.3.4 解決多重共線性的方法 033
4.4 模型效果評價指標 035
4.4.1 測定系數(shù) 035
4.4.2 均方根誤差 037
4.5 本章小結 038
第5章 偏最小二乘線性回歸模型 039
5.1 基本思路與算法原理 039
5.1.1 基本思路 039
5.1.2 算法原理 040
5.1.3 交叉有效性 043
5.2 算法的基本性質 044
5.3 主要分析技術 048
5.3.1 主成分分析 048
5.3.2 典型相關性分析 051
5.3.3 T2橢圓圖輔助分析 054
5.3.4 變量投影重要性輔助分析技術 055
5.4 本章小結 056
第6章 偏最小二乘在中醫(yī)藥領域應用的思路 057
6.1 中醫(yī)藥實驗數(shù)據 057
6.1.1 數(shù)據來源 057
6.1.2 數(shù)據特點 061
6.2 總體思路與分析策略 061
6.2.1 總體思路與目標 061
6.2.2 分析策略 063
6.3 本章小結 065
第7章 優(yōu)化偏最小二乘的數(shù)據預處理方法 066
7.1 問題的提出 066
7.2 基于降噪稀疏自編碼器的偏最小二乘缺失值處理 067
7.2.1 降噪稀疏自編碼器 067
7.2.2 優(yōu)化模型的建立 070
7.2.3 實驗設計與結果分析 071
7.3 基于非徑向數(shù)據包絡分析的偏最小二乘噪聲處理 074
7.3.1 非徑向數(shù)據包絡分析 074
7.3.2 優(yōu)化模型的建立 076
7.3.3 實驗設計與結果分析 080
7.4 本章小結 083
第8章 優(yōu)化偏最小二乘輔助特征選擇研究 084
8.1 問題的提出 084
8.2 特征選擇方法 084
8.2.1 相關定義 085
8.2.2 特征選擇的過程 086
8.2.3 方法的類型 087
8.3 基于特征相關的偏最小二乘特征選擇 088
8.3.1 基于相關性的特征選擇方法 088
8.3.2 優(yōu)化模型的建立 089
8.3.3 實驗設計與結果分析 091
8.4 基于L1正則項的偏最小二乘特征選擇 094
8.4.1 LASSO方法 094
8.4.2 優(yōu)化模型的建立 098
8.4.3 實驗設計與結果分析 102
8.5 基于灰色關聯(lián)的偏最小二乘特征選擇 111
8.5.1 灰色關聯(lián)分析 111
8.5.2 優(yōu)化模型的建立 112
8.5.3 實驗設計與結果分析 116
8.6 本章小結 118
第9章 偏最小二乘成分提取的非線性優(yōu)化模型 120
9.1 問題的提出 120
9.2 融合受限玻爾茲曼機的偏最小二乘優(yōu)化模型 121
9.2.1 受限玻爾茲曼機 121
9.2.2 優(yōu)化模型的建立 124
9.2.3 實驗設計與結果分析 126
9.3 融合稀疏自編碼器的偏最小二乘優(yōu)化模型 129
9.3.1 自編碼器 129
9.3.2 稀疏自編碼器的構造 131
9.3.3 優(yōu)化模型的建立 131
9.3.4 實驗設計與結果分析 134
9.4 融合深度置信網絡的偏最小二乘優(yōu)化模型 137
9.4.1 深度置信網絡 137
9.4.2 優(yōu)化模型的建立 139
9.4.3 實驗設計與結果分析 141
9.5 本章小結 144
第10章 偏最小二乘回歸的非線性優(yōu)化模型 146
10.1 問題的提出 146
10.2 融合模型樹的偏最小二乘優(yōu)化 146
10.2.1 模型樹 147
10.2.2 非線性模型的建立 149
10.2.3 實驗設計與結果分析 151
10.3 融合隨機森林的偏最小二乘優(yōu)化 154
10.3.1 隨機森林 154
10.3.2 非線性模型的建立 156
10.3.3 實驗設計與結果分析 159
10.4 融合softmax的偏最小二乘優(yōu)化 162
10.4.1 softmax 162
10.4.2 非線性模型的建立 163
10.4.3 實驗設計與結果分析 166
10.5 本章小結 170
第11章 總結與展望 173
11.1 偏最小二乘的優(yōu)勢 173
11.2 偏最小二乘的不足 174
11.3 偏最小二乘的展望 176
附錄A 專業(yè)術語 178
附錄B 優(yōu)化偏最小二乘的多功能數(shù)據分析系統(tǒng)使用指南 179
附錄C 中醫(yī)藥實驗數(shù)據表 202