作為人工智能的核心技術方法,機器學習已經(jīng)成為了一種重要且有效的數(shù)據(jù)分析工具,并且已經(jīng)取得了令人驚嘆的成就。本書主要針對數(shù)據(jù)中含有異常點或數(shù)據(jù)服從重尾分布的問題,基于機器學習三要素,從模型構建、理論分析、算法求解及實驗驗證等方面對機器學習方法進行研究和介紹。
全書共6章。第1章為機器學習基礎知識,主要包括兩大部分的內(nèi)容,第一部分介紹了機器學習的基本問題、基本概念以及基本類型等,第二部分介紹了機器學習基本模型回歸模型的發(fā)展現(xiàn)狀,方便讀者理解本書撰寫的目的和動機。
第2章是對基于正則化方法的回歸模型的介紹,主要介紹了多種廣泛使用的正則化方法,并詳細分析了各種方法的優(yōu)缺點。
第3章主要介紹自加權魯棒正則化方法。通過機器學習模型自加權,有效提高了模型的魯棒性,為含噪聲數(shù)據(jù)分析提供了高效的學習方法。
第4章針對重尾分布數(shù)據(jù)中的自變量相關性問題,從問題分析、模型構建、理論分析以及求解算法等方面進行了詳細介紹,為此類型數(shù)據(jù)的分析提供了有效的方法和相應的理論支撐。
第5章介紹了數(shù)據(jù)中因變量相關性問題的機器學習分析方法,構建了具有鄰近樣本信息的回歸模型,給出相應的回歸系數(shù)估計方法,并給出了所提估計的誤差界證明,從回歸建模的角度為網(wǎng)絡數(shù)據(jù)的分析奠定了基礎。
第6章針對網(wǎng)絡數(shù)據(jù)中變量相關性問題,取得基于Elastic Net回歸,構建了適用于網(wǎng)絡數(shù)據(jù)的Elastic Net回歸模型,同時給出了相應的求解算法,為應用于實際問題提供了指導。
本書主要介紹了如何利用機器學習方法對數(shù)據(jù)進行有效分析,具體來說,旨在針對復雜或含噪聲數(shù)據(jù)中所存在的問題,研究能夠保證學習模型魯棒性和泛化性的技術或方法,從而能夠有效應用于實際問題。因此本書既可供數(shù)據(jù)分析、人工智能相關專業(yè)師生閱讀,也可供相關領域的工程技術人員、研究人員參考。
本書是筆者在博士期間所做研究工作的基礎上修訂而成的,因此對導師王文劍教授以及母校山西大學多位教授的指導表示感謝。
此外,本書受國家自然科學基金面上項目(No.61673249)、山西省基礎研究計劃項目(202103021223295)、大數(shù)據(jù)分析與并行計算山西省重點實驗室開放課題(編號:BDPC-23-002)、山西省高等學?萍紕(chuàng)新計劃項目(2021L323)、太原科技大學科研啟動金項目(20212054)、智能信息處理山西省重點實驗室開放課題基金資助項目(編號:CICIP2023007)、來晉工作優(yōu)秀博士獎勵基金(20232062)項目資助,在此深表感謝!
由于筆者水平、時間和精力所限,書中難免有不足,希望讀者批評指正。
著者
第1章 機器學習基礎 001
1.1 機器學習及基本概念 002
1.1.1 什么是機器學習 002
1.1.2 機器學習中的一些基本概念 003
1.2 機器學習三要素 005
1.2.1 模型 005
1.2.2 策略 006
1.2.3 算法 009
1.3 機器學習分類 009
1.3.1 監(jiān)督學習 010
1.3.2 無監(jiān)督學習 013
1.3.3 半監(jiān)督學習 013
1.3.4 強化學習 013
1.4 回歸模型發(fā)展現(xiàn)狀 014
1.4.1 線性回歸 014
1.4.2 基于鄰近信息的回歸模型 018
1.4.3 魯棒回歸模型 020
第2章 基于正則化方法的回歸模型 023
2.1 正則化方法 024
2.2 基于最小二乘估計的正則化方法 025
2.2.1 最小二乘估計 025
2.2.2 嶺回歸 026
2.2.3 Lasso估計 027
2.2.4 自適應Lasso 027
2.2.5 SCAD估計 028
2.2.6 彈性網(wǎng)絡回歸 029
2.3 魯棒(穩(wěn)健)正則化方法 029
第3章 自加權魯棒正則化方法 033
3.1 自加權魯棒方法 034
3.2 L0正則項 035
3.3 基于SELO懲罰項的自加權估計方法 037
3.3.1 自適應正則項 037
3.3.2 RSWSELO估計 038
3.3.3 理論性質(zhì)及證明 039
3.4 實驗驗證與分析 044
3.4.1 模擬實驗結果與分析 044
3.4.2 標準數(shù)據(jù)集上的實驗 049
第4章 基于自變量相關的魯棒回歸模型 055
4.1 自變量相關性問題 056
4.2 基于Elastic Net罰的魯棒估計方法 058
4.2.1 模型構建 058
4.2.2 理論性質(zhì)分析及證明 059
4.2.3 求解算法 066
4.3 實驗驗證與分析 068
4.3.1 模擬實驗結果與分析 068
4.3.2 真實數(shù)據(jù)集上的實驗 080
第5章 基于因變量相關的Lasso回歸模型 083
5.1 因變量相關性問題 084
5.2 Network Lasso估計及其性質(zhì) 085
5.2.1 模型的構建 085
5.2.2 誤差界估計 087
5.3 實驗結果與分析 097
5.3.1 人工數(shù)據(jù)集上的實驗 097
5.3.2 真實數(shù)據(jù)集上的實驗 109
第6章 面向網(wǎng)絡數(shù)據(jù)的Elastic Net回歸模型 111
6.1 網(wǎng)絡數(shù)據(jù)問題 112
6.2 面向網(wǎng)絡數(shù)據(jù)的回歸模型 112
6.3 Network Elastic Net 模型構建 114
6.3.1 模型構建 114
6.3.2 求解算法 115
6.4 實驗結果與分析 117
6.4.1 人工數(shù)據(jù)集上的實驗 117
6.4.2 實際數(shù)據(jù)分析 126
附錄 131
參考文獻 140