內容簡介
微軟Azure ML平臺簡化了使用機器學習的過程,以便于開發(fā)人員、業(yè)務分析師和數(shù)據(jù)科學家廣泛、便捷地應用。
微軟Azure ML提供了一種用于執(zhí)行價值預測(回歸)、異常檢測、聚類和分類的云服務,其圖形化、模塊化的方法將讓學習者快速了解機器學習模型。
《微軟Azure機器學習實戰(zhàn)手冊》的學習,讀者能輕而易舉地了解如何導入數(shù)據(jù)、如何進行數(shù)據(jù)預處理、如何將數(shù)據(jù)分離用于訓練模型和驗證模型、如何選擇算法訓練模型以及如何評估模型的效果。
整個過程無須編程,完全是通過拖拽和配置完成,與Azure機器學習相關的任務不僅都可在現(xiàn)代web瀏覽器中完成,而且?guī)缀鯖]有任何時間和基礎設施的啟動成本,從而能讓讀者快速掌握Azure ML用法,把多的精力放在理解數(shù)據(jù)和算法上。
·本書作者千賀大司、山本和貴及大澤文孝均為數(shù)據(jù)專家,且在日經BP社主辦的學習交流會“從零開始了解‘機器學習’實踐講座”中擔任講師,通過實際操作針對Azure ML進行了解說,具有豐富的實操經驗。
·通過本書的學習,讀者無需編程,完全是通過拖拽和配置完成,操作簡單,可快速掌握Azure ML用法,從而把更多的精力放在理解數(shù)據(jù)和算法上。
大概從2014年開始,在我們周圍越來越多地聽到和看到“機器學習”這個詞。微軟公司推出的通過圖形用戶界面(Graphical L5ser Interface,GUI)工具就可以輕松實現(xiàn)機器學習的Azure ML于2014年6月首次對外發(fā)布,并于2015年2月開始提供通用版本(General Availability,GA),之后我感到“機器學習”這一概念快速傳播開來。
2015年5月,在微軟日本股份有限公司舉辦的面向日本國內技術人員的最大盛會“de:code2015”上,我們幾位介紹了Azure ML成功預測出超過100萬用戶脫離智能手機游戲(退會)這一案例。并且于同年10月,我們在日經BP社主辦的學習交流會“從零開始了解‘機器學習’實踐講座”中擔任了講師,就AzureML如何實操進行了現(xiàn)場解說。通過這些活動,一方面大眾對我們FIXER公司有了更多的了解,另一方面FIXER公司也獲得了來自日本知名企業(yè)的諸如“希望使用機器學習預測器械、機器故障并進行預防”“希望使用機器學習創(chuàng)造機器人人工智能”等委托項目。
本書旨在將機器學習應用到現(xiàn)實的商業(yè)當中,并將其轉變?yōu)樯唐坊蚍⻊,而不是單純地將機器學習捧為流行語。換言之,我們出版本書的目的并不是追求學術價值,而是為了讓大家能夠使用、活用機器學習,不落后于時代變革的潮流,甚至能夠引領時代潮流。希望通過本書,工程師以及商業(yè)人士能夠發(fā)明出使用機器學習的新型服務,或者從數(shù)據(jù)中發(fā)現(xiàn)以前被忽略的新視角。
以前,一提到機器學習,就會想到是那些被稱為“數(shù)據(jù)科學家”的專業(yè)人士使用的專業(yè)工具,但是如今情況會有所不同。奮戰(zhàn)在商界的企業(yè)家們可以對數(shù)據(jù)進行直接分析,讓使用數(shù)據(jù)的服務以及搭載人工智能的服務開始成為可能?梢哉f,企業(yè)家和數(shù)據(jù)科學家之間在認知以及理解上的障礙已經消除。初級的系統(tǒng)工程師和開發(fā)商很難涉足的數(shù)據(jù)分析、推薦引擎以及人工智能的開發(fā)和使用難度也會大幅下降。
“統(tǒng)計”一詞自公元前誕生于埃及以來已經發(fā)展了3000多年,機器學習的理論基礎自出現(xiàn)至今已經過了40多年,但在商業(yè)中的實際應用可以說依然非常受限。我們幾位常年從事股票數(shù)據(jù)的分析,通過各種方式對市場動向及個別股票產品進行預測,但是僅僅依據(jù)從金融工程學以及統(tǒng)計學中導出的現(xiàn)有理論,很難獲得高水平成果。
簡單一提的是,過去在未來市場預測方面能夠取得較高水平成果的方式,是把幾十臺服務器聯(lián)接起來,使用計算機進行大量的運算,分析離散數(shù)據(jù)而不是分析函數(shù)數(shù)據(jù)。而現(xiàn)在,隨著摩爾定律的不斷發(fā)展,計算機的處Nt陛能以及計算資源也在不斷擴大。自從進入了云端時代,即使是個人也可以在短時間內以較低成本同時使用幾十臺甚至幾百臺服務器。
與此同時,現(xiàn)在可以以較低的成本儲存大量數(shù)據(jù)。比如,當今世界很多人都使用智能手機,谷歌、蘋果公司的以及手機App開發(fā)人員每時每刻都能收到來自世界各地的幾億部智能手機中的大量數(shù)據(jù)。除此之外,每隔幾分鐘或者幾小時,就能收到來自幾百萬輛、幾千萬輛汽車以及家電產品的注冊信息。如果是在10年之前,收集、存儲如此巨大的數(shù)據(jù)是不可能的。10年前,1TB容量的企業(yè)版高速存儲器價格超過1億日元,但是現(xiàn)在,不到1萬日元的硬盤(Hard Disk Drive,HDD)的容量就已經超過了1TB。2016年4月,Azure的存儲服務價格標準為:使用99.9%的服務級別協(xié)議(SLA)用三塊硬盤備份的設備,1GB平均每月228日元。
作者簡介
千賀大司(Hiroshi Senga)
FIXER公司總經理
微軟Azure解決方案架構師、信息處理技術人員
1999年畢業(yè)于名古屋大學法學部。曾在佳能IT部門作為金融高級軟件工程師致力于國內外銀行及年金系統(tǒng)的開發(fā)。隨后10余年一直在提供股票分析服務的網(wǎng)絡風投公司擔任CTO,目前擔任東證一部上市企業(yè)R&D的部門負責人。擅長金融、證券分析和網(wǎng)絡服務數(shù)據(jù)分析、市場自動化及大規(guī)模并發(fā)分散系統(tǒng)的體系結構,F(xiàn)在,一方面支持機器學習等使用Azure服務的數(shù)字市場,一方面致力于推進面向證券、金融的FinTech解決方案的研究以及由人造機器人的人工知能或者人工智能構成的呼叫中心支援系統(tǒng)的開發(fā)。
山本和貴(Kazuki Yamamoto)
FIXER公司數(shù)據(jù)科學家
2015年畢業(yè)于東京都立產業(yè)技術高等專業(yè)學校制造工學部的電子信息工學系。在高等專業(yè)學校的畢業(yè)論文研究中,為了預測網(wǎng)絡輻輳同機器學習相遇,之后一直著迷于機器學習。從事于人工智能云的開發(fā),將使用微軟Azure ML的深層學習研究及通過機器學習提高服務質量的音聲識別、面部識別、個性化引擎等進行組合。
大澤文孝(Fumitaka Oosawa)
科技作家程序設計師信息處理技術人員
主要面向開發(fā)人員在雜志報刊上撰寫有關服務器、網(wǎng)絡、網(wǎng)絡編程、安全等文章。近幾年,主要從事網(wǎng)絡系統(tǒng)的設計及開發(fā)。著有《掌握幫神技能:掌握Java編程入門》《掌握幫神技能:網(wǎng)絡和編程基礎中的基礎》《Amazon Web Services云端設計模式安裝指導》等書籍
第1章 什么是機器學習
明晰機器學習
機器學習概述
機器學習流行的“原因”
將機器學習用于商業(yè)的方法
消除對機器學習的誤解
機器學習通過數(shù)據(jù)進行判斷
機器學習是“系統(tǒng)”
機器自己會變聰明嗎
必須決定“特征向量”
開啟機器學習之旅
機器學習專用工具
無須編程就可以使用的Azure ML
即使如此,依然想編程
通過判斷目標來選擇分類器
第2章 收集數(shù)據(jù)
使用公司內部數(shù)據(jù)
日志文件等歷史數(shù)據(jù)
非時間類型數(shù)據(jù)
使用公開數(shù)據(jù)
DATA.GO.JP
DATA.GOV
Twitter
GitHub
第3章 通過Azure ML創(chuàng)建機器學習模型
Azure ML的基本操作
注冊Azure ML Studio
在工作區(qū)進行操作
機器學習的方法
在Azure ML中進行機器學習的流程
創(chuàng)建機器學習模型時Experiment的編輯界面
機器學習模型的構成和種類
學習邏輯
計算邏輯
學習組件的種類
第4章 使用回歸分析預測數(shù)據(jù)
什么是回歸分析
本模擬所實現(xiàn)目標
本模擬所建模型
上傳用于分析的數(shù)據(jù)集
下載CSV文件樣本
將CSV文件作為數(shù)據(jù)集進行上傳保存
新建Experiment
添加和調整所要分析的數(shù)據(jù)集對象
添加數(shù)據(jù)集
將范圍縮小至使用列
修復受損數(shù)據(jù)
分離學習用數(shù)據(jù)和評價用數(shù)據(jù)
構建學習邏輯
構成回歸分析的組件
使用已訓練模型預測評價用數(shù)據(jù)
使用評分模型進行數(shù)據(jù)預測
確認預測值
第5章 嘗試使用已建回歸分析模型
使用已訓練模型進行計算
上傳用于計算的數(shù)據(jù)集對象
在評分模型右上方輸入數(shù)據(jù)即可得出結果
保存已訓練模型,使其在其他Experiment中也可以使用
保存已訓練模型
使用已訓練模型進行預測
新建用于預測的Experiment
創(chuàng)建可進行數(shù)據(jù)預測的機器學習模型
觀察運行結果
以CSV形式輸出
數(shù)據(jù)轉換組件
第6章 提高預測精度
提高預測精度的方法
確認目前的預測精度
使用評估模型對分析結果進行評價
確認評價結果
更改參數(shù)提高精確度
更改Linear Regression的參數(shù)
優(yōu)化學習組件
可用于回歸分析的學習組件種類
更改為貝葉斯線性回歸
使用有限的學習數(shù)據(jù)進行檢驗
使用“Cross Validate Model”組件
確認“Cross Validate Model”的評價結果
第7章 通過統(tǒng)計分類進行判斷
什么是統(tǒng)計分類
本模擬所實現(xiàn)目標
本模擬所建模型
用統(tǒng)計分類創(chuàng)建分類機器學習模型
新建數(shù)據(jù)集
新建Experiment
創(chuàng)建數(shù)據(jù)集
構建學習邏輯
預測和評價
確認和反思學習結果
確認使用評價用數(shù)據(jù)得出的結果
評價統(tǒng)計分類的學習結果
使用其他統(tǒng)計分類學習組件
第8章 用聚類方法判別相似數(shù)據(jù)
什么是聚類
本模擬所實現(xiàn)目標
本模擬所建模型
創(chuàng)建可通過聚類分析分組的機器學習模型
新建數(shù)據(jù)集
新建 Experiment
添加數(shù)據(jù)集
構建學習邏輯
確認分組結果
將用于評價的數(shù)據(jù)加入到已訓練的學習模型中
第9章 活用實驗結果
Web API化
數(shù)據(jù)可視化
第10章 讓機器越來越聰明
進行模型的二次學習
用Web API更新公開的分類器(模型更新)
附錄 使用Azure ML的方法
創(chuàng)建環(huán)境
創(chuàng)建Microsoft賬戶
激活訂閱
登錄Azure
云優(yōu)化您的業(yè)務
創(chuàng)建工作區(qū)
訪問Azure ML Studio
關于收費
免費使用