本書基于聲智科技SoundAI Azero智能操作系統(tǒng),詳細介紹智能語音交互開發(fā)的全過程,包括智能語音趨勢、智能系統(tǒng)基礎、技能開發(fā)實踐等,以及如何在SoundPi智能開發(fā)魔盒上進行設備和技能開發(fā)。SoundPi是聲智科技按照消費電子產(chǎn)品標準研發(fā)設計的開發(fā)套件,內(nèi)置SoundAI Azero,支持快捷二次開發(fā),開放多種硬件接口,支持IoT設備控制,是開發(fā)者體驗智能、驗證產(chǎn)品、擴展應用的標準參考硬件。書中的開發(fā)教程為使用者提供直接、高效的學習和實踐方式,幫助快速打造具有語音交互功能的智能產(chǎn)品,為下一步的高階開發(fā)奠定基礎。
本書是智能語音開發(fā)的入門書籍,可供學生、初學者和開發(fā)愛好者進行智能語音開發(fā)時參考。
人工智能賦予了機器自主決策的能力,將帶動各個行業(yè)從電氣化、自動化升級到智能化時代,是帶動全球經(jīng)濟增長的關鍵技術創(chuàng)新。這已經(jīng)是全球的共識,其重要性毋庸置疑。但是人工智能怎樣才能像互聯(lián)網(wǎng)一樣成為引領一個新興時代的核心推動力呢?這其實也是全球創(chuàng)新組織進行技術迭代和商業(yè)探索的困惑:技術做到什么程度才是重大突破?技術應用到行業(yè)是“+AI”還是“AI+”?技術在商業(yè)實踐中扮演什么角色?其實,人工智能與互聯(lián)網(wǎng)的發(fā)展歷程類似。目前,人工智能處于早期階段,當下最為重要的任務是普及人工智能知識,培養(yǎng)人工智能人才,這才是我國人工智能發(fā)展的關鍵,也是我國人工智能引領全球的基礎。
核心技術的競爭歸根結底還是人才的競爭,我國把人工智能提升為國家戰(zhàn)略。2018年教育部印發(fā)的《高等學校人工智能創(chuàng)新行動計劃》,明確指出當前人工智能人才還存在巨大缺口以及分布不均的問題。人工智能人才在產(chǎn)業(yè)鏈的分布上可以劃分為三個層次:基礎層、技術層、應用層。其中,基礎層主要包括數(shù)據(jù)、芯片、算法三個方面,技術層主要是計算機視覺、智能語音交互、知識圖譜、機器學習等,應用層則覆蓋了汽車、安防、金融、醫(yī)療、家居、教育等應用場景。人工智能的興起必須依賴全產(chǎn)業(yè)鏈條的人才儲備。我國各高校已經(jīng)開始這項偉大的工程,目前有超過一百家高校開設了人工智能相關專業(yè)和課程,包括清華大學、北京大學、中國科學院大學、中國科學技術大學、北京航空航天大學、中國人民大學等。與此同時,人工智能也逐漸進入中小學課堂進行試點教育?梢灶A見,不久之后人工智能將會成為大中小學生的必修課程,人工智能技術將成為未來職場人士必備的知識和技能之一。
但是,人工智能普及基礎教育的周期較長,大中小學和職業(yè)教育的學生也需要一個即時應用的示范,這就需要在應用教育方面尋求一個突破口。智能語音作為人工智能的基礎技術和入口,也是人工智能應用的關鍵所在,而且在消費電子領域以智能音箱為代表在全球引領了人工智能的場景示范,孕育了從傳感、芯片、系統(tǒng)到方案的成熟產(chǎn)業(yè)鏈,囊括了全球包括亞馬遜、蘋果、谷歌、微軟、百度、華為、阿里、騰訊等著名公司,不僅是入門人工智能行業(yè)的快速通道,而且也是謀求職業(yè)轉型的優(yōu)先選擇。
智能語音是一個復雜冗長的鏈條技術,融合了聲學、語音和語言三大學科。即便最簡單的人機對話,至少也需要聲學算法、語音喚醒、端點檢測、語音識別、語言理解和語音合成等,僅僅聲學算法就包括了回聲抵消、噪聲抑制、聲源定位、混響消除、波束形成等具體算法。顯然,智能語音的這種技術復雜性大幅增加了學習和開發(fā)的成本,不利于行業(yè)應用和場景落地。因此,我國有必要建設一套以操作系統(tǒng)為核心的中間層AI作為基礎設施,并以此為契機加強人工智能領域的教育培訓,抓住人工智能技術和行業(yè)與國外同步發(fā)展的契機。
SoundAI Azero是聲智科技基于全球領先的遠場語音交互技術,是為企業(yè)、個人及第三方開發(fā)者免費開放的全鏈條AI操作系統(tǒng),致力于連接有價值的信息、服務與設備,讓智能服務隨處可享。Azero經(jīng)過了數(shù)十億次人機交互真實場景的規(guī)模驗證,可為家居、辦公、車載、可穿戴等20+場景和設備提供高效的人機交互和智能決策能力。Azero默認集成了信息查詢、影音娛樂、IoT控制等200+項常用技能與服務,同時提供簡單好用的語音技能開發(fā)工具和一站式智能語音軟硬件方案,可以極大地降低AI行業(yè)應用的開發(fā)難度和使用門檻,快速滿足不同用戶和行業(yè)群體的個性化需求。
本書作為SoundAI Azero智能操作系統(tǒng)的參考用書,側重開發(fā)基礎和應用實踐,適合中學及高等院校的師生學習和實踐,相應內(nèi)容也將及時在SoundAI Azero網(wǎng)站同步更新。
由于作者水平有限,書中錯誤與不妥之處在所難免,懇請廣大讀者批評指正。
聲智科技董事長兼CEO:陳孝良
2019年5月7日
第一部分 智能語音技術入門
第1章 智能語音技術時代的來臨
1.1智能語音的趨勢與挑戰(zhàn)
1.2如何學習智能語音開發(fā)
第二部分 如何開發(fā)語音交互技能
第2章 技能接入
2.1技能概述
2.1.1什么是技能
2.1.2技能的類型
2.1.3如何與技能交互
2.2技能交互設計規(guī)范
2.2.1技能場景定義
2.2.2技能語料設計
2.2.3技能引導設計
2.2.4多輪對話設計
2.2.5技能風格設計
2.2.6技能發(fā)布設計
第3章 技能接入案例研究
3.1自定義技能案例
3.1.1技能接入條件
3.1.2初級技能案例分析
3.1.3中級技能案例分析
3.1.4相關接口介紹
3.2內(nèi)容信源技能案例
3.2.1技能創(chuàng)建流程
3.2.2相關接口介紹
3.3智能家居技能案例
3.3.1智能家居介紹
3.3.2技能接入條件
3.3.3技能創(chuàng)建流程
3.3.4相關接口介紹
第三部分 如何升級成智能語音硬件產(chǎn)品
第4章 設備接入
4.1設備接入介紹
4.2 設備接入流程
第5章 設備接入?yún)f(xié)議
5.1 設備介紹
5.1.1 設備簡介
5.1.2 設備特點
5.2 設備架構協(xié)議介紹
5.2.1底層架構圖
5.2.2應用層架構圖
5.3 設備業(yè)務接口介紹
5.3.1 設備開發(fā)架構
5.3.2 通用接口
5.3.3 micbasex業(yè)務接口
5.4 設備基礎業(yè)務介紹
5.4.1主程序業(yè)務
5.4.2 Basex業(yè)務
5.5 設備集成并使用Demo
5.5.1交叉編譯
5.5.2 Demo運行
第四部分 開發(fā)套件
第6章 SoundPi Cube智能開發(fā)魔盒
6.1 認識SoundPi
6.1.1 設備基本參數(shù)
6.1.2 設備包裝清單
6.1.3 設備接口說明
6.2 使用SoundPi
6.2.1 安裝與配置
6.2.2 使用設備功能
6.2.3 安裝最新的Azero apk
6.3 重置SoundPi
6.3.1 固件安裝
6.3.2 卸載Azero app
第7章 SoundPi Mini Board開發(fā)套件
7.1 認識SoundPi Mini Board開發(fā)套件
7.1.1 設備基本參數(shù)
7.1.2 設備接口說明
7.2 使用SoundPi Mini Board
7.2.1 連接設備
7.2.2 使用設備功能
7.3 重置SoundPi Mini Board
7.3.1 固件安裝
7.3.2 結束Azero app
7.3.3 更新網(wǎng)絡