本書(shū)是為所有有意提高數(shù)據(jù)素養(yǎng)的讀者撰寫的入門讀物,它旨在幫助讀者站在大數(shù)據(jù)時(shí)代的風(fēng)口知道數(shù)據(jù)的價(jià)值、樹(shù)立提升數(shù)據(jù)素養(yǎng)的意識(shí)、明確提升數(shù)據(jù)素養(yǎng)的方法和途徑、了解提升數(shù)據(jù)素養(yǎng)的終級(jí)目標(biāo)。
本書(shū)全面介紹了與數(shù)據(jù)素養(yǎng)有關(guān)的概念,再現(xiàn)了各個(gè)概念出現(xiàn)的背景和發(fā)展歷程,建立了數(shù)據(jù)素養(yǎng)內(nèi)涵模型,對(duì)比分析了現(xiàn)階段國(guó)內(nèi)外數(shù)據(jù)素養(yǎng)教育現(xiàn)狀,介紹了膠水語(yǔ)言Python的主要使用場(chǎng)景和大數(shù)據(jù)時(shí)代研究數(shù)據(jù)素養(yǎng)所必須知道的相關(guān)理論,舉例說(shuō)明了如何運(yùn)用Python及其常見(jiàn)的工具庫(kù)實(shí)現(xiàn)數(shù)據(jù)存取、數(shù)據(jù)清洗、數(shù)據(jù)分析和數(shù)據(jù)可視化,進(jìn)一步展現(xiàn)了Python在實(shí)踐數(shù)據(jù)素養(yǎng)中的重要價(jià)值。
本書(shū)集數(shù)據(jù)素養(yǎng)理論與實(shí)踐于一體,無(wú)論是數(shù)據(jù)素養(yǎng)的理論研究者,還是打算依托Python提升數(shù)據(jù)素養(yǎng)的實(shí)踐者,都會(huì)看到自己關(guān)注的內(nèi)容。
“小愛(ài)同學(xué)!”“我在。”“今天天氣怎么樣?”“今天氣溫……”若干年以前,很難想象,一位畢生都與黃土打交道的67歲老人,在早上起床后會(huì)第一時(shí)間與一個(gè)“盒子”有這樣的一段對(duì)話。然而,在21世紀(jì)20年代的當(dāng)下,類似的事情屢見(jiàn)不鮮。
以5G+ABC為代表的“智慧未來(lái)”已悄然到來(lái)。其中,5G并不僅僅指帶寬的增加,其更是互聯(lián)網(wǎng)基礎(chǔ)建設(shè)完善化的代名詞,它也是未來(lái)超級(jí)信息化社會(huì)基建工程的標(biāo)的物;ABC則分別指代人工智能(AI)、大數(shù)據(jù)(Big Data)和云計(jì)算(Cloud Computing)。
如果說(shuō)ABC是個(gè)組織結(jié)構(gòu),那么組成這個(gè)龐大、高效“巨無(wú)霸”的基元就是數(shù)據(jù)。在這個(gè)時(shí)代,數(shù)據(jù)不僅是資源,更是資產(chǎn),身居這個(gè)時(shí)代的人們,要學(xué)著去組織和管理這些無(wú)形的獨(dú)立實(shí)體。世界經(jīng)濟(jì)論壇報(bào)告曾經(jīng)預(yù)測(cè),未來(lái)的大數(shù)據(jù)將成為新的財(cái)富高地,其價(jià)值可能堪比石油,而“大數(shù)據(jù)之父”維克托也樂(lè)觀地表示,把數(shù)據(jù)列入企業(yè)資產(chǎn)負(fù)債表只是時(shí)間問(wèn)題。企業(yè)已經(jīng)意識(shí)到要實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,那么個(gè)人如何才能在這個(gè)風(fēng)口展翅翱翔?毫無(wú)疑問(wèn),提升個(gè)人的數(shù)據(jù)素養(yǎng)是唯一的途徑。只有如此,人們才能坦然面對(duì)ABC給我們帶來(lái)的一切好與不好,才能找到自己在未來(lái)中的角色和位置。
本書(shū)是陸紅教授主持的北京市教育委員會(huì)科技計(jì)劃立項(xiàng)課題“基于機(jī)器學(xué)習(xí)方法的房?jī)r(jià)大數(shù)據(jù)分析模型構(gòu)建研究”的研究成果之一,主要由“數(shù)據(jù)素養(yǎng)概述”“國(guó)內(nèi)外DL教育的現(xiàn)狀分析”“邁向DL的第一步:走近Python”“實(shí)踐Python與DL的千絲萬(wàn)縷關(guān)系”“DL行而不輟,DT未來(lái)可期”五部分組成。
第1章主要介紹了數(shù)據(jù)素養(yǎng)相關(guān)的概念,包含數(shù)、數(shù)據(jù)、大數(shù)據(jù)以及數(shù)據(jù)素養(yǎng)。在每個(gè)概念的闡述中引用了大量前人的研究成果和網(wǎng)絡(luò)上提供的史料圖片,再現(xiàn)了各個(gè)概念出現(xiàn)的背景和發(fā)展歷程。除此之外,還運(yùn)用了多個(gè)官方網(wǎng)站的數(shù)據(jù)資源,對(duì)數(shù)據(jù)的類別以及數(shù)據(jù)與信息、知識(shí)、智慧之間的關(guān)系進(jìn)行了詮釋。最后通過(guò)分析、概括、總結(jié)本書(shū)對(duì)數(shù)據(jù)素養(yǎng)內(nèi)涵的定義,建立了數(shù)據(jù)素養(yǎng)內(nèi)涵模型。
第2章主要分析了國(guó)內(nèi)現(xiàn)階段高校數(shù)據(jù)素養(yǎng)涉及的領(lǐng)域,分析了我國(guó)數(shù)據(jù)素養(yǎng)教育現(xiàn)存的問(wèn)題。通過(guò)對(duì)比國(guó)外數(shù)據(jù)素養(yǎng)教育現(xiàn)狀,如美國(guó)、歐盟、日本等國(guó)家和地區(qū)在數(shù)據(jù)素養(yǎng)教育過(guò)程中國(guó)家戰(zhàn)略實(shí)施的過(guò)程,總結(jié)得出了在我國(guó)實(shí)施數(shù)據(jù)素養(yǎng)教育需要共建數(shù)據(jù)素養(yǎng)教育生態(tài)圈,只有在以個(gè)人需求為導(dǎo)向、以學(xué)校教育為基礎(chǔ)、社會(huì)實(shí)踐相融合、政策有力支持保障的情況下才能將數(shù)據(jù)素養(yǎng)教育推向新層次的結(jié)論。
第3章主要介紹了什么是計(jì)算機(jī)程序設(shè)計(jì)語(yǔ)言,什么是Python,Python的主要特點(diǎn)和優(yōu)勢(shì)。在此前提下,介紹了Python的主要使用場(chǎng)景,并對(duì)一些不適合使用Python的情況進(jìn)行了簡(jiǎn)略分析;詳細(xì)介紹了在Windows操作系統(tǒng)中如何配置Python開(kāi)發(fā)環(huán)境,并以“你好,Python”為例說(shuō)明了如何創(chuàng)建Python項(xiàng)目和程序,以及如何運(yùn)行Python程序和查看程序運(yùn)行結(jié)果;系統(tǒng)闡述了Python中變量、對(duì)象、基本數(shù)據(jù)類型、組合對(duì)象、自定義函數(shù)、流程控制、異常及異常處理、注釋等重要內(nèi)容。
第4章主要介紹了如何運(yùn)用Python及其常見(jiàn)的工具庫(kù)實(shí)現(xiàn)數(shù)據(jù)存取、數(shù)據(jù)清洗和數(shù)據(jù)可視化,進(jìn)一步體現(xiàn)了Python在提升數(shù)據(jù)素養(yǎng)中的重要價(jià)值。其中,數(shù)據(jù)存取部分根據(jù)數(shù)據(jù)存取位置,分別對(duì)各類方法做了詳細(xì)介紹;在數(shù)據(jù)清洗中對(duì)如何使用正則表達(dá)式、如何處理數(shù)據(jù)缺失值、如何使用Beautiful Soup做了詳細(xì)說(shuō)明。在這兩個(gè)前提下,分別介紹了Pandas和NumPy & Matplotlib等在數(shù)據(jù)分析和可視化中的應(yīng)用方式。
第5章主要介紹了在大數(shù)據(jù)時(shí)代研究數(shù)據(jù)素養(yǎng)所必須知道的數(shù)學(xué)理論,包括統(tǒng)計(jì)學(xué)、信息論和混沌理論等。在此前提下,介紹了探索性數(shù)據(jù)分析的工作方式,包括異常值分析、對(duì)比分析和回歸分析等;詳細(xì)介紹了在大數(shù)據(jù)領(lǐng)域常用的智能算法,比如降維算法、遺傳算法、RBM算法和AdaBoost元算法等;系統(tǒng)闡述了模式識(shí)別、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等方面的應(yīng)用場(chǎng)景和常用的算法;提出在大數(shù)據(jù)時(shí)代,運(yùn)用數(shù)據(jù)素養(yǎng)相關(guān)方法搞清“問(wèn)題是什么”是第一步,分辨“問(wèn)題在哪里”是第二步,衡量“問(wèn)題的大小或數(shù)量多少”是第三步,找到“問(wèn)題如何解決”才是終極目標(biāo)。
本書(shū)結(jié)構(gòu)清晰、簡(jiǎn)約、嚴(yán)密,理論方面涉及數(shù)據(jù)素養(yǎng)方面的基本概念、模型(第1章),國(guó)內(nèi)外數(shù)據(jù)素養(yǎng)教育的現(xiàn)狀(第2章),以及數(shù)據(jù)素養(yǎng)中不可忽略的各種算法(第5章)等;實(shí)踐方面則詳細(xì)介紹了使用Python完成數(shù)據(jù)讀取、數(shù)據(jù)處理、數(shù)據(jù)分析和數(shù)據(jù)可視化等的具體方法和步驟(第3章和第4章)。有志于在數(shù)據(jù)素養(yǎng)方面有所研究和突破的讀者,通過(guò)閱讀本書(shū),不僅可以學(xué)習(xí)數(shù)據(jù)素養(yǎng)的相關(guān)理論,還可以完成一些有利于提升數(shù)據(jù)素養(yǎng)的實(shí)踐項(xiàng)目。
本書(shū)在撰寫過(guò)程中,得到了陸紅、劉瑞新等同人的幫助,書(shū)中的部分插圖由李子豪繪制,在此特別感謝。另外,如果沒(méi)有家人的支持,沒(méi)有父親、母親無(wú)微不至的關(guān)心,也許本書(shū)還需要更長(zhǎng)時(shí)間才能與讀者見(jiàn)面,在此一并感謝。
由于Python及其插件不斷升級(jí),加之?dāng)?shù)據(jù)素養(yǎng)涉及的領(lǐng)域比較廣泛,也許書(shū)中處理某些問(wèn)題的途徑有更優(yōu)的替代方案,這都有待于日后不斷深入研究,真誠(chéng)希望讀者能夠提出寶貴的建議。
作者
2021年2月(除夕)
范美英,北京信息職業(yè)技術(shù)學(xué)院副教授,軟件與信息學(xué)院骨干教師,北京市高等學(xué)校青年英才,國(guó)家級(jí)教師創(chuàng)新團(tuán)隊(duì)成員。主要研究領(lǐng)域?yàn)閃eb前端開(kāi)發(fā)技術(shù)、移動(dòng)應(yīng)用開(kāi)發(fā)技術(shù)、軟件開(kāi)發(fā)技術(shù)、軟件UI設(shè)計(jì)等。曾主持教育部職業(yè)教育計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)教學(xué)資源庫(kù) “Android移動(dòng)應(yīng)用開(kāi)發(fā)” 課程子庫(kù)建設(shè),榮獲優(yōu)秀項(xiàng)目獎(jiǎng)。近年來(lái),在各級(jí)教師教學(xué)能力大賽中屢獲獎(jiǎng)項(xiàng)。