數(shù)據(jù)清洗

-
【作 者】黃源 劉智楊 孫大松
【I S B N 】978-7-5226-0382-7
【責任編輯】周春元
【適用讀者群】本專通用
【出版時間】2022-02-15
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁 數(shù)】192
【千字數(shù)】300
【印 張】12
【定 價】¥38
【叢 書】普通高等教育數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)教材
【備注信息】
簡介
本書特色
前言
章節(jié)列表
精彩閱讀
下載資源
相關(guān)圖書
內(nèi) 容 提 要
本書編寫目的是向讀者介紹大數(shù)據(jù)清洗的基本概念和相應的技術(shù)應用,共分8章:數(shù)據(jù)清洗簡介、數(shù)據(jù)清洗中的理論基礎、文件格式及其轉(zhuǎn)換、Excel數(shù)據(jù)清洗、Kettle數(shù)據(jù)清洗、Kettle與數(shù)據(jù)倉庫、Python數(shù)據(jù)清洗、數(shù)據(jù)清洗綜合實訓。
本書將理論與實踐操作相結(jié)合,通過大量的案例幫助讀者快速了解和應用數(shù)據(jù)清洗相關(guān)技術(shù),并對重要的核心知識點加大練習比例,以達到熟練應用的目的。
本書適用于高校人工智能、大數(shù)據(jù)技術(shù)相關(guān)專業(yè)的學生,也可供大數(shù)據(jù)技術(shù)愛好者自學使用。
內(nèi)容實用——理論與實踐結(jié)合,重點突出應用
體系完善——構(gòu)建完整的大數(shù)據(jù)專業(yè)解決方案
產(chǎn)教融合——高校企業(yè)共參與,對標行業(yè)標準
資源豐富——微課、課件、教案、源碼、答案
前 言
近年來,隨著數(shù)字經(jīng)濟的快速發(fā)展,數(shù)據(jù)成為繼土地、勞動力、資本、技術(shù)之后的第五大生產(chǎn)要素,在國家治理、社會發(fā)展和人民生活中的作用日益突出。而大數(shù)據(jù)是現(xiàn)代社會高科技發(fā)展的產(chǎn)物,是第四次工業(yè)革命最主要的內(nèi)容之一,也是數(shù)字經(jīng)濟發(fā)展重要的推動力量。
當前,發(fā)展大數(shù)據(jù)已經(jīng)成為國家戰(zhàn)略,大數(shù)據(jù)在引領經(jīng)濟社會發(fā)展中的新引擎作用更加明顯。2015年,國家印發(fā)《關(guān)于促進大數(shù)據(jù)發(fā)展的行動綱要》,第一次將大數(shù)據(jù)上升到國家戰(zhàn)略高度,提出了我國大數(shù)據(jù)的頂層設計。此后,隨著大數(shù)據(jù)底層設施逐漸成熟,大數(shù)據(jù)分析開始結(jié)合具體行業(yè),向下游垂直行業(yè)應用延伸。
大數(shù)據(jù)必須經(jīng)過清洗、分析、建模、可視化才能體現(xiàn)其潛在的價值。例如政府、銀行和保險公司等內(nèi)部存在海量的非結(jié)構(gòu)化、不規(guī)則的數(shù)據(jù),而只有將這些數(shù)據(jù)采集并清洗為結(jié)構(gòu)化、規(guī)則的數(shù)據(jù),才能提高公司決策支撐能力和政府決策服務水平,使之發(fā)揮應有的作用。
本書以理論與實踐操作相結(jié)合的方式深入講解了數(shù)據(jù)清洗的基本知識和實現(xiàn)的基本技術(shù),在內(nèi)容設計上既有上課時老師講述的部分(包括詳細的理論與典型的案例),又有大量的實訓環(huán)節(jié),雙管齊下,極大地激發(fā)了學生的學習積極性和主動創(chuàng)造性,讓學生在課堂上跟上老師的思維,從而學到更多的知識和技能。
本書特色如下:
(1)采用“理實一體化”教學方式:課堂上既有老師講述的內(nèi)容又有學生獨立思考、上機操作的內(nèi)容。
(2)豐富的教學案例:包含教學課件、習題答案等多種教學資源。
(3)緊跟時代潮流,注重技術(shù)變化:書中包含最新的大數(shù)據(jù)分析知識及一些開源庫的使用。建議讀者在閱讀本書時使用3.7以上的Python程序版本,且需要安裝MySQL和Kettle等軟件。
(4)編寫本書的老師都具有多年教學經(jīng)驗,做到重難點突出,能夠激發(fā)學生的學習熱情。
(5)配有微課視頻:對本書中的重難點進行細致講解,方便學生課后學習。
本書可作為大數(shù)據(jù)專業(yè)、人工智能專業(yè)、軟件技術(shù)專業(yè)、云計算專業(yè)、計算機網(wǎng)絡專業(yè)的教材,也可作為大數(shù)據(jù)愛好者的參考書。
本書建議學時為50學時,具體分布見下表。
章節(jié) 建議學時
數(shù)據(jù)清洗簡介 4
數(shù)據(jù)清洗中的理論基礎 6
文件格式及其轉(zhuǎn)換 6
Excel數(shù)據(jù)清洗 4
Kettle數(shù)據(jù)清洗 8
Kettle與數(shù)據(jù)倉庫 6
Python數(shù)據(jù)清洗 12
數(shù)據(jù)清洗綜合實訓 4
本書由黃源、劉智楊、孫大松任主編,陳勇、王曙光、劉廣敏任副主編。其中,黃源編寫第1章和第2章并負責統(tǒng)稿工作,劉智楊編寫第3章,孫大松編寫第4 章,陳勇編寫第5章和第6章,王曙光編寫第7章,劉廣敏編寫第8章。
在本書編寫過程中,編者得到了中國電信金融行業(yè)信息化應用重慶基地總經(jīng)理助理楊琛的大力支持,同時參閱了大量相關(guān)資料,在此一并表示感謝。
由于編者水平有限,書中難免存在疏漏甚至錯誤之處,懇請讀者批評指正,編者電子郵箱:2103069667@qq.com。
編 者
2021年10月
第1章 數(shù)據(jù)清洗簡介 1
1.1 數(shù)據(jù)清洗概述 2
1.1.1 什么是數(shù)據(jù)清洗 2
1.1.2 數(shù)據(jù)清洗的原理 2
1.1.3 數(shù)據(jù)清洗的過程 3
1.2 數(shù)據(jù)質(zhì)量管理 5
1.2.1 數(shù)據(jù)質(zhì)量管理的含義 5
1.2.2 數(shù)據(jù)質(zhì)量的評估 6
1.2.3 數(shù)據(jù)質(zhì)量管理應用 7
1.3 數(shù)據(jù)清洗模型研究 8
1.3.1 數(shù)據(jù)清洗模型描述 8
1.3.2 數(shù)據(jù)清洗模型應用 9
1.4 數(shù)據(jù)清洗常用軟件與工具 9
1.4.1 數(shù)據(jù)清洗常用軟件 9
1.4.2 數(shù)據(jù)清洗常用工具 11
1.5 實訓 11
練習1 13
第2章 數(shù)據(jù)清洗中的理論基礎 14
2.1 微積分 15
2.1.1 微積分概述 15
2.1.2 微積分的作用 15
2.2 線性代數(shù) 15
2.2.1 線性代數(shù)概述 16
2.2.2 線性代數(shù)的定義 16
2.3 概率論與數(shù)理統(tǒng)計 21
2.3.1 概率論與數(shù)理統(tǒng)計概述 21
2.3.2 概率論與數(shù)理統(tǒng)計基本概念 21
2.4 最優(yōu)化理論 26
2.4.1 最優(yōu)化理論定義 26
2.4.2 凸函數(shù) 26
2.5 主成分分析 27
2.5.1 主成分分析概述 27
2.5.2 主成分分析的實現(xiàn) 27
2.6 數(shù)據(jù)清洗常見算法 28
2.6.1 哈希算法 29
2.6.2 字符串匹配算法 29
2.6.3 聚類算法 31
2.7 實訓 33
練習2 34
第3章 文件格式及其轉(zhuǎn)換 35
3.1 文件格式概述 36
3.1.1 文件格式簡介 36
3.1.2 Windows中常見的文件格式介紹 36
3.2 數(shù)據(jù)類型與字符編碼 37
3.2.1 數(shù)據(jù)類型 37
3.2.2 字符編碼 37
3.3 跨平臺數(shù)據(jù)傳輸格式 38
3.3.1 XML 38
3.3.2 JSON 39
3.4 Kettle中文件格式的運行與轉(zhuǎn)換 40
3.4.1 文本文件的轉(zhuǎn)換 41
3.4.2 XML文件的轉(zhuǎn)換 43
3.4.3 JSON文件的轉(zhuǎn)換 46
3.4.4 CSV文件的轉(zhuǎn)換 48
3.5 實訓 50
練習3 56
第4章 Excel數(shù)據(jù)清洗 57
4.1 認識Excel 58
4.1.1 Excel介紹 58
4.1.2 Excel數(shù)據(jù)清洗的特點 58
4.2 Excel數(shù)據(jù)清洗基本操作 58
4.2.1 Excel數(shù)據(jù)工具的認識 58
4.2.2 Excel數(shù)據(jù)工具的應用 59
4.3 使用Excel中的函數(shù)進行數(shù)據(jù)清洗 65
4.3.1 Excel中的函數(shù)介紹 65
4.3.2 Excel函數(shù)的具體應用 66
4.4 實訓 70
練習4 71
第5章 Kettle數(shù)據(jù)清洗 72
5.1 Kettle數(shù)據(jù)清洗概述 73
5.1.1 Kettle數(shù)據(jù)清洗簡介 73
5.1.2 Kettle數(shù)據(jù)清洗的認識 73
5.2 Kettle數(shù)據(jù)清洗基礎 74
5.2.1 Kettle數(shù)據(jù)清洗基本操作 75
5.2.2 Kettle數(shù)據(jù)清洗的實現(xiàn) 75
5.3 實訓 94
練習5 105
第6章 Kettle與數(shù)據(jù)倉庫 106
6.1 數(shù)據(jù)倉庫概述 107
6.1.1 什么是數(shù)據(jù)倉庫 107
6.1.2 數(shù)據(jù)倉庫的特點 107
6.2 Kettle中的數(shù)據(jù)倉庫相關(guān)技術(shù) 107
6.2.1 Kettle連接數(shù)據(jù)庫 107
6.2.2 Kettle成功連接數(shù)據(jù)庫的其他操作 109
6.3 Kettle在數(shù)據(jù)倉庫中的應用 111
6.3.1 Kettle讀取數(shù)據(jù)庫 111
6.3.2 Kettle遷移數(shù)據(jù)庫 115
6.4 實訓 117
練習6 119
第7章 Python數(shù)據(jù)清洗 120
7.1 Python數(shù)據(jù)清洗概述 121
7.1.1 Python數(shù)據(jù)清洗簡介 121
7.1.2 Python擴展庫的安裝與導入 121
7.2 Python數(shù)據(jù)清洗基礎 122
7.2.1 NumPy庫的使用 122
7.2.2 Pandas庫的使用 128
7.3 機器學習中的數(shù)據(jù)清洗 149
7.3.1 Seaborn庫 149
7.3.2 對機器學習中的數(shù)據(jù)集進行分析清洗 152
7.4 Python中的時間序列 154
7.4.1 時間序列基礎datetime 154
7.4.2 Pandas中的日期與時間工具 156
7.5 實訓 157
練習7 165
第8章 數(shù)據(jù)清洗綜合實訓 166
8.1 Kettle輸入記錄排序 167
8.2 Kettle數(shù)據(jù)流優(yōu)先級排序 171
8.3 Kettle生成記錄排序 175
8.4 使用Python清洗數(shù)據(jù) 178
8.5 Python讀取CSV文檔 180
參考文獻 186
- 嵌入式人工智能技術(shù)應用(數(shù)字教材) [主編 胡娜 楊國勇 晏廷榮]
- Java Web項目化設計實踐教程 [邱云 曾陳萍]
- 人工智能開發(fā)框架應用 [主編 王明超 蘆婭云]
- 民航客艙服務實用英語教程 [主編 田靜 徐亞玲]
- Python數(shù)據(jù)分析 [主編 馮志輝 趙磊 李放]
- 大學信息技術(shù) [曾翰穎 編著]
- 多維視域下的高校籃球教學創(chuàng)新研究 [張利超 李寧 著]
- 創(chuàng)新創(chuàng)業(yè)訓練實踐教程 [主編 王日華 陳武 黃喆誠]
- 實用運籌學 [主編 邢育紅 于晉臣]
- 電子技術(shù)(第二版) [主編 覃愛娜 李飛]
- 勞動爭議處理實務 [主編 王秀卿 羅靜]
- 工程數(shù)學 [主編 郭立娟 王海]
- 語音識別理論與實踐 [主編 莫宏偉]
- 武術(shù)基礎教程 [主編 李代勇 謝志民]
- 計算機網(wǎng)絡實訓教程 [主編 張浩軍 趙玉娟]
- 畫法幾何與機械制圖習題集(多學時) [主編 趙軍]
- 電工電子技術(shù)基礎 [主編 劉 軍 楊國龍 劉天成]
- MySQL數(shù)據(jù)庫項目式教程 [陳亞峰]
- 機械設計基礎(第二版) [主編 田亞平 李愛姣]
- 畫法幾何與機械制圖 [主編 趙軍]
- C語言程序設計習題與實驗指導(第二版) [主編 甄增榮 張賓]
- C語言程序設計(第二版) [主編 甄增榮 田云霞]
- Unity3D虛擬現(xiàn)實應用開發(fā)實踐 [主 編 劉龍]
- 智能化技術(shù)基礎(第三版) [鄧文達 李禮]
- 面向?qū)ο蟪绦蛟O計 [主編 張勇 張平華 趙小龍]
- 網(wǎng)絡營銷 [主編 夏薇薇 劉婷 尚潔]
- 電視節(jié)目策劃與制作(微課版) [主 編 黃滴滴]
- 數(shù)據(jù)庫技術(shù)與應用實踐教程(SQL Server 2019) [主 編 嚴暉 周肆清]
- 大學應用數(shù)學 [主編 郭立娟]
- 工業(yè)機器人拆裝與調(diào)試 [主編 胡月霞 向艷芳 朱奇]