大數據導論

-
【作 者】苑迎春
【I S B N 】978-7-5170-9410-4
【責任編輯】石永峰
【適用讀者群】本專通用
【出版時間】2021-02-04
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁 數】240
【千字數】368
【印 張】15
【定 價】¥45
【叢 書】普通高等教育數據科學與大數據技術專業教材
【備注信息】
簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
本書以大數據處理流程為主線,重點介紹大數據獲取、預處理、存儲管理、挖掘分析以及可視化等方面的基本理論、方法和關鍵技術,通過豐富的應用案例展示了行業大數據的應用場景以及數據價值。本書共7章:數據與大數據時代、大數據獲取和預處理、大數據存儲與管理、大數據挖掘分析、大數據可視化、大數據處理技術和行業大數據應用。
本書深入淺出、圖文并茂,注重廣度與深度結合、科學性與實用性結合,是為高等院校數據科學與大數據技術專業的“大數據導論”課程編寫的教材,可作為高職高專大數據技術與應用專業的教材,也可作為大學非計算機專業的本科生或研究生的通識課程教學用書以及大數據愛好者的科普讀物。
內容實用——理論與實踐結合,重點突出應用
體系完善——構建完整的大數據專業解決方案
產教融合——高校企業共參與,對標行業標準
資源豐富——微課、課件、教案、源碼、答案
隨著物聯網、移動互聯網的興起,全球數據呈爆炸式增長,各行各業都在經歷大數據帶來的革命,大數據時代已經到來。大數據具有體量巨大、速度極快、類型眾多、價值巨大的特點,對數據從產生、存儲、分析到利用提出了前所未有的新要求。為了響應社會發展需要,教育部于2016年開始在高等院校正式開設“數據科學與大數據技術”專業,本書正是為數據科學與大數據技術專業的“大數據導論”課程編寫的教材。
本書旨在讓大學新生對該專業相關的基本知識、典型技術、具體應用等有一個相對全面而直觀的了解,在入門性的學習過程中提高對專業的認識,激發學生的專業學習興趣。本書注重知識結構的基礎性與完整性,確保技術內容的通用性、普適性與先進性,遵循教育規律,加強能力培養,同時精選行業應用案例,開闊學生視野,啟發創新思維。本書在寫作思路和內容編排上具有以下幾個方面的特色。
(1)知識體系完整。本書包括大數據采集、預處理、存儲管理、挖掘分析以及可視化等處理流程中的基本理論、方法和關鍵技術,涵蓋數據科學與大數據技術專業比較完整的理論體系,脈絡清晰,知識完整。
(2)理論與案例結合。本書在各部分知識的講解中,融入了大量入門性的教學案例,做到深入淺出、圖文并茂,幫助讀者對大數據知識和技術進行深入理解,體現專業認知的引導性。
(3)注重實踐應用。本書在各章節中配置了運用大數據工具解決問題的綜合實踐案例,通過實踐內容的細致講解和輔助的視頻,能夠幫助讀者完成動手實踐的環節,加深讀者對專業知識的理解。
(4)適用范圍廣。本書是為高等院校數據科學與大數據技術專業的“大數據導論”課程編寫的教材,可作為高職高專大數據技術與應用專業的教材,也可作為大學非計算機專業的本科生或研究生的通識課程教學用書以及大數據愛好者的科普讀物。
本書共7章:數據與大數據時代、大數據獲取和預處理、大數據存儲與管理、大數據挖掘分析、大數據可視化、大數據處理技術和行業大數據應用。第1章介紹大數據的發展歷程、大數據思維、數據科學的內涵以及大數據處理流程等;第2章至第6章以數據獲取和預處理、數據存儲管理、數據挖掘分析、數據可視化的大數據處理流程為主線,對大數據的關鍵技術進行講解,進一步闡述當前典型大數據處理平臺中的技術和方法;第7章介紹行業大數據的典型應用案例,讓讀者了解大數據在農業、教育、社交、旅游、交通、金融等多個行業中應用帶來的巨大價值。
本書由苑迎春任主編,徐靜、路小英、王超、董素芬任副主編,其中第1章由苑迎春、宋宇斐編寫,第2章由程芳、王超編寫,第3章由王超編寫,第4章由路小英編寫,第5章由董素芬、徐靜編寫,第6章由沈紅巖、苑迎春編寫,第7章由徐靜、宋宇斐、孫潔麗、賀平編寫,全書統稿工作由苑迎春完成。
本書參考了大量圖書資料,也參考了大量網絡資源,在編寫過程中,河北農業大學信息科學與技術學院的研究生潘飛、何晨等做了大量輔助性工作,在此一并向他們表示衷心感謝。由于編者水平有限,加之時間倉促,書中難免存在錯誤和不妥之處,懇請讀者批評指正。
編 者
2020年10月
1.1 從數據到大數據 2
1.1.1 數據及其作用 2
1.1.2 大數據時代的到來 3
1.2 大數據概念 3
1.2.1 大數據定義 3
1.2.2 大數據結構 4
1.2.3 大數據特征 5
1.3 大數據思維 6
1.3.1 全樣思維 6
1.3.2 容錯思維 7
1.3.3 相關思維 8
1.4 數據科學的內涵 9
1.4.1 科學研究的第四范式 9
1.4.2 數據科學的內涵 10
1.4.3 數據科學對其他學科的影響 11
1.5 大數據處理技術 12
1.5.1 大數據處理流程 12
1.5.2 大數據計算模式 14
1.6 大數據應用 16
1.6.1 大數據的行業應用 16
1.6.2 大數據的商用途徑 20
習題與思考 22
第2章 大數據獲取和預處理 23
2.1 概述 24
2.1.1 數據的來源 24
2.1.2 數據的質量 25
2.1.3 數據預處理 26
2.2 大數據獲取方法 27
2.2.1 分布式日志采集 27
2.2.2 網絡爬蟲 34
2.2.3 其他獲取方法 44
2.3 大數據預處理技術 46
2.3.1 數據清洗 46
2.3.2 數據集成 49
2.3.3 數據歸約 51
2.3.4 數據變換 55
2.3.5 Kettle數據轉換實例 58
習題與思考 66
第3章 大數據存儲與管理 68
3.1 概述 69
3.1.1 數據庫管理技術 69
3.1.2 數據倉庫管理技術 70
3.1.3 大數據存儲管理技術 72
3.2 關系數據庫存儲與查詢 74
3.2.1 關系數據模型 74
3.2.2 關系數據庫管理系統 76
3.2.3 SQL結構化查詢語言 77
3.3 大數據存儲與查詢 80
3.3.1 分布式文件系統 80
3.3.2 NoSQL數據庫 81
3.3.3 NewSQL數據庫 90
3.3.4 云數據庫 91
3.3.5 大數據SQL查詢引擎 93
習題與思考 96
第4章 大數據挖掘分析 98
4.1 概述 99
4.1.1 數據挖掘的概念 99
4.1.2 數據挖掘的流程 99
4.1.3 數據挖掘常用方法 100
4.1.4 數據挖掘常用工具 100
4.2 數據統計分析 101
4.2.1 數據的集中趨勢 101
4.2.2 數據的離散程度 102
4.2.3 數據的相關性度量 103
4.3 數據挖掘方法 106
4.3.1 聚類分析 106
4.3.2 關聯分析 107
4.3.3 分類分析 111
4.3.4 回歸分析 116
4.4 數據分析應用舉例 118
4.4.1 描述分析案例 118
4.4.2 相關分析案例 120
4.4.3 回歸分析案例 120
習題與思考 123
第5章 大數據可視化 125
5.1 概述 126
5.1.1 數據可視化的目標 126
5.1.2 數據與可視化的關系 128
5.2 大數據可視化方法 129
5.2.1 統計數據可視化 130
5.2.2 關系數據可視化 132
5.2.3 時空數據可視化 133
5.2.4 文本數據可視化 134
5.3 可視化技術和工具 136
5.3.1 數據可視化工具 136
5.3.2 可視化編程語言 138
5.3.3 Web可視化技術 139
5.4 Excel數據可視化示例 140
5.4.1 對比—直方圖 140
5.4.2 趨勢—折線圖 142
5.4.3 占比—餅狀圖 144
5.4.4 分布—散點圖 147
5.4.5 多維數據—雷達圖 148
5.4.6 綜合應用—動態看板 149
5.5 Tableau數據可視化示例 150
5.5.1 氣泡圖 150
5.5.2 文字云 152
5.5.3 盒須圖 153
5.5.4 地圖 155
習題與思考 155
第6章 大數據處理技術 158
6.1 概述 159
6.1.1 集中式與分布式計算架構 159
6.1.2 大數據處理平臺架構 161
6.1.3 典型的大數據計算平臺 162
6.2 Hadoop分布式計算平臺 164
6.2.1 Hadoop概述 164
6.2.2 Hadoop生態體系 166
6.2.3 Hadoop核心技術 171
6.3 Spark內存計算架構 178
6.3.1 Spark概述 178
6.3.2 Spark技術架構 179
6.3.3 Spark核心技術 181
習題與思考 185
第7章 行業大數據應用 187
7.1 農業大數據應用 188
7.1.1 概述 188
7.1.2 農業大數據在智慧棉花系統中的應用 189
7.1.3 農業大數據助力奶牛數字化精細養殖 190
7.1.4 農業大數據應用于農作物蟲害預測分析 192
7.1.5 農業大數據支撐渤海糧倉增產增效 194
7.2 教育大數據應用 195
7.2.1 概述 195
7.2.2 教育大數據助力教學改革案例 196
7.2.3 教育大數據支持MOOC中學生
活躍度分析 197
7.2.4 教育大數據助力個性化學習 198
7.2.5 教育大數據支持貧困生精準管理 200
7.3 社交大數據應用 201
7.3.1 概述 202
7.3.2 社交大數據支撐個性化推薦 203
7.3.3 社交大數據服務識別風險客戶 204
7.3.4 社交大數據應用于城市規劃 205
7.4 旅游大數據應用 206
7.4.1 概述 206
7.4.2 旅游大數據助力精準營銷 207
7.4.3 旅游大數據支撐智慧旅游 210
7.5 交通大數據應用 213
7.5.1 概述 213
7.5.2 城市交通大數據應用案例 214
7.5.3 鐵路交通大數據應用案例 217
7.6 金融大數據應用 219
7.6.1 概述 219
7.6.2 金融大數據服務精準營銷 220
7.6.3 金融大數據服務銀行資源配置規劃 223
7.6.4 金融大數據增強風險防控 226
7.6.5 金融大數據支撐普惠服務 227
習題與思考 229
參考文獻 230
參考資料 232
- 零基礎玩轉國產大模型DeepSeek [徐永冰 張帥 編著]
- 網絡工程師5天修煉(適配第6版考綱) [主編 朱小平 施游]
- 信息系統項目管理師考試32小時通關(適用第4版考綱) [薛大龍]
- 信息系統管理工程師考試32小時通關(適配第2版考綱) [薛大龍 劉偉]
- 土木工程材料檢測實訓 [洪曉江 達則曉麗 錢波]
- 科技信息檢索與論文寫作實用教程 [李振華]
- 傳統山水畫論解讀與實踐 [陳鈉 著]
- Python數據庫編程 [主編 殷樹友 邢 翀]
- 計算機基礎實訓指導 [主編 袁春萍 朱妮]
- 嵌入式人工智能技術應用(數字教材) [主編 胡娜 楊國勇 晏廷榮]
- Vienna整流器技術 [桂存兵 著]
- 變頻器與伺服應用 [陳剛 葉云飛]
- 物聯網工程設計與實踐 [湯琳 李敏]
- 爐邊夜話——深入淺出話AI [汪建 著]
- 電商運營與管理 [鐘肖英 陳瀟]
- Java面向對象程序設計 [主編 姜春磊 陳虹潔]
- 信息技術基礎(Windows 10+WPS Office)(微課版) [主編 石利平 田輝平 謝盛嘉]
- 人工智能應用 [主編 陳 萍 劉培培 陳孟軍]
- 大學生職業發展與就業指導 [主編 劉志堅]
- 高級辦公應用項目教程 [主編 屈晶 趙成麗]
- 微信小程序開發項目實戰(微課版) [主編 黃龍泉 郭峰 朱倩]
- 企業檔案工作實戰寶典百問百答 [華俊 盧秀英 邵甜甜 著]
- 計算機網絡原理及應用 [主編 唐繼勇 葉坤 孫夢娜]
- 大學生創業基礎 [主編 王麗莉 王 楊]
- 船舶輔機 [主編 王連海 于洋 姜淑翠]
- 大學生就業指導 [主編 王麗莉 董宴廷]
- 系統架構設計師章節習題與考點特訓 [主編 薛大龍 鄒月平]
- 高校學生工作探索與實踐 [郭亮 著]
- 大學生情商管理 [方雄 著]
- 2023年長沙市會展業發展報告 [主編 周棟良]