大數據技術導論

-
【作 者】主編 樊繼慧 李旭耀
【I S B N 】978-7-5226-1101-3
【責任編輯】王玉梅
【適用讀者群】本專通用
【出版時間】2022-11-01
【開 本】16開
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁 數】152
【千字數】237
【印 張】9.5
【定 價】¥32
【叢 書】普通高等教育數據科學與大數據技術專業教材
【備注信息】
簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
本書根據現有的大數據技術理論,綜合介紹了大數據技術的相關基礎理論知識,并提供了部分實踐操作介紹。本書共8 個章節,內容包含大數據的概念和特征,大數據計量,大數據生命周期,大數據與云計算,Hadoop,HDFS,MapReduce,大數據編程語言Python、Spark、R 語言,數據預處理,聚類分析,k- 鄰近分類算法,數據可視化,大數據應用,大數據安全與威脅,爬蟲技術,MINIST 數字識別技術。本書分別在大數據采集與預處理、數據挖掘與分析等重要章節中安排了入門級的實踐操作內容,以便讀者更好地學習和掌握大數據關鍵技術。
內容實用——理論與實踐結合,重點突出應用
體系完善——構建完整的大數據專業解決方案
產教融合——高校企業共參與,對標行業標準
當前,新一代信息技術正在全球孕育興起,科技創新、產業形態和應用格局正發生著重大變革。隨著數據獲取和計算技術的進步,大數據已成為一種新的國家戰略資源,并引起了學術界、產業界、政府及行業用戶等的高度關注。世界主要發達國家已經相繼制定了促進大數據產業發展的政策法規,積極構建大數據生態,實施大數據國家戰略。
大數據技術正處于快速發展之中,不斷有新的技術涌現。基于互聯網技術而發展起來的大數據技術,將會有顛覆性的影響。
本書定位為大數據專業課程的導論課教材,以“構建知識體系,闡明基本原理,開展初級實踐,了解相關應用”為原則,旨在為讀者搭建起通往大數據知識空間的橋梁,為讀者在大數據領域的“精耕細作”奠定基礎、指明方向。本書主要幫助讀者掌握大數據的基本原理和基本知識,熟悉大數據技術在多個行業的應用,加深讀者對大數據的理解。本書注重知識結構的基礎性與完整性,確保技術內容的通用性、普適性與先進性,遵循教育規律,加強能力培養,同時附加大數據實操案例,開闊讀者視野,啟發創新思維。
本書共8 個章節,從概念、技術、應用以及發展等方面,全面介紹了當前大數據的體系與基本發展情況。第1 章主要介紹與大數據相關的基礎概念,包括大數據的特征、計量、生命周期以及當前時代大數據的重大變革;第2 章主要介紹大數據的生態系統,包括Hadoop、HDFS、MapReduce 以及編程語言Python、Spark 和R 語言;第3 章主要介紹大數據采集的工具技術和大數據預處理階段的相關技術與方法,包括數據采集的分類、工具,數據清洗的任務、過程以及網絡爬蟲的實例介紹;第4 章詳細介紹了數據挖掘與分析的相關知識,包括大數據分析的概念、流程、特點、難點,數據認知以及數據建模知識,附加數據挖掘與分析的案例詳解;第5 章圍繞大數據可視化展開討論,介紹其作用與分類,并剖析其發展歷史以及未來的發展方向與挑戰;第6 章主要介紹大數據分別在互聯網行業、金融行業、保險行業以及旅游行業的應用;第7 章根據目前大數據發展的現狀,對大數據安全以及大數據所面臨的安全威脅做出了詳細剖析;第8 章為大數據案例實操分析,主要通過實踐案例來加深讀者對前面章節的學習理解。
本書由樊繼慧、李旭耀主編。本書主編結合自己在廣州理工學院多年的工作經驗,以大量事實數據為基礎,進行研究工作;高新凱老師為本書資源建設做了很多有益工作。中國水利水電出版社的有關負責同志對本書的出版給予了大力支持。本書在編寫過程中參考了大量國內外計算機網絡文獻資料,在此,謹向這些著作者以及為本書出版付出辛勤勞動的同志深表感謝!
期待讀者在本書的介紹中能得到關于大數據的基礎理解與收獲,由于編者能力有限,書中難免存在不足之處,望廣大讀者不吝賜教。
第1 章 概論 .................................................................. 1
1.1 揭秘大數據 ............................................................... 1
1.1.1 大數據概念和特征 .......................................... 4
1.1.2 大數據的計量 .................................................. 6
1.1.3 大數據生命周期 .............................................. 7
1.1.4 大數據與云計算 .............................................. 9
1.1.5 大數據時代的重大變革 ................................ 11
1.2 大數據關鍵技術 ..................................................... 13
練習1 ............................................................................... 13
第2 章 大數據生態系統 .............................................. 14
2.1 Hadoop .................................................................... 14
2.1.1 Hadoop 簡介................................................... 15
2.1.2 Hadoop 優勢................................................... 16
2.2 HDFS ....................................................................... 16
2.2.1 HDFS 體系結構 ............................................. 17
2.2.2 HDFS 存儲原理 ............................................. 17
2.2.3 HDFS 常用操作 ............................................. 18
2.3 MapReduce .............................................................. 18
2.3.1 MapReduce 簡介 ............................................ 19
2.3.2 MapReduce 的適用場景 ................................ 19
2.3.3 MapReduce 的優點和缺點 ............................ 19
2.4 大數據編程語言 ..................................................... 20
2.4.1 Python ............................................................. 20
2.4.2 Spark ............................................................... 22
2.4.3 R 語言............................................................. 25
練習2 ............................................................................... 30
第3 章 大數據采集與預處理 ....................................... 31
3.1 數據采集 ................................................................. 31
3.1.1 數據采集分類 ................................................ 32
3.1.2 數據采集方法 ................................................ 32
3.1.3 數據采集工具 ................................................ 34
3.2 數據清洗 ................................................................. 35
3.2.1 數據清洗任務 ................................................ 35
3.2.2 數據清洗過程 ................................................ 35
3.3 數據變換 ................................................................. 37
3.3.1 規范化 ............................................................ 37
3.3.2 數據變換分類 ................................................ 38
3.4 數據分析與采集實例:線性回歸和邏輯回歸 ..... 39
練習3 ............................................................................... 47
第4 章 數據挖掘與分析 .............................................. 48
4.1 大數據分析概述 ..................................................... 48
4.1.1 數據分析原則 ................................................ 48
4.1.2 大數據分析特點 ............................................ 49
4.1.3 大數據分析流程 ............................................ 50
4.1.4 數據分析師基本技能和素質 ........................ 51
4.1.5 大數據分析難點 ............................................ 52
4.2 數據認知 ................................................................. 53
4.2.1 數據預處理 .................................................... 55
4.2.2 概率分析 ........................................................ 56
4.2.3 對比分析 ........................................................ 56
4.2.4 相關分析 ........................................................ 57
4.3 數據建模 ................................................................. 57
4.3.1 模型分類 ........................................................ 58
4.3.2 決策樹 ............................................................ 58
4.3.3 關聯分析 ........................................................ 62
4.3.4 回歸分析 ........................................................ 67
4.3.5 聚類分析 ........................................................ 69
4.3.6 k- 近鄰分類算法 ............................................ 70
4.4 數據挖掘與分析案例分析 ..................................... 71
練習4 ............................................................................... 73
第5 章 數據可視化技術 .............................................. 74
5.1 數據可視化概述 ..................................................... 74
5.2 數據可視化的作用 ................................................. 75
5.3 數據可視化的分類 ................................................. 75
5.4 數據可視化的發展歷史 ......................................... 76
5.5 數據可視化發展方向與挑戰 ................................. 76
5.6 數據可視化的流程與原則 ..................................... 77
5.7 大數據可視化實操 ................................................. 78
5.7.1 Tableau 安裝與ODBC 創建 ......................... 79
5.7.2 Tableau 繪圖實操演示 ................................... 86
練習5 ............................................................................... 92
第6 章 大數據應用 ..................................................... 93
6.1 互聯網行業大數據應用 ......................................... 93
6.2 金融行業大數據應用 ............................................. 97
6.3 保險行業大數據應用 ............................................. 99
6.4 旅游行業大數據應用 ........................................... 101
6.5 政府大數據應用 ................................................... 103
6.5.1 發展歷程 ...................................................... 104
6.5.2 行業痛點 ...................................................... 106
6.5.3 發展機會 ...................................................... 106
6.5.4 社會價值 ...................................................... 107
6.5.5 機遇與挑戰 .................................................. 108
6.6 大數據應用平臺 ................................................... 109
練習6 ..............................................................................111
第7 章 大數據安全 ................................................... 112
7.1 大數據安全的重要意義 ....................................... 112
7.2 大數據面臨的挑戰 ............................................... 114
7.3 大數據的安全威脅 ............................................... 116
7.3.1 大數據基礎設施安全威脅 .......................... 117
7.3.2 大數據存儲安全威脅 .................................. 118
7.3.3 大數據的隱私泄露 ...................................... 121
7.3.4 大數據的其他安全威脅 .............................. 125
練習7 ............................................................................. 127
第8 章 大數據案例實操分析 ..................................... 128
8.1 大數據案例分析的前期準備工作 ....................... 128
8.2 案例一:爬蟲技術 ............................................... 130
8.2.1 認識爬蟲 ...................................................... 130
8.2.2 認識HTTP ................................................... 132
8.2.3 實現HTTP 請求 .......................................... 133
8.2.4 常規動態網頁爬取 ...................................... 135
8.3 案例二:MINIST 數字識別技術 ........................ 140
練習8 ............................................................................. 143
參考文獻 ..................................................................... 144
- 零基礎玩轉國產大模型DeepSeek [徐永冰 張帥 編著]
- 網絡工程師5天修煉(適配第6版考綱) [主編 朱小平 施游]
- 信息系統項目管理師考試32小時通關(適用第4版考綱) [薛大龍]
- 信息系統管理工程師考試32小時通關(適配第2版考綱) [薛大龍 劉偉]
- 土木工程材料檢測實訓 [洪曉江 達則曉麗 錢波]
- 科技信息檢索與論文寫作實用教程 [李振華]
- 傳統山水畫論解讀與實踐 [陳鈉 著]
- Python數據庫編程 [主編 殷樹友 邢 翀]
- 計算機基礎實訓指導 [主編 袁春萍 朱妮]
- 嵌入式人工智能技術應用(數字教材) [主編 胡娜 楊國勇 晏廷榮]
- Vienna整流器技術 [桂存兵 著]
- 變頻器與伺服應用 [陳剛 葉云飛]
- 物聯網工程設計與實踐 [湯琳 李敏]
- 爐邊夜話——深入淺出話AI [汪建 著]
- 電商運營與管理 [鐘肖英 陳瀟]
- Java面向對象程序設計 [主編 姜春磊 陳虹潔]
- 信息技術基礎(Windows 10+WPS Office)(微課版) [主編 石利平 田輝平 謝盛嘉]
- 人工智能應用 [主編 陳 萍 劉培培 陳孟軍]
- 大學生職業發展與就業指導 [主編 劉志堅]
- 高級辦公應用項目教程 [主編 屈晶 趙成麗]
- 微信小程序開發項目實戰(微課版) [主編 黃龍泉 郭峰 朱倩]
- 企業檔案工作實戰寶典百問百答 [華俊 盧秀英 邵甜甜 著]
- 計算機網絡原理及應用 [主編 唐繼勇 葉坤 孫夢娜]
- 大學生創業基礎 [主編 王麗莉 王 楊]
- 船舶輔機 [主編 王連海 于洋 姜淑翠]
- 大學生就業指導 [主編 王麗莉 董宴廷]
- 系統架構設計師章節習題與考點特訓 [主編 薛大龍 鄒月平]
- 高校學生工作探索與實踐 [郭亮 著]
- 大學生情商管理 [方雄 著]
- 2023年長沙市會展業發展報告 [主編 周棟良]