1.有Java編程語言基礎;
2.有大數據編程基礎知識;
3.有一定的Python基礎
4.對大數據分析與挖掘有興趣
掌握大數據分析與機器學習的完整流程
掌握大數據與機器學習的核心算法建模
握大數據商品推薦算法建模能力
掌握數據挖掘與機器學習的主流開發庫
掌握大數據用戶畫像的機器學習建模過程
時 間 |
主要授課內容 |
大數據分析挖掘算法 |
內容一:大數據分析挖掘算法 1.業界常見的大數據分析應用場景以及對應的分析算法模型應用,及其案例 2.常用的統計分析模型的介紹,括方差分析、線性擬合、回歸、邏輯回歸、因子分析、主成分分析、時間序列分析的基礎知識 3.常用的數據挖掘模型介紹,重點介紹六類機器學習與挖掘模型算法 4.業界主流的數據倉庫工具和數據分析挖掘相關工具軟件的應用概述 內容二:機器學習 1.機器學習概念、發展歷程 2.機器學習的應用場景 3.機器學習與統計分析 4.無監督式學習概述 5.有監督式學習概述 6.半監督式學習概述 7.強化學習概述 8.人工神經網絡學習概述 9.深度學習概述 10.機器學習的應用場景和應用案例 |
Spark大數據實時與高性能處理平臺剖析 |
內容:Spark大數據實時與高性能處理平臺剖析 1.Spark實時大數據處理平臺架構 2.Spark編程模型以及Spark編程實例解析 3.Spark RDD內存彈性分布式數據集的原理與機制 4.Spark Core的核心組件剖析 5.Spark系統架構和運行過程剖析 6.Spark on Yarn運行原理和實例 7.Spark RDD transform、滑動窗口、foreachRDD性能優化、持久化、checkpoint、容錯與事務、與Spark SQL整合使用 8.基于Spark的實時數據倉庫與實時分析挖掘處理的應用實踐,以及應用案例 |
Spark SQL應用實戰 |
內容:Spark SQL應用實戰 1.Spark SQL實時數據倉庫的實現原理與操作 2.Spark SQL核心代碼剖析 3.Spark SQL客戶端開發API 4.Spark SQL實時統計應用 5.Spark SQL應用程序開發實踐 |
Spark Streaming應用實戰 |
內容:Spark Streaming應用實戰 1.Streaming與Storm在實時流計算處理應用場景下的案例與比較 2.Spark Streaming與Spark交互的實現機制 3.Spark Streaming的核心代碼剖析 4.Spark Streaming客戶端編程實踐 5.Spark Streaming實時流數據分析處理應用開發實踐 |
數據預處理與特征選擇 |
內容一:數據預處理 1.數據抽取、轉換和加載 2.數據清洗 3.特征處理 內容二:特征選擇與降維 1.特征選擇概述 2.Filter 3.Wrapper 4.Embedded 5.特征擴增 6.降維、PCA、LDA、LLE、SVD |
機器學習算法 |
內容一:有監督學習 1.KNN算法 2.決策樹算法 3.SVM算法 4.樸素貝葉斯算法 5.邏輯回歸算法 6.線性回歸算法 7.集成算法 內容二:無監督學習 1.聚類算法 2.關聯算法 內容三:模型評估與優化 1.模型優化與評估概念 2.最優化模型 3.模型評估與選擇 |
Spark MLlib數據挖掘 |
內容:Spark MLlib數據挖掘 1. Spark MLlib概述 2. Spark MLlib評估矩陣 3. Spark MLlib關聯規則與推薦算法 4. Spark MLlib聚類與降維 5. Spark MLlib分類與回歸 6. Spark MLlib特征提取和轉換 7. Spark MLlib基礎統計分析 |
大數據挖掘案例 |
內容:綜合實驗 1. 房價售價預測 2.? 個人收入分群 3.? 移民的簽證預測 4.? 銀行辦理定期存款業務預測 |