Spark在機器學習方面有著無與倫比的優勢,特別適合需要多次迭代計算的算法。同時Spark的擁有非常出色的容錯和調度機制,確保系統的穩定運行。
1、云計算大數據從業者;
2、Hadoop使用者;
3、系統架構師、系統分析師、高級程序員、開發人員;
4、牽涉到大數據處理的數據中心運行、規劃、設計負責人;
5、機關,金融保險、移動和互聯網等大數據來源單位的負責人;
6、高校、科研院所涉及到大數據與分布式數據處理的項目負責人;
7、數據倉庫管理人員、建模人員,分析和開發人員、系統管理人員、數據庫管理人員以及對數據倉庫感興趣的其他人員;
Spark的架構設計 1.1 Spark的速度為什么如此的快? 1.2 Spark 生態系統 1.3 Spark的架構設計剖析 1.4 RDD計算流程解析 1.5 Spark的出色容錯機制 1.6Spark分布式架構與單機多核架構的異同 1.7 Spark的企業級應用 Spark在Amazon中的應用 Spark在Yahoo!的應用 Spark在西班牙電信的應用 Spark在淘寶的應用 Spark集群的安裝和設置 2.1 在一臺機器上運行Spark 2.2 在Mesos上部署Spark 2.3 在YARN上部署Spark 2.4 通過SSH在眾多機器上部署Spark 2.5 Spark集群設置 Spark開發環境配置及流程 3.1 Scala簡介、為什么Spark會使用Scala作為開發語言 3.2使用Eclipse開發Spark程序 3.3深入使用Spark Shell 3.4遠程調試Spark程序 3.5 Spark編譯 3.6配置Spark源碼閱讀環境 3.6.1 Maven 3.6.2 3.7 Spark 編程實戰Java\Scala\Python語言的案例 3.7.1 Spark WordCount 3.7.2 Spark 排序 3.7.3. 使用Spark讀取HDFS\File 數據 快速掌握Scala 4.1 Scala變量聲明、操作符、函數的使用實戰 4.2 apply方法 4.3 Scal的控制結構和函數 4.4 Scala數組的操作、Map的操作 4.5 Scala中的類 4.6 Scala中對象的使用; 4.7 Scala中的繼承 4.8 Scala中的特質 4.9 Scala中集合操作 |
Spark On Yarn Spark on Yarn & Spark as a service Spark on Yarn原理 Spark on Yarn實踐 JobServer架構 JobServer API介紹 JobServer配置與部署
SparkContext解析和數據加載以及存儲 6.1 源碼剖析SparkContext 6.2 Scala、Java、Python使用SparkContext 6.4 加載數據成為RDD 6.5 把數據物化 深入實戰RDD 7.1 DAG 7.2 深入實戰各種Scala RDD Function 7.3 Spark Java RDD Function 7.4 RDD的優化問題 Shark與Spark SQL Shark與Hive及Shark數據模型 安裝和配置Shark及Shark數據類型 使用Shark處理數據 在Spark程序中使用Shark Queries SharkServer Spark SQL架構 Parquet支持 DSL SQL on RDD&UDF&JDBC Server DataFrame API Hive交互 外部數據源API 與Spark其他組件的交互 Catalyst查詢優化器 Spark程序的測試 9.1 編寫可測試的Spark程序 9.2 Spark測試框架解析 9.3 Spark測試代碼實戰 Spark Streaming Spark Streaming概述 Spark Streaming安裝 和 Storm 性能對比分析 DStream Operations Persistence |