需要的基础一:SQL & Java
课程二:Java8编程入门
课程三:Java8面向对象
课程四:Java8高级编程
课程五:深入Java虚拟机
课程六:Java业务分析设计实例
需要的基础二:Linux基础
课程二:Linux基础命令
课程三:Linux权限相关
课程四:bash shell基本编程
课程五:大数据集群需要的基本环境
第一阶段:大数据技术入门Hadoop
课程二:Zookeeper
课程三:MapReduce & Yarn
课程四:avro & parquet & sequenceFile
阶段实战一:HDFS文件的恢复、备份
阶段实战二:Zookeeper实现配置管理
阶段实战三:Zookeeper实现分布式锁
阶段实战四:Hadoop的HA配置
阶段实战五:HDFS小文件的合并
阶段实战六:企业级Yarn资源的分配
阶段实战七:NCDC气象数据分析
第二阶段:Scala语言的学习
课程二:十二步体验Scala
课程三:面向对象编程基础
课程四:函数式编程基础
课程五:模式匹配
课程六:隐式系统
课程七:类型系统
课程八:集合框架
阶段实战一:编写更函数式程序
第三阶段:Spark核心技术

课程二:正确理解Spark
课程三:Spark核心编程模型之RDD
课程四:正确提交Spark应用(实操课程)
课程五:Schedulers On Driver(原理加实操课程)
课程六:Spark SQL的前生今世以及未来
课程七:有SQL基础就可以玩转Spark SQL
阶段实战一:Spark topN问题
阶段实战二:网站流量分析之session切分
阶段实战三:地图切片
阶段实战四:Spark SQL中schema的合并
阶段实战五:Spark SQL各种数据源的读写
阶段实战六:数据挖掘之关联规则挖掘
阶段实战七:Spark怎么处理Json格式
阶段实战八:物联网设备信息ETL
阶段实战九:Spark SQL分析出租车数据
阶段实战十:Spark航班延迟预测
第四阶段:大数据实时流技术
课程二:Spark Streaming性能与稳定
课程三:Spark Streaming容错与语义
课程四:Flume
课程五:Kafka
阶段实战一:Spark Streaming集成Flume
阶段实战二:Spark Streaming集成Kafka
阶段实战三:Flume与Kafka集成
阶段实战四:实时计算网站访问指标
阶段实战五:网站用户行为实时分析
第五阶段:NoSQL数据库-HBase
课程二:核心原理之缓存机制
课程三:核心原理之Region切分机制
课程四:Java客户端操作HBase
课程五:Solr
阶段实战一:RegionServer内存规划
阶段实战二:Compaction以提高性能
阶段实战三:处理Region太多的场景
阶段实战四:Spark RDD读写HBase
阶段实战五:Spark Streaming读写HBase
阶段实战六:Bulk Load
阶段实战七:HBase + Solr分析产品质量数据
阶段实战八:构建一个Java Web网站
第六阶段:SQL On Hadoop
课程二:Spark SQL兼容Hive
课程三:Impala + kudu
课程四:sqoop
课程五:Oozie
课程六:Hue
课程七:Zeppelin
阶段实战一:Spark SQL与Hive的优秀实践
阶段实战二:配置Hive跑在Spark上
阶段实战三:基于Hive的ETL实例
阶段实战四:爬取豆瓣电影数据进行数据分析
阶段实战五:NBA出色球员分析实战
选修一:大数据+AI方向
课程二:线性代数基础
课程三:概率统计基础
课程四:线性回归及其实战
课程五:模型性能调试
课程六:逻辑回归(分类)及其实战
课程七:支持向量机(SVM)及其实战
课程八:决策树算法及其实战
课程九:K-Means聚类算法及其实战
课程十:PCA降维算法及其使用
课程十一:神经网络及其实战
选修二:大数据进阶方向
课程二:JVM虚拟机高级特性
课程一:Spark内核原理(源码分析)
课程二:Kafka内核原理(源码分析)
课程三:ElasticSearch优秀实践
课程四:分布式实时计算之Storm
课程五:Flink
面试指导
2、往届毕业学员面试经验
3、全面系统的面试题