我的大数据学习之路_ZNDS问答

james0423

前言
说在最前面，可能有些地方理解的不是很好，有不好的地方，望见谅，毕竟每个人想法不一样，不喜勿喷，谢谢~
=================================================
最新版本的“大数据学习之路”已经更新，具体内容查看这篇文章即可，因为更新了一些东西，所以就直接在原文章修改了
文章中所提及到的视频资料（Java开发，大数据开发，相关电子版书籍等都已配套好）可以关注公众号：
                                                      旧时光大数据
回复相应关键字获取视频文档资料，整理了挺长时间的，b站链接我也会继续放在文章中，这样可以不需要下载视频，直接看b站的，下载云盘文档即可，避免了云盘限速的问题！
=================================================

备注：资深
GitHub上面试题整理完了，可以先看GitHub，其它大数据框架资料持续更~~

每个知识点不同视频的内容都是差不多的，先点进去看看视频讲解的内容是指什么，是不是有自个需要的，如果有些自个觉得不全的，再找其他资料补全。
要从事计算机行业的工作，不管是指什么工作，开发、测试、或是算法等，都是要有一门自个比较熟练的编程语言，编程语言可以是C语言、Java、C++等，只要是和你后续工作所相关的就可以（后续用到其他语言的话，你有一门语言基础了，学起来就快了）。一般初学者入门语言大多都会选择Java、C语言、C++或者Python，而且目前网上有很多好的视频，可以供初学者学习使用。关于学习视频或者资料的选择，资深或者百度等都有很多讲解了，也可以跟师兄师姐咨询，这样可以少走很多弯路，当然，有人说，走一些弯路总是有好处的，但是我这里说的弯路不是说不犯错误，不调bug，而是指学习资料以及一些知识点的偏重点，这样可以尽量节约一部分时间，刚开始时，总会有点迷，而且当你真正投入进去学习时，会发现时间总是不够用。
我前面是做的Java后端开发，后续自个才转的大数据，所以一些Java开发所需要的东西自个也有学习过，也都是按照正常的路线走的，JavaSE阶段，然后数据库，SSM框架，接着做了一些网上找的项目，之后发现对大数据比较感兴趣，就开始找大数据相关的资料学习，看视频，看博客，敲代码，大概花了3-4个月吧，所以大数据学习的时间不是很长，不过也是一步步艰难走过来的，但是刚刚开始接触大数据相关的东西时，一度怀疑这么多东西自个能否学得完，是不是可以用得到，学完又忘了，忘了又回头看，不过还好，坚持过来了，还好没有放弃，工作也还ok，找的大数据开发岗，待遇也还不错吧。
下面就说一下我自个从Java开发到大数据开发的曲折学习之路（狗头保命.jpg）。
本来打算在后面说的，在前面说一下：b站是个很不错的学习神器，如果是看视频，尽量找一套一台培训机构的视频，中间有不懂的再去看博客或者其它的视频都行，这样连贯性比较好，我主要是看的尚硅谷的视频，感觉很不错。
一行行代码能否转变成一叠叠rmd，就是靠：坚持，敲代码；敲代码，坚持；坚持！
学习之前介绍

因为我目前是做大数据相关的工作了，所以Java后端涉及到的一些SSM框架等知识点我就不介绍了，毕竟后续一段时间也没有做了。自个看过的大数据学习相关的视频+资料大概是200G-300G吧，从Linux->Hadoop->。。。->Spark->项目，还有就是一些面试文档，面经等。一些视频看了两遍或者更多，跟着学，跟着敲代码，做项目，准备面试。
涉及到需要学习的东西包括：JavaSE，数据结构与算法（计算机行业必备），MySQL，Redis，ES（数据库这些可以看项目，也可以自个熟练一两个），Linux，Shell（这个可以后期补），Hadoop，Zookeeper，Hive，Flume，Kafka，HBase，Scala（Spark是Scala写的，会Scala做相关的项目会更容易入手），Spark，Flink（这个是找工作时有面试官问过几次了不了解，所以找完工作才开始接触学习），相关项目。
编程语言阶段学习

如果是零基础的话，建议或是从视频开始入门比较好，毕竟一上来就看教材，这样有些代码的来龙去脉可能不是很了解。如果是有一些编程语言基础的话，从视频开始也会更简单，一些for、while循环你都知道了，学起来也会快很多。
最初选择的是Java，选择Java是因为团队有师兄师姐是做Java开发的，有人可以前期指点下，不过C语言也有接触过。
JavaSE我是选择的黑马刘意的为主，因为刚刚开始学Java看过一本《Java从入门到精通》，没什么感觉，后续又在看了慕课网的Java初级视频，或是没感觉出来啥（当时就有点怀疑自个了~~~），可能有点没进入状态。
还好后续找了黑马刘意老师的JavaSE视频（我是看的2015年版本，那时候19版还没出），觉得他讲的真的是很好很详细，每个知识点都会有例子，也都会带你敲代码，做测试，可能前面有C语言基础，然后也看过Java的一些语法，所以学起来或是比较顺利，后面的IO流、多线程等知识点时，也有看书看博客，或者看看其他老师的课程，讲解的可能自个比较容易接受就可以，反正都是多尝试（下面会给出视频链接），尽量懂一些，后续可以回头来复习。JavaSE相关的视频，先看一遍，后续有时间建议再看一遍，而且这些经典的视频，看两遍真的是享受。
如果有一定基础了的，JavaSE前面七八天的视频可以加速看，但是不懂的一定要停下开仔细想想，零基础的或是尽量不要加速吧，慢慢来稳些。后面的视频建议或是跟着视频来，尽量不要加速，代码尽量都敲一敲，第一遍基本上一台月到一台半月可以结束。
JavaSE可以说是很基础也很重要的东西，主要重点包括面向对象、集合（List、Map等），IO流，String/StringBuilder/StringBuffer、反射、多线程，这些最好是都要熟悉一些，面试也是重点。
JavaSE之后，如果你是要走前端或后端开发路线的话，可以跟着一些网上的视频继续学习，这里我就不多做介绍了。
=============分割线，Scala可以后续Spark阶段再接触===============
Scala的学习，Scala是一门多范式 (multi-paradigm) 的编程语言，Scala支持面向对象和函数式编程，最主要的是后续Spark的内容需要用到Scala，所以前面学习了JavaSE，到Spark学习之前，再把Scala学习一波，美滋滋，而且Scala可以和Java进行无缝对接，混合使用，更是爽歪歪。后续Spark学习时基本都是用的Scala，也可能是和Java结合使用，所以Spark之前建议或是先学一波Scala，而且Scala用起来真是很舒服（wordcount一行代码搞定），适合迭代式计算，对数据处理有很大帮助，不过Scala看代码很容易看懂，但是学起来或是挺难的，比如样例类（case class）用起来真是nice，但是隐式转换学起来就相对比较难。学习Scala的建议：1. 学习scala 特有的语法，2. 搞清楚scala和java区别，3. 了解如何规范的使用scala。Scala对学习Spark是很重要的（后面Flink也是要用），虽然目前很多公司或是用Java开发比较多，而且Spark是Scala写的，如果要读源码，会Scala或是很重要的（至少要看得懂代码）。
Scala主要重点包括：隐式转换和隐式参数、模式匹配、函数式编程。这里我看的是尚硅谷韩老师的Scala视频，韩老师讲的真的很不错，五星推荐，哈哈。
也许有人会觉得Python也是需要的，但是学习阶段，可可以用Java或是比较多，面试也基本都是问Java相关的内容，所以Python后续工作会用到的话，再看看Python的内容吧。
视频：
刘意JavaSE（2015版）：
刘意JavaSE（2019-IDEA版）：
毕向东JavaSE：
尚硅谷康师傅JavaSE（2019-IDEA版）：
尚硅谷韩老师Scala：
大数据阶段学习

大数据这方面的知识点自个可以说真的是从零开始的，刚刚开始学那会Linux基本都没用过，心里那个虚啊，而且时间也紧迫，想起来都是一把辛酸泪。
刚刚开始学的时候，看了厦门大学林子雨的《大数据技术原理与应用》课程，可能这个课程是面对上课的，所以看了一些，感觉对自个帮助不是很大（并不是说课程不好，可能不太适合自个，如果是要了解理论知识，很透彻，但是俺时间紧迫啊），所以就继续在网上找视频，然后发现尚硅谷的培训视频很多人去参加，而且知识点也很齐全，大数据相关组件都有讲课，还有一些项目比较好，所以就找了它相关的视频，看的是2018的，所以视频不算旧。
来一张推荐系统架构的图，先看看

一般来说，Flume+Kafka对数据进行采集聚合传输，一方面Spark对实时数据进行处理，传输给相应的数据处理模块（比如实时数据处理的算法模块，Spark也有提供常见的机器学习算法的程序库），另一方面采集的数据也可以放入数据库（HBase、MongoDB等）中，后续MapReduce对离线数据进行离线处理，数据处理完毕用于后续的使用，数据采集处理的流程大概就是这样。如果是推荐系统，实时推荐会给用户产生实时的推荐结果，让用户进行查阅选择，比如你在界面浏览了或者看了新的物品，然后刷新下界面，可能给你展示的东西就有一些变成跟你刚刚浏览的相关了。离线推荐的话主要是对离线数据进行处理，为物品或种类做出相似的推荐，如果后续用户搜索相应的物品时，给用户展示相应的产品，比如你在淘宝搜索大数据书籍，淘宝会给你推荐相关的书籍，这就算是为大数据书籍产生的推荐结果。

大数据学习路线：Linux -> Hadoop -> Zookeeper -> Hive -> Flume -> Kafka -> HBase -> Scala -> Spark -> 项目 - > Flink（如果需要Storm，在Spark前面学习，云盘中也加进去了）

Linux（基本操作）

一般我们使用的都是虚拟机来进行操作，所以要安装VM（ Virtual Machine），我使用的是CentOS，所以VM和CentOS都要跟着安装好，跟着视频操作，一定要动手实践，将一些Linux基本命令熟练掌握，一些VIM编辑器的命令也要会用，做相应的一些配置，使用SecureCRT来做远程登录操作（也可以使用其他的，自个顺手就行）。再强调一遍，基本操作命令尽量熟练一点，如果一下记不住，打印一些常用的，自个看看，多用多实践，慢慢就会用了。还有一些软件包的下载安装卸载等，跟着操作一遍，熟悉下，后续都会使用，Shell编程可以后续补。
视频：
如果想了解下shell（后面乌班图的可以选择不看）：
没有shell讲解：
Hadoop（重点中的重点）

Hadoop是一台分布式系统基础框架，用于主要解决海量数据的存储和海量数据的分析计算问题，也可以说Hadoop是后续整个集群环境的基础，很多框架的使用都是会依赖于Hadoop。主要是由HDFS、MapReduce、YARN组成。这个部分安装Hadoop，Hadoop的三个主要组成部分是重点，对他们的概念要理解出来，知道他们是做什么的，搭建集群环境，伪分布式模式和完全分布式模式的搭建，重要的是完全分布式的搭建，这些部分一定要自个动手实践，自个搭建集群，仔细仔细再仔细，Hadoop的NameNode，DataNode，YARN的启动关闭命令一定要知道，以及他们的启动关闭顺序要记住，不要搞混。后续视频会有一些案例操作，跟着写代码，做测试，把基本环境都配置好，后续这个集群（完全分布式需要三台虚拟机）要一直使用。
视频：
我开始看过的版本：这个版本b站已经失效了，不过云盘中有给出链接
第二个看过的版本：
2019版本：
Zookeeper

   Zookeeper是一台开源的分布式的，为分布式应用提供协调服务的Apache项目。分布式安装ZK，对ZK有一定的了解就可以了，了解它的应用场景，以及内部原理，跟着做一些操作，基本上有一些了解即可。
视频：
我看过的版本：
尚硅谷周洋版本（听说挺好）：
2019版本：
Hive（重点）

Hive是基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。Hive的安装，它的数据类型，以及它的数据定义、数据操作有较好的了解，如何操作表（创建表、删除表，创建什么类型的表，他们有什么不同），如何操作数据（加载数据，下载数据，对不同的表进行数据操作），对数据的查询一定要进行实践操作，以及对压缩方式和存储格式要有一些了解，用到时不懂也可以去查，最好是能理解清楚。这部分有什么面试可能会问，所以视频后续的面试讲解可以看看，理解清楚。
视频：
我开始看过的版本：
第二个看过的版本：
2019版本：
Flume

Flume是一台高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。对于Flume，对它的组成架构，以及对Flume Agent的内部原理要理解清楚，Source、Channel、Sink一定要知道它们的各种类型以及作用，有哪些拓扑结构是常见常用的，例如一对一，单Source、多Channel、多Sink等，它们有什么作用，要理解清楚。还有一台重点，就是对Flume的配置文件一定要了解清楚，不懂的可以上官网查看案例，对于不同的情况，它的配置文件要做相应的修改，才能对数据进行采集处理，视频中的实践案例一定要跟着做。
视频：
我开始看过的版本：
第二个看过的版本：
2019版本：
Kafka（重点）

Kafka是一台分布式消息队列，用来缓存数据的。比如说实时计算中可以通过Flume+Kafka对数据进行采集处理之后，Spark Streaming再使用Kafka相应的Topic中的数据，用于后续的计算使用。对于Kafka，要理解Kafka的架构，什么是Kafka，为啥需要Kafka，应用场景。基本的命令行操作要掌握，比如如何创建删除Topic，如何通过生产者生成数据，消费者如何消费数据等基本操作，官网也是有一些案例可以查阅的。
视频：
我看过的版本：
2019版本：
HBase（重点）

HBase是一台分布式的、基于列存储的开源数据库。HBase适合存储PB级别的海量数据，也可以说HBase是很适合大数据的存储的，它是基于列式存储数据的，列族下面可以有非常多的列，列族在创建表的时候就必须指定。所以对HBase的数据结构要有一定的理解，特别是RowKey的设计部分（因为面试被问到过，咳咳，所以点一下），对于它的原理要了解，一些基本操作也要都会，比如创建表，对表的操作，基本的API使用等。
视频：
我看过的版本：
2019版本：
Spark（重点中的重点）

Spark是快速、易用、通用的大数据分析引擎。一说到Spark，就有一种哪哪都是重点感觉，哈哈。
Spark的组成可以看下图

Spark是基于内存计算的，对于数据的处理速度要比MapReduce快很多很多，而且数据挖掘这些都是要对数据做迭代式计算，MapReduce对数据的处理方式也不适合，而Spark是可以进行迭代式计算，很适合数据挖掘等场景。Spark的Spark SQL能够对结构化数据进行处理，Spark SQL的DataFrame或DataSet可以作为分布式SQL查询引擎的作用，可以直接使用Hive上的表，对数据进行处理。Spark Streaming主要用于对应用场景中的实时流数据进行处理，支持多种数据源，DStream是Spark Streaming的基础抽象，由一系列RDD组成，每个RDD中存放着一定时间段的数据，再对数据进行处理，而且是基于内存计算，速度快，所以很适合实时数据的处理。Spark MLlib提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。对Spark的核心组件、部署模式（主要是Standalone模式和YARN模式）、通讯架构、任务调度要有一定了解（面试问到了可以说一波），Spark Shuffle要好好理解，还有内存管理要知道，对Spark的内核原理一定要好好理解，不仅面试可能要用，以后工作也是有帮助的，
视频：
我最开始看过的版本：
第二个看过的版本：
2019版本：
Flink（重点中的重点）

Flink是一台框架和分布式处理引擎，用于对无界（有开始无结束）和有界（有开始有结束）数据流进行有状态计算。目前主要是阿里这种大公司使用的比较多，中国很多公司使用的或是Spark居多，而且Flink基本上都是和Spark很多功能大体上一样的，但是以后Flink和Spark孰强孰弱还有待时间的考验，不过Flink近几年越来越火了这是事实，所以如果有时间有精力的话，可以学一学Flink相关的内容也是很不错的。Spark和Flink主要都是在数据处理方面应用，在数据处理方面的话，离线数据处理：Flink暂时比不上Spark，Spark SQL优点在于可以和Hive进行无缝链接，Spark SQL可以直接使用Hive中的表；Flink暂时做不到这一步，因为官方不支持这一操作，Flink只能将数据读取成自个的表，不能直接使用Hive中的表。对于实时数据的处理：Flink和Spark可以说是平分秋色吧，而且Flink是以事件为驱动对数据进行处理，而Spark是以事件为驱动对数据进行处理，在一些应用场景中，也许Flink的效果比Spark的效果还要好些，因为Flink对数据更加的敏感。比如一秒钟如果触发了成千上万个事件，那么时间驱动型就很难对数据做细致的计算，而事件驱动型可以以事件为单位，一台个事件进行处理，相比而言延迟更低，处理效果更好。或是那句话，虽然目前使用的公司较少，但是有时间接触学习下，也是没有坏处的。
视频：
我看的版本（基础+项目）：
项目阶段

其实尚硅谷的视频里面有很多大数据相关的项目，学习期间可以跟着视频做两到三个项目，自个理清思路，把项目理解透彻，或是可以学到很多东西的。
根据自个情况，选择两到三个项目重点跟着做，理解透彻一点
大数据项目实战
尚硅谷的视频里面有很多大数据相关的项目，而且都是文档配代码的，学习期间可以跟着视频做两到三个项目，自个理清思路，把项目理解透彻，或是可以学到很多东西的。根据自个情况，选择两到三个项目重点跟着做，理解透彻一点。相关项目文档资料我已经放到网盘，公众号回复相应关键字获取领取方式。
  相关项目、涉及技术框架及其B站链接（B站链接间资深文章。，主要是为了有些小伙伴网盘速度限制，这样就下载文档资料即可）：
1）YouTube项目：Hive
2）微博项目：HBase
3）电商数据分析平台：Spark
4）电信客服系统：Hadoop
5）滴滴系统：Kafka+Storm
6）大数据离线平台：Hadoop+Flume+Hive+HBase
7）电商数仓项目：Hadoop+Zookeeper+Hive+Flume+Kafka+Spark
8）电商推荐系统（类似于影片推荐系统）：Hadoop+ZK+Flume+Kafka+Spark+Redis+MongoDB
9）影片推荐系统（2019版也有个一样的影片推荐系统，代码应该类似）：Hadoop+ZK+Flume+Kafka+Spark+Redis+MongoDB+ElasticSearch
原版本：
2019版：
10）基于阿里云搭建数据仓库（离线、实时）：ECS（日志生产服务器）+Flume+DataHub +MaxCompute/DataWorks +RDS（业务数据）+QuickBI
离线：
实时：

11）机器学习和推荐系统：项目讲解为上面的影片推荐系统类似
12）实时项目（电商数仓实时）：Hive+Kafka+Redis+Nginx+ElasticSearch+Canal
13）手机APP信息统计：Hadoop+ZK+Flume+Kafka+Hive+HBase+Spark（有两个不同版本，详细看项目文档）
旧版本：
新版本：
14）新闻大数据实时分析可视化系统（私人提供，参考云盘）：Hadoop+Zookeeper+Flume+Kafka+Hive+HBase+Spark+Echarts+Hue+MySQL
15）在线教育项目：Hadoop+Flume+Kafka+Hive+MySQL+Spark
16）基于Flink的电商用户行为数据分析：Kafka+Flink
关于机器学习

大数据岗位中也是有对算法要求比较高的，就是数据挖掘岗位，相对来说，对机器学习算法有一定要求。我也是最近才开始学习机器学习相关的算法，所以这里就不介绍了，有时间可以自个学习机器学习相关的内容，如果你有机器学习的基础，那自然是更好了。
下面是我自个收集的一些资料，有需要的可以看看
书籍

书籍部分直接云盘链接保存即可，这里我放两张Java开发和大数据开发我自个的书单（很多，路漫漫，吾将上下而求索~）
Java后端书架：

大数据书架：

大概就这些，详细部分看网盘里面的，看完就需要很久了，大部分我也是需要的时候看相应的部分，所以有时间可以好好看下，不然就需要哪一部分看哪一部分，有助于学习即可
==============================================
文章中所提及到的视频资料（Java开发，大数据开发，相关电子版书籍等都已配套好）可以关注公众号：
                                                      旧时光大数据
回复相应关键字获取视频文档资料，整理了挺长时间的，b站链接我也会继续放在文章中，这样可以不需要下载视频，直接看b站的，下载云盘文档即可，避免了云盘限速的问题！
==============================================
最后

大数据开发也是需要编程基础的，并不是学会使用这些框架如何样就可以了，所以对于编程语言，数据结构与算法，计算机网络这些基础也是要的，这些基础知识也有助于自个以后的发展，如果是应届生校招的话，面试基本上都是JavaSE和数据结构与算法等的知识点，还有大数据组件相关的知识点，以及对项目的理解，这些都是要自个面试前准备好的，多看面经，多找面试题看，面几次，心里有谱了，后续面试就好了。
不管是从事什么样的计算机相关的岗位，编程都是很重要的，数据结构与算法特别重要，还有就是leetcode刷题，提升自个的编程思维，后续笔试面试都要要的。
要将一行行代码看做一叠叠rmb，但是一行行代码能不能转换成一叠叠rmb，自个就一定要：坚持，多敲代码；多敲代码，坚持；坚持。
再加一句：以上纯属个人总结，也许有理解不是很好的地方，每个人都有自个的学习方法，不喜勿喷，谢谢~
===================================
欢迎加入大数据学习资深圈子，一起学习：
===================================
如果有图片链接涉及隐私侵权，需要删除请私聊，第一时间会删除。

太上心了叭，跪谢大神[爱心]

有帮助就好，不管做什么，每个人都是从零开始，加油

VM和CentOS都要跟着安装好这个是跟着哪个视频安装啊... 还有linux系统用ubuntu 好吗. （不知道hadoop 这边用的哪个多¥

虚拟机这些跟着linux的视频安装，集群安装配置是hadoop视频里面有，我用的centos，没用过乌班图，hadoop版本我是用的2.7.x版本

我的意思是哪个linux视频。。。有两个

两个是一样的。。。。。内容基本一致，只是有的内容多一点，我标注了

视频链接你先点进去看看，看了就知道了

谢谢拉

谢谢，很详细，给力给力

		自动登录	找回密码
密码			立即注册

我的大数据学习之路

相关问题更多>

最新回答