|
偶愛乖乖
| 来自北京
我讲下自己的理解吧...
总的来说, 如果有一个很大的任务, 单机很难完成, 所以要用到分布式, 就是有一台master机子(服务器), 有很多slave机子(服务器), 然后master给slaves分配任务, 把一个大任务分成很多小任务, 给每个slave去完成, 然后master机子收集每个slave的结果, 处理得出最终结果, hadoop就是一个完成了这个事情的框架...
贴一段百度百科的解释
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 你看嘛, 是不是和我上面说的差不多
然后有有个东西叫HBase, 就是Hadoop Database, 这个就是hadoop用的数据库, 这是一个tabular database;
然后有一个东西叫HDFS, 这是一种文件结构, 就和什么FAT32, NTFS这些一样, 只是这个HDFS对特别大的文件支持比较好;
然后MapReduce是什么呢, 这个分为Map和reduce, map就是分配任务, 把一个大任务分配成小任务, 这个叫map, 然后reduce就是把每个slave得到的结果汇总起来, 处理结果这些..但是这个mapreduce模型好像有挺多用法的, 我说的只是很简单的一种理解...可能不太对, 但是可以感性理解一下..
就说这么多吧,具体的东西我觉得还是要深入学一下, 写写代码就理解了... |
|