• http://www.zgpwlm.com
  • 楼主: 脑仁疼
    802 1

    [其他] hadoop、hive、hbase的区别和应用场景 [推广有奖]

    • 0关注
    • 9粉丝

    讲师

    77%

    还不是VIP/贵宾

    -

    威望
    0
    论坛币
    986 个
    学术水平
    8 点
    热心指数
    4 点
    信用等级
    0 点
    经验
    3973 点
    帖子
    332
    精华
    0
    在线时间
    72 小时
    注册时间
    2017-6-4
    最后登录
    2018-07-20

    楼主
    脑仁疼 在职认证  发表于 2018-1-6 15:15:29 |只看作者 |倒序

    hadoop、hive、hbase的区别和应用场景

    最近开始自学大数据,肯定免不了hadoop、hive、hbase这些东西。

    此处把自己对这3个的理解记录一下:

    1、hadoop:它是一个分布式计算+分布式文件系统,前者其实就是MapReduce,后者是HDFS。后者可以独立运行,前者可以选择性使用,也可以不使用

    2、hive:通俗的说是一个数据仓库,仓库中的数据是被hdfs管理的数据文件,它支持类似sql语句的功能,你可以通过该语句完成分布式环境下的计算功能,hive会把语句转换成MapReduce,然后交给hadoop执行。这里的计算,仅限于查找和分析,而不是更新、增加和删除。它的优势是对历史数据进行处理,用时下流行的说法是离线计算,因为它的底层是MapReduce,MapReduce在实时计算上性能很差。它的做法是把数据文件加载进来作为一个hive表(或者外部表),让你觉得你的sql操作的是传统的表。

    3、hbase:通俗的说,hbase的作用类似于数据库,传统数据库管理的是集中的本地数据文件,而hbase基于hdfs实现对分布式数据文件的管理,比如增删改查。也就是说,hbase只是利用hadoop的hdfs帮助其管理数据的持久化文件(HFile),它跟MapReduce没任何关系。hbase的优势在于实时计算,所有实时数据都直接存入hbase中,客户端通过API直接访问hbase,实现实时计算。由于它使用的是nosql,或者说是列式结构,从而提高了查找性能,使其能运用于大数据场景,这是它跟MapReduce的区别。

    总结:

    hadoop是hive和hbase的基础,hive依赖hadoop,而hbase仅依赖hadoop的hdfs模块。

    hive适用于离线数据的分析,操作的是通用格式的(如通用的日志文件)、被hadoop管理的数据文件,它支持类sql,比编写MapReduce的java代码来的更加方便,它的定位是数据仓库,存储和分析历史数据

    hbase适用于实时计算,采用列式结构的nosql,操作的是自己生成的特殊格式的HFile、被hadoop管理的数据文件,它的定位是数据库,或者叫DBMS

    最后补充一下:hive可以直接操作hdfs中的文件作为它的表的数据,也可以使用hbase数据库作为它的表


    关键词:Hadoop hbase Base Hive Had

    支持楼主:购买VIP购买贵宾 购买后,论坛将把您花费的资金全部奖励给楼主,以表示您对TA发好贴的支持
     
    载入中......
    stata SPSS
    沙发
    jjunfan 发表于 2018-1-9 18:50:01 |只看作者
    nnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
    您需要登录后才可以回帖 登录 | 我要注册

    GMT+8, 2018-1-21 23:24
    阿古拉镇论坛 弥勒县论坛 长白朝鲜族自治县论坛 栾川县论坛 衢县论坛
    通渭县论坛 桐柏县论坛 鸡西市论坛 芦溪论坛 宁武镇论坛