自Cloudera合并后发布CDH6更新已有一年多时间了,发现网上很多人关注CDH版本更新的问题,那么今天我们就来谈一谈CDH6的变化。

 

01

CDH6的新功能
 

CDH6是基于Hadoop 3同时包含大量其他组件的大版本的更新,对于想将已有的CDH5集群升级到CDH6的用户来说,第一个问题是需要考虑CDH5和CDH6的差别,通过分析一些差异看能否将已有的应用迁移或者直接部署到CDH6,兼容性和稳定性是否存在问题等。需要强调一下的是:没有最好的技术,也不能说最新的技术就是最好的,永远只有最合适的技术。

 

官宣:Cloudera再给CDH5三年支持!

▲Cloudera官方说明

 

CDH6的更新较大,很多组件也都是大版本更新,引入了很多激动人心的新功能,同时各个组件也修复了大量已知的问题和安全漏洞。比如HDFS的纠删码(erasure coding,EC)用于冷数据降低存储成本又保证了数据的可用性,Name Node和YARN的联邦解决大规模集群的性能瓶颈问题,YARN引入GPU支持,未来会引入Docker支持等。

 

长远来看,从Hadoop2升级到Hadoop3或者从CDH5升级到CDH6是用户必然的选择,因为无论是社区还是Cloudera从现在开始都会将开发重心转移到Hadoop3或CDH6上,而CDH5则主要以维护和修复bug为主。

 

虽然新版本CDH6早已发布,但并不意味着CDH5会在短时间内“寿终正寝”,毕竟它历经5年,不论是客户认可度、市场使用率,还是成熟稳定程度,都是目前最好的,为了给用户一个缓冲期,Cloudera已经官宣会再给予CDH5三年的支持。

 

02

CDH5升级到CDH6的建议

 

如果你是新搭集群,并且规模不太大(50个节点以内),基于Hadoop的应用也都是新开发,CDH6是一个不错的选择,毕竟避免了以后还要考虑从CDH5升级到CDH6的麻烦,同时还需要进行一次应用测试和迁移。未来迁移到CDH和HDP的合并版本CDP也会更加容易。

 

如果你已经有CDH5集群,作为生产系统各种应用已经稳定运行了较长的时间,如果不是因为功能或性能原因必须要使用新版本,现阶段可以暂时不考虑升级,继续观望一段时间。而你一旦决定升级,需要谨慎和细致的对待,需要考虑的包括OS,JDK,元数据库等的升级,已有各种应用比如Hive/Impala/SparkSQL,MapReduce/Spark代码,脚本,Python/R算法工程等在CDH6上进行测试,同时周边的一些工具对接比如ETL,调度,报表,BI工具等也需要进行对接测试,一切测试通过以后规划好合理的停机时间,然后进行升级。

 

03
Cloudera大数据认证课程

 

目前Cloudera提供基于其CDH平台的大数据专业认证线上培训,近期课程安排如下:
 

官宣:Cloudera再给CDH5三年支持!

 

*疫情警报尚未解除期间,翰纬科技的所有企业内训,均支持开展线上视频培训,欢迎垂询。
 

延伸阅读


CDH版本号的含义

CDH6相对于CDH5是一次各个组件的大版本升级,要理解大版本更新,这里先解释一下Hadoop相关组件的版本说明。以版本号是x.y.z为例:
  • z代表的一般是Maintenance Version或Patch Version,这种版本升级主要修复已知的 bug,不改动API,也不涉及新的功能;

  •  y代表的是Minor Version,这种版本升级主要是增加新的功能和新的API;

  • x代表的是Major Version,往往会新增全新的功能,甚至改动API。

     

像这次CDH5到CDH6就是一次Major Version的升级,新增了很多功能,API的更改有可能导致你旧有的程序不兼容而需要修改或者重新开发,但根据软件开发迭代的原则,往往新版本会向下兼容一段时间,你只需要经过严格的测试,在一段时间内应用开发的修改理论不会太大,但还是要结合实际情况,进行严格的测试后再行判断和评估。

注:本文节选自Cloudera授权厂商技术文档,以上分析和建议仅供参考。如果您有CDH平台产品的技术问题和认证培训的需求,或者对Cloudera和Hortonworks合并后的新产品CDP感兴趣,欢迎垂询。

 

---------培训咨询扫下方二维码随时沟通---------
官宣:Cloudera再给CDH5三年支持!