关于举办“企业级大数据hadoop高级应用与开发”培训通知
发布时间:2017-07-18 16:05:42        浏览次数:2373
各有关单位:

为贯彻落实党中央国务院“十三五”规划的建议,其中具体提到:实施网络强国战略;实施“互联网+”行动计划;发展分享经济;实施国家大数据战略;深入实施创新驱动发展战略。这标志着大数据已被国家政府纳入创新战略层面,成为国家战略计划的核心任务之一。在20159月,国务院发布《促进大数据发展行动纲要》,旨在大力促进中国数据技术的发展,数据将被作为战略性资源加以重视。通过政府一系列举措来看,中国的大数据产业将会迎来井喷,其中包括数据的挖掘、采集、处理、分析、应用等细分环节链条的产业化、落地化。随着国家政策的支持,在大数据产业方面的资金投入将会逐步加大,相应的整个社会的其他资源也会开始向其靠拢,人才短缺等问题或因政策导向获得解决。   

目前,互联网正从数据爆炸进一步发展到海量数据分析和挖掘的时代,而基于Hadoop技术的解决方案为海量数据存储和处理提供了经济、高效、高安全性和高可靠性的保障,Apache Hadoop也因此成为大数据行业发展背后的驱动力。由于Hadoop技术已成为当下最火热的云计算技术之一,各行业中希望深入了解并掌握这门技术的人也越来越多,决定开展“大数据处理Hadoop应用与开发”实战培训班。

 

 

一、   课程简述

理解大数据和面临大数据带来的挑战,互联网时代数据已经是公司的成败,对海量数的存储、计算、分析和挖掘等目前是很多互联网公司的核心,例如广告的推荐、商品推荐等,还可以挖掘数据来分析用户的潜在价值,面对数据快速的增长,存储和计算变得很重要,课程中我们使用hadoop 来解决海量数据所带来的一些问题, Hadoop 目前已经备受互联网的亲睐,hadoop 已经成为海量数据处理必不可少的一个工具,也是最流行的一个海量数据存储和计算的框架,此外还有 hiveHbasesqoop 等框架的培训。

二、  学员受益

Hadoop 这门课程从理论到实战再到公司的项目,还有 hadoop 集群的搭建和性能的优化,再到 HDFS 性能的测试和 MapReduce 性能的测试再到网络的需求等全面的详解 Hadoop 的开发和维护,深刻理解 MapReduce的原理,能过使用 mapreduce 进行高级编程,使用 Hive 进行数据分析,使用 Hbase 进行线上分析,关系型数据和 HDFS hive 之间的相互迁移,理解 Hadoop 的使用场景,面对一个需求适不适合使用 hadoop

三、   面向对象

      商业智能(BI)和企业数据仓库(EDW)的管理人员、建模人员、分析和开发人员、系统管理员等;有意将Hadoop生态系统中的组件,作为现有EDW的补充,或未来替代产品的项目负责人及开发人员;企业中牵涉到大数据处理的数据中心运行、规划、设计负责人;Hadoop企业级应用、整合项目的成员、负责人、开发人员;熟悉Hadoop生态系统,想了解和学习HadoopSpark整合在企业应用实战案例的朋友

四、       学员基础

      1)了解 Java 或者 python shell 语言;

2)了解 Linux 系统;

3)具有一定的大数据基础

五、       培训时间

          

        2017728---30  厦门(3天)  27号培训报到

六、       课程费用

3200/人(RMB)(含培训费、资料费、考试费、证书费等)

参加相关培训并通过考试的学员,可以获得:

工业和信息化部人才交流中心颁发的《全国计算机专业级人才证书》-大数据处理高级工程师。该证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。

注:请学员带一寸彩照2张(背面注明姓名)、身份证复印件一张

 


如有意向,请将报名回执表发送到hm@xmsia.org. 大数据QQ交流群:648985025

 

 单位  姓名  部门/职务 电话  手机  邮箱  是否需要住宿 备注 
               
               

 

 

七、讲师介绍

      刘老师:阿里大数据高级专家,国内资深的SparkHadoop技术专家,具有5年以上的大数据平台设施经验,对HDFSMapReduceHBaseHiveMahoutMLlibSpark StreamingStormsparkopenTSDBHadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。

出版的书籍《Hadoop应用开发技术详解》、

专利《海量数据基于容错级别的容错》、

大数据数据挖掘资深专家、曾经实施过阿里的推荐平台、用户推荐、商品推荐、拍档推荐、基于点击流推荐,具有非常多的实战项目经验。擅长基于spark mllibgraphX的数据挖掘

童小军老师:中国大数据专业公司红象云腾RedHadoop创始人、Easyhadoop开源社区创始人、国内最早研究hadoop的元老级人物之一,曾任暴风影音数据研发经理、搜索引擎研发经理。在feedsky,暴风影音从事搜索引擎、数据分析、数据挖掘领域工作,独立研发Feedsky播客自动分类系统,带队完成暴风视频搜索,暴风数据平台,暴风广告统计平台等大数据系统。

      培训内容

课程模块

课程主题

n 主要内容

n 案例和演示

第一天

第一天

大数据在国外的运用

ü  大数据在国外的发展情况

ü  大数据在国外的应用

ü  Hadoop在国外的使用

ü  大数据在ebay的使用案例

ü  大数据的发展与展望

大数据在国内的运用

ü  大数据在国内的使用介绍

ü  离线计算框架介绍

ü  流式计算框架介绍

ü  内存计算框架介绍

ü  内存流式计算介绍

ü  大数据实时请求框架介绍

ü  大数据在移动的案例介绍

ü  大数据在银行的案例介绍

ü  大数据在阿里的案例介绍

2 某电商海量数据的分析案例

(Hadoop+Hive+HyperLogLog+

R)

2 使用 MR 分析 User Agent

息案例

Hadoop生态系统演示

ü  集群管理工具—ambari

ü  工作流工具—Oozie

ü  数据的并行采集—Flume

ü  MapReduce脚本工具—Pig

ü  与关系型数据库之间的数据迁移—Sqoop

ü  资源管理平台—Yarn

ü  数据挖掘算法—Mahout

ü  分布式统一服务—Zookeeper

ü  Hadoop安全工具—Knox

?  运用Hadoop自下而上构建大规模企业数据仓库

Hadoop组件详解

ü  Hadoop HDFS 基本结构

ü  Hadoop HDFS 副本存放策略

ü  Hadoop NameNode 详解

ü  HadoopSecondaryNameNode 详解

ü  Hadoop DataNode 详解

ü  Hadoop JobTracker 详解

ü  Hadoop TaskTracker 详解

Hadoop安装和部署

ü  Hadoop系统模块组件概述

ü  Hadoop试验集群的部署结构

ü  Hadoop 安装依赖关系

ü  Hadoop 生产环境的部署结构

ü  Hadoop集群部署

ü  Hadoop 高可用配置方法

ü  Hadoop 集群简单测试方法

ü  Hadoop 集群异常Debug方法

?  Hadoop安装部署实验

?  Red hat Linux基础环境搭建

?  Hadoop 单机系统版本安装配置

?  Hadoop 集群系统版本安装和启动配置

?  使用 Hadoop MapReduce Streaming 快速测试系统

?  Hadoopcore-sitehdfs-sitemapred-site 配置详解

Hadoop集群规划

ü  Hadoop 集群内存要求

ü  Hadoop集群磁盘分区

ü  集群和网络拓扑要求

ü  集群软件的端口配置

?  针对NameNode Jobtracker DataNode TaskTracker Hiveserver 等不同组件需求推荐服务器配置

第二天

HadoopHDFS模块

ü  HDFS架构介绍

ü  HDFS原理介绍

ü  NameNode功能详解

ü  DataNode功能详解

ü  SecondaryNameNode功能详解

ü  HSFDfsimageeditslog详解

ü  HDFSblock详解

ü  HDFSblock的备份策略

ü  Hadoop的机架感知配置

ü  HDFSshell命令介绍

ü  HDFSthrift server服务介绍

ü  HDFSAPI接口介绍

ü  HDFS的权限详解

ü  Hadoop的客服端接入案例

?  Hadoopshell命令演示

?  HadoopAPI接口演示

?  Hadoop的客服端接入案例

MapReducer入门到高级实战

ü  Mapreduce原理

ü  MapReduce流程

ü  剖析一个MapReduce程序

ü  MapperReducer抽象类详解

ü  Mapreduce的最小驱动类

ü  MapReduce自带的类型

ü  自定义WritablesWritableComparables

ü  Mapreduce的输入InputFormats

ü  MapReduce的输出OutputFormats

ü  Combiner详解

ü  Partitioner详解

ü  DistributeFileSystem详解

ü  Hadoop Tools工具介绍

ü  Counter计数器详解

ü  自定义Counter计数器

ü  基于Hadoop二次开发实战

ü  MapReduce的优化

ü  MapReduce的个数设置

ü  Hadoop小文件优化

ü  任务调度

ü  默认的任务调度

ü  公平任务调度

ü  能力任务调度

ü  使用 Hadoop MapReduce Streaming 编程

ü  MapReduce的单元测试

?  MapReduce实现海量数据比较大小案例

?  自定义Hadoop类型案例

?  自定义Partitioner案例

?  实现在内存随机生成100个数,分成两个Map来比较大小

?  多文件输出和自动定义MapReduce的输出名

?  MapReduce实现Join算法案例

?  MapReduce实现海量文档相似度算法

?  自定义Counter案例实现

?  MapReduce实现Pangrank算法。

?  MapReduce单元测试:Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。

?  某公司使用MapReduce分析日志案例(10T数据以上)

?  配置公平调度器案例实战

Yarn实战

ü  Yarn架构和原理

ü  ResourceManager工作原理

ü  NodeManager工作原理

ü  ApplicationMaster工作原理

ü  Yarn的资源控制机制

ü  基于内存的控制设置

ü  基于CPU的控制设置

ü  基于Yarn的程序开发步骤

ü  Yarn为某个运用独立分配资源

ü  YarnMessos的区别

?  基于Yarn资源控制实战

?  基于Yarn的程序开发实战

?  MapReduce on Yarn实战

?  Hbase on Yarn 实战

第三天

Hive实战

ü  HivePig基础

ü  HiveImpalapresto的比较

ü  Hive的作用和原理说明

ü  Hadoop仓库和传统数据仓库的协作关系

ü  Hadoop/Hive仓库数据数据流

ü  Hive 部署和安装

ü  Hive Cli 的基本用法

ü  Hiveserver启动

ü  HQL基本语法

ü  Hive的加载数据本地加载和HDFS加载

ü  Hivepartition详解

ü  Hive的存储方式详解

ü  RCFILETEXTFILESEQUEUEFILE

ü  HiveUDFUDAF

ü  Hivetransform详解

ü  HiveJDBC连接

?  使用JDBC 连接Hive进行查询和分析

?  使用正则表达式加载数据

?  编写UDF函数

?  编写UDAF自定义函数

?  Partition使用实战

?  Transform使用实战

?  某些大型公司使用hive分析日志案例详解和实战。

Hbase使用

ü  Hbase原理

ü  Hmaster详解

ü  RegionServer详解

ü  Zookeeper介绍

ü  Hbase安装

ü  Hbase逻辑视图介绍

ü  Hbase物理视图介绍

ü  Hbase的二级索引介绍

ü  Hbase DDLDML

ü  Hbase表的设计案例

ü  Hbaseimport功能介绍

ü  MapReduce操作Hbase

ü  Hbase thrift Server介绍

ü  Hbase API介绍

ü  Hbase使用场景介绍

ü  Hbase案例分析

?  Hbase安装实战

?  MapReduce操作Hbase实战

?  HbaseAPI实战

?  Hbase表结构设计实战

Hadoop企业级别案例解析

ü  Hadoop 结构化数据案例

ü  Hadoop 非结构化案例

ü  Hbase 数据库案例

ü  Hadoop 视频分析案例

ü  电力行业大数据应用案例

ü  金融银行业大数据应用案例

ü  互联网行业大数据应用案例

ü  电信运营商大数据应用案例

ü  医疗、电商、公共交通等行业大数据应用案例

?  利用大数据分析改进交通管理

?  区域医疗大数据应用案例

?  银联大数据数据票据详单平台

?  广东移动省公司请账单系统

?  上海电信网络优化

?  某通信运营商全国用户上网记录

?  浙江台州市智能交通系统

?  移动广州详单实时查询系统

?  跨区域实时视频监控系统