您现在的位置：首页 > 企业内训 > 大数据 > R语言与Hadoop环境下大数据分析与挖掘

R语言与Hadoop环境下大数据分析与挖掘

2020-07-03 09:01:35　|　来源：中培企业IT培训网

培训背景

针对贵方培训需求之R语言与Hadoop环境下大数据分析与挖掘课程，特编制此课程的方案。课程要点应答方案包括课程目标设计、课程实施大纲与框架、师资队伍配备、课程训后评估及手段、课程质量控制流程、课程后期服务承诺、课程培训承诺、课程培训优势、课程成功案例等内容。

培训收益

1.本课程尽量避开数学公式，按照“讲清思想方法原理—结合具体案例—R语言实现细节”思路，让即使是几乎没有什么基础的学员，掌握R语言数据挖掘的基本思路和模式，打下未来深入的良好基础，能在工作和学习中结合具体问题立马上手操作解决；

2.课程注重学练结合的方法，会采取小组讨论的方法，充分调动大家思考的积极性，在做中掌握相关知识和技能；

3.课程紧紧抓住R语言和数据挖掘的重点和难点，详细的分析和讲解，在理解难、容易出错的地方反复提醒，以便学员在课后容易的进行自己复习和相关拓展；

4.本课程让学员领略大数据技术的魅力和广阔前景，使学员掌握主流的大数据（包括结构化、半结构化和非结构化数据）的表示、建模、存储、管理、分析处理、挖掘、推荐技术、匹配技术与关联分析技术，以及机器学习平台的原理与应用实战；

5.课程紧密结合行业市场需求和国际国内最新技术发展潮流，让学员掌握大数据分析挖掘平台架构和应用部署，分享成功的大数据应用项目实施经验，学习大数据分析应用项目解决方案咨询服务；

6.让学员掌握常见的大数据分析方法和数据挖掘算法使用方法，以及大数据开发与运维技术。让学员掌握基于Hadoop大数据平台的数据挖掘平台Mahout、MLbase机器学习算法库应用、数据仓库HIVE、实时分析平台Spark、实时挖掘平台Shark、分布式机器学习与推荐系统平台Oryx的入门、中级以及高级应用，并对主流的大数据分析建模与挖掘推荐平台产品剖析。

培训特色

本次培训从案例分析与行业应用穿插；专家精彩内容解析、学员专题讨论、分组研究；通过全面知识理解、专题技能演示和实践引导学员掌握课程内容。

课程大纲

日程	培训模块	内容
第一天上午	大数据概述	1.大数据基本概念、技术梗概、技术沿革，以及大数据技术是如何改变人工智能技术、语音识别技术、图像识别/视频理解、自然语言处理技术等，以及大数据技术在政府、金融、石油、教育、交通、医疗卫生等行业的成功案例； 2.Hadoop大数据平台的生态系统组件、平台架构以及工作原理；分布式文件系统HDFS、并行处理系统Hadoop MapReduce的系统架构、核心功能模块、工作原理以及应用开发； 3.大数据的结构化数据模型、半结构化模型和非结构化数据的存储模型，逻辑模型，以及分析建模工具的常用方法。
第一天下午	数据挖掘及Mahout	1.十大常用的并行数据挖掘算法、原理、应用场景，以及技术实战； 2.并行数据挖掘平台Mahout的技术架构、核心组件的工作原理以及技术； 3.Mahout应用开发技术； 4.Mahout项目实战。
第二天上午	R语言精要	本着循序渐进而又覆盖R语言重要而有用的基本内容原则，本讲从R语言入门开始，以前期的数据处理为核心，以实际案例为载体，内容包括R语言的向量、数据框、矩阵运算、缺失值和零值的处理、特别注重用R语言构造函数编程解决实际问题，详细介绍强大的数据清洗整理plyr、zoo、car等常用包和强大的作图ggplot2包，为使用R语言进行数据挖掘打下扎实的工具基础。主要案例：案例1：如何用R语言plyr等包合并、排序、分析数据并编制香农-威纳指数；案例2：如何用R语言编程同时实现几十个高难度数据分析可视化图片的jpeg格式输出；案例3：如何使用R语言进行分层或者整群抽样构建训练集与测试集；案例4：使用ggplot2画出各种复杂的图形。
第二天下午	Logistic回归与商业大数据建模	Logistic回归是商业建模的常用重要数据挖掘方法，本讲要讲清楚Logistic回归的建模原理、与多元线性模型的区别、R语言实现过程及回归诊断注意事项、预测方法和结果解释，让学员彻底地掌握Logistic回归解决问题的R语言方法。主要案例：案例1：利用Logistic回归帮助商业银行完成对客户提前还贷款情况的预测；案例2：利用Logistic回归帮助医生对病人选择最佳治疗方案；案例3：利用Logistic回归帮助厂家分析顾客做出购买决策的重要因素；案例4：利用Logistic回归帮助寿险公司进行目标客户精准电话营销；案例5：利用Logistic回归帮助商业银行完成对客户的信用评分；案例6：利用Logistic回归帮助公司分析客户流失的原因并做好预测。
第三天上午	关联规则和 R语言实现	关联规则（著名的“啤酒和尿布”）是数据挖掘的基础和核心技术之一，本讲将着重围绕经典的Apriori算法和eclat算法，阐明关联规则的支持、置信和提升程度与控制，使用R语言快速完成关联规则分析。主要案例：案例1：使用R语言关联规则方法帮助各个超市实现商品的最佳捆绑销售方案（即“购物篮”分析）；案例2：泰坦尼克号乘客幸存的关联规则分析；案例3：提高个人收入的关联分析。
第三天下午	决策树（回归树）分析和R语言实现	决策树是数据挖掘的经典方法，其原理容易被理解。本讲主要讲授两种最为普遍的决策树算法：CART和C4.5算法，使用rpart和J48函数进行R语言分析。主要案例：案例1：对汽车耗油量进行决策树分析并完成相关目标变量的预测；案例2：使用决策树帮助电信局判断和预测客户办理宽带业务。
第四天上午	机器集成学习的 Bagging和AdaBoost算法	这两种方法将许多分类器的预测结果进行汇总分析，从而达到显著提升分类效果。本讲介绍这2种算法的思想，在R语言中构造训练集和测试集进一步进行分析。主要案例：案例1：用R语言的Bagging和AdaBoost进行商业银行定期存款的分析和预测；案例2：用R语言的Bagging和AdaBoost识别有毒蘑菇。
第四天下午	R语言随机森林（RandomForest）算法	在机器学习中，随机森林是一个包含多个决策树的分类器，本讲讲清随机森林方法的原理，以致在实际中帮助学员判断适合进行随机森林分析的情况，最终熟练掌握R语言随机森林分析的方法。主要案例：案例1：对皮肤病进行随机森林的分类和预测；案例2：对酒的品质和种类进行分类和评价。
第五天上午	支持向量机和 R语言的实现	本讲将分析支持向量机的结构风险最小原理、间隔和核函数，从而帮助学员深刻理解支持向量机的思想和算法，以及使用中注意的问题，从而帮助学员灵活地应用于各个领域。主要案例：案例1：对著名的鸢尾花数据进行支持向量机的分析；案例2：使用支持向量机识别有毒蘑菇；案例3：使用支持向量机进行股票指数预测。
第五天下午	神经网络和 R语言的实现	神经网络由大量的节点和输出函数构成逻辑策略，本讲介绍其原理，主要通过案例的方式讲解R语言实现神经网络算法的过程和注意的事项。主要案例：案例1：酒的品质和种类的神经网络的分析和预测；案例2：公司财务预警建模。
	交叉验证比较各个模型	对于同一个数据，可能有很多模型来拟合，如何衡量和比较模型的精度呢？本讲将介绍交叉验证训练集和测试集的方法来帮助大家在实际中选取最佳模型进行拟合和预测。
	使用R语言结合KNN 算法进行文本挖掘	文本挖掘，特别是对中文的文本挖掘日趋重要。本讲介绍文本挖掘的原理和方法，帮助大家使用R语言在大量的非结构化的数据中发现有价值的信息，抽取潜在有用的数据，发现适合模式，实现可视化结果展示。主要案例：案例：使用R语言结合KNN算法对网页（Web）进行文本挖掘（含分词、分类、可视化等）。

标签： R语言 Hadoop环境

上一篇：大数据技术Hadoop应用实战培训方案
下一篇：Vmware虚拟化高可用集群部署

日程	培训模块	内容
第一天上午	大数据概述	1.大数据基本概念、技术梗概、技术沿革，以及大数据技术是如何改变人工智能技术、语音识别技术、图像识别/视频理解、自然语言处理技术等，以及大数据技术在政府、金融、石油、教育、交通、医疗卫生等行业的成功案例； 2.Hadoop大数据平台的生态系统组件、平台架构以及工作原理；分布式文件系统HDFS、并行处理系统Hadoop MapReduce的系统架构、核心功能模块、工作原理以及应用开发； 3.大数据的结构化数据模型、半结构化模型和非结构化数据的存储模型，逻辑模型，以及分析建模工具的常用方法。
第一天下午	数据挖掘及Mahout	1.十大常用的并行数据挖掘算法、原理、应用场景，以及技术实战； 2.并行数据挖掘平台Mahout的技术架构、核心组件的工作原理以及技术； 3.Mahout应用开发技术； 4.Mahout项目实战。
第二天上午	R语言精要	本着循序渐进而又覆盖R语言重要而有用的基本内容原则，本讲从R语言入门开始，以前期的数据处理为核心，以实际案例为载体，内容包括R语言的向量、数据框、矩阵运算、缺失值和零值的处理、特别注重用R语言构造函数编程解决实际问题，详细介绍强大的数据清洗整理plyr、zoo、car等常用包和强大的作图ggplot2包，为使用R语言进行数据挖掘打下扎实的工具基础。主要案例：案例1：如何用R语言plyr等包合并、排序、分析数据并编制香农-威纳指数；案例2：如何用R语言编程同时实现几十个高难度数据分析可视化图片的jpeg格式输出；案例3：如何使用R语言进行分层或者整群抽样构建训练集与测试集；案例4：使用ggplot2画出各种复杂的图形。
第二天下午	Logistic回归与商业大数据建模	Logistic回归是商业建模的常用重要数据挖掘方法，本讲要讲清楚Logistic回归的建模原理、与多元线性模型的区别、R语言实现过程及回归诊断注意事项、预测方法和结果解释，让学员彻底地掌握Logistic回归解决问题的R语言方法。主要案例：案例1：利用Logistic回归帮助商业银行完成对客户提前还贷款情况的预测；案例2：利用Logistic回归帮助医生对病人选择最佳治疗方案；案例3：利用Logistic回归帮助厂家分析顾客做出购买决策的重要因素；案例4：利用Logistic回归帮助寿险公司进行目标客户精准电话营销；案例5：利用Logistic回归帮助商业银行完成对客户的信用评分；案例6：利用Logistic回归帮助公司分析客户流失的原因并做好预测。
第三天上午	关联规则和 R语言实现	关联规则（著名的“啤酒和尿布”）是数据挖掘的基础和核心技术之一，本讲将着重围绕经典的Apriori算法和eclat算法，阐明关联规则的支持、置信和提升程度与控制，使用R语言快速完成关联规则分析。主要案例：案例1：使用R语言关联规则方法帮助各个超市实现商品的最佳捆绑销售方案（即“购物篮”分析）；案例2：泰坦尼克号乘客幸存的关联规则分析；案例3：提高个人收入的关联分析。
第三天下午	决策树（回归树）分析和R语言实现	决策树是数据挖掘的经典方法，其原理容易被理解。本讲主要讲授两种最为普遍的决策树算法：CART和C4.5算法，使用rpart和J48函数进行R语言分析。主要案例：案例1：对汽车耗油量进行决策树分析并完成相关目标变量的预测；案例2：使用决策树帮助电信局判断和预测客户办理宽带业务。
第四天上午	机器集成学习的 Bagging和AdaBoost算法	这两种方法将许多分类器的预测结果进行汇总分析，从而达到显著提升分类效果。本讲介绍这2种算法的思想，在R语言中构造训练集和测试集进一步进行分析。主要案例：案例1：用R语言的Bagging和AdaBoost进行商业银行定期存款的分析和预测；案例2：用R语言的Bagging和AdaBoost识别有毒蘑菇。
第四天下午	R语言随机森林（RandomForest）算法	在机器学习中，随机森林是一个包含多个决策树的分类器，本讲讲清随机森林方法的原理，以致在实际中帮助学员判断适合进行随机森林分析的情况，最终熟练掌握R语言随机森林分析的方法。主要案例：案例1：对皮肤病进行随机森林的分类和预测；案例2：对酒的品质和种类进行分类和评价。
第五天上午	支持向量机和 R语言的实现	本讲将分析支持向量机的结构风险最小原理、间隔和核函数，从而帮助学员深刻理解支持向量机的思想和算法，以及使用中注意的问题，从而帮助学员灵活地应用于各个领域。主要案例：案例1：对著名的鸢尾花数据进行支持向量机的分析；案例2：使用支持向量机识别有毒蘑菇；案例3：使用支持向量机进行股票指数预测。
第五天下午	神经网络和 R语言的实现	神经网络由大量的节点和输出函数构成逻辑策略，本讲介绍其原理，主要通过案例的方式讲解R语言实现神经网络算法的过程和注意的事项。主要案例：案例1：酒的品质和种类的神经网络的分析和预测；案例2：公司财务预警建模。
	交叉验证比较各个模型	对于同一个数据，可能有很多模型来拟合，如何衡量和比较模型的精度呢？本讲将介绍交叉验证训练集和测试集的方法来帮助大家在实际中选取最佳模型进行拟合和预测。
	使用R语言结合KNN 算法进行文本挖掘	文本挖掘，特别是对中文的文本挖掘日趋重要。本讲介绍文本挖掘的原理和方法，帮助大家使用R语言在大量的非结构化的数据中发现有价值的信息，抽取潜在有用的数据，发现适合模式，实现可视化结果展示。主要案例：案例：使用R语言结合KNN算法对网页（Web）进行文本挖掘（含分词、分类、可视化等）。

热门课程推荐

R语言与Hadoop环境下大数据分析与挖掘

相关阅读

预约领优惠