大数据建模、分析、挖掘技术

zhangjie2026 发表于 2023-7-17 17:50:20

随着《关于印发促进大数据发展行动纲要的通知》发布，各类型数据呈现出了指数级增长，数据成了每个组织的命脉。今天所产生的数据比过去几年所产生的数据大好几个数量级，企业有了能够轻松访问和分析数据以提高性能的新机会，如何从数据中获取价值显得尤为重要，也是大数据相关技术急需要解决的问题。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。数据建模不仅仅是任意组织数据结构和关系，还必须与最终用户的需求和问题联系起来，并提供指导，帮助确保正确的数据正确使用正确的方法获得正确的结果。为响应科研及工作人员需求，根据《国务院关于推行终身职业技能培训制度的意见》提出的“紧跟新技术、新职业发展变化，建立职业分类动态调整机制，加快职业标准开发工作”要求，中国管理科学研究院现代教育研究所（http://www.pdhb.org.cn）联合北京龙腾亚太教育咨询有限公司特举办“大数据建模、分析、挖掘技术应用研修班”。本次培训采用实战培训模式。本次培训由北京龙腾亚太教育咨询有限公司承办并进行相关费用收取及发票开具。具体通知如下：一、时间安排: 2023年8月18日 — 2023年8月22日上海（同时转线上直播）（18日报到发放上课材料，19日-22日上课）二、培训目标1.掌握大数据建模分析与使用方法。2.掌握大数据平台技术架构。3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。6.掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用，以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。7.掌握常见的机器学习算法。三、培训专家来自中国科学院计算技术研究所、清华大学、北京理工大学等科研机构和大学的高级专家，拥有丰富的科研及工程技术经验，长期从事机器学习、数据挖掘、大数据分析等领域的教学与研究工作。四、参会对象：各省市、自治区从事大数据分析、数据挖掘、数据处理、数据建模等领域相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生等相关人员，以及大数据研究广大爱好者。五、费用标准：5680元/人（含报名费、培训费、资料费、证书费）。住宿可统一安排，费用自理。1、培训费由组织培训班的施教机构负责收取并提供培训发票。2、上课前一周汇款可享受9折优惠，或报名5人以上可享受9折优惠，两个优惠不同时享用。3、参加线上、线下培训学员均可享受视频录播回放权益，及本人再次免费参加线下同主题课程学习权益。六、颁发证书：参加相关培训并通过考核的学员，由中国管理科学研究院现代教育研究所颁发《大数据开发与应用工程师》（高级）岗位认证证书，可通过官方网站查询，该证书可作为有关单位专业技术人员能力评价、考核和任职的重要依据。注：报到时请提交电子版彩照（大于20KB，红蓝底皆可）、身份证复印件和学历证明复印件各一份。七、注意事项1.指定报名邮箱：2044115758@qq.com。2.报名成功后，会务组在报到前一周发具体报到通知及行车路线。3.学员需自备电脑WIN10、64位系统，16G及以上内存，硬盘空间预留100G。八、具体课程安排
时间安排课程大纲详细内容实践训练
第一天9：00-12：0014：00-17：00 一、大数据概述1.大数据及特点分析2.大数据关健技术3.大数据计算模式4.大数据应用实例
二、大数据处理架构Hadoop1.Hadoop项目结构2.Hadoop安装与使用3.Hadoop集群的部署与使用4.Hadoop 代表性组件1.Hadoop Single Node Cluster2. Hadoop Multi Node Cluster
三、分布式文件系统HDFS1.HDFS体系结构2.HDFS存储3.HDFS数据读写过程1.创建与查看HDFS目录2.从本地计算复制文件到HDFS3.将HDFS文件复制到本地计算机4.复制与删除HDFS文件5.Hadoop HDFS Web浏览HDFS
四、分布式数据库HBase1.HBase访问接口2.HBase数据类型3.HBase实现原理4.HBase运行机制5.HBase应用
第二天9：00-12：0014：00-17：00 五、MapReduce1.MapReduce体系结构2.MapReduce工作流程3.资源管理调度框架YARN 4.MapReduce应用
六、Spark1.Spark生态与运行架构2.Spark SQL3.Spark部署与应用方式1.Python Spark 安装2.本地运行pyspark程序3.在Hadoop YARN 运行pyspark4.Spark Web UI
七、IPython Notebook运行Python Spark程序1.Anaconda2.IPython Notebook使用Spark3.使用IPython Notebook在Hadoop YARN模式运行1.在不同模式运行IPython Notebook运行Python Spark命令2.Python 程序开发
八、Python Spark集成开发环境1.Python Spark集成开发环境部署配置2.Spark数据分析库MLlib的开发部署Spark MLlib应用程序示例
第三天9：00-12：0014：00-17：00 九、Python Spark决策树二分类与多分类1.决策树原理2.大数据问题3.决策树二分类4.决策树多分类1.搜集数据2.数据准备：导入并转换数据、提取特征字段、提取标签3. Python Spark建模，训练模型 4.预测数据5.评估数据，给出评价指标并得到评估结果
十、Python Spark支持向量机1.支持向量机SVM 原理与算法2.Python Spark SVM程序设计1.数据准备2.建立SVM模型，训练模型 3.评估参数并找出最优参数4.根据模型进行预测
十一、Python Spark 贝叶斯模型 1.朴素贝叶斯模型原理2.Python Spark贝叶斯模型程序设计1.建模贝叶斯模型，并进行对参数估计2.训练模型，得到最优参数3.根据模型进行预测
十二、Python Spark逻辑回归1.逻辑回归原理2.Python Spark逻辑回归程序设计1.Python Spark逻辑回归建模2.根据模型进行分类
第四天9：00-12：0014：00-17：00 十三、Python Spark回归分析1.大数据分析2.数据集介绍3.Python Spark回归程序设计1.数据准备2.训练回归模型3.建立评估指标4.训练回归模型，并找到最优参数5.根据模型进行预测
十四、Spark ML Pipeline 机器学习流程分类1.机器学习流程组件：StringIndexer、OneHotEncoder、VectorAssembler等2.使用Spark ML Pipeline 机器学习流程分类程序设计1.数据准备2.建立机器学习Pipeline流程3.使用Pipeline流程训练4.使用PipelineModel预测5.评估模型准备率
十五、Python Spark 创建推荐引擎1.推荐算法2.推荐引擎大数据分析使用场景3.推荐引擎设计1.搜索数据2.准备数据3.训练模型4.使用模型进行推荐
十六、项目实践1.日志分析系统与日志挖掘项目实践a、Hadoop，Spark，ELK技术构建日志数据仓库b、互联网微博日志分析系统项目1.推荐系统项目实践a、电影数据分析与个性化推荐关联分析项目
更多内容请关注微信公众号：人工智能技术与咨询或登录中国人工智能培训网

页: [1]

机器人与人工智能爱好者论坛's Archiver

大数据建模、分析、挖掘技术