机器人与人工智能爱好者论坛

 找回密码
 立即注册
查看: 14850|回复: 0
打印 上一主题 下一主题

教程:引如何用AzureML构建简单的机器学习模型

[复制链接]

257

主题

279

帖子

1655

积分

版主

Rank: 7Rank: 7Rank: 7

积分
1655
跳转到指定楼层
楼主
发表于 2016-3-26 15:32:41 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

教程:引如何用AzureML构建简单的机器学习模型


2016.3.26  作者:TAVISH SRIVASTAVA

 
  在R语言和Python语言上建立机器学习模型有多困难?
  首先,这是一个极为艰巨的工作。对于媒介和专家来说,它仅仅是系统容量,问题理解和一点时间的问题。机器学习模型有时面临着系统不兼容的问题。特别是当数据集很大的时候。在这样的情况下,模型需要更长的计算时间,也可能出现系统崩溃。因此,对于初学者和专家,机器学习的使用让他们面临着过早的挑战。
  好消息是,机器学习已经在近几年变得更加容易。作为机器学习的初学者,你可以使用微软的AzureML开始你的学习之旅。
  在这篇文章中,我将传授大家学习机器学习的必要信息。同时,我演示了如何使用该软件一步一步的创建机器学习模型。

  该软件的计算速度堪比R和Python。因此,我认为专家们也可以试下。
  
  何为AzureML?
  AzureML是微软推出的一款关于机器学习算法的图形界面实现工具。使用这款工具,实现变得极其容易。如果你在使用E-miner网络挖掘有困难,那么这款工具相对而言不会这么难。我发现这款工具的资源更加丰富和可以实现更多的图像化。
  AzureML有哪些可用资源?
  让我们了解一下关于这款工具的各种可用资源。
  1、简单的数据集:我很爱测试哪些有很多内置数据集的工具。因为内置数据集令测试过程变得更加容易和方便。那么AzureML本身就自带很长的内置数据集。
  2、机器学习工具:AzureML基本含有每一种机器学习算法和指定评价指标。
  3、数据转换:它有所有的过滤选项,变换选项,总结选项和矩阵计算选项。
  4、数据格式转换选项:如果你要添加自己的数据集怎么办?AzureML有几个选项可以从你的系统读取数据集。下面是这些选项:
  
注:Convert:转换
  新建模型
  现在,你们知道了AzureML的潜能。现在让我们专注于使用它们的方法。我采取简单可以理解的例子进行演示。我建议你们也练习这些步骤,可以帮助你们更好理解这个教程。
  现在从点击新建一个实验开始
  你获得一个空的实验表:
  注:创建你的实验,将数据集和模块拖动到虚线框中。
  
  你可以选择一个面板:
  注:选择实验项目

      
  • Saved Datesets已保存的数据集
      
  • Samples样例
  成年人口收入
  机场代码数据集
  汽车价格数据集
  
  步骤1:选择数据集-你可以选择样本数据或者上传数据。在这个教程中。我将使用内置数据集中“乳腺癌数据”。只需将它拖动到主要窗口即可。
  注:Breast cancer data-乳腺癌数据
  实验创建于2015/11/29
  
  步骤2:选择一个简单工具-你可以选择从面板中搜索选项,找到“资料”选项。将它放到到你的数据集下面。
  注:breast cancer data-乳腺癌数据
  Split data-资料
  
  你可以在资料节点看到两个触碰按钮。这基本上意味着你有两个已经准备好的数据集可以提前使用。在右边的选项,你可以自由选择现在的资料(split Data)类型。
  步骤3:训练机器学习模型-这一步你需要两个节点。首先,确定你想创建的模型类型。第二,它将成为训练模型节点。你可以参考下图:
  注:Breast cancer data-乳腺癌数据
  Split data-资料
  Two-class Bayes Points Mach --二类贝叶斯节点
  Train Model-训练模型
  
  你注意到在训练模型(Train Model)节点有个红色感叹号。它提示你要具体目标变量。让我们通过点击这个标志选择目标变量。现在,你可以看到右边有一个窗口。现在选择“Launch column slector发布列选项”
  注:“Select a single column- 选择一个单列”
  Include-包括,包含
  Column names-列名
  Class-类
  
  在这儿我已经有了一个“Class 类”作为目标变量。
  步骤4:你的得分:参考下图
  
  Breast cancer data-乳腺癌数据
  Split data-资料
  Two-class Bayes Points Mach—二类贝叶斯节点
  Train Model-训练模型
  Score model –得分模型
  步骤5:最终评价
  Breast cancer data-乳腺癌数据
  Split data-资料
  Two-class Bayes Points Mach—二类贝叶斯节点
  Train Model-训练模型
  Score model –得分模型
  Evaluate model-评价模型
  
  运行这个模型!
  可视化数据集和输出结果。
  为了可视化节点,选择“node”,点击右键,然后点击可视化“visualize”。
  下面是将数据可视化成我们想要的样子:
  注:“rows-行,olumns-列,class-类,age-年龄,menopause-绝经期,更年期,tumorsize-肿瘤大小,inv-nodes-转化酶节点,nodes-caps-节点上限,deg-malig-恶变程度,breast-乳房”
  
  正如你所见,类变量仅仅只有两个预期值。这个工具对每个变量都做了整齐的描述,可以让大家查看常态。
  下面是评分模型:
  注:frequency 频率
  Scored Probabilities:得分概率
  
  正如表清晰所示,估计可能性主要集中在0到1区间。累积分布主要停留在平面之间.因此,模型输出高度分离的值。
  最后,下面是评估图表:
  True positive rate:真阳性率
  Scored dataset:得分数据集
  True positive:真阳性113
  False negative:假阴性6
  Accuracy:准确率0.962
  Precision:精密度0.942
  Threshold:阈值0.5
  AUC:曲线下面积 0.933
  False positive :假阳性 7
  True Negative:真阴性215
  Recall:查全率 0.950
  F1 score:F1 分数 0.946
  Positive label:阳性标签1
  Negative label:阴性标签0
  
  Score bin :得分斌
  Positive examples:阳性例子
  Negative examples:阴性例子
  Fraction above threshold:高于阈值的分数
  Negative precision:阴性精确度
  
  结束语:
  正如你所见:这个模型计算效率高,它建模和执行的时间共少于1分钟。计算评价模型相当的彻底,可能可以计算出你正在寻找的数据。因为时间效率和用户轻易就能使用这两点,我很喜欢这个工具。
  你是否觉得这篇文章有用?期待你分享你的AzureML体验。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

QQ|Archiver|手机版|小黑屋|陕ICP备15012670号-1    

GMT+8, 2024-5-12 09:10 , Processed in 0.060387 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表