Chainer教程 1.1 机器学习简介

Posted on Fri 01 June 2018 in MachineLearning • 1 min read

机器学习简述

什么是机器学习?

Arthur Samuel 定义机器学习为:“能使得机器有能力进行学习但不需要显式(explicitly)的编程的技术”.
Tom Mitchell 定义机器学习为:“利用与任务T相关的经验E与度量P,来提升度量P的一种计算机程序”。
举个例子,现有一信用卡盗刷判断问题,我们按照第一个人给出的定义,编写程序时我们人为的选择某些特征如消费金额超过200000且消费地点不为常见消费地点则为盗刷,那么这个程序就不是一种机器学习程序,因为我们显式的进行了编程。 再结合第二个人给出的定义,我们的任务T就是判断一组行为的中有没有盗刷情况,经验E为行为特征(消费金额,消费地点,消费时间等),那么度量P如使用最简单的方法衡量既正确判断数/总数(这个又称为Accuracy)。 所以机器学习就是利用已有的经验E通过某种不是用规则判断的(非显示)方法,提升人任务T的度量P的一种嗯程序

什么时候适合使用机器学习?

我们结合第一个人给出的定义,最容易想到的情况就是显式地编程(规则判定)难以完成这个任务,在结合第二个人给出的定义我们需要有与任务相关的经验E,那么我们就要有合适的数据集,综上适合机器学习的任务应该有如下的特征 - 显式编程难以完成及难以写出合适的规则集 - 有适合与该任务的数据集 - 数据集有经验可获取(即数据集有潜在规则,这也就是为什么图像识别问题中很多都需要特征提取步骤,因为潜在规则难以理解)

机器学习有什么子类

从任务目标T上来讲机器学习分为2类 - 回归问题:从结果上看他给出了一组数值(如房价的预测),从过程中看其就是一组数学计算的集合 - 分类问题:分类又称为逻辑回归,故名思意其就是逻辑回归的基础上添加了逻辑操作,使得其结果逻辑上由数值变为逻辑符号(实际上就是回归问题加上一个阈值判断,或者最大值的分类(一般多用于多分类问题中,如10分类的问题,计算出分类5的概率最高为0.3,尽管其概率没有超过2分类问题中的阈值但我们只看最高的))
从经验E来讲机器学习分为3类
- 有监督学习: 什么是监督,也就是经验E有对应的标签,比如有3张狗的照片,告诉你前2个是狗让你去判断第三张那么为有监督学习 - 无监督学习(又称为聚类):同上,不给你相关的标签信息,让机器在机器去判断这3张图片是由相似。 - 半监督学习:即部分标签信息不确定