Chainer教程 1.1 机器学习简介

Posted on Fri 01 June 2018 in MachineLearning • 1 min read

机器学习简述

什么是机器学习？

Arthur Samuel 定义机器学习为：“能使得机器有能力进行学习但不需要显式(explicitly)的编程的技术”.
Tom Mitchell 定义机器学习为：“利用与任务T相关的经验E与度量P，来提升度量P的一种计算机程序”。
举个例子，现有一信用卡盗刷判断问题，我们按照第一个人给出的定义，编写程序时我们人为的选择某些特征如消费金额超过200000且消费地点不为常见消费地点则为盗刷，那么这个程序就不是一种机器学习程序，因为我们显式的进行了编程。再结合第二个人给出的定义，我们的任务T就是判断一组行为的中有没有盗刷情况，经验E为行为特征(消费金额，消费地点，消费时间等),那么度量P如使用最简单的方法衡量既正确判断数/总数(这个又称为Accuracy)。所以机器学习就是利用已有的经验E通过某种不是用规则判断的(非显示)方法，提升人任务T的度量P的一种嗯程序

什么时候适合使用机器学习？

我们结合第一个人给出的定义，最容易想到的情况就是显式地编程(规则判定)难以完成这个任务，在结合第二个人给出的定义我们需要有与任务相关的经验E,那么我们就要有合适的数据集，综上适合机器学习的任务应该有如下的特征 - 显式编程难以完成及难以写出合适的规则集 - 有适合与该任务的数据集 - 数据集有经验可获取(即数据集有潜在规则，这也就是为什么图像识别问题中很多都需要特征提取步骤，因为潜在规则难以理解)

机器学习有什么子类

从任务目标T上来讲机器学习分为2类 - 回归问题：从结果上看他给出了一组数值(如房价的预测)，从过程中看其就是一组数学计算的集合 - 分类问题：分类又称为逻辑回归，故名思意其就是逻辑回归的基础上添加了逻辑操作，使得其结果逻辑上由数值变为逻辑符号(实际上就是回归问题加上一个阈值判断，或者最大值的分类(一般多用于多分类问题中，如10分类的问题，计算出分类5的概率最高为0.3，尽管其概率没有超过2分类问题中的阈值但我们只看最高的))
从经验E来讲机器学习分为3类
- 有监督学习: 什么是监督，也就是经验E有对应的标签,比如有3张狗的照片，告诉你前2个是狗让你去判断第三张那么为有监督学习 - 无监督学习(又称为聚类)：同上，不给你相关的标签信息，让机器在机器去判断这3张图片是由相似。 - 半监督学习：即部分标签信息不确定

Previous Post Next Post