机器学习第一篇
最近正在看了看机器学习的公开课,稍微记一下笔记。
起源及定义
起源
机器学习的起源来自Arthur Sanuel编写一的西洋棋程序。让西洋棋程序自己跟自己下了上万盘棋。通过观察哪种布局(棋盘位置)会赢,哪种布局会输,久而久之,这西洋棋程序明白了什么是好的布局,什么样是坏的布局。程序通过学习后,玩西洋棋的水平超过了Samuel。
定义
由Tom Mitchell提出,来自卡内基梅隆大学,Tom定义的机器学习是,一个好的学习问题定义如下,他说,一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。
分类
从大类上分为监督学习Supervised Learning和非监督学习Unsupervised Learning。
监督学习
监督学习就是我们有一组标准的输入输出,而我们的目的是从标准的输入输出之间找到联系,然后预测新输入的输出结果。Supervised Learning又分为回归问题(Regression)和分类问题(Classification)。
回归问题
回归问题就是处理一系列连续的属性。
分类问题
分类问题主要是处理的是离散的数值。
无监督学习
Unsupervised Learning就是告诉我们一堆数据,我们也不知道什么是对什么是错,没有标准答案,也并不知道能分为几个聚集族。但是我们只要分出来那些数据属于一个聚集族就可以了,书上讲的主要是聚类。
总结
聚类和分类有什么区别呢?这就需要我们看大的分类了。举个最简单的例子,我们要期末考试了,老师说那些内容考,那些内容不考。这就是分类,于是我们把内容分为考和不考。但是我们自己复习的时候又会自己把题聚一下类,因为我们之前并不到可以分为多少类题,也不知道考试题都属于那些类。最后我们可能总结10类或者20类题型,这就是聚类的过程。
参考文章
斯坦福大学2014机器学习教程个人笔记