读《统计学习方法》第一章有感

统计学习方法概论

这篇文章主要是我读李航博士的《统计学习方法》一书第一章的笔记,昨天书刚到手,趁着好奇心还在就翻了一下第一章,感觉和周志华博士的《机器学习》一书结合起来看有互补的味道。
机器学习这门学科吧,可以分成术与道两部分。何为术,就如我的导师一直问我们的,为什么机器可以学习?何为道呢,就是要会用各种机器学习的方法解决实际问题,比如掌握SVM、决策树、HMM、CRF等等。
前段时间一直在看Coursera上Ng大神的机器学习课程视频,Ng的视频作为入门来看是非常不错的,很易懂。之后有看了周志华博士的《机器学习》 ,发现又对Ng视频中没讲到的知识起到了查漏补缺的作用。看到一半的时候因为查阅相关资料,HMM和CRF这块理解起来太费力(概率论大一没学好,后悔!!!机器学习玩到后面基本都涉及概率问题啊,最近恶补概率论与数理统计的知识)发现好多人推崇《统计学习方法》一书就入手了一本。书的前言之前一页只有短短的几个大字——“献给我的母亲”,让我印象深刻。
首先讲述了统计学习的定义、研究对象和研究方法。之后又提出了统计学习方法的三要素:模型、策略和算法。统计学习的定义很简洁:统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。这是一门以数据驱动的学科,学习对象是数据。学习目的是为了对未知的数据进行预测与分析,那么问题来了——什么是学习?Herbert A.Simon给出的定义是:如果一个系统能够通过执行某个过程改进它的性能,这就是学习

统计学习的方法实现分为以下几个步骤:
1.获取训练集
2.确定包含所有可能模型的假设空间
3.确定最优的模型
4.利用3选择的模型对新数据进行预测分析

大致的“套路”就是,根据训练集来训练出一个模型,然后用这个模型去预测新的数据。如何训练出一个模型这块就是道,为什么要选择这个模型或者说为什么这个模型就是最优的就是术。道的话可以用一些例子来领会其中的意思,术的话就要掌握一些公式之类的,比如损失函数、正则化等。

第一章的话有几个概率论的名词需要理解掌握,这样看起来不太累:
联合概率分布,就是多个随机事件(变量)共同发生的概率。比如射击时候子弹在靶子上的坐标(x,y)就服从联合概率分布。

极大似然估计,举个例子吧,小黑和胖子一起比赛投篮,已知胖子命中率90%小黑命中率20%。这时候有一个球投进了,让你猜是胖子投进的还是小黑投进的,让你猜你应该会猜胖子对吧~ 这就是极大似然估计的概念,参数出现概率最大的值就认为它是估计值。

经验风险,就是测试集产生误差的和。经验风险越小,说明模型越好。

结构风险,主要是为了防止过拟合。

先验概率,是指根据以往经验和分析得到的概率,如全概率公式,它往往作为”由因求果”问题中的”因”出现的概率。(出自百度百科)

后验概率,再来举个例子吧,就是儿子已经存在了,你要确定儿子是你老婆和你生的概率,数学表达式应该是这样子,P(你和你老婆生的儿子|儿子)。需要理论上的解释的参考贝叶斯公式。

后面讲了些分类、标注、回归问题,这个后续看到了会继续写。然后还讲了些模型的评估方法,这个就不多做叙述了,都看得懂。就1.6节的泛化误差上界这块公式推的有点云里雾里的,总结下来一句话,训练误差小的模型,泛化误差也小。

差不多就这些了,看到哪儿写到哪儿。

snake

作者: snake

我们需要为这个社会做一点贡献,失去了才懂得去珍惜。

发表评论

电子邮件地址不会被公开。 必填项已用*标注