动态规划实现编辑距离的计算

编辑距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
由于这个概念是俄罗斯科学家Vladimir Levenshtein在1965年提出的,因此编辑距离又称为Levenshtein Distance。这个是典[……]

→Continue→

研究僧的2周小记

今天被微信小程序刷屏了,上了一整天的课,晕晕的。开学到现在,除去中秋放了一次假基本没怎么休息过。白天上课,闲暇时间做做导师给的小任务练练手,下午锻炼晚上自习看书(NLP巴拉巴拉巴拉)。研一的生活已经过了2周了,时间过得飞快。总结下开学到现在的一些印象比较深刻的事情吧,总的来说和我预期的研究僧生活有点[……]

→Continue→

隐马尔科夫模型——学习问题与预测问题

本文接着说隐马尔科夫的后两个问题,学习问题与观测问题:

学习问题,已知观测序列,估计三要素参数π、B、A。
预测问题,也称作解码问题。已知模型和观测序列,求对给定的观测序列对应概率最大的状态序列。

学习问题,根据是否给出状态序列把学习问题分为监督学习和无监督学习两类,本文先介绍监督学习[……]

→Continue→

隐马尔科夫模型——概率计算问题

谈到这个很经典的模型,首先普及一下基本知识:马尔科夫马尔科夫链

隐马尔科夫模型是关于时序的概率模型,描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态生成一个由观测而产生观测随机序列的过程。隐藏的马尔科夫链随机生成的状态的序列成为状态序列(state sequence),[……]

→Continue→

感知机学习算法

本文是读李航博士《统计学习方法》第二章的笔记总结。
感知机是用于二类分类的线性分类器,如果数据线性不可分,我觉得可以采用提升数据维度的方法来使得数据在更高的维度上线性可分。如果要用于多类别分类,可以循环使用感知机,每次分出一个类。
本文主要探讨两个问题,1.感知机是如何用于数据线性分类的? 2.[……]

→Continue→