4 丁磊_Ml

尚未进行身份认证

我要认证

业精于勤,荒于嬉;行成于思,毁于随。

等级
TA的排名 2w+

命名实体识别 NER

文章目录搭建NER分类器评估NER分类器NER方法基于规则的方法(Rule-based Approach)投票模型(Majority Voting)基于分类模型-----非时序模型:逻辑回归,SVM ...特征工程Feature Encoding搭建NER分类器定义实体种类准备训练数据训练NER评估NER分类器精确率/召回率F1-scoreNER方法基于规则(比如正则)投票模型(Majority Voting)利用分类模型非时序模型:逻辑回归,SVM …时序模型:HMM,C

2020-07-31 16:02:58

解一个难题的思路

2020-07-28 19:20:49

自然语言处理:专家系统简介

专家系统的工作流程推理引擎推理引擎可以扩展 知识库中的知识。解决规则冲突选择最小规则子集

2020-07-28 19:11:00

自然语言处理-----语言模型 Language Model

文章目录Language Model(LM) 简介Chain Rulesparsity 稀疏性问题马尔可夫假设Language Model: Unigram, Bigram, N-gram举例:Unigram, Bigram 模型的训练过程和使用UnigramBigram语言模型的评估-----Perplexity平滑函数Add-one Smoothing (也就是 拉普拉斯平滑)Add-K SmoothingInterpolationGood-Turning Smoothing语言模型的应用:生成句子

2020-07-28 18:04:47

机器学习---背后数学原理--总结

文章目录2020-06学习报告线性回归LASSO 回归Ridge 岭回归感知机算法PLApocket算法线性判别分析逻辑回归高斯判别分析PCAhard-margin SVMsoft-margin SVM2020-06学习报告本月学习机器学习常见算法,并做相应的数学推导。具体的数学推导见文件夹中的pdf文件。本word是对上面的算法进行简单的总结。机器学习模型 主要包括以下流程:首先根据实际问题(比如 一些 先验信息的假设),思考自己的解决方案 (算法思路)将这个解决方案 用 数学的公式 表达出

2020-06-30 19:58:15

机器学习---背后数学原理--指数族分布

文章目录指数族分布公式指数族分布三大特性与三个模型充分统计量共轭最大熵模型将高斯分布写成指数族分布形式对数配分函数 A(η)A(\eta )A(η) 与充分统计量之间的关系极大似然估计求参数 与 充分统计量 之间的关系事实上,我们之前学的很多种概率分布都是指数族分布。指数族分布公式指数族分布三大特性与三个模型充分统计量共轭最大熵模型将高斯分布写成指数族分布形式对数配分函数 A(η)A(\eta )A(η) 与充分统计量之间的关系将这个定理带入到 高斯分布(一种指数族

2020-06-29 19:47:58

机器学习---背后数学原理--SVM之核函数

文章目录核函数正定核核函数在有的数据样本中,样本本就不是线性可分的。所以,我们就希望 找到一个非线性函数,将样本数据由低维映射到高维,从而使得样本在高维空间下,是可以线性可分的。cover theonemy: 高维比低维更容易线性可分。即通过非线性带来高维的转换假设这个非线性的映射函数为z=ϕ(x)z = \phi(x)z=ϕ(x)则,映射之后,样本的特征由x变为z但是有的时候ϕ(x)\phi(x)ϕ(x)维度非常高,甚至为无限维。导致ϕ(xi)T∗ϕ(xj)\phi(x_i)^T*\

2020-06-29 14:57:00

机器学习---背后数学原理--soft-margin SVM

文章目录所以soft-margin SVM的中心实现:在原hard-margin SVM模型的基础上,允许样本操作一定的误差。

2020-06-28 23:38:28

机器学习---背后数学原理--线性回归

文章目录线性回归的地位线性回归--最小二乘法估计与极大似然法则线性回归模型最小二乘估计,极大似然 ,及二者的关系(用频率派的角度理解最小二乘)最小二乘估计极大似然最小二乘估计 与 极大似然 的关系线性回归--正则化岭回归 l2 正则化 (频率派角度)从贝叶斯派的角度 理解 L2正则化正则化中 频率派和贝叶斯派 是一样的。综上所述线性回归的地位线性回归–最小二乘法估计与极大似然法则线性回归模型当前目标 是 找到 模型f(w)=wTxf(w)=w^Txf(w)=wTx,也就是求出参数 w。下面介绍

2020-06-28 22:31:45

机器学习---背后数学原理--线性分类

文章目录线性分类的背景感知机线性判别分析逻辑回归高斯判别分析线性分类的背景感知机https://blog.csdn.net/MosBest/article/details/52029217 这篇文章讲了 感知机算法和pocket算法线性判别分析线性判别分析 其实是一种降维的思想。假设样本是p维,二线性判别分析就是将所有p维的样本投影到 一维上(一条线上)。然后在这条线上进行 分类。逻辑回归高斯判别分析...

2020-06-28 22:29:40

机器学习---背后数学原理--SVM

文章目录SVM思想及其数学模型SVM的中心思想:用数学模型来表示SVM的中心思想建立思想将思想转化为数学表达式(数学模型)这个数学模型就是一个优化问题,求解这个优化问题即可。(梯度下降,EM算法,等等其他)SVM思想及其数学模型SVM有三宝:间隔,对偶,核技巧SVM分三类:hard-margin SVMsoft-margin SVMkernel SVMSVM的中心思想:用数学模型来表示SVM的中心思想下一步,就是要用数学公式表示出 margin(w, b)具体思路可见

2020-06-28 22:12:52

机器学习---背后数学原理--降维PCA(主成分分析)

文章目录维度灾难过拟合的三种解决方案:PCA(主成分分析)数学 预备知识PCA(主成分分析)的核心思想PCA的目标:最大投影方差最小重构距离PCA(主成分分析)------最大投影方差角度PCA(主成分分析)------ 最小重构距离角度PCA(主成分分析)------SVD角度PCA(主成分分析)------概率角度维度灾难从数据的角度上来看当你的模型增加一个特征(属性)后,你所需要的数据是以指数幂的形式增加从几何的角度上来看模型维度的增加,会导致数据的稀疏性过拟合的三种解决方案

2020-06-23 19:24:03

机器学习---背后数学原理--开篇:频率派 VS 贝叶斯派

文章目录机器学习方法最终引入 概率 是一个必然趋势,于是 最终 演化成 两大流派:频率派贝叶斯派本片blog就是来讲解这两大流派的异同。前提假设:样本 xi=(xi1,xi2,...,xip)x_i = (x_{i1}, x_{i2}, ... , x_{ip})xi​=(xi1​,xi2​,...,xip​): 第i个样本,且每个样本为p维向量样本集 X: 共有N个样本,则XN∗P=(xij)X_{N*P}=(x_{ij})XN∗P​=(xij​)参数θ\thetaθ: param

2020-05-21 18:07:28

设计原则

注意:本笔记整理于 极客时间 设计模式之美文章目录SOLID原则单一职责原则(SRP)开闭原则里式替换原则接口隔离原则依赖反转原则KISS原则YAGNI原则DRY原则LOD迪米特法则SOLID原则SOLID原则:由5个设计原则组成的,它们分别是:O:开闭原则L:里式替换原则I:接口隔离原则D:依赖反转原则单一职责原则(SRP)单一职责原则(Single Responsibilit...

2020-05-07 16:11:30

面向对象思想

注意:本笔记整理于 极客时间 设计模式之美文章目录面向对象编程思想面向对象、设计原则、设计模式、编程规范、重构,这五者有何关系?面向对象编程封装(Encapsulation)抽象(Abstraction)继承(Inheritance)多态(Polymorphism)面向对象与面向过程 二者的区别抽象类和接口基于接口而非实现编程多用组合少用继承面向对象编程思想现在,主流的编程范式或者是编程风格...

2020-05-06 11:49:48

mysql索引篇

文章目录查询结构的进化史何为索引索引模型哈希索引有序数组实现索引树形索引InnoDB中的索引模型sql语句创建索引InnoDB中表的存储方式索引分类主键索引和非主键索引聚集索引 和 非聚集索引索引创建方法创建表时,自增主键 与 把业务逻辑字段作为主键自增主键业务逻辑的字段做主键最左前缀原则 与 模糊匹配索引优化,在建立联合索引的时候,如何安排索引内的字段顺序索引优化,如何避免回表过程何为回表索引优...

2020-04-25 16:35:54

mysql基础结构

注意:本笔记整理于 极客时间 mysql实战45讲文章目录mysql 基础架构Server层长连接 与 短连接,--- 尽量使用长连接大多数情况下建议不要使用查询缓存存储引擎层redo log(重做日志)和binlog(归档日志)redo log 与 binlog 的不同?为什么会有这两份日志?mysql如何解决 更新数据 与 写入磁盘 两个操作之间的效率冲突 ----- WAL技术 redo...

2020-04-25 16:30:04

python常见知识点

注意以下内容,大部分为 极客时间 Python核心技术与实战 整理得到文章目录装饰器与闭包GIL何为GILGIL如何工作CPython引入GIL概念原因+=导致的线程不安全问题(有了GIL,线程也不一定安全)容器,可迭代对象,迭代器容器迭代器可迭代对象生成器多进程编程,多线程编程IO多路复用(select, poll, epoll)select协程并发编程之Futures并发编程之Asyncio...

2020-04-23 14:20:53

TensorFlow 之 TFRecord

文章目录为什么每个TensorFlow开发人员都应该了解TFRecord!什么是TFRecord?让我们看看代码之间的区别 - Naive vs TfrecordNaive普通方式Tfrecord方式从tfrecord阅读原英文文章是:https://www.skcript.com/svr/why-every-tensorflow-developer-should-know-about-tfre...

2019-03-19 12:45:02

目标检测 SSD网络结构

2019-03-13 10:50:56

查看更多

勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享学徒
    分享学徒
    成功上传1个资源即可获取