自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AI小白入门的博客

专注自然语言处理、机器学习、人工智能领域学习与研究

  • 博客(228)
  • 资源 (1)
  • 收藏
  • 关注

原创 干货|自然语言处理初学者个人建议及超多资料推荐

2018年快要过去了2019年马上要来了春节,想和大家聊聊少侠请留步其实是借此机会给大家拜年呀

2019-02-04 20:42:21 2178 1

原创 我的机器学习之路

版权声明:博客文章都是作者辛苦整理撰写的,转载请注明出处,谢谢!https://blog.csdn.net/m0_37306360/article/details/79780749时间2018年4月1号,静下心来梳理了一周的机器学习、nlp相关知识脉络,头有点炸,感觉很多地方搞不明白,网上资料鱼龙混杂,有写的好的,也有写的差的,有专门针对新手入门的,也有只有大佬才看的懂的复杂公式,作为一只入门...

2018-04-01 19:31:24 2357 4

原创 领域大模型修炼手册—从训练、评测到应用搭建

作者|Zhenyu Zhang, Shen Lei, Yuming Zhao, Shaozu Yuan, Meng Chen 编辑|Shaozu Yuan,Yuquan Le一、整体介绍及训练框架背景介绍虽然目前的通用大模型LLM能够在很多任务上取得令人振奋的效果,但是很多私域业务领域由于由于和通用领域差距较大,直接应用开源LLM经常效果不能达到令人满意的程度。例如,电商领域、医学领...

2023-08-15 21:02:01 543

原创 新闻上的文本分类:机器学习大乱斗

知乎:https://www.zhihu.com/people/wang-yue-40-21github: https://github.com/wavewangyue目标从头开始实践中...

2020-09-22 08:12:06 676

原创 【机器学习】模型聚类

点击上方蓝色字体,关注AI小白入门哟跟着博主的脚步,每天进步一点点本文介绍了混合高斯聚类算法。首先介绍了混合高斯的类表示是一个高斯模型,相似性度量定义为服从类参数为高斯分布,其是一种典...

2020-04-10 23:18:53 544

原创 【机器学习】Kmeans

点击上方蓝色字体,关注AI小白入门哟跟着博主的脚步,每天进步一点点本文介绍了K-means聚类算法。首先介绍了K-means算法是一种原型聚类算法,其类表示为类中心点,常用欧式距离作为...

2020-04-07 22:31:39 435

原创 【机器学习】层次聚类

点击上方蓝色字体,关注AI小白入门哟跟着博主的脚步,每天进步一点点本文介绍了层次聚类算法。首先抛出了聚类理论中两个关键问题:何为类,何为相似,同时介绍了聚类中常用两种评价指标:内部指标...

2020-04-06 22:34:51 431

原创 【机器学习】孤立森林

点击上方蓝色字体,关注AI小白入门哟跟着博主的脚步,每天进步一点点本文介绍了一种基于树集成的异常检测方法,其核心思想是“异常点是容易被孤立的离群点”。首先介绍了孤立森林算法的设计思路。...

2020-04-05 14:26:41 1140

原创 【机器学习】三层神经网络

来源 | AI小白入门作者 | 文杰编辑 | yuquanle原文链接三层神经网络1. 神经单元​ 深度学习的发展一般分为三个阶段,感知机–>三层神经网络–>深度学习(表示学习)。早先的感知机由于采用线性模型,无法解决异或问题,表示能力受到限制。为此三层神经网络放弃了感知机良好的解释性,而引入非线性激活函数来增加模型的表示能力。三层神经网络与感知机的两点不同1)非...

2020-04-03 16:29:33 1243

原创 【机器学习】Fisher线性判别与线性感知机

来源 | AI小白入门作者 | 文杰编辑 | yuquanle原文链接Fisher线性判别与线性感知机​ Fisher线性判别和线性感知机都是针对分类任务,尤其是二分类,二者的共同之处在于都是线性分类器,不同之处在于构建分类器的思想,但是二者有异曲同工之妙。同时二者又可以与logistic回归进行对比,当然logistic回归的理论基础是概率。1. Fisher线性判别​ Fi...

2020-04-03 16:21:38 1062

原创 【机器学习】知否?知否?广义线性模型

来源 | AI小白入门作者 | 文杰编辑 | yuquanle原文链接广义线性模型​ 从线性回归,logistic回归,softmax回归,最大熵的概率解释来看,我们会发现线性回归是基于高斯分布+最大似然估计的结果,logistic回归是伯努利分布+对数最大似然估计的结果,softmax回归是多项分布+对数最大似然估计的结果,最大熵是基于期望+对数似然估计的结果。前三者可以从广义线...

2020-04-03 16:03:08 287

原创 【机器学习】对数线性模型之Logistic回归、SoftMax回归和最大熵模型

来源 | AI小白入门作者 | 文杰编辑 | yuquanle完整代码见:原文链接1. Logistic回归​ 分类问题可以看作是在回归函数上的一个分类。一般情况下定义二值函数,然而二值函数构成的损失函数非凸,一般采用sigmoid函数平滑拟合(当然也可以看作是一种软划分,概率划分):从函数图像我们能看出,该函数有很好的特性,适合二分类问题。至于为何选择Sigmoid函数,后面可...

2020-04-03 15:50:45 474

原创 【机器学习】一文读懂线性回归、岭回归和Lasso回归

来源 | AI小白入门作者 | 文杰编辑 | yuquanle完整代码见:原文链接1. 线性回归1.1 线性回归​ 假设有数据有T={(x(1),y(1)),...,(x(i),y(i)),...,(x(m),y(m))}T=\left \{ \left ( x^{(1)},y^{(1)} \right ) ,...,\left ( x^{(i)},y^{(i)} \right...

2020-04-03 15:03:14 822

原创 【机器学习】XGboost

点击上方蓝色字体,关注AI小白入门哟跟着博主的脚步,每天进步一点点本文介绍了XGboost模型。首先在GBDT的基础上介绍XGboost,然后对比了XGboost与GBDT的不同之处,...

2020-04-03 10:02:43 306

原创 【智能司法】可解释的Rationale增强罪名预测系统

来源 | AI小白入门原文链接论文标题:Interpretable Rationale Augmented Charge Prediction System 论文来源:COLING 2018 论文链接:https://www.aclweb.org/anthology/C18-2032/引言任务定义罪名预测(Charge prediction)是智能司法领域最热门的任务之一...

2020-04-02 17:32:22 908

原创 【机器学习】GBDT

提升树提升树GBDT同样基于最小化第mmm个学习器和前m−1m-1m−1个学习器累加起来损失函数最小,提升树采用残差的思想来最小化损失函数,将投票权重放到学习器上,使得基学习器的权重都为1。GBDT将损失用一阶多项式拟合,基学习器拟合梯度,学习器的权重为一阶多项式的系数。在前面的Adaboost中,我们需要学习MMM个基学习器,赋予不同的权重组合得到最后的强学习器。它是基于MMM个基学习器组...

2020-04-02 17:05:52 327

原创 【机器学习】Adaboost

AdaboostAdaboost的Boosting理解Adaboost是集成学习中Boosting方式的代表。多个基学习器其串行执行,下一个学习器基于上一个学习器的经验,通过调整样本的权重,使得上一个错分的样本在下一个分类器更受重视而达到不断提升的效果。Adaboost集成多个学习器的关键在两点:设置基学习器的权重:am=12log1−emema_{m}=\frac{1}{2}log...

2020-04-02 17:01:53 419

原创 【机器学习】随机森林

集成学习集成学习通过构建多个学习器采用加权的方式来完成学习任务,类似于”三个臭皮匠顶个诸葛亮”的思想。当然多个学习器之间需要满足一定的条件,一般来讲,多个学习器同属于一种模型,比如决策树,线性模型,而不会交叉用多种模型。为了保证集成学习的有效性,多个弱分类器之间应该满足两个条件:准确性:个体学习器要有一定的准确性,这样才能有好的效果。多样性:学习器之间要有一些差异,因为完全相同的几...

2020-04-02 16:54:18 753

原创 【机器学习】决策树

来源 | AI小白入门作者 | 文杰编辑 | yuquanle原文链接决策树简介决策树是一种基本的分类和回归方法,用于分类主要是借助每一个叶子节点对应一种属性判定,通过不断的判定导出最终的决策;用于回归则是用均值函数进行多次二分,用子树中数据的均值进行回归。决策树算法中,主要的步骤有:特征选择,建树,剪枝。接下来将介绍三种典型的决策树算法:ID3,C4.5,CART。优点:...

2020-04-02 16:42:07 633

原创 【机器学习】条件随机场

点击上方蓝色字体,关注AI小白入门哟跟着博主的脚步,每天进步一点点本文介绍了条件随机场模型,首先对比了隐马尔科夫模型、最大熵马尔科夫模型、条件随机场模型。基于前二者存在的1)独立性假设问...

2020-01-31 11:46:24 380

原创 【机器学习】最大熵马尔科夫模型

点击上方蓝色字体,关注AI小白入门哟跟着博主的脚步,每天进步一点点本文介绍了最大熵马尔可夫模型,在隐马尔可夫模型(隐状态序列)的基础上应用最大熵模型思想,将一个概率生成模型转化为概率判别...

2020-01-30 11:30:41 890

原创 【机器学习】隐马尔可夫模型

点击上方蓝色字体,关注AI小白入门哟跟着博主的脚步,每天进步一点点本文介绍了隐马尔可夫模型,首先介绍了隐马尔科夫模型定义,核心思想是引入了隐状态序列(引入隐状态是所有隐因子模型最巧妙的地...

2020-01-28 11:33:58 949

原创 【机器学习】马尔科夫决策过程

点击上方蓝色字体,关注AI小白入门哟跟着博主的脚步,每天进步一点点本文介绍了马尔可夫决策过程,首先给出了马尔可夫决策过程的定义形式,其核心是在时序上的各种状态下如何选择最优决策得到最大回...

2020-01-14 23:30:00 1041

原创 【机器学习】朴素贝叶斯

点击上方蓝色字体,关注AI小白入门哟跟着博主的脚步,每天进步一点点本文介绍了朴素贝叶斯模型,朴素贝叶斯(几乎所有的概率模型)的核心假设:特征之间的条件概率相互独立。以垃圾邮件分类问题为例,分析了朴素贝叶斯模型的两种应用场景:1)先验分布和条件概率分布都为一元伯努利分布,2)先验分布为一元伯努利分布,条件概率分布为多元伯努利分布。分别对应词袋子表示中两种常用的方法: one-hot...

2019-12-09 11:30:00 280

原创 【机器学习】高斯判别分析

点击上方蓝色字体,关注AI小白入门哟跟着博主的脚步,每天进步一点点本文介绍了高斯判别分析,首先介绍生成模型,狭义的给出了生成模型与判别模型的一般区别;然后介绍高斯判别分析模型的三个基本假...

2019-12-08 19:20:28 652

原创 【机器学习】支持向量机

点击上方蓝色字体,关注AI小白入门哟跟着博主的脚步,每天进步一点点本文介绍了支持向量机模型,首先介绍了硬间隔分类思想(最大化最小间隔),即在感知机的基础上提出了线性可分情况下最大化所有样...

2019-12-07 23:04:40 531

原创 【机器学习】三层神经网络

点击上方蓝色字体,关注AI小白入门哟跟着博主的脚步,每天进步一点点本文介绍了传统的三层神经网络模型,首先介绍了网络中的神经单元概念,将一个神经单元视为一个逻辑回归模型。因此,神经网络可以看作是逻辑回归在(宽度,深度)上的延伸;然后,前向传播是一个复合函数不断传播的过程,最终视目标而定损失函数;最后,反向传播则是对复合函数求导的过程。当然三层神经网络只是深度学习的雏形,如今深度学习已经包罗万象。作者...

2019-11-10 11:30:00 2815

转载 【综述】近年来NLP在法律领域的相关研究工作

跟着博主的脚步,每天进步一点点导读今天总结了下近年来NLP在法律领域的相关研究工作,包括论文、竞赛和一些优秀项目、在线系统。该项目放到了github上了:https://...

2019-10-06 23:00:00 2387

原创 初学者|一步步掌握FoolNLTK

点击上方蓝色字体,关注AI小白入门哟跟着博主的脚步,每天进步一点点本文介绍了FoolNLTK的使用方法,是一个使用双向 LSTM 构建的便捷的中文处理工具包,该工具不仅...

2019-10-05 22:30:41 817

转载 【综述】NLP领域迁移学习现状

跟着博主的脚步,每天进步一点点NAACL 2019tutorial 完整呈现翻译 |栗 峰校对| 杨晓凡在过去一年多的时间里,以预训练模型形式进行的迁移学习已经...

2019-10-04 23:00:00 722

转载 【综述】自动机器学习最近研究进展

跟着博主的脚步,每天进步一点点本文首先从端到端系统的角度总结了自动机器学习在各个流程中的研究成果,然后着重对最近广泛研究的神经结构搜索进行了总结,最后讨论了一些未来的研究...

2019-10-01 23:00:00 898

转载 【干货】 Python入门深度好文(上篇)

跟着博主的脚步,每天进步一点点对于任何一种计算机语言,我觉得最重要的就是「数据类型」「条件语句 & 迭代循环」和「函数」,这三方面一定要打牢基础。此外 Pytho...

2019-09-30 23:00:00 155

转载 资源 | 完备的 AI 学习路线资源整理!

跟着博主的脚步,每天进步一点点【导读】本文由知名开源平台,AI技术平台以及领域专家:Datawhale,ApacheCN,AI有道和黄海广博士联合整理贡献,内容涵盖AI...

2019-09-21 23:00:00 500

转载 资源 | Python中文分词工具大合集

跟着博主的脚步,每天进步一点点这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考。首先介绍...

2019-09-20 23:00:00 434

转载 推荐几个不错的公众号

学习如逆水行舟,不进则退;只有坚持不断的学习,才能保持进步。今天给大家精心挑选的这几个优质的公众号,在行业深耕已久,相信大家一定会有所收获,感兴趣的可以关注一下。大数据肌...

2019-09-20 23:00:00 245

转载 综述 | 一文简单了解句向量

跟着博主的脚步,每天进步一点点前言如何求解一个sentence vector的表达过去,我们常见的就是从word vector到sentence vector,这种从小...

2019-09-19 23:00:58 534

原创 是时候总结下2019年上半年了

点击上方蓝色字体,关注AI小白入门哟跟着博主的脚步,每天进步一点点毕业季,一首亲爱的旅人啊,让不再拥有暑假的人内心更加沉重...碎碎念今天是七月一号,七月的第一天,在某种...

2019-07-02 00:00:27 199

原创 自然语言处理中注意力机制综述

目录写在前面Seq2Seq 模型NLP中Attention mechanism的起源NLP中的注意力机制4.1 Hierarchical Attention4.2 Self-Attention4.3 Memory-based Attention4.4 Soft/Hard Attention4.5 Global/Local Attention评价指标写在后面参考文献近些年来...

2019-01-19 15:04:22 5192 1

原创 工具篇Flair之训练自己的Flair Embeddings

更多实时更新的个人学习笔记分享,请关注:知乎:https://www.zhihu.com/people/yuquanle/columns微信订阅号:AI小白入门ID: StudyForAIFlair工具使用教程之如何训练自己的Flair Embeddings教程地址:https://github.com/zalandoresearch/flair/blob/master/res...

2019-01-17 17:11:21 1359

原创 工具篇Flair之优化模型教程

更多实时更新的个人学习笔记分享,请关注:知乎:https://www.zhihu.com/people/yuquanle/columns微信订阅号:AI小白入门ID: StudyForAIFlair工具使用教程之如何优化自己的模型教程地址:https://github.com/zalandoresearch/flair/blob/master/resources/docs/T...

2019-01-17 17:08:39 2767 9

《Java 基础入门(传智播客出品)》高清

文件为Java基础入门书籍,由传智播客出品,相当适合新手入门学习java

2018-03-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除