自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 LDA主题模型

一、LDA主题模型概述Latent Dirichlet Allocation模型简称为LDA,2003年由Blei, David M.、Ng, Andrew Y.、Jordan提出,用来推测文档的主题,在机器学习领域主题模型中占有非常重要的地位。LDA将文档集中每篇文档的主题以概率分布的形式表示出来,通过分析并抽取出一些文档的主题分布,便可根据这些文档的主题分布进行主题聚类或文本分类。二、L...

2019-03-07 16:31:33 795

原创 EM算法原理及其在NLP中的应用

EM算法是一种迭代算法,全称为期望极大算法(expectation maximization algorithm),用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计。一、EM算法的原理EM算法输入:观测变量数据Y,隐变量数据Z,联合分布P(Y,Z|θ),条件分布P(Z|Y,θ);输出:模型参数θ(1)选择参数的初值θ0,开始迭代;(2)E...

2019-01-17 11:07:34 1713

原创 随机森林

随机森林(Random Forest)的基本思想来源于集成学习(Ensemble Learning)的Bagging方法。如下图所示,Bagging方法的思想是采用自助采样法(Bootstap sampling)进行T次的随机采样,得到T个采样集,对于这T个采样集,分别独立的训练出T个弱学习器,再对这T个弱学习器通过结合策略来得到最终的强学习器。关于集成学习,可参考《机器学习之集成学习》随机...

2019-01-15 16:48:33 402

原创 csdn中markdown编辑模式下输入上标

在csdn中markdown编辑模式下输入上标的方法为:输出效果为:θ0输入:即:将上角标输入到两个^中间,便可显示为上角标。

2019-01-14 16:55:42 571

原创 k-means算法

一、k-means算法概述k-means算法和KNN算法虽然都是以近邻信息来标注类别,但却是两类不同的算法:KNN算法是监督学习中的基本分类与回归算法,而k-means算法是无监督学习中的聚类算法。聚类是指将未标注的样本数据中相似的分为同一类,即“物以类聚,人以群分”。k-means算法是聚类算法中最为简单、高效的核心思想:指定k个初始质心(initial centroids),作为聚类的类别...

2019-01-14 11:47:12 902

原创 构建推荐系统之scikit-surprise

Surprise(Simple Python Recommendation System Engine)是一个用来构建和分析推荐系统的Python scikit,简单易用,且支持很多种算法,可点击这里下载。 一、surprise支持的算法1、支持的算法基础算法/baseline algorithms 基于近邻方法(协同过滤)/neighborhood methods 矩阵分...

2018-11-22 10:07:06 2806 1

原创 利用文本相似度解决推荐系统冷启动问题

一、推荐系统的冷启动问题推荐系统有一个万年问题,即“冷启动问题”。冷启动问题是指在系统积累数据量过少的情况下做推荐,导致无法给用户做个性化推荐的问题。冷启动问题可分为三类:1、用户冷启动用户冷启动是指当新用户到来时,由于缺失用户的行为数据,所以无法根据他的历史行为预测其兴趣,从而无法借此给用户做个性化推荐。出现用户冷启动问题时,主要是解决如何给新用户做个性化推荐的问题。2、物品冷启...

2018-11-17 17:03:48 1476 1

原创 机器学习之集成学习

 一、集成学习概述集成学习(Ensemble Learning)有时也被称为多分类器系统(multi-classfier system),是指将多个个体学习器集成或组合在一起,共同完成学习任务,现在已经被广泛用于分类和回归任务中。集成学习的思想来源于“三个臭皮匠赛过诸葛亮”:使用一些(不同的)方法改变原始训练样本的分布,从而构建多个不同的分类器,并将这些分类器线性组合得到一个更强大的分...

2018-11-14 11:14:37 874

原创 自然语言处理之未登录词(二)

在上一篇博文中已简单介绍了自然语言处理未登录词中新词提取的实现,现在来介绍一下新词提取的原理。未登录词-新词提取的流程如下图所示:对于新词提取的原理,主要介绍以下两个方面:1、利用词频选取候选词语,即种子词语2、判别候选词语的内部结合紧密程度和外部边界独立性 下面开始详细介绍一、利用词频选取候选词语,即种子词语利用N-Gram对语料进行切分,得到词语片段,统计词...

2018-11-13 10:19:09 7120 1

原创 自然语言处理之未登录词(一)

在中文自然语言处理过程中,我们会遇到很多其他语言不会有的困难,其中一个困难就是分词。首先,因为中文的词与词之间没有空格,从而产生分词歧义的难题,不过目前很多语言模型已经能很好的解决这个难题了。其次,由于中文中存在很多没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、机构名等)、新词等等,从而产生未登录词的难题,不过目前已经广泛使用命名实体识别(NER)来识别出名、地名、机构名...

2018-11-09 16:53:00 10286 3

原创 用GraphLab Create构建音乐推荐系统

最近跟着大神在进行机器学习实战,用GraphLab Create做音乐推荐系统。在这里,我将构建两种方法的音乐推荐系统,分别为:基于流行度的推荐系统和基于个性化的推荐系统。并且对于构建的推荐系统,分别用准确率和召回率来进行评估。下面我将详细介绍怎么用GraphLab Create来构建音乐推荐系统。系统:Windows10系统 软件:GraphLab Create,Jupyter Not...

2018-10-17 16:39:41 793 2

原创 基于Windows10平台下Anaconda+GraphLab Create+IPython 和 IPython Notebook的安装

最近想做一个推荐系统,需要使用到GraphLab Create,所以就在windows10电脑上安装了这个工具。安装的过程有点曲折,但还好最终安装好了,现在把安装过程贴出来,希望能帮到有需要的人。系统:Windows10系统GraphLab Create安装步骤:Note:GraphLab Create的安装需要Python 2.7.x环境、pip版本大于等于7、Anaconda2 v...

2018-10-13 09:58:48 402 1

原创 虚拟机搭建Hadoop集群(单机模式)

首先,请确保你已经安装了虚拟机,并安装配置了JAVA环境,需要这两方面教程的,请参考:1、虚拟机, http://blog.csdn.net/uq_jin/article/details/51355124 2、JAVA, http://blog.csdn.net/uq_jin/article/details/51356799 下面开始在虚拟机上搭建单机模式的Hadoop集群。 ...

2018-10-09 15:17:14 3443 1

原创 IPython与IPython Notebook(Jupyter)安装

IPython和IPython Notebook是做机器学习、人工智能的非常好用的工具,可以在浏览器中运行jupyter来进行代码的编辑,使用方便,且会有图形界面显示,是常用的机器学习、人工智能工具。系统:Windows1、首先需要安装python和pip2、在命令行中键入下列指令,使用pip安装IPython、IPython Notebook及IPython和IPython Note...

2018-09-25 14:54:58 6785 1

原创 机器学习实战之逻辑斯蒂回归Logistic

问题1来源:逻辑斯蒂回归——使用梯度上升找到最佳参数描述:gradAscent()编译通不过报错:NameError: name 'mat' is not defined解决办法:在所有代码前引入numpy包,即插入代码:from numpy import *原因:未引入numpy包,但使用了numpy包中的mat、shape、ones函数,导致出错问题2来源:逻辑斯蒂回归——画出...

2018-09-03 14:27:41 2056

原创 机器学习实战之朴素贝叶斯

问题1来源:使用朴素贝叶斯过滤垃圾邮件描述:spamTest()和textParse()读文件时编译通不过报错:UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199: illegal multibyte sequence      TypeError: cannot use a string patte...

2018-08-30 14:18:54 216

原创 机器学习实战之决策树

问题1来源:在python中使用Matplotlib注解绘制树形图描述:getNumLeafs(myTree)和getTreeDepth(muTree)中,firstStr = myTree.keys()[0]等带有myTree.keys()的地方都编译通不过报错:TypeError: 'dict_keys' object does not support indexing解决办法:将函数...

2018-08-29 12:01:30 640

原创 机器学习实战之K-近邻算法(一)

跟着《机器学习实战》书中代码进行实现时所踩的坑,给大家提个醒哈~ 问题1来源:从文本文件中解析数据描述:classify0(inX, dataSet, labels, k)中,sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1), reverse = True)编译通不过,报错:...

2018-08-09 16:42:06 222

原创 机器学习之感知机

今天,我将和大家一起学习机器学习中的感知机算法。 感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面。因此,感知机学习旨在求出将训练数据进行线性划分的分离超平面。为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型,从而实现利用得...

2018-05-15 11:34:31 353

原创 LightGBM安装手册

前段时间因工作需要使用LightGBM,所以就去下载安装了这个开源工具,用起来很方便,准确率和速度挺高的,棒棒哒!现在把安装步骤分享给大家。 系统:Linux系统 软件要求版本:glibc2.14版本以上、gcc4.9.4版本以上LightGBM安装步骤:1、从GitHub上git clone LightGBMgit clone https://github.com/Micr...

2018-05-11 15:06:12 1599

原创 机器学习之朴素贝叶斯学习笔记

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。一、朴素贝叶斯法理论知识1.    朴素贝叶斯法的学习与分类1.1基本方法:①先验概率分布   ②条件概率分布   ③条件独立性假设 条件独立假设是说用于分类的特...

2018-05-11 14:30:14 680

原创 机器学习之决策树学习笔记

一、决策树学习的目标根据给定的训练数据集,归纳出一组分类规则,构建决策树模型,使得模型能对实例进行正确划分。  二、决策树模型①决策树模型是基于特征,对实例进行分类的树形结构。②决策树模型的组成结构有:1. 结点(node)结点分为内部结点(internal node)和叶结点(leaf node),每一个内部结点对应着一个特征或属性,每一个叶结点对应着一个类2. ...

2018-05-11 14:13:43 1151

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除