云南省高校数据化运营管理工程研究中心-CSDN博客

原创 Python删除指定行数据

Python小点点儿按列条件筛选、删除DataFrame的行遇到清洗数据的问题，需要把某一列中为指定元素的数据，整行去除尝试了drop却不能到达理想的效果，isin效果理想。import pandas as pddf = pd.DataFrame({"key":['green','red', 'blue'], "data1":['a','b','c']...

2018-12-23 21:26:07 6126 2

原创 Python 对数据one-hot编码

目录离散特征的编码分为2种情况：连续变量的离散化处理法1.标签的处理：法2.计算指标/哑变量one-hot编码结合pd.cut,处理连续变量合并（)：要注意使用merge还是join离散特征的编码分为2种情况：1.我们在进行那些有大小关系的变量离散，小雨，中雨，大雨，{“小雨”:1,“中雨”:2,“雨天”:3}，这里面有一定数量的大小关系，这种映射的讲解在法1：...

2018-09-25 12:05:08 580

原创使用webdriver打开本地浏览器--python

webdriver有三种1、firefox浏览器，geckodriver （firefox 47以上版本，需要下载第三方driver，即geckodriver） 2. chrome浏览器的chromedriver 3. IE的驱动IEdriver起因：Selenium调用webdriver.chrome()出错webdirver.chorme()时，却提示PATH路径中没有c...

2018-07-30 20:33:42 1016 2

原创 MacOS安装社区版Neo4j（图数据库）

知识图谱最近大热，Neo4j图数据库在这方面起到了很大的作用，也挺有意思的，安装它的时候走了不少弯路，在此分享Neo4j的安装过程。Neo4j安装地址：https://neo4j.com/download-center/ ，我下载的是3.3.6的，都可以，然后就等着吧。下载完成后解压我嫌它名字太长，改成了neo4j，打开终端，进入neo4j，再进入bin，输入./ne...

2018-07-27 10:07:19 711

原创 XGBoost——机器学习（理论+图解+python代码）

目录前言一、集成算法思想二、XGBoost基本思想三、MacOS安装XGBoost四、用python实现XGBoost算法前言在竞赛题中经常会用到XGBoost算法，用这个算法通常会使我们模型的准确率有一个较大的提升。既然它效果这么好，那么它从头到尾做了一件什么事呢？以及它是怎么样去做的呢？我们先来直观的理解一下什么是XGBoost。XGBoost算法是和决策树算法...

2018-07-27 09:58:16 2018

原创决策树算法——机器学习（理论+图解+python代码）

目录前言一、基本流程二、划分选择1、信息增益2、增益率3、基尼指数三、剪枝处理1、预剪枝 2、后剪枝四、连续与缺失值1、连续值处理2、缺失值处理五、多变量决策树（*拓展）前言暑假打算吃透一本书叫《机器学习》，大家也亲切的叫它西瓜书，看完决策树这部分想做做总结，虽然几年前对决策树的知识就有点印象，但是我发现现在又有了很多新的收获。 ...

2018-07-27 09:54:06 552 1

原创 DBSCAN聚类算法——机器学习（理论+图解+python代码）

一、前言二、DBSCAN聚类算法三、参数选择四、DBSCAN算法迭代可视化展示五、常用的评估方法：轮廓系数六、用Python实现DBSCAN聚类算法一、前言去年学聚类算法的R语言的时候，有层次聚类、系统聚类、K-means聚类、K中心聚类，最后呢，被DBSCAN聚类算法迷上了，为什么呢，首先它可以发现任何形状的簇，其次我认为它的理论也是比较简单易懂的。今年在python...

2018-07-27 09:18:26 7738 1

原创 Python2.7爬虫——爬取微信公众号文章

今天跟着这篇博客抓取微信公众号文章练习了一下爬虫，运行成功。想和大家分享一下过程中出现的问题和解决方法。运行环境 windows 7 + Pycharm2018 + Python 2.7目录目录1.安装必要的Python包1.1 关于下载selenium包1.2关于下载json包2.运行之前的准备代码中需要修改的地方运行结果展示需要注意的地方...

2018-07-26 17:02:42 2764 4

翻译 Pytorch 0.4.0入门

Pytorch 0.4.0 入门最近在学习Pytorch深度学习库，今天和大家分享一下jcjohnson的Pytorch sample 学习心得以及在运行sample代码时自己对各行代码打的注释。 Pytorch的核心特性有两个：n维张量器（类似于numpy，但可以在GPU上运行）；建立及训练神经网络的自动微分。本文将使用一个完全连接的relu网络作为运行示例。该网络将有一个...

2018-07-25 19:39:41 584 1

原创 Windows下python3.6：最最靠谱xgboost包安装、pytorch包安装教程

最近一直在捣鼓各种python包的安装，先来说说xgboost这个超级烦人的小妖精~~~1.xgboost在python3下的安装在网上搜索xgboost python安装等字样，会出来好多好多方法，经过多次尝试，大多数人推荐的pip云云是不靠谱的，反正本机尝试失败了。。。后来终于找到一个靠谱的网站，才成功的安装了xgboost 附上链接在Windows下安装XG...

2018-07-23 15:00:58 1159

原创知识图谱（Knowledge Graph）

认识知识图谱随着W3C在2007年发起的开放互联网数据项目（Linked Open Data）的火热，互联网上的数据正从杂乱的网页文本数据转变为包含大量描述实体之间丰富关系的数据万维网。在这个背景下，Google于2012年5月率先提出了知识图谱的概念，目的是将用户搜索的结果进行知识系统化，让每一个关键字都拥有一个完整的知识体系，从而真正意义上实现基于内容的检索，提高搜索质量。如...

2018-07-20 14:46:27 2378

原创 python学习文本特征提取(三) CountVectorizer TfidfVectorizer 朴素贝叶斯分类性能测试

系列目录 - python学习文本特征提取(一) DictVectorizer shuihupopython学习文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理python学习文本特征提取(三) CountVectorizer TfidfVectorizer 朴素贝叶斯分类性能测试 CountVectorizer TfidfVe...

2018-07-05 22:14:27 1512

原创 python学习文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理

CountVectorizer TfidfVectorizer 中文处理系列目录 - python学习文本特征提取(一) DictVectorizer shuihupopython学习文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理python学习文本特征提取(三) CountVectorizer TfidfVectorizer ...

2018-07-05 22:12:54 5440

原创 python学习文本特征提取(一) DictVectorizer

文章系列：python学习文本特征提取(一) DictVectorizer shuihupopython学习文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理python学习文本特征提取(三) CountVectorizer TfidfVectorizer 朴素贝叶斯分类性能测试 DictVectorizer对使用字典储存的数据进行特...

2018-07-05 22:04:29 1789

原创 Keras利用卷积神经网络（CNN）识别手写数字（环境python3.5）

今天介绍如何利用卷积神经网络进行MNIST数据集的手写数字识别。我们要做的就是将手写数字图像（images）识别为数字标签（labels）建模思路如下图： -### 目录用 [TOC]来生成目录：数据预处理模型建立评估模型准确率进行预测数据预处理 MNIST数据集共有训练数据60 000项、测试数据10 000项。其数据都由...

2018-06-10 09:19:45 3850 1

原创 RNN（Recurrent Neural Network）循环神经网络

**RNN（Recurrent Neural Network）在传统的全连接神经网络中，从输入层到隐藏层再到输出层，每一层之间的节点是无连接的，因为输入和输出是独立的，所以这种普通的神经网络对于序列数据的处理是无能为力的。而现实中，绝大多数的数据都是序列数据，比如音频、视频、文本等，都存在时间线，想要挖掘数据中的序列信息和语义信息，就需要神经网有更加特殊的结构，比如对于序列信息每一时刻的信...

2018-06-09 14:39:05 1461

原创神经网络之BP算法

最近在学习《Deep Learning》这本书，书中在前馈神经网络、全连接神经网络以及卷积神经网络等内容中，都有提到反向传播算法，这一算法可以说是神经网络中求解参数比较核心的部分了。为了更好地理解神经网络工作的原理，认识反向传播在神经网络中的运算机制，在综合《Deep Learning》书中的有关部分并且学习了b站讲解神经网络的相关视频及一些有关于BP算法的博客文章之后，笔者将自己的理解...

2018-06-07 09:58:08 1848

原创主题模型系列课程

主题模型系列课程讲解视频ALS LFM隐语义模型 PLSI主题模型 EM算法1 EM算法2 LDA基础知识—共轭先验分布 LDA基础知识—Dirichlet 分布马尔科夫链 mcmc与gibbs采样 gibbs与lda求解逆变换采样和拒绝采样 GMM-HMM在语音识别中的应用...

2018-05-30 13:44:28 365

原创零基础爬虫----python爬取豆瓣电影top250的信息

今天利用xpath写了一个小爬虫，比较适合一些爬虫新手来学习。话不多说，开始今天的正题，我会利用一个案例来介绍下xpath如何对网页进行解析的，以及如何对信息进行提取的。 python环境：python3.5先看看网页的样子先看看网页的样子先看看网页的样子豆瓣电影网站链接我们下面将要对电影的名字、链接、评分、评价人数和一句话描述这些信息进行提取 1、检查并复制电影名字的xPa...

2018-05-19 21:20:55 8621 3

原创美团点评2018春招自然语言处理方向

宝宝参加了2018美团的线上笔试，现改编题目一道：美团编程题目简化版小猪佩奇在探寻数字的奥秘，想要知道1到n的正整数排列起来一共有多少位数字。例如：n为11的时候，1234567891011，一共13位，则输出13。n的的大小范围是1&lt;=n&lt;=10^9。题目改编自：美团点评2018春招自然语言处理方向职位试卷，题目改编自：美团点评2018春招自然语言处...

2018-05-16 18:33:06 3229

原创 Windows中以Anaconda搭建虚拟环境，安装tensorflow（CPU版本）、keras教程

目录目录1.启动命令提示符2.建立TensorFlow的Anaconda虚拟环境3.可能遇到的各种坑~~4.启动jupyter notebook查看下载好的tensorFlow和Keras版本本文演示环境为win10 在安装之前默认读者的电脑里已经成功安装了Anaconda，并且其python版本为3.5及以上。1.启动命令提示符单击开始菜单旁边...

2018-05-10 20:42:13 5568

原创百度AI 开放平台API调用

近来要了解自然语言处理方面的技术，拿百度API做个实验对，进行多次编码尝试最终成功调用。在本人博客百度API使用系列，使用python代码实现。涉及内容如下：1. （一）百度AI 开放平台API调用之AccessToken获取2. （二）百度AI 开放平台API调用之应用实践代码修改中出现的错误，及最终的方法错误提示："error_code": 282004,error_ms...

2018-04-18 18:05:22 3392 1

原创 win10下MYSQL的下载、安装以及配置超详解教程~~小白入

下载MYSQL 官网下载MYSQL5.7.21版本，链接地址https://www.mysql.com/downloads/。下载流程图如下：进入官网点击Community，下载社区版。找到MYSQL Community Server，点击下方DOWNLOAD，进入下载页面。滑动到页面底部，官网提供了不同电脑位数（32/64位）的下载版本，我的电脑是win10-64位的，...

2018-04-16 19:56:36 79816 57

原创语音识别中GMM-HMM的相关知识

本文讲阐述在语音识别中GMM-HMM的知识。其中包括了对GMM（Gauss Mixture Model）和HMM（Hidden Markov Model）的定义、原理及其算法的介绍。GMM（高斯混合模型）设有随机变量X，则混合高斯模型可以用下式表示： p(x)=∑k=1KπnN(x|μk,∑k)p(x)=∑k=1KπnN(x|μk,∑k)p\left ( x \right )...

2018-03-22 11:42:04 760

原创 MCMC抽样与LDA参数求解

一、 MCMC抽样也许读者会觉得诧异，为什么在一本介绍主题模型的书中却看到了抽样的知识？作者是不是偏题了？答案当然是没有。相信你应该听说过有一门课程叫做统计学，在这门课程中，抽样占据着举足轻重的地位。当统计学的研究者们想要了解一个总体的某些参数时，他们的方案是，先去抽样获得样本，通过样本参数去估计总体参数。比如，想知道某财经高校学生们（总体）的平均月消费水平（总体参数），做法是：a.先...

2018-03-09 16:56:58 719

原创正则学习

正则使用当中用到的一些笔记：匹配base64url的代码：a='/item/%E4%BA%92%E8%81%94%E7%BD%91'import reb=re.match("/item/(%[A-Za-z0-9]{2})+",a)if b is not None: print b.group()结果：/item/%E4%BA%92%E8%81%94%E7%BD%9

2018-02-06 04:15:25 205

原创利用fillder进行app爬虫

配置环境按照这个装好filddler。然后可以观察你电脑和手机访问的所有url的请求。 https://jingyan.baidu.com/article/3a2f7c2e0d5f2126aed61175.html?qq-pf-to=pcqq.c2c过滤urlhttps://www.cnblogs.com/yoyoketang/p/6582437.html 按照这个设置，可以只

2018-02-06 04:08:58 3977

原创 windows10 安装mysql 以及遇到的各种问题解决方案

安装教程我是按照这个教程来的，步骤很详细： http://blog.csdn.net/anndy_/article/details/51093326 但是在这个过程中遇到了各种问题，问题及其解决方案如下：msvcr120.dll丢失修复方案一：百度下载msvcr120.dll文件（注意有64位和32位的区分），或者从正常运行的电脑拷贝msvcr120.dll：win7系统下该

2018-02-06 02:24:14 3674

原创主题模型简介视频----白锦

主题模型简介视频

2018-01-29 09:43:50 344

原创 git和码云使用教程（Windows二方法）

本Git和码云入门操作一方面简洁明了，忽略对简单的码云注册的演示，只做文字引导；另一方面，重点突出，对git链接码云容易采坑的地方，详细步骤。且本文有两种Git软件链接码云的方法，一种是窗口也代码输入；另一种是界面操作，各有千秋，欢迎“品尝”。网上的各种Git和码云入门教程长短不一，不懂的时候，看十几篇也会试错，倒腾了一两个半天也没出来。晚上看着实验室大神操作一遍，传授了葵花宝典。随后

2018-01-11 12:39:58 37616 3

原创神经网络实现连续型变量的回归预测（python)

最近写论文时用到一个方法，是基于神经网络的最优组合预测，主要思想如下：在建立由回归模型、灰色预测模型、BP神经网络预测模型组成的组合预测模型库的基础上,利用以上三种单一预测模型的组合构成BP神经网络组合预测模型。（我是参考的参考这篇文章：路玉龙,韩靖,余思婧,张鸿雁.BP神经网络组合预测在城市生活垃圾产量预测中应用）我的目的我需要用BP神经网络来做连续预测。关于BP神经网络的python实

2018-01-07 11:00:46 24621 17

原创 Beta-Binomial共轭和Dirichlet-Multionmail共轭（LDA基础知识视频）

Beta-Binomial共轭和Dirichlet-Multionmail共轭 l

2018-01-05 09:48:45 768

原创在jupeyter_notebook中编写内容教程

1.将文件解压放入C:\Users\renjiantao目录下，按照自己电脑实际情况放入2．Windows—所有程序—Anaconda2—Anaconda Prompt3.在cmd黑窗口输入：ipython notebook 检查刚才拷贝的文件是否已经在里边（我的文件是pydata-book-master）。如果存在直接点击就可以运行。 4.点击“+”号，添加文字，注

2018-01-04 21:36:32 471

原创 GMM-HMM在语音识别中的应用

1.语音识别系统的基本结构2.涉及算法3.GMM高斯混合模型3.1高斯混合模型的基本概念高斯混合模型是指具有如下形式的概率分布模型： p(y⏐θ)=∑k=1kαkϕ(y⏐θk)p(y\arrowvert\theta)=\sum_{k=1}^{k}{\alpha_{k}}\phi(y\arrowvert\theta_{k}) 其中，αk\alpha_{k}

2018-01-04 13:47:58 1645 12

原创 LDA前言知识

在 2003 年（准确地说应该是 2002 年）D. M. Blei1 提出的 LDA（Latent Dirichlet Allocation2）模型（翻译成中文就是——潜在狄利克雷分配模型），让主题模型火了起来。 LDA根据给定的一篇文档，推测其主题分布。通俗来说，人类根据文档生成过程写成了各种各样的文章，现在人们想让计算机利用LDA干一件事：计算机分析推测网络上各篇文章，分别都写了些啥主

2017-12-31 22:02:53 306 1

原创 LDA基础知识系列 ---- (2)Dirichlet 分布

本节将从Beta分布出发，水到渠成的讲述Dirichlet 分布和Dirichlet-Multinomial共轭，对称Dirichlet 分布的相关内容。理解LDA，可以分为下述5个步骤：一个函数：gamma函数四个分布：二项分布、多项分布、beta分布、Dirichlet分布一个概念和一个理念：共轭先验和贝叶斯框架两个模型：pLSA、LDA 一个采样：Gibb

2017-12-31 16:36:10 1489

原创 LDA基础知识系列 ----(1)共轭先验分布

理解LDA，可以分为下述5个步骤：一个函数：gamma函数四个分布：二项分布、多项分布、beta分布、Dirichlet分布一个概念和一个理念：共轭先验和贝叶斯框架两个模型：pLSA、LDA 一个采样：Gibbs采样本节以简单明了的叙述方式，讲述先验概率、似然函数、后验概率、同分布，Beta-Binomial共轭等共轭先验分布内容，对必要的推导，讲述其注意事项，避免跳

2017-12-29 21:19:36 1575

原创主成分分析的方差最大，解析主成份为什么可以（二）

PCA最大方差理论+几何意义转载请注明：云南省高校数据化运营管理工程研究中心博客http://write.blog.csdn.net/mdeditor#!postId=78932615主成份为什么可以经过主成分在压缩数据之后的数据（主成分得分数据），多个变量变为更少的综合变量，变量个数减少了，还能反映原有数据的信息吗？为什么可以呢？解决以上疑问前我们需要了解PCA理论基础：

2017-12-29 16:09:35 11020

原创基于隐语义模型的推荐系统

基于隐语义模型通过矩阵分解建立用户和隐类之间的关系，物品和隐类之间的关系，最终得到用户对物品的偏好关系。隐语义模型（LFM）假设我们想要发现 F 个隐类，我们的任务就是找到两个矩阵 U 和 V。

2017-12-19 20:22:29 8500 1

原创 typora+pandoc：markdown文本转换成word(也可把word转换成markdown哦）

因为想把自己写的博客转换成word，博客是markdown格式，公式什么的又懒得在word里面敲第二遍。于是就找了个方法让.md文本与.doc文本转换。步骤如下1首先，下载typora，一路安装即可。网址为: http://www.softpedia.com/get/Internet/WEB-Design/HTML-Editors/Typora.shtml 下载pandoc，一路安装即可，网址为

2017-12-19 14:44:59 25688 12

空空如也

空空如也