自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(253)
  • 资源 (9)
  • 收藏
  • 关注

原创 新技能:Markdown中使用LaTeX

Markdown中使用LaTeXAuthor:kevinelstri DateTime:2017/3/16注意:文本所有的 |,在使用的过程中都是\,Markdown中显示的是|,其实是\1. Markdown中使用LaTeX基础LaTeX 公式有两种,一种是用在正文中的,一种是单独显示的。正文中的公式用 $…$来定义,单独显示的用 $$…$$来定义,其中 $符号中间包含三个点表示的是

2017-03-16 11:32:12 15307 6

原创 【斯坦福大学-吴恩达-机器学习】

Author:kevinelstri DateTime:2017/3/14 本课程提供了一个广泛的介绍机器学习、数据挖掘、统计模式识别的课程,主题包括: 1、监督学习(参数/非参数算法,支持向量机,核函数,神经网络)。 2、无监督学习(聚类,降维,推荐系统,深入学习推荐)。 3、在机器学习的最佳实践(偏差/方差理论;在机器学习和人工智能创新过程)。 本

2017-03-14 15:29:40 1832

原创 Scipy Lecture Notes

Author:kevinelstri DateTime:2017/3/14 From:http://www.scipy-lectures.org/ 关于科学Python系统的教程:快速介绍重要工具和技术。不同的章节对应一个1到2小时的课程来增加专业水平,从初学者到专家。1. Getting started with Python for science1.1. Python scienti

2017-03-14 15:13:17 899 1

翻译 Analytics Vidhya

Author:kevinelstri译文:使用python读取数据科学最常用的文件格式

2017-03-12 18:29:58 2307

原创 基于python的机器学习库Sklearn

scikit-learn,也称为sklearn,是基于python的机器学习库,可以方便进行机器学习算法的实施,包括:分类、回归、聚类、降维、模型选择和预处理等数据挖掘的相关算法。下面是对官方文档进行学习的收获,以代码的形式将官方文档的内容翻译记录在代码中,方便算法的学习。scikit-learn1:使用案例对sklearn库进行简单介绍scikit-learn2:使用sklearn库进行统计学

2017-03-09 15:01:38 7289 1

原创 基于python的数据分析库Pandas

Pandas中的数据结构Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。Time- Series:以时间为索引的Series。DataFrame:二维的表格型数据结构。很多功能与R中的dat

2017-02-19 10:23:29 1289

原创 MySQL大咖一日行

MySQL开发基础:【MySQL 00】MySQL数据表 【MySQL 01】查询–总结 【MySQL 02】数据库总结 【MySQL 03】各种数据库对应的jar包、驱动类名和URL格式 【MySQL 04】命令行查询乱码问题 【MySQL 05】使用Java对MySQL进行操作(创建数据库) 【MySQL 06】事务处理 【MySQL 07】数据库恢复技术 【MySQL 08】存

2016-10-29 11:20:07 859

原创 Python从入门到放弃

Python基础知识:Python列表 Python元组 Python字符串 Python字典 Python正则 Python字典排序 Python编码Python正则表达式 Python集合 Python map Python reduce Python lambda

2016-10-19 22:57:43 53261 24

原创 【手撕机器学习系列】Numpy矩阵运算

手撕机器学习系列继续进行中。。。线性回归是逻辑回归问题的基础,搞懂线性回归才能更好的理解逻辑回归,对线性回归的优化和边界值查找就涉及到矩阵的运算和变换,于是对Numpy矩阵运算进行详解,也是对后续算法的理解【手撕机器学习系列】Numpy矩阵运算原理:(可参考:线性代数知识汇总)手撕代码:import numpy as np'''Author:kevinelstriDate:2021/04/27Desc:Numpy矩阵运算'''###########################.

2021-04-27 22:33:20 412

原创 【手撕机器学习系列】KNN算法

机器学习算法理论太过强大,既要知其然,又要知其所以然手撕代码的好处就是对原理深入的理解,不仅从理论层面,也在代码技巧上有所认识一个强大系统的实现就是一个个小系统的堆积,原理都是一样的,从小见大,流程都是相通的【手撕机器学习系列】KNN算法原理:(资源太多,这里不再赘述)手撕代码:import numpy as npimport mathfrom collections import Counter# 读取数据def load_data(filename): initMat.

2021-04-25 22:46:31 534

原创 【手撕机器学习系列】kmeans算法

重温《机器学习实战》,对其中的经典算法重新学习,发现又是另一种感受;才发现自己以前并没有真正理解,在数据结构算法的理解基础上,再来看机器学习算法,发现有一种异曲同工之妙,这才有了《手撕机器学习系列》的想法,让我们一起走进算法,在理解中认识算法,而不是简单的调包。【手撕机器学习系列】kmeans算法原理:(资源太多,这里不再赘述)手撕代码:import mathimport random# 读取数据def load_data(filename): dataSet = [] .

2021-04-25 20:33:18 832

原创 文本分析--jieba中文分词

分词技术可以分为英文分词和中文分词: 对于英文分词而言,由于英文单词之间以空格来分隔,所以在进行英文分词的过程中,只需要针对空格进行划分就可以了。 对于中文分词而言,中文单词之间没有英文单词天然的空格来划分,所以就需要对中文进行处理;主要有三种方式:一个是基于字典匹配的分词方法,一个是基于语义分析的分词算法,还有一个是基于概率统计模型的分词方法。以下介绍的是python中

2019-12-25 16:36:59 3896

原创 windows下pip换源

1、打开appdata文件夹,在资源管理器的地址栏输入%appdata%后回车:C:\Users\kevinelstri\AppData\Roaming\3、新建一个pip文件夹,在pip文件夹里面新建一个配置文件pip.ini:[global]timeout = 6000index-url = https://pypi.tuna.tsinghua.edu.cn/simpletrus...

2019-12-09 21:54:44 277

原创 【统计学习方法系列】- 01.统计学习方法概述

文章目录统计学习方法监督学习、非监督学习、半监督学习和强化学习区别分类与回归之间的区别是什么?统计学习方法三要素:模型、策略和算法模型选择:正则化、交叉验证和泛化能力监督学习方法:分类问题、标注问题和回归问题分类问题:** 监督学习从数据中学习一个分类模型或分类决策函数,称为分类器** 分类器对新的输入的进行输出的预测,称为分类** 二分类问题的评价指标:精确率、召回率和F1值...

2019-04-14 20:36:06 1073

原创 Installer integrity check has failed 疑难杂症

Installer integrity check has failed 疑难杂症安装pycharm遇到问题:~~~ Installer integrity check has failed. Common causes include incomplete download and damaged media. Contact the installer’s author to obtain

2017-08-24 09:41:40 22365

原创 Chunkize warning while installing gensim 疑难杂症

UserWarning: detected Windows; aliasing chunkize to chunkize_serial warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")解决方案: 在import gensim前面加入:import warningswarnings.filterwar

2017-08-16 19:16:17 10323 4

原创 基于同义词词林的文本相似度算法研究语料库

本文是基于大学排行榜指标体系进行实验分析的,从指标体系中获取10个指标进行数据实验分析,数据的采集是使用2017年大学排名前100所高校的高校简介进行文本分析,下面是100所高校简介的链接地址: 编号 高校 高校简介URL地址 1 北京大学 http://www.pku.edu.cn/about/index.htm 2 清华大学 http://www.tsinghu

2017-07-06 10:27:19 4972

原创 聚类的评价指标(无监督学习)

详细理论说明,可以查看其他博客:# coding:utf-8from sklearn import metrics""" 聚类性能评估"""""" 1、Adjusted Rand index (ARI) 优点: 1.1 对任意数量的聚类中心和样本数,随机聚类的ARI都非常接近于0; 1.2 取值在[-1,1]之间,负数代表结果不好,越接近于1越好;

2017-05-08 15:02:24 13922 1

原创 python使用JPype来运行java文件

1、下载JPype(注意版本,这里就不介绍了) 2、使用方法:# -*-coding:utf-8-*-# import jpype## jvmPath = jpype.getDefaultJVMPath() # 默认 JVM 路径# jpype.startJVM(jvmPath) # start# jpype.java.lang.System.out.println("hello wo

2017-04-27 12:30:59 2257

原创 文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)

文本分析过程中,中文文本分析是一个非常重要的环节,而停用词表的选择也是非常关键的,网络流行了多种版本的停用词表,都具有各自的特点,现在对网络流行的多种停用词表继续去重处理,综合实现新的停用词表。不同版本的停用词表: 去重合并:# -*-coding:utf-8-*-import os""" 合并文本文件"""mergefiledir = os.getcwd()+'\\stopwor

2017-04-18 14:20:32 26968 38

原创 文本分析--基于gensim的文本主题模型分析

#!/usr/bin/python# -*- coding:utf8 -*-import osimport timeimport reimport jieba.analyseimport time# 关键词获取def post_cut(): fr = open("post_data.txt") # 源文件 fo = open("post_key.txt", "a+")

2017-04-12 18:05:21 3534 1

原创 文本分析--校园新闻:聚类

# -*-coding:utf-8-*-import jiebaimport osimport codecsfrom sklearn import feature_extractionfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extraction.text import

2017-04-12 18:04:00 1304

原创 文本分析--校园新闻:关键词获取

新闻数据:       每行都是一个文档,并且已经进行了分词和停用词处理。 # -*-coding:utf-8-*-import unioutimport jieba.analysefrom sklearn import feature_extractionfrom sklearn.feature_extraction.text import TfidfTransformerfrom s

2017-04-12 17:56:52 1192

原创 文本分析--Gensim向量空间

# -*-coding:utf-8-*-import gensim""" Tutorial 1: Corpora and Vector Spaces"""import logginglog = logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)"""

2017-04-12 17:51:58 1249

原创 文本分析--Gensim概述

# -*-coding:utf-8-*-import gensim""" Getting Started with gensim Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中, 无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA, 和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算

2017-04-12 17:51:01 2035

原创 文本分析--NLTK访问文件

# -*-coding:utf-8-*-from __future__ import divisionimport nltk, re, pprint""" 从网络和硬盘中访问文本: 1、电子书 2、处理的html 3、处理搜索引擎的结果 4、读取本地文件 5、从pdf,word及其他二进制格式中读取

2017-04-12 17:47:38 2192

原创 文本分析--NLTK语料库选择

# -*-coding:utf-8-*-""" from nltk.book import * 获取所有的语料库"""""" 古滕堡语料库"""# from nltk.corpus import gutenberg # 直接加载某个具体语料库## print gutenberg.fileids() # 语料库的文本## emma = gutenberg.words(

2017-04-12 17:45:29 3700

原创 文本分析--NLTK自然语言处理

# -*-coding:utf-8-*-from __future__ import divisionfrom nltk.book import *""" 搜索文本"""# print text1# print text1.concordance('monstrous') # 查找有这个单词的句子,并显示出来# print '---------------------------

2017-04-12 17:44:34 1696

原创 文本分析--simhash算法进行文本相似度判断

simhash算法分析:文本相似度算法:1、TF-IDF:TF(词频),IDF(逆词频)利用tf-idf得到一个词语的权重,来计算一篇文章的关键词2、simhash:局部敏感hash局部敏感:A、B具有一定相似性,在hash后,仍然保持相似性。通过将关键词集合hash成一串二进制,直接对比二进制数,来看其相似性得到两篇文档的相似性,查看相似性的时候采用海明距离(二进制数之间计算)。对文章simhas

2017-04-12 10:20:24 9600

原创 文本分析--关键词获取(jieba分词器,TF-IDF模型)

关键词获取可以通过两种方式来获取:       1、在使用jieba分词对文本进行处理之后,可以通过统计词频来获取关键词:jieba.analyse.extract_tags(news, topK=10),获取词频在前10的作为关键词。       2、使用TF-IDF权重来进行关键词获取,首先需要对文本构建词频矩阵,其次才能使用向量求TF-IDF值。# -*-coding:ut

2017-04-11 15:44:24 23111 8

原创 文本分析--遍历文件夹和读写文件

分析: 1、读取指定目录下的所有文件 2、读取指定文件,输出文件内容 3、创建一个文件夹,并将内容放到指定文件中输入文件存放样例: 输入文件夹News_split下的所有文件: 输出文件存放样例: 创建一个文件夹News_split_cut,并将文件保存到文件夹下: 实现:# -*-coding:utf-8-*-import sysimport reimport codecsim

2017-04-11 14:08:39 1896

原创 文本分析--数据收集

在进行文本分析的过程中,数据的获取是非常重要的,不同的网站所具有的结构也是不同的。下面将使用python进行解析网页,并且通过比较不同的数据爬虫包,选择了soupy包来进行爬取。       下面将对soupy进行详细的说明:(记录一下,待更新。。。)

2017-04-11 13:52:42 990 1

原创 【斯坦福大学-机器学习】5.Octave教程

5.1 基本操作>> a='hello world!';>> aa = hello world!基本运算:>> 5+6ans = 11>> 3-2ans = 1>> 5*8ans = 40>> 1/2ans = 0.50000>> 2^6ans = 64>> 1==2ans = 0>> 1~=2ans = 1>> 1||0 % orans = 1>> 1

2017-03-27 22:27:36 892

原创 【斯坦福大学-机器学习】4.多变量线性回归

【斯坦福大学-机器学习】4.多变量线性回归Author:kevinelstri DateTime:2017/3/224.1 多维特征目前为止,所讨论的都是单变量/特征的回归模型,也就是在对房价模型进行预测的过程中,只存在一个特征:面积 下面,将构建一个含有多个变量的模型,来进行多特征回归分析,模型的特征为(x1,x2,...,xn)(x_1,x_2,...,x_n) nn代表特征的数量 x(

2017-03-27 21:24:58 581

原创 【Linux就该这么学】01 Linux命令

【Linux就该这么学】Linux命令Author:kevinelstri DateTime:2017/3/20 1、shell      计算机硬件由运算器、控制器、存储器、输入输出设备等组成,而系统内核则是让计算机中各种硬件设备共同工作。       Linux系统的内核负责驱动硬件、管理活动和分配/管理硬件资源等任务。      shell——“壳”,充当了人与内核的翻译官,用户将一条命令

2017-03-20 20:41:40 649

原创 【斯坦福大学-机器学习】3.线性代数

【斯坦福大学-机器学习】3.线性代数Author:kevinelstri DateTime:2017/3/203.1 矩阵和向量矩阵:矩阵的维数:行数×\times列数AijA_{ij}:第i行,第j列的元素 向量:向量是一种特殊的矩阵 3.2 加法和标量乘法矩阵的加法:行列数相等的才可以进行加法运算 矩阵的标量乘法:每个元素都要乘 3.3 矩阵向量乘法矩阵与向量的乘

2017-03-20 10:51:41 1098

原创 【scikit-learn】05:交叉验证 Cross-validation

【scikit-learn】06:交叉验证 Cross-validationAuthor:kevinelstri DateTime:2017/3/17 交叉验证(Cross Validation)      交叉验证也称为CV。CV是用来验证分类器的性能一种统计分析方法,基本思想就是对原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validatio

2017-03-17 16:10:40 2928

原创 【斯坦福大学-机器学习】2.单变量线性回归(二)

【斯坦福大学-机器学习】2.单变量线性回归(二)Author:kevinelstri DateTime:2017/3/155、梯度下降      梯度下降是一个用来求函数最小值的算法,下面将使用梯度下降算法来求出代价函数 J(θ0\theta_0,θ1\theta_1) 最小值。       梯度下降背后的思想是:开始时我们随机选择一个参数的组合(θ0\theta_0,θ1\theta_1,⋯

2017-03-16 14:47:37 859

原创 【斯坦福大学-机器学习】2.单变量线性回归(一)

Author:kevinelstri DateTime:2017/3/151、模型选择(线性回归算法)案例:      预测住房价格 说明:      这就是一个回归问题,通过对住房价格数据集进行拟合成一条直线,来对一定大小的房屋进行价格预测,当房子的大小为1250平方尺时,房屋的价格大约是220,000美元,这就是一个监督学习算法。方法:      在监督学习中,这个数据集称为训练集

2017-03-15 13:46:40 604

原创 从零开始掌握Python机器学习

Author:kevinelstri DateTime:2017/3/14 From:机器之心 Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程或许能帮你成功上手,从 0 到 1 掌握 Python 机器学习,至于后面再从 1 到 100 变成机器学习专家,就要看你自己的努力了。本教程原文分为两个部分,机器

2017-03-14 14:54:23 19653 7

ourbestModel_highscore3500

斯坦福大学的学生基础性地教导系统去了解和回应自然语言提示,例如“climb down the ladder”或“get the key”,从而使该系统成为OpenAI gym中的最高评分算法。可以点击算法视频观看算法演示。 http://mp.weixinbridge.com/mp/wapredirect?url=https://drive.google.com/file/d/0B2ZTvWzKa5PHSkJvQVlsb0FLYzQ/view&action=appmsg_redirect&uin=Nzk3MTk3MzIw&biz=MzA5MzQwMDk4Mg==&mid=2651042109&idx=1&type=1&scene=0

2019-04-14

《大规模基于构件的软件开发》PDF版本

csdn中有很多这本书的版本,但全部都是pdg超星下载的,这个是带目录标签的PDF完全版,真实有效,绝不虚假!

2018-09-08

tensorflow api 英文版

tensorflow api 英文版, 高清版。。。。。。。。。。。

2018-02-09

tensorflow_whitepaper2015

tensorflow whitepaper2015, google paper 。。。。

2018-02-09

停用词表stopwords

文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)http://blog.csdn.net/kevinelstri/article/details/70227981

2017-08-15

文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)

综合多种停用词表,进行合并去重处理,http://blog.csdn.net/kevinelstri/article/details/70227981

2017-04-18

聚类内部评价标准--IEEE论文

2010IEEE论文,聚类内部评价标准

2017-03-14

股票数据集

股票数据集,google扒下来的

2017-03-13

MP3的多媒体文件结构

mp3由头部和数据构成,mp3格式也是压缩比率最大的格式,它将音频中75%到90%人类听不到的声音全部过滤掉了,音频质量也就不能很高了

2017-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除