自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Liu Ruilun的博客

keep coding

  • 博客(22)
  • 收藏
  • 关注

转载 转——Python爬虫 抓取大数据岗位招聘信息(51job为例)

这是一个很硬的转载博客,文章作者是博主原大学基友,现于中科院读直博,个人博客方向是python、爬虫以及自然语言处理。以下是原文链接: Python爬虫 抓取大数据岗位招聘信息(51job为例)...

2018-05-19 12:02:06 3203 5

原创 每日刷题,欢迎Push

Github: Algorithm-Storming

2021-11-30 20:04:52 220

原创 数据科学项目集

从网上搜集各种数据分析、数据挖掘项目并进行复现。项目里面会写上自己的学习心得,项目的READMED会给出参考和转载的原网址。不仅是学习,也是分享,一周一更。项目地址:DataScienceProjectsRequirements:Python3.6Jupyer notebookrequirements.txt...

2019-03-04 20:34:28 426 4

原创 机器学习的python笔记

使用python实现各种机器学习算法操作系统:Windows 10、Ubuntu、 MaxOSPython版本:3.5.3、3.6.2主项目GITHUB地址MachineLearningNote现有: * 贝叶斯推断 * Canopy * 决策树(进行中) * 指数平滑模型 * 梯度下降 * K-NN * 局部加权回归 * logistic回归 * 多叉树 * ...

2018-07-23 22:51:53 397

原创 多叉树的python实现

代码移步GITHUB,注释明确实现多插树的增删改查,结合networkx包绘制树(实际上可直接用networkx构造树),后期逐渐实现树的其他各种算法。requirements:networkxmatplotlib效果:...

2018-07-23 22:48:22 10437 1

原创 使用keras搭建BiLSTM对人民日报语料进行分词

代码移步我的GITHUB——PeoplesDailyNER 其中的README已经详细说明,若有疑问请留言。

2018-03-24 21:00:20 2298 2

原创 Scrapy+redis+mongodb分布式爬虫抓取小说《冰与火之歌1-5》

一年前写了python简单实战项目:《冰与火之歌1-5》角色关系图谱构建的数据库设计和数据可视化共现图谱的构建,中间唯独缺了数据的采集,因为想着只是个小爬虫,应该无关痛痒,后面也觉得这个系列缺了这一环不完美。前几天想着还是补上,结果发现一年前写的爬虫失效了,故索性就再写一个,然后就想着直接用上现在主流的scrapy框架以及redis、mongodb这两个Nosql好了,以小见大。代码上传到了G...

2018-03-23 11:28:33 3533 1

原创 基于selenium和requests的京东商品信息和评论爬虫

写了个京东爬虫,基于selenium和requests两个包相结合的,能抓取产品的标题、价格、评论数量、产品的url、产品前100条评论(需要抓取更多可以在代码里面改动)、产品的规格、产品介绍、产品售后信息。数据结合peewee存入sqlite数据库。 代码github

2017-10-06 22:31:53 2298

原创 python实现Canopy算法

前两个月在做项目突然发现Canopy算法发现网上直接用python实现的不多,因为Mahout已经包含了这个算法,需要使用的时候仅需要执行Mahout几条命令即可,并且多数和MapReduce以及Hadoop分布式框架一起使用,感兴趣的可以在网上查阅。但出于学习和兴趣的态度,我更想尝试用python来亲自实现一些底层算法。

2017-09-09 10:34:42 6809 15

原创 Python爬虫入门指导

最近很多同学在学习爬虫过程中遇到很多障碍,我总结了一些原因,大多有以下几点: 1、http请求协议不清楚。这里还是强推阮一峰大神的HTTP 协议入门 2、HTML不熟悉,如果想学习爬虫,基本的HTML知识是必不可少的。这里推荐使用w3school的html教程,不要求学的特别深,但至少能够看的懂标签语言,知道属性、定位等概念。 3、python基本语法不扎实。廖雪峰python3教程现在结合另

2017-05-16 16:27:06 1257

原创 python简单实战项目:《冰与火之歌1-5》角色关系图谱构建——人物关系可视化

同系列博文: python简单实战项目:《冰与火之歌1-5》角色关系图谱构建 python简单实战项目:《冰与火之歌1-5》角色关系图谱构建——数据库设计 Scrapy+redis+mongodb分布式爬虫抓取小说《冰与火之歌1-5》先来张Gephi绘制酷炫的人物关系图 图中每个节点代表一个角色,节点与节点之间的连线代表共现,而连线的粗细表示共现的频次多少。节点的大小以及颜色深浅表...

2017-05-15 14:32:48 23775 21

原创 python机器学习——十次交叉验证训练的数据准备算法

摄于 2017年4月21日 台湾垦丁船帆石海滩前言python强大的机器学习包scikit-learn可以直接进行交叉分割,之所以写个相当于锻炼自己思维。这两天本来打算开始写朴素贝叶斯分类器的算法的,由于上一篇博文python实现贝叶斯推断——垃圾邮件分类在实现时,在数据划分训练集和测试集的时候遇到两个问题,第一是数据量太少,只有50条数据,解决方法就是扩大数据量咯。第二个,也...

2017-05-12 21:05:52 11222 3

原创 python实现贝叶斯推断——垃圾邮件分类

理论理论强推阮一峰大神的个人网站 1.贝叶斯推断及其互联网应用(一):定理简介 2.贝叶斯推断及其互联网应用(二):过滤垃圾邮件 非常简明易懂,然后我下面的代码就是实现上面过滤垃圾邮件算法的。前期准备数据来源数据来源于《机器学习实战》中的第四章朴素贝叶斯分类器的实验数据。数据书上只提供了50条数据(25条正常邮件,25条垃圾邮件),感觉数据量偏小,以后打算使用scik...

2017-05-11 20:47:34 10024 11

原创 python机器学习——KNN算法简单入门(真的很简单!)

所有代码请移步GitHub——kNNbyPython很多人在第一次听到机器学习的时候都不知所措,无从下手。起初我也是这样的,各种看别人的博客,吴恩达的课程也死磕,但效果不佳。后来发现一个神奇的网站k-近邻算法实现手写数字识别系统–《机器学习实战 》,跟着过了一遍之后感觉还不错,也顺便买了《机器学习实战》这本书,接着就正式入坑机器学习。 KNN算法应该是机器学习中最简单的算法之一,作为机器学习...

2017-04-30 00:06:29 10880 4

原创 python构建指数平滑预测模型

指数平滑法其实我想说自己百度的… 只有懂的人才会找到这篇文章… 不懂的人…看了我的文章…还是不懂哈哈哈指数平滑法相比于移动平均法,它是一种特殊的加权平均方法。简单移动平均法用的是算术平均数,近期数据对预测值的影响比远期数据要大一些,而且越近的数据影响越大。指数平滑法正是考虑了这一点,并将其权值按指数递减的规律进行分配,越接近当前的数据,权重越大;反之,远离当前的数据,其权重越小。指数平滑法按照平

2017-04-14 16:31:29 21786 16

原创 python简单实战项目:《冰与火之歌1-5》角色关系图谱构建——数据库设计

在弄任何一个数据之前,肯定是要先设计数据库的。这里打算将《冰与火之歌》(以下称《冰火》)的文本数据先存入到数据库中,后续在使用python读取数据来处理。前期准备需要工具: 1.peewee 2.sqlite 3.python3.5(当然python2也是可以的)大致说一下: 1.peewee peewee是python中的一个轻量级ORM框架。 什么是ORM框架? ...

2017-04-10 16:38:13 5223 3

原创 python中正确安装对应版本的包

python在写机器学习的代码过程中,需要引入如numpy、matpoltlib、pandas等等等。有时候直接pip install+对应的包名并不能正确安装,或者安装后依旧会出现安装完全的情况。这里推荐一个基本包含了机器学习以及数据可视化功能的所有python包的下载网站Unofficial Windows Binaries for Python Extension Packages 里面的包

2017-04-10 11:31:55 32386 2

原创 python简单实战项目:《冰与火之歌1-5》角色关系图谱构建

前两天《权力的游戏》第七季发布了第二弹预告片,思索的第七季也快要来了,正想着脑子突然一热,要不弄个《权利的游戏》的角色共现图谱吧。故事里面的人物关系复杂程度也是出了名了的,如果能用python来把故事人物关系理一下,效果应该不错的。而且刚好之前也一直想弄个python的大数据简单实战项目,苦恼没有什么有意思的主题。这个预告片来得也巧。这里分三步走,一个是数据挖掘,一个是数据可视化实现。...

2017-04-09 15:26:02 7893 1

原创 python构建关键词共现矩阵

本文仅仅提供了实现思路,如果对算法速度有追求的请移步python构建关键词共现矩阵速度优化(在此非常感谢这位同学的优化) 非常感谢南京大学的张同学发现我代码中的bug,现文中的代码均已经更新请放心使用,并且代码放弃使用numpy进行矩阵的构建,因此可以对中文进行构建关键词共现矩阵了。同时,有很多同学对我在blog中总是提到的“import自己的代码“的代码感兴趣,现在已将代码git至GITHUB

2017-04-05 15:44:37 43019 44

原创 python实现机器学习中的各种距离计算及文本相似度算法

import numpy as npimport math# 依赖包numpy、python-Levenshtein、scipydef Euclidean(vec1, vec2): npvec1, npvec2 = np.array(vec1), np.array(vec2) return math.sqrt(((npvec1-npvec2)**2).sum())# eucli

2017-04-03 22:45:07 14187 1

原创 python3文本读取与写入常用代码

写入文本:import codecsdef write_txt(txt, path): f = codecs.open(path, 'a', 'utf8') f.write(str(txt)) f.close()# 传入参数为txt,path;txt为需要写入的内容,数据类型为字符串,path为写入的内容,数据类型为字符串。# 传入的path需如下定义:path= r

2017-04-02 15:45:35 11972 2

原创 python中import自己写的.py

python中import自己写的.py在使用python来处理数据时,经常需要使用到读取文本和写入文本的with open,如果将这两个语句写入一个.py文件中,那么每次需要读取或者写入文本时,只需要import就可以了。上代码:import codecs #防止编码报错#传入的参数为path和code,path表示txt文件的绝对或相对路径,code表示该txt的编码,一般为utf-8无bom

2017-04-02 15:15:41 46333 22

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除