AlanConstantineLau-CSDN博客

转载转——Python爬虫抓取大数据岗位招聘信息（51job为例）

这是一个很硬的转载博客，文章作者是博主原大学基友，现于中科院读直博，个人博客方向是python、爬虫以及自然语言处理。以下是原文链接： Python爬虫抓取大数据岗位招聘信息（51job为例）...

2018-05-19 12:02:06 3203 5

原创每日刷题，欢迎Push

Github: Algorithm-Storming

2021-11-30 20:04:52 220

原创数据科学项目集

从网上搜集各种数据分析、数据挖掘项目并进行复现。项目里面会写上自己的学习心得，项目的READMED会给出参考和转载的原网址。不仅是学习，也是分享，一周一更。项目地址：DataScienceProjectsRequirements:Python3.6Jupyer notebookrequirements.txt...

2019-03-04 20:34:28 426 4

原创机器学习的python笔记

使用python实现各种机器学习算法操作系统：Windows 10、Ubuntu、 MaxOSPython版本：3.5.3、3.6.2主项目GITHUB地址MachineLearningNote现有： * 贝叶斯推断 * Canopy * 决策树（进行中） * 指数平滑模型 * 梯度下降 * K-NN * 局部加权回归 * logistic回归 * 多叉树 * ...

2018-07-23 22:51:53 397

原创多叉树的python实现

代码移步GITHUB，注释明确实现多插树的增删改查，结合networkx包绘制树（实际上可直接用networkx构造树），后期逐渐实现树的其他各种算法。requirements：networkxmatplotlib效果：...

2018-07-23 22:48:22 10437 1

原创使用keras搭建BiLSTM对人民日报语料进行分词

代码移步我的GITHUB——PeoplesDailyNER 其中的README已经详细说明，若有疑问请留言。

2018-03-24 21:00:20 2298 2

原创 Scrapy+redis+mongodb分布式爬虫抓取小说《冰与火之歌1-5》

一年前写了python简单实战项目：《冰与火之歌1-5》角色关系图谱构建的数据库设计和数据可视化共现图谱的构建，中间唯独缺了数据的采集，因为想着只是个小爬虫，应该无关痛痒，后面也觉得这个系列缺了这一环不完美。前几天想着还是补上，结果发现一年前写的爬虫失效了，故索性就再写一个，然后就想着直接用上现在主流的scrapy框架以及redis、mongodb这两个Nosql好了，以小见大。代码上传到了G...

2018-03-23 11:28:33 3533 1

原创基于selenium和requests的京东商品信息和评论爬虫

写了个京东爬虫，基于selenium和requests两个包相结合的，能抓取产品的标题、价格、评论数量、产品的url、产品前100条评论（需要抓取更多可以在代码里面改动）、产品的规格、产品介绍、产品售后信息。数据结合peewee存入sqlite数据库。代码github

2017-10-06 22:31:53 2298

原创 python实现Canopy算法

前两个月在做项目突然发现Canopy算法发现网上直接用python实现的不多，因为Mahout已经包含了这个算法，需要使用的时候仅需要执行Mahout几条命令即可，并且多数和MapReduce以及Hadoop分布式框架一起使用，感兴趣的可以在网上查阅。但出于学习和兴趣的态度，我更想尝试用python来亲自实现一些底层算法。

2017-09-09 10:34:42 6809 15

原创 Python爬虫入门指导

最近很多同学在学习爬虫过程中遇到很多障碍，我总结了一些原因，大多有以下几点： 1、http请求协议不清楚。这里还是强推阮一峰大神的HTTP 协议入门 2、HTML不熟悉，如果想学习爬虫，基本的HTML知识是必不可少的。这里推荐使用w3school的html教程，不要求学的特别深，但至少能够看的懂标签语言，知道属性、定位等概念。 3、python基本语法不扎实。廖雪峰python3教程现在结合另

2017-05-16 16:27:06 1257

原创 python简单实战项目：《冰与火之歌1-5》角色关系图谱构建——人物关系可视化

同系列博文： python简单实战项目：《冰与火之歌1-5》角色关系图谱构建 python简单实战项目：《冰与火之歌1-5》角色关系图谱构建——数据库设计 Scrapy+redis+mongodb分布式爬虫抓取小说《冰与火之歌1-5》先来张Gephi绘制酷炫的人物关系图图中每个节点代表一个角色，节点与节点之间的连线代表共现，而连线的粗细表示共现的频次多少。节点的大小以及颜色深浅表...

2017-05-15 14:32:48 23775 21

原创 python机器学习——十次交叉验证训练的数据准备算法

摄于 2017年4月21日台湾垦丁船帆石海滩前言python强大的机器学习包scikit-learn可以直接进行交叉分割，之所以写个相当于锻炼自己思维。这两天本来打算开始写朴素贝叶斯分类器的算法的，由于上一篇博文python实现贝叶斯推断——垃圾邮件分类在实现时，在数据划分训练集和测试集的时候遇到两个问题，第一是数据量太少，只有50条数据，解决方法就是扩大数据量咯。第二个，也...

2017-05-12 21:05:52 11222 3

原创 python实现贝叶斯推断——垃圾邮件分类

理论理论强推阮一峰大神的个人网站 1.贝叶斯推断及其互联网应用（一）：定理简介 2.贝叶斯推断及其互联网应用（二）：过滤垃圾邮件非常简明易懂，然后我下面的代码就是实现上面过滤垃圾邮件算法的。前期准备数据来源数据来源于《机器学习实战》中的第四章朴素贝叶斯分类器的实验数据。数据书上只提供了50条数据（25条正常邮件，25条垃圾邮件），感觉数据量偏小，以后打算使用scik...

2017-05-11 20:47:34 10024 11

原创 python机器学习——KNN算法简单入门（真的很简单！）

所有代码请移步GitHub——kNNbyPython很多人在第一次听到机器学习的时候都不知所措，无从下手。起初我也是这样的，各种看别人的博客，吴恩达的课程也死磕，但效果不佳。后来发现一个神奇的网站k-近邻算法实现手写数字识别系统–《机器学习实战》,跟着过了一遍之后感觉还不错，也顺便买了《机器学习实战》这本书，接着就正式入坑机器学习。 KNN算法应该是机器学习中最简单的算法之一，作为机器学习...

2017-04-30 00:06:29 10880 4

原创 python构建指数平滑预测模型

指数平滑法其实我想说自己百度的… 只有懂的人才会找到这篇文章… 不懂的人…看了我的文章…还是不懂哈哈哈指数平滑法相比于移动平均法，它是一种特殊的加权平均方法。简单移动平均法用的是算术平均数，近期数据对预测值的影响比远期数据要大一些，而且越近的数据影响越大。指数平滑法正是考虑了这一点，并将其权值按指数递减的规律进行分配，越接近当前的数据，权重越大；反之，远离当前的数据，其权重越小。指数平滑法按照平

2017-04-14 16:31:29 21786 16

原创 python简单实战项目：《冰与火之歌1-5》角色关系图谱构建——数据库设计

在弄任何一个数据之前，肯定是要先设计数据库的。这里打算将《冰与火之歌》（以下称《冰火》）的文本数据先存入到数据库中，后续在使用python读取数据来处理。前期准备需要工具： 1.peewee 2.sqlite 3.python3.5（当然python2也是可以的）大致说一下： 1.peewee peewee是python中的一个轻量级ORM框架。什么是ORM框架? ...

2017-04-10 16:38:13 5223 3

原创 python中正确安装对应版本的包

python在写机器学习的代码过程中，需要引入如numpy、matpoltlib、pandas等等等。有时候直接pip install+对应的包名并不能正确安装，或者安装后依旧会出现安装完全的情况。这里推荐一个基本包含了机器学习以及数据可视化功能的所有python包的下载网站Unofficial Windows Binaries for Python Extension Packages 里面的包

2017-04-10 11:31:55 32386 2

原创 python简单实战项目：《冰与火之歌1-5》角色关系图谱构建

前两天《权力的游戏》第七季发布了第二弹预告片，思索的第七季也快要来了，正想着脑子突然一热，要不弄个《权利的游戏》的角色共现图谱吧。故事里面的人物关系复杂程度也是出了名了的，如果能用python来把故事人物关系理一下，效果应该不错的。而且刚好之前也一直想弄个python的大数据简单实战项目，苦恼没有什么有意思的主题。这个预告片来得也巧。这里分三步走，一个是数据挖掘，一个是数据可视化实现。...

2017-04-09 15:26:02 7893 1

原创 python构建关键词共现矩阵

本文仅仅提供了实现思路，如果对算法速度有追求的请移步python构建关键词共现矩阵速度优化(在此非常感谢这位同学的优化) 非常感谢南京大学的张同学发现我代码中的bug，现文中的代码均已经更新请放心使用，并且代码放弃使用numpy进行矩阵的构建，因此可以对中文进行构建关键词共现矩阵了。同时，有很多同学对我在blog中总是提到的“import自己的代码“的代码感兴趣，现在已将代码git至GITHUB

2017-04-05 15:44:37 43019 44

原创 python实现机器学习中的各种距离计算及文本相似度算法

import numpy as npimport math# 依赖包numpy、python-Levenshtein、scipydef Euclidean(vec1, vec2): npvec1, npvec2 = np.array(vec1), np.array(vec2) return math.sqrt(((npvec1-npvec2)**2).sum())# eucli

2017-04-03 22:45:07 14187 1

原创 python3文本读取与写入常用代码

写入文本：import codecsdef write_txt(txt, path): f = codecs.open(path, 'a', 'utf8') f.write(str(txt)) f.close()# 传入参数为txt，path；txt为需要写入的内容，数据类型为字符串，path为写入的内容，数据类型为字符串。# 传入的path需如下定义：path= r

2017-04-02 15:45:35 11972 2

原创 python中import自己写的.py

python中import自己写的.py在使用python来处理数据时，经常需要使用到读取文本和写入文本的with open，如果将这两个语句写入一个.py文件中，那么每次需要读取或者写入文本时，只需要import就可以了。上代码：import codecs #防止编码报错#传入的参数为path和code，path表示txt文件的绝对或相对路径，code表示该txt的编码，一般为utf-8无bom

2017-04-02 15:15:41 46333 22

Liu Ruilun的博客