自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

酱汁儿

从头越,苍山如海,残阳如血!

  • 博客(51)
  • 资源 (9)
  • 收藏
  • 关注

原创 正则表达式引擎以及贪婪、懒惰、独占模式、前/后向肯定/否定断言

1、正则表达式引擎正则引擎主要可以分为基本不同的两大类:一种是DFA(确定型有穷自动机),另一种是NFA(不确定型有穷自动机)。简单来讲,DFA 对应的是文本主导的匹配,NFA 对应的是正则表达式主导的匹配。DFA从匹配文本入手,从左到右,每个字符不会匹配两次,它的时间复杂度是多项式的,所以通常情况下,它的速度更快,但支持的特性很少,不支持捕获组、各种引用等等。NFA则是从正则表达式入手,不断读入字符,尝试是否匹配当前正则,不匹配则吐出字符重新尝试,通常它的速度比较慢,最优时..

2020-07-30 19:31:08 593

原创 xlrd、xlwt 模块读写excel,封装为功能函数,实现二维列表数据与表格数据随意转换

1、导入xlrd,封装读excel的函数,将表格数据读取为二维列表元素。import xlrddef read_excel( files, sheet, row): """ 该函数用于读取excel文件,按行保存为二维列表。 :param files: 工作簿名 :param sheet: 工作表名 :param row: 从第几行开始读取数据,0表示第1行,1表示第2行 :return: 返回读取的二维列表 """

2020-05-15 18:45:59 553

原创 自然语言处理之 snownlp,分词、词性标注、情感分析、文本分类、提取关键词、文本相似度

情感分析的基本流程通常包括:自定义爬虫抓取文本信息; 使用Jieba工具进行中文分词、词性标注; 定义情感词典提取每行文本的情感词; 通过情感词构建情感矩阵,并计算情感分数; 结果评估,包括将情感分数置于0.5到-0.5之间,并可视化显示。SnowNLPSnowNLP是一个常用的Python文本分析库,是受到TextBlob启发而发明的。由于当前自然语言处理库基本都是针对英文的,而中文没有空格分割特征词,Python做中文文本挖掘较难,后续开发了一些针对中文处理的库,例如SnowNLP、J

2020-05-12 03:10:49 21765 3

原创 jieba词频统计、关键词提取、词云图制作

1、jieba分词及词频统计import jiebaimport pandas as pdcontent = open('./测试.txt',encoding='utf-8').read()#分词words = jieba.cut(content)word_list = list(word for word in words)#使用pandas统计并降序排列df = pd....

2020-03-27 19:58:56 6155 1

原创 python 中 xlsxwriter 模块的使用

1.xlsxwriter 优点1.1、功能比较强相对而言,这是除Excel自身之外功能最强的工具了。比如我就用到了它提供的:字体设置、前景色背景色、border设置、视图缩放(zoom)、单元格合并、autofilter、freeze panes、公式、data validation、单元格注释、行高和列宽设置等等。1.2、支持大文件写入如果数据量非常大,可以启用cons...

2019-10-28 11:50:40 11401 2

原创 python 中 openpyxl 相关使用

1. 安装pip install openpyxl2. 打开文件① 创建from openpyxl import Workbook # 实例化wb = Workbook()# 激活 worksheetws = wb.active② 打开已有from openpyxl import load_workbookwb2 = load_workbook(...

2019-10-28 10:17:47 330

原创 豆瓣源、清华源下载python包

#豆瓣源下载python包pip install xxxx -i http://pypi.douban.com/simple --trusted-host pypi.douban.com#清华源下载python包pip install xxxx -i https://pypi.tuna.tsinghua.edu.cn/simple...

2019-09-09 17:51:38 1319

原创 python爬虫动态HTML处理(Selenium + PhantomJS 快速入门)

HTML介绍、Selenium 简介 、PhantomJS 简介、示例演示:百度 (Selenium + PhantomJS 快速入门)...........Selenium相关操作.........

2019-07-09 19:48:50 1851

原创 Navicat Premium 12注册机破解方法

详细步骤演示Navicat Premium 12注册机破解方法,资源已存于百度云盘。

2019-07-01 21:59:16 24484 7

原创 SQL常用窗口函数

SQL常用窗口函数

2022-07-18 12:04:02 5023 1

原创 OKR 设计技巧

OKR介绍OKR(Objectives and Key Results):即目标与关键成果法,是一套明确和跟踪目标及其完成情况的管理工具和方法。OKR 可以在一定时期内定义策略和目标,并提供评估这些目标是否达到的量化方法。通过在整个团队中传播和推广 OKR,可以为他们制定统一、清晰且可衡量的路线图。...

2021-07-29 10:23:54 295

原创 Anaconda3部分命令操作 conda

1、创建新环境conda create -n new_env或者conda create -n new_env -c conda-forge2、进入该环境activate new_env3、退出该环境deactivate new_env4、查看安装的环境conda info --envs或conda env list5、删除某个环境conda env remove -n new_env6、安装包conda install package_nam..

2021-07-29 10:12:06 326

原创 python selenium 超时加载url 的解决办法

遇到的问题是:selenium 设置页面超时之后,捕获异常也无法继续get(url) 打开新的url页面。Chrome Options类可用的和最常用的参数列表:start-maximized:最大化模式打开headless:无头模式(后台运行)disable-extensions:扩展Chrome浏览器上现有的扩展disable-popup-blocking:放入弹窗make-default-browser:设置Chrome为替代浏览器disable-infobars:防.

2020-07-15 04:06:56 1870

转载 (JS)常用正则表达式大全、方便速查

最新匹配2018-10-10格式的日期:^[1-9]\d{3}-([1-9]|1[0-2])-([1-9]|[1-2]\d|3[01])$ 验证文件扩展名:^.*?\.(html|css|jpg)$密码验证类6-16位字符,区分大小写(不能是9位以下的纯数字,不含空格):^(?!\d{6,8}$)(?! )(?=.*[a-z])(?=.*[0-9])[a-zA-Z0-9_]{6,16}$ 6-16位字符,区分大小写(不能是9位以下的纯数字,不含空格),必须包含大写字母:^(?!\d{6,8}$

2020-05-27 16:14:44 313

原创 访问Github太慢 ?试试修改本地host文件

1、修改本地电脑系统 hosts 文件C:\Windows\System32\drivers\etc,直接在最后加入以下代码:192.30.253.112 github.com192.30.253.113 github.com151.101.184.133 assets-cdn.github.com151.101.185.194 github.global.ssl.fastly.net...

2020-05-06 04:42:15 16112 5

原创 异常值处理、3sigma准则

import pandas as pd# 正态分布# 3sigma准则 ---> # mean() - 3* std() ---下限# mean() + 3* std() ---上限# 自实现3sigma 原则def three_sigma(ser): """ 自实现3sigma 原则 :param ser: 数据 :return...

2019-09-02 18:35:34 18787 3

原创 分类聚合、透视表、交叉表、堆叠拼接、标准化与特征相关性

1、分类聚合2、透视表3、交叉表、堆叠、拼接4、标准化与特征相关性

2019-09-02 18:00:49 287

原创 缺失值处理:删除法、填充法、拟合插值法

import pandas as pdimport numpy as np# 加载数据data = pd.read_excel("./qs.xlsx")print("data:\n",data)# 检测 是否存在缺失值?---bool_df ---经常与sum连用# print(pd.isnull(data))# print(pd.notnull(data))# ...

2019-09-02 17:49:13 2959

原创 python机器学习_监督学习算法之KNN分类算法

KNN的英文全称叫K-Nearest Neighbor,中文名称为K最近邻算法,它是由Cover和Hart在1968年提出来的。相似性的度量:相似性一般用空间内两个点的距离来度量。距离越大,表示两个越不相似。KNN算法原理:1. 计算已知类别数据集中的点与当前点之间的距离; 2. 按照距离递增次序排序; 3. 选择与当前距离最小的k个点; 4. 确定前k个点所在类别...

2019-08-02 20:51:50 1159

原创 pandas数据预处理_合并_清洗_标准化数据_转换数据

目录1. 堆叠合并数据1.1 横向表堆叠(axis=1,concat做行对齐)1.2 纵向堆叠(axis=0,concat做列对齐)1.3 主键合并数据2.清洗数据2.1 检测与处理重复值3 、标准化数据3.1离差标准化公式:3.2标准差标准化数据:3.3小数定标标准化公式及对比:4.转换数据4.1 哑变量处理类别数据5.任务6.相关代码参考...

2019-07-31 16:49:01 2926 1

原创 python机器学习_K-Means聚类算法

目录1.机器学习分类2. k-means算法3.相关代码参考1.机器学习分类监督学习:监督学习是从标记的训练数据来推断一个功能的机器学习任务。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。无监督学习:无监督学习就是按照他们的性质把他们自动地分成很多...

2019-07-31 10:01:41 1028 2

原创 Pandas数据处理_分组聚合_透视表交叉表

Pandas数据处理_分组聚合_透视表交叉表

2019-07-29 20:33:20 3299

原创 Pandas统计分析基础_数据处理(DataFrame常用操作)

Pandas统计分析基础:1.文本文件读取与存储。2.Excel文件读取与储存。3.DataFrame常用操作。4.描述分析DataFrame数据

2019-07-25 22:03:59 9446 1

原创 matplotlib数据可视化之绘制散点图、折线图、直方图、柱状图、饼图、箱线图

1.绘制散点图:scatter。2.绘制折线图:plot 。3.绘制直方图:hist。4.绘制柱状图:bar。5.绘制饼图:pie。6.绘制箱线图:boxplot

2019-07-24 19:47:51 3963 1

原创 matplotlib 数据可视化基础(以折线图为例)

matplotlib 数据可视化基础(以折线图为例)

2019-07-24 15:04:36 1787 1

原创 Numpy数组排序、数组去重和重复、数组的统计分析

1.数组排序:(sort、argsort、lexsort)。2.数组去重和重复:(unique、tile、repeat)3.数组的统计分析:(sum、 max、 min、 mean 、std、 var 、argmax 、argmin、 cumsum 、cumprod)

2019-07-23 21:43:28 2802

原创 Numpy矩阵运算与矩阵属性、数组通用函数、数组的广播机制、数组的存储与读取

1.矩阵运算与矩阵属性:(mat、matmul、dot、multiply、.T转置矩阵、.H共轭转置矩阵、.I逆矩阵、.A视图)2.数组的通用函数:(数组的加+减- 乘* 除/ 冥运算**,比较运算、逻辑运算)3.数组的广播机制:4.数组的存储与读取:(save、savez、load、savetxt、loadtxt、genfromtxt(推荐使用))

2019-07-23 21:05:39 291

原创 Numpy创建数组、数组索引、数组拼接与数组拆分、矩阵生成

1.Numpy----创建数组对象、生成各种数组的相关实例(array、arange、linspace、logspace、ones 、zeros 、eye 、diag、random.random 、random.rand、random.randn、random.randint、random_integers)、重新设置数组的 shape 属性及数组中的数据类型、相关实例(shape、reshape、ravel 、flatten)2.Numpy----数组索引、数组拼接与数组拆分、矩阵生成。

2019-07-22 20:52:50 988

原创 MongoDB数据库基本操作、常用命令、示例

MongoDB数据库基本用法

2019-07-18 12:41:15 260

原创 scrapy_redis主机setting配置、从机setting配置、redis.conf配置中更改参数

scrapy_redis配置

2019-07-17 11:27:03 293

原创 tesseract-ocr安装使用步骤

tesseract-ocr安装使用步骤

2019-07-17 10:17:11 670

转载 2019 Python 面试 必备!100 问

2019 Python 面试 必备!python基础!爬虫基础!

2019-07-16 20:24:33 800 2

原创 python爬虫时直接覆盖原来的配置-------setting.py、middlewares.py

python爬虫时直接覆盖原来的配置-------setting.py、middlewares.py

2019-07-16 15:20:52 427

原创 NoSQL 简介,MongoDB 数据库特点、配置、基本命令

NoSQL简介,MongoDB数据库简介、配置及命令使用

2019-07-15 21:11:04 238

原创 python爬虫cookie登录、ip代理、互斥锁、死锁

python爬虫----cookie登录设置、ip代理设置、互斥锁、死锁

2019-07-11 19:01:35 392

原创 python爬虫之Requests 模块------get请求与post请求

通过爬取百度产品、爬取新浪新闻、批量爬取百度贴吧、爬取有道词典等实例学习requests库中的get请求和post请求。

2019-07-08 20:19:29 1875 1

原创 爬虫基础之HTTP请求与响应

介绍HTTP和HTTPS基础以及爬虫参数。

2019-07-04 20:51:45 493

原创 基于scrapy-----selenium-----PhantomJS爬虫腾讯招聘

实例介绍基于scrapy与selenium与PhantomJS爬虫腾讯招聘的步骤。

2019-07-04 19:52:20 305 1

原创 python多线程爬虫实现(多线程爬腾讯招聘)

介绍单线程多线程,实例演示python多线程爬虫腾讯招聘。

2019-07-02 20:54:45 728

原创 python爬虫之XPATH(爬取糗事百科、扇贝单词、网易云)

介绍XML基础与规则,实例演示python爬虫(爬取糗事百科、爬取扇贝单词、爬取网易云歌手)

2019-07-01 21:29:42 743

stopwords.txt

自然语言处理 / jieba分词自定义停用词,共2600行 / txt文件 / stopwords / 学习工作都用得上

2020-05-06

你不清楚的18个非技术面试题是这些!.pdf

你不清楚的18个非技术面试题是这些!.pdf。

2019-07-16

Python面试必须要看的16个问题.pdf

Python面试必须要看的16个问题。

2019-07-16

python爬虫修改版.pdf

第一章 爬虫和数据。 第二章 Requests 模块。 第三章 正则表达式。 第四章 XPATH 提取数据。 第五章 动态 HTML 处理。 第六章 多线程爬虫实现。 第七章:Scrapy 框架初步。 第八章:增量爬虫。 第九章:验证码识别。 第十章 MongoDB 数据库。 第十一章 爬虫项目。 第十二章:Redis 数据库。 第十三章:分布式爬虫 Scrapy-redis 框架。 第十四章:Python 爬虫监控,自定义爬虫。 第十五章:项目实战,考核、爬虫流程。 附录

2019-07-09

ScholarHelper.zip

解压之后,在chrome浏览器--------更多工具--------扩展程序----添加刚刚解压的学术助手文件夹即可。

2019-07-05

乌班图下pycharm延长使用期限方法.zip

直接将三个文件复制到/opt/pycharm-2016.3.1/bin目录下即可

2019-07-05

mongodb配置及数据库管理软件.zip

1,创建logs文件夹,在下面创建log日志文件:C:\MongoDB\Server\3.4\data\logs\mongo.log 2、按照这个路径创建文件夹:C:\MongoDB\Server\3.4\data\db 3.配置环境变量 2.以管理员方式开启cmd 3.进入mongodb的bin文件夹下 4.运行以下命令:(需要根据实际情况修改相应路径) mongod --bind_ip 0.0.0.0 --logpath D:\MongoDB\Server\3.4\data\logs\mongo.log --logappend --dbpath D:\MongoDB\Server\3.4\data\db --port 27017 --serviceName "MongoDB" -serviceDisplayName "MongoDB" --install

2019-07-05

chromedriver和phantomjs.zip

chromedriver和phantomjs,使用时将chromedriver和phantomjs文件复制,粘贴到相应路径D:\Anaconda3\Scripts下即可

2019-07-05

安装scrapy依赖文件(Microsoft visual c++ 14.0和NDP46-KB3045560-Web).zip

安装scrapy所需要的依赖文件(Microsoft visual c++ 14.0和NDP46-KB3045560-Web)

2019-07-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除