酱汁儿999-CSDN博客

原创正则表达式引擎以及贪婪、懒惰、独占模式、前/后向肯定/否定断言

1、正则表达式引擎正则引擎主要可以分为基本不同的两大类：一种是DFA（确定型有穷自动机），另一种是NFA（不确定型有穷自动机）。简单来讲，DFA 对应的是文本主导的匹配，NFA 对应的是正则表达式主导的匹配。DFA从匹配文本入手，从左到右，每个字符不会匹配两次，它的时间复杂度是多项式的，所以通常情况下，它的速度更快，但支持的特性很少，不支持捕获组、各种引用等等。NFA则是从正则表达式入手，不断读入字符，尝试是否匹配当前正则，不匹配则吐出字符重新尝试，通常它的速度比较慢，最优时..

2020-07-30 19:31:08 593

原创 xlrd、xlwt 模块读写excel，封装为功能函数，实现二维列表数据与表格数据随意转换

1、导入xlrd，封装读excel的函数，将表格数据读取为二维列表元素。import xlrddef read_excel( files, sheet, row): """ 该函数用于读取excel文件，按行保存为二维列表。 :param files: 工作簿名 :param sheet: 工作表名 :param row: 从第几行开始读取数据，0表示第1行，1表示第2行 :return: 返回读取的二维列表 """

2020-05-15 18:45:59 553

原创自然语言处理之 snownlp,分词、词性标注、情感分析、文本分类、提取关键词、文本相似度

情感分析的基本流程通常包括：自定义爬虫抓取文本信息；使用Jieba工具进行中文分词、词性标注；定义情感词典提取每行文本的情感词；通过情感词构建情感矩阵，并计算情感分数；结果评估，包括将情感分数置于0.5到-0.5之间，并可视化显示。SnowNLPSnowNLP是一个常用的Python文本分析库，是受到TextBlob启发而发明的。由于当前自然语言处理库基本都是针对英文的，而中文没有空格分割特征词，Python做中文文本挖掘较难，后续开发了一些针对中文处理的库，例如SnowNLP、J

2020-05-12 03:10:49 21765 3

原创 jieba词频统计、关键词提取、词云图制作

1、jieba分词及词频统计import jiebaimport pandas as pdcontent = open('./测试.txt',encoding='utf-8').read()#分词words = jieba.cut(content)word_list = list(word for word in words)#使用pandas统计并降序排列df = pd....

2020-03-27 19:58:56 6155 1

原创 python 中 xlsxwriter 模块的使用

1.xlsxwriter 优点1.1、功能比较强相对而言，这是除Excel自身之外功能最强的工具了。比如我就用到了它提供的：字体设置、前景色背景色、border设置、视图缩放（zoom）、单元格合并、autofilter、freeze panes、公式、data validation、单元格注释、行高和列宽设置等等。1.2、支持大文件写入如果数据量非常大，可以启用cons...

2019-10-28 11:50:40 11401 2

原创 python 中 openpyxl 相关使用

1. 安装pip install openpyxl2. 打开文件① 创建from openpyxl import Workbook # 实例化wb = Workbook()# 激活 worksheetws = wb.active② 打开已有from openpyxl import load_workbookwb2 = load_workbook(...

2019-10-28 10:17:47 330

原创豆瓣源、清华源下载python包

#豆瓣源下载python包pip install xxxx -i http://pypi.douban.com/simple --trusted-host pypi.douban.com#清华源下载python包pip install xxxx -i https://pypi.tuna.tsinghua.edu.cn/simple...

2019-09-09 17:51:38 1319

原创 python爬虫动态HTML处理（Selenium + PhantomJS 快速入门）

HTML介绍、Selenium 简介、PhantomJS 简介、示例演示：百度（Selenium + PhantomJS 快速入门）...........Selenium相关操作.........

2019-07-09 19:48:50 1851

原创 Navicat Premium 12注册机破解方法

详细步骤演示Navicat Premium 12注册机破解方法，资源已存于百度云盘。

2019-07-01 21:59:16 24484 7

原创 SQL常用窗口函数

SQL常用窗口函数

2022-07-18 12:04:02 5023 1

原创 OKR 设计技巧

OKR介绍OKR（Objectives and Key Results）：即目标与关键成果法，是一套明确和跟踪目标及其完成情况的管理工具和方法。OKR 可以在一定时期内定义策略和目标，并提供评估这些目标是否达到的量化方法。通过在整个团队中传播和推广 OKR，可以为他们制定统一、清晰且可衡量的路线图。...

2021-07-29 10:23:54 295

原创 Anaconda3部分命令操作 conda

1、创建新环境conda create -n new_env或者conda create -n new_env -c conda-forge2、进入该环境activate new_env3、退出该环境deactivate new_env4、查看安装的环境conda info --envs或conda env list5、删除某个环境conda env remove -n new_env6、安装包conda install package_nam..

2021-07-29 10:12:06 326

原创 python selenium 超时加载url 的解决办法

遇到的问题是：selenium 设置页面超时之后，捕获异常也无法继续get(url) 打开新的url页面。Chrome Options类可用的和最常用的参数列表：start-maximized：最大化模式打开headless：无头模式（后台运行）disable-extensions：扩展Chrome浏览器上现有的扩展disable-popup-blocking：放入弹窗make-default-browser：设置Chrome为替代浏览器disable-infobars：防.

2020-07-15 04:06:56 1870

转载（JS）常用正则表达式大全、方便速查

最新匹配2018-10-10格式的日期：^[1-9]\d{3}-([1-9]|1[0-2])-([1-9]|[1-2]\d|3[01])$ 验证文件扩展名:^.*?\.(html|css|jpg)$密码验证类6-16位字符，区分大小写（不能是9位以下的纯数字，不含空格）:^(?!\d{6,8}$)(?! )(?=.*[a-z])(?=.*[0-9])[a-zA-Z0-9_]{6,16}$ 6-16位字符，区分大小写（不能是9位以下的纯数字，不含空格），必须包含大写字母:^(?!\d{6,8}$

2020-05-27 16:14:44 313

原创访问Github太慢？试试修改本地host文件

1、修改本地电脑系统 hosts 文件C:\Windows\System32\drivers\etc，直接在最后加入以下代码：192.30.253.112 github.com192.30.253.113 github.com151.101.184.133 assets-cdn.github.com151.101.185.194 github.global.ssl.fastly.net...

2020-05-06 04:42:15 16112 5

原创异常值处理、3sigma准则

import pandas as pd# 正态分布# 3sigma准则 ---> # mean() - 3* std() ---下限# mean() + 3* std() ---上限# 自实现3sigma 原则def three_sigma(ser): """ 自实现3sigma 原则 :param ser: 数据 :return...

2019-09-02 18:35:34 18787 3

原创分类聚合、透视表、交叉表、堆叠拼接、标准化与特征相关性

1、分类聚合2、透视表3、交叉表、堆叠、拼接4、标准化与特征相关性

2019-09-02 18:00:49 287

原创缺失值处理：删除法、填充法、拟合插值法

import pandas as pdimport numpy as np# 加载数据data = pd.read_excel("./qs.xlsx")print("data:\n",data)# 检测是否存在缺失值？---bool_df ---经常与sum连用# print(pd.isnull(data))# print(pd.notnull(data))# ...

2019-09-02 17:49:13 2959

原创 python机器学习_监督学习算法之KNN分类算法

KNN的英文全称叫K-Nearest Neighbor，中文名称为K最近邻算法，它是由Cover和Hart在1968年提出来的。相似性的度量：相似性一般用空间内两个点的距离来度量。距离越大，表示两个越不相似。KNN算法原理：1. 计算已知类别数据集中的点与当前点之间的距离； 2. 按照距离递增次序排序； 3. 选择与当前距离最小的k个点； 4. 确定前k个点所在类别...

2019-08-02 20:51:50 1159

原创 pandas数据预处理_合并_清洗_标准化数据_转换数据

目录1. 堆叠合并数据1.1 横向表堆叠（axis=1,concat做行对齐）1.2 纵向堆叠（axis=0,concat做列对齐）1.3 主键合并数据2.清洗数据2.1 检测与处理重复值3 、标准化数据3.1离差标准化公式：3.2标准差标准化数据：3.3小数定标标准化公式及对比：4.转换数据4.1 哑变量处理类别数据5.任务6.相关代码参考...

2019-07-31 16:49:01 2926 1

原创 python机器学习_K-Means聚类算法

目录1.机器学习分类2. k-means算法3.相关代码参考1.机器学习分类监督学习：监督学习是从标记的训练数据来推断一个功能的机器学习任务。在监督学习中，每个实例都是由一个输入对象（通常为矢量）和一个期望的输出值（也称为监督信号）组成。监督学习算法是分析该训练数据，并产生一个推断的功能，其可以用于映射出新的实例。无监督学习：无监督学习就是按照他们的性质把他们自动地分成很多...

2019-07-31 10:01:41 1028 2

原创 Pandas数据处理_分组聚合_透视表交叉表

Pandas数据处理_分组聚合_透视表交叉表

2019-07-29 20:33:20 3299

原创 Pandas统计分析基础_数据处理（DataFrame常用操作）

Pandas统计分析基础：1.文本文件读取与存储。2.Excel文件读取与储存。3.DataFrame常用操作。4.描述分析DataFrame数据

2019-07-25 22:03:59 9446 1

原创 matplotlib数据可视化之绘制散点图、折线图、直方图、柱状图、饼图、箱线图

1.绘制散点图：scatter。2.绘制折线图：plot 。3.绘制直方图：hist。4.绘制柱状图：bar。5.绘制饼图：pie。6.绘制箱线图：boxplot

2019-07-24 19:47:51 3963 1

原创 matplotlib 数据可视化基础（以折线图为例）

matplotlib 数据可视化基础（以折线图为例）

2019-07-24 15:04:36 1787 1

原创 Numpy数组排序、数组去重和重复、数组的统计分析

1.数组排序：（sort、argsort、lexsort）。2.数组去重和重复：（unique、tile、repeat）3.数组的统计分析：(sum、 max、 min、 mean 、std、 var 、argmax 、argmin、 cumsum 、cumprod)

2019-07-23 21:43:28 2802

原创 Numpy矩阵运算与矩阵属性、数组通用函数、数组的广播机制、数组的存储与读取

1.矩阵运算与矩阵属性：（mat、matmul、dot、multiply、.T转置矩阵、.H共轭转置矩阵、.I逆矩阵、.A视图）2.数组的通用函数：（数组的加+减- 乘* 除/ 冥运算**，比较运算、逻辑运算）3.数组的广播机制：4.数组的存储与读取：（save、savez、load、savetxt、loadtxt、genfromtxt（推荐使用））

2019-07-23 21:05:39 291

原创 Numpy创建数组、数组索引、数组拼接与数组拆分、矩阵生成

1.Numpy----创建数组对象、生成各种数组的相关实例（array、arange、linspace、logspace、ones 、zeros 、eye 、diag、random.random 、random.rand、random.randn、random.randint、random_integers）、重新设置数组的 shape 属性及数组中的数据类型、相关实例（shape、reshape、ravel 、flatten）2.Numpy----数组索引、数组拼接与数组拆分、矩阵生成。

2019-07-22 20:52:50 988

原创 MongoDB数据库基本操作、常用命令、示例

MongoDB数据库基本用法

2019-07-18 12:41:15 260

原创 scrapy_redis主机setting配置、从机setting配置、redis.conf配置中更改参数

scrapy_redis配置

2019-07-17 11:27:03 293

原创 tesseract-ocr安装使用步骤

tesseract-ocr安装使用步骤

2019-07-17 10:17:11 670

转载 2019 Python 面试必备！100 问

2019 Python 面试必备！python基础！爬虫基础！

2019-07-16 20:24:33 800 2

原创 python爬虫时直接覆盖原来的配置-------setting.py、middlewares.py

python爬虫时直接覆盖原来的配置-------setting.py、middlewares.py

2019-07-16 15:20:52 427

原创 NoSQL 简介，MongoDB 数据库特点、配置、基本命令

NoSQL简介，MongoDB数据库简介、配置及命令使用

2019-07-15 21:11:04 238

原创 python爬虫cookie登录、ip代理、互斥锁、死锁

python爬虫----cookie登录设置、ip代理设置、互斥锁、死锁

2019-07-11 19:01:35 392

原创 python爬虫之Requests 模块------get请求与post请求

通过爬取百度产品、爬取新浪新闻、批量爬取百度贴吧、爬取有道词典等实例学习requests库中的get请求和post请求。

2019-07-08 20:19:29 1875 1

原创爬虫基础之HTTP请求与响应

介绍HTTP和HTTPS基础以及爬虫参数。

2019-07-04 20:51:45 493

原创基于scrapy-----selenium-----PhantomJS爬虫腾讯招聘

实例介绍基于scrapy与selenium与PhantomJS爬虫腾讯招聘的步骤。

2019-07-04 19:52:20 305 1

原创 python多线程爬虫实现（多线程爬腾讯招聘）

介绍单线程多线程，实例演示python多线程爬虫腾讯招聘。

2019-07-02 20:54:45 728

原创 python爬虫之XPATH（爬取糗事百科、扇贝单词、网易云）

介绍XML基础与规则，实例演示python爬虫（爬取糗事百科、爬取扇贝单词、爬取网易云歌手）

2019-07-01 21:29:42 743

stopwords.txt

自然语言处理 / jieba分词自定义停用词，共2600行 / txt文件 / stopwords / 学习工作都用得上

2020-05-06

你不清楚的18个非技术面试题是这些！.pdf

你不清楚的18个非技术面试题是这些！.pdf。

2019-07-16

Python面试必须要看的16个问题.pdf

Python面试必须要看的16个问题。

2019-07-16

python爬虫修改版.pdf

第一章爬虫和数据。第二章 Requests 模块。第三章正则表达式。第四章 XPATH 提取数据。第五章动态 HTML 处理。第六章多线程爬虫实现。第七章：Scrapy 框架初步。第八章：增量爬虫。第九章：验证码识别。第十章 MongoDB 数据库。第十一章爬虫项目。第十二章：Redis 数据库。第十三章：分布式爬虫 Scrapy-redis 框架。第十四章：Python 爬虫监控，自定义爬虫。第十五章：项目实战，考核、爬虫流程。附录

2019-07-09

ScholarHelper.zip

解压之后，在chrome浏览器--------更多工具--------扩展程序----添加刚刚解压的学术助手文件夹即可。

2019-07-05

乌班图下pycharm延长使用期限方法.zip

直接将三个文件复制到/opt/pycharm-2016.3.1/bin目录下即可

2019-07-05

mongodb配置及数据库管理软件.zip

1,创建logs文件夹,在下面创建log日志文件：C:\MongoDB\Server\3.4\data\logs\mongo.log 2、按照这个路径创建文件夹：C:\MongoDB\Server\3.4\data\db 3.配置环境变量 2.以管理员方式开启cmd 3.进入mongodb的bin文件夹下 4.运行以下命令：（需要根据实际情况修改相应路径） mongod --bind_ip 0.0.0.0 --logpath D:\MongoDB\Server\3.4\data\logs\mongo.log --logappend --dbpath D:\MongoDB\Server\3.4\data\db --port 27017 --serviceName "MongoDB" -serviceDisplayName "MongoDB" --install

2019-07-05

chromedriver和phantomjs.zip

chromedriver和phantomjs，使用时将chromedriver和phantomjs文件复制，粘贴到相应路径D:\Anaconda3\Scripts下即可

2019-07-05

安装scrapy依赖文件（Microsoft visual c++ 14.0和NDP46-KB3045560-Web）.zip

安装scrapy所需要的依赖文件（Microsoft visual c++ 14.0和NDP46-KB3045560-Web）

2019-07-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人