自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

原创 淘宝评论爬取(2020-08-21)update 2020-09-18

爬取淘宝产品评论及分析需求爬取淘宝天猫店,某个单品的评论,根据评论内容生成词云,以及对评论做情感分析分析1.登录淘宝。找到某个产品,点击评论。2.进入评论页面后,按F12调出开发者工具,在Network 找list_det。打开后点击Preview。可以找到评论数据,数据类型是json。一页评论20条(怎么判断是ajax异步加载?个人判断是点击第二页的时,ie中的url没有改变从而推测是ajax异步加载。)构建ajax异步加载分析:ajax请问url 就是红色框的Request URL

2020-08-21 17:33:17 7097 2

原创 MySQL 插入数据报错 Incorrect string value

1.“CHARSET” 是字符集的意思,它定义了用于存储和检索数据的字符集。这对于包含西欧字符的数据比较合适。varchar(100) DEFAULT NULL COMMENT ‘样式属性(其他样式扩展)’,varchar(100) DEFAULT NULL COMMENT ‘样式属性(其他样式扩展)’,varchar(100) DEFAULT NULL COMMENT ‘样式属性(其他样式扩展)’,varchar(100) DEFAULT NULL COMMENT ‘样式属性(其他样式扩展)’,

2023-11-29 14:46:26 1561

转载 SQL Server查找数据记录的⼏种⽅式

2.Clustered Index Scan–聚集索引扫描(较慢),按聚集索引对记录逐⾏进⾏检查,对有主键/聚集索引的表进⾏⽆条件查找或者使⽤主。5.Clustered Index Seek–聚集索引查找(最快),直接根据聚集索引获取记录,建⽴⾮聚集索引并把其他显⽰列加⼊索引中并把聚集索引。4.Index Seek–索引查找(较快),根据索引定位记录所在位置再取出记录,建⽴⾮聚集索引并把其他显⽰列加⼊索引中;3.Index Scan–索引扫描(普通),根据索引滤出部分数据在进⾏逐⾏检查,;

2022-09-06 13:33:09 524

原创 TIANCHI_MYSQL_TASK01

Task01:初识数据库与SQL-天池龙珠计划SQL训练营by 2021-11-15目录一、初识数据库数据库是将大量数据保存起来,通过计算机加工而成的可以 进行高效访问的数据集合。该数据集合称为数据库(Database,DB)。用来管理数据库的计算机系统称为数据库管理系统(Database Management System,DBMS)。1.1 DBMS的种类DBMS 主要通过数据的保存格式(数据库的种类)来进行分类,现阶段主要有以下 5 种类型.层次数据库(Hierarchical Data

2021-11-18 16:20:45 148

原创 SQL 常用系统表

—系统工具–查询当前数据库中所有表名 xtype=‘U’:表示所有用户表,xtype=‘S’:表示所有系统表。SELECT * FROM sysobjects WHERE xtype = ‘U’;SELECT * FROM sysobjects WHERE xtype = ‘S’;–查询指定表中的所有字段名 id 等于 sysobjects的IDSELECT * FROM syscolumns WHERE Id = ‘107141’;–查询数据库中所有的表名及行数SELECT a.name,

2021-03-19 09:26:33 386

原创 TAINCHI_TASK04_SQL集合运算-表的加减法和join

集合运算-表的加减法和join

2021-02-10 22:24:41 109

原创 TAINCHI_TASK03_SQL (视图、子查询、函数)

TAINCHI_TASK03_SQL (视图、子查询、函数)3.1 视图3.1.1 什么是视图视图是一个虚拟的表,不同于直接操作数据表,视图是依据SELECT语句来创建的(会在下面具体介绍),所以操作视图时会根据创建视图的SELECT语句生成一张虚拟表,然后在这张虚拟表上做SQL操作。3.1.2 视图与表有什么区别《sql基础教程 第2版》用一句话非常凝练的概括了视图与表的区别—“是否保存了实际的数据”。所以视图并不是数据库真实存储的数据表,它可以看作是一个窗口,通过这个窗口我们可以看到数据库表

2021-02-07 22:05:02 234 2

原创 TIANCHI_MYSQL_TASK02

TAINCHI_TASK02_SQL用例:--创建表;CREATE TABLE product( product_id CHAR(4) NOT NULL, product_name VARCHAR(100) NOT NULL, product_type VARCHAR(32) NOT NULL, sale_price INTEGER, purchase_price INTEGER, regist_date DATE, P

2021-02-06 22:43:11 117

原创 pip升级问题

升级后 PIP 执行报错ModuleNotFoundError: No module named ‘pip’可以执行:python -m ensurepip 修复python -m pip install --upgrade pip 再升级如果执行pip 报其他错误,可以重新来一次先用python -m ensurepipD:\Python38\Scripts>python -m ensurepipLooking in links: c:\Users\zzk\AppData\Lo

2020-11-13 16:30:26 190

原创 GIt 入门使用

Git使用说明:Git :分布式版本控制系统1.安装在Windows上使用Git,可以从Git官网直接下载安装程序,然后按默认选项安装即可。安装完成后,在开始菜单里找到“Git”->“Git Bash”,蹦出一个类似命令行窗口的东西,就说明Git安装成功!1.1配置:git config --global user.name "Your Name"git config --global user.email "[email protected]"因为Git是分布式版本控制系统,所以,

2020-09-16 11:37:33 613

原创 python语言程序设计:第7周 测试以及练习

# 第7周练习# 05# 附件是一个CSV文件,其中每个数据前后存在空格,请对其进行清洗,要求如下:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬# (1)去掉每个数据前后空格,即数据之间仅用逗号(,)分割;‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬

2020-08-07 11:15:03 1223

原创 递归函数简单理解

递归函数定义:函数定义中调用函数自身的方式(ps 回调函数:又叫函数回调,指的是将函数作为参数传递到另外的函数中执行。)递归两特征:链条:计算过程存在递归链条。基例:存在一个或多个不需要再次递归的基例。# 递归def f(n): if n == 1: return 1 else: return n*f(n-1)print(f(5))# 执行过程:# f(5)# 5*f(4)# 5*(4*f(3))# 5*(4*(3*f(2)))

2020-07-29 15:16:32 1496

原创 绘制七段数码管

# 绘制七段数码管import turtle, timedef drawGap(): """ 绘制数码管间隔 抬笔,向前5像素 :return: """ turtle.penup() turtle.fd(5)def drawLine(draw): """ 画线函数 画一条线,通过控制画笔抬起,放落,画线。 :param draw: True :return: """ drawGap()

2020-07-28 10:22:36 350

原创 数据分析和展示 numpy入库

NumPy 库入门(是SciPy、Pandas等数据处理或科学计算库的基础)数据维度:一维数据,二维数据,多维数据一维数据:由对等关系的有序或无序数据构成,采用线性方式组织。对应列表,数组和集合等概念。例:[3.1398, 3.1349, 3.1376] 或 {3.1398, 3.1349, 3.1376}二维数据:由多个一维数据构成,是一维数据的组合形式。例:[[3.1398, 3.1349, 3.1376],[3.1413, 3.1404, 3.1401]]多维数据:由一维或

2020-07-14 11:09:30 301

原创 数据分析与展示 pandas 入门

pandas 入门Pandas 库的介绍Pandas 库的引用pandas是python第三方库,提供高性能易用数据类型和分析工具import pandas as pdPandas基于NumPy实现,常与NumPy和Matplotlib一同使用Pandas 库小测import pandas as pdd = pd.Series(range(20))print(d)print(d.cumsum())Pandas 库的理解两个数据类型:Series, DataFrame基于上述数据

2020-07-10 14:19:44 208

原创 数据分析与展示 Matplotlib 基础绘图函数示例

Matplotlib 基础绘图函数示例pyplot 基础图表函数概述pyplot的基础图标函数函数说明plt.plot(x,y,fmt,…)绘制一个坐标图

2020-07-08 11:24:07 279

原创 数据分析与展示 Matplotlib库入门

Matplotlib库入门说明:Matplotlib库由各种可视化类构成,内部结构复杂,受Matlab启发matplotlib.pyplot是绘制各类可视化图形的命令子库,相当于快捷方式 improt matplotlib.pyplot as pltmatplotlib小测例1: matplotlib小测import matplotlib.pylab as plt# plt.plot()只有一个输入或数组时,参数被当作y轴,x轴以索引自动生成;# plt.plot(x,y)当两个以上参数时,按

2020-07-07 16:48:44 222

转载 分组取值

SELECT *FROM (SELECT 分组的字段名, ROW_NUMBER() OVER(PARTITION BY 分组的字段名ORDER BY 排序的字段名) AS RN FROM 表名)WHERE RN <= 10 得到分组后,数据的前几条

2020-07-07 10:45:07 252

原创 anaconda琐事

一.异常当在windows下面的Anaconda的命令行中运行 conda update --all 时,如果出现Collecting package metadata (current_repodata.json): failed的错误提示,可以按照下面的方式来解决掉:把路径“Anaconda3/Library/bin ”下面的文件复制到路径“Anaconda3/DLLs”下 :libcrypto-1_1-x64.dlllibssl-1_1-x64.dll二.主要分为管理环境的命令和管理包的命令

2020-06-22 10:35:47 122

转载 Python3 zip() 函数

描述zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的对象,这样做的好处是节约了不少的内存。我们可以使用 list() 转换来输出列表。如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 * 号操作符,可以将元组解压为列表。语法zip 语法:zip([iterable, …])参数说明:iterabl – 一个或多个迭代器;返回值返回一个对象。实例以下实例展示了 zip 的使用方法:>>>a

2020-05-15 16:31:41 178

原创 《精通scrapy网络爬虫》笔记

#《精通scrapy网络爬虫》整本书代码:https://github.com/zkzhang1986/-Scrapy-第 1 章 初识 Scrapy1.1 网络爬虫是什么略1.2 Scrapy 简介及安装 scrapy 是使用 Python 语言(基于 Twisted 框架)编写的开源网络爬虫框架。 安装:pip install scrapy (如果安装失败自行百度。依赖库有 lxml、 pyOpenSSL 、 Twisted 、pywin32) 判断是否安装成功:

2020-05-15 13:55:44 3214

原创 《精通Scrapy网络爬虫》第10章 第10.1 登录的本质

10.1 登录实质测试网站:http://example.webscraping.com/places/default/user/login登录网站后按 F12 打开开发者工具。选择 Elements 点击 form 表单10.1.1 分析:例:<form action="#" enctype="application/x-www-form-urlencoded" method="post"> <form>的 method 属性决定了 HTTP 请求的方法 (例为 POS

2020-05-15 10:50:02 248

原创 一个简单的回调函数

一个简单的回调函数回调函数就是一个参数,将这个函数作为参数传到另一个函数里面,当那个函数执行完之后,再执行传进去的这个函数。这个过程就叫做回调。def mainfun(callback): callback() print('I am main functior!')def callb(): print('I am callback function!')mainfun(callb)...

2020-05-14 11:24:14 308

原创 Faker库说明

Faker的文档Faker是一个Python软件包,可为您生成伪造数据。无论您是需要引导数据库,创建美观的XML文档,填充持久性以进行压力测试还是匿名化来自生产服务的数据,Faker都是您的理想之选。安装 pip install Faker关于初始化参数locale:为生成数据的文化选项,默认为en_US,只有使用了相关文化,才能生成相对应的随机信息(比如:名字,地址,邮编,城市,省份等)https://faker.readthedocs.io/en/master/locales/zh_CN.h

2020-05-14 09:17:39 3035

原创 mysql(1)

MySQL修改用户的密码主要有两种方法:ALTER USER 和SET PASSWORDALTER USER基本使用ALTER USER testuser IDENTIFIED BY ‘123456’;修改当前登录用户ALTER USER USER() IDENTIFIED BY ‘123456’;使密码过期ALTER USER testuser IDENTIFIED BY ‘123...

2020-03-23 10:25:12 104

原创 《精通scrapy网络爬虫》第11章 ----安装Docker 以及Splash渲染引擎

这里写自定义目录标题11.1 Splash 渲染引擎安装 docker安装 Splash11.1 Splash 渲染引擎​ Splash是Scrapy官方推荐的JavaScript渲染,它是使用WebKit开发的轻量级无界面浏览器,提供基于HTTP接口的JavaScript渲染服务,支持以下功能:为用户返回经过渲染的HTML页面或页面截图。并发渲染多个页面关闭图片加载,加速渲染在页面中...

2020-03-13 10:38:24 497

原创 《精通scrapy网络爬虫》第10章

<div id="web2py_user_form"><form action="#" enctype="application/x-www-form-urlencoded" method="post"> <table> <tbody> <tr id="auth_user_email__row"> <td cl...

2020-02-28 16:46:22 147

原创 scrapy shell

scrapy shell说明scrapy shell [url|file]Interactive console for scraping the given url or file. Use ./file.html syntaxor full path for local file.常用变量(对象和函数)request最近一次下载对应的Request对象response最近一...

2020-02-27 14:25:55 80

原创 《精通scrapy网络爬虫》代码

《精通scrapy网络爬虫》代码 更新中…https://github.com/zkzhang1986/-Scrapy-

2020-02-21 11:22:36 706

原创 使用LinkExtract 提取链接及参数介绍

# 《精通 scrapy 网络爬虫》第6章 第2节(即6.2)描述提取规则# 使用LinkExtract 提取链接及参数介绍from scrapy.http import HtmlResponsefrom scrapy.linkextractors import LinkExtractorhtml1 = open('scrapyLinkExtractorTest1.html','r',en...

2020-02-19 08:55:13 1064

原创 scrapy使用Exporter导出(excel)

my_exporters.py# 以excel格式导出的Exporterfrom scrapy.exporters import BaseItemExporterimport xlwtclass ExcelItemExporter(BaseItemExporter): def __init__(self, file, **kwargs): self._config...

2020-02-18 10:01:39 623

原创 srapy_selector_css基础语法

CSS选择器表达式描述*选中所有元素E选中E元素E1,E2选中E1和E2元素E1 E2选中E1后代元素中的E2元素E1>E2选中E1子元素中的E2元素E1+E2选中E1兄弟元素中的E2元素.class选中class属性包含class的元素#ID选中id属性为ID的元素[ATTR]选中包含ATTR属性的元素...

2020-01-17 13:51:33 176

原创 scrapy_selector_xpath基础语法

# 《精通 scrapy 网络爬虫》第3章 第3节(即3.3)xpath 实例from scrapy.selector import Selectorfrom scrapy.http import HtmlResponsebody = '''<html> <head> <base href='http://example.com'/> &l...

2020-01-16 15:46:42 1065

转载 Python @函数装饰器及用法(超级详细)转

Python 内置的 3 种函数装饰器,分别是 @staticmethod、@classmethod 和 @property,其中 staticmethod、classmethod 和 property 都是 Python 的内置函数。那么,我们是否可以开发自定义的函数装饰器呢?答案是肯定的。当程序使用“@函数”(比如函数 A)装饰另一个函数(比如函数 B)时,实际上完成如下两步:1.将被修...

2019-12-18 17:14:08 575

原创 python文档阅读dir()和help()及打印输出(保存)到本地

dir()函数dir([object])object – 对象、变量、类型dir()用来查询一个类或者对象是所有属性例:关于第三方库,就需要先引入例:help()一、help()函数的作用在使用python来编写代码时,会经常使用python自带函数或模块,一些不常用的函数或是模块的用途不是很清楚,这时候就需要用到help函数来查看帮助。这里要注意下,help()函数是查看函数...

2019-12-17 10:57:30 647 3

原创 python微信图片dat转码(整理版)

环境Python 3.6.3模块os工具程序员计算器目的通过python 实现电脑版微信中图片转码(原.dat转成JPG或PNG)分析据说微信图片是用异或值加密(实际就是转码)1.先用工具打开.bat文件,但会看到一堆乱码。如下图用notepad++的话可以,通过插件以16进制打开。(怎么用notepad打开16进制点这) 16进制打开如下图再用 16进制打开JPG ...

2019-12-13 11:33:00 7192 7

原创 微信图片dat转码(初稿)

#微信图片转码#文件读f = open('750fd6eb26111238efb42714f31a85f3.dat','rb')# print(r)#文件写p = open('aa.jpg','wb')# 转码过程for now in f: # print(now) for nowByte in now: print(nowByte) ...

2019-12-12 15:55:33 894

原创 ip代理池(获取,存储,检查,接口)

ip代理池基本库:aiohttp、request、redis_py、pyquery、Flask基本模块:存储模块,获取模块(IP),检测模块,接口模块,调度模块(用于串连前面4个模块)StorageModule(存储模块)AcquisitionModule(获取模块)CheckingModule(检测模块)InterfaceModule(接口模块)SchedulingModule(调...

2019-11-26 09:34:34 689

原创 多线程简单举例

在 multiprocessing 中,通过创建一个 Process 对象然后调用它的 start() 方法来生成进程。 Process 和 threading.Thread API 相同。 一个简单的多进程程序示例#测试多线程from multiprocessing import Processimport timeimport osdef fun1(): print('fu...

2019-11-22 16:31:19 172

转载 bilibili滑动验证

# =============================================# --*-- coding: utf-8 --*--# @Time : 2019-10-21# @Author : TRHX# @Blog : www.itrhx.com# @CSDN : https://blog.csdn.net/qq_36759224# @FileN...

2019-11-01 17:35:53 221

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除