自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

习惯一个人面对所有

习惯一个人面对所有风雨

  • 博客(48)
  • 资源 (5)
  • 收藏
  • 关注

原创 使用scrapy爬取古诗文网的前十页数据

内容简介使用scrapy爬取古诗文网的前十页数据创建scrapy框架设置scrapy项目写爬虫类设置爬取的内容保存数据标题设置多页爬取(在gsww_spider.py里面设置)使用scrapy爬取古诗文网的前十页数据创建scrapy框架使用cmd创建一个爬虫项目scrapy startproject gsww #创建新项目然后进入目录中,创建spidercd gsww scrapy genspider gsww_spider www.gushiwen.cn设置scrapy项目在s

2020-10-07 12:37:48 1246

原创 12306抢票一(登录)

12306抢票一(登录)找到登录的页面,由于账号密码登录比较麻烦就直接扫码登录所以要先找到登录页面的url,利用selenium进行登录。在实战中一般要先把框架给搭好,好后面添加代码。为了代码得简洁,可读性较高,所以整个过程在一个类中实现,类中又定义了不同的函数来实现不同的功能搭框架:有一个执行的入口,有一个主函数可以调用定义的类。class TrainSpider(object): def __init__(self, *args, **kwargs) pass def run(self

2020-09-22 13:23:20 414

原创 多线程爬取段子

使用多线程爬取段子请求网页响应获取源码由于使用多线程代码比较多,所以定义一个采集类class CrawlThread(threading.Thread): def __init__(self, name, url_queue, data_queue): super(CrawlThread, self).__init__() self.name = name self.url_queue = url_queue self.data_

2020-09-20 22:56:33 156

原创 多线程爬取王者荣耀游戏壁纸

多线程爬取王者荣耀游戏壁纸https://pvp.qq.com/web201605/wallpaper.shtml王者荣耀游戏壁纸的下载页面右键检查但是在网页源代码里找不到壁纸的链接这个文件是还需要进行一个解码操作,再提取壁纸的下载链接进行多线程爬虫时,把生产者和消费者各自创建一个类这个类要继承threading.Thread类还要写入run方法,类中需要传入参数需要重写父类的__init__()方法使用队列需要定义用到的队列1.定义生产者类class Producer

2020-09-18 17:37:06 845

原创 使用navicate11连接mysql8报错的解决方法

使用navicate11连接mysql8报错的解决方法使用navicate11连接mysql8,报错1251的错误1251- Client does not support authentication protocol requested by server consider upgrading MySQL client网上查找原因发现是mysql8 之前的版本中加密规则是mysql_native_password,而在mysql8之后,加密规则是caching_sha2_password, 解决

2020-09-16 15:54:55 1346

原创 爬取快代理的ip地址

爬取快代理的ip地址导入必备的库包import requestsfrom bs4 import BeautifulSoup准备url地址url = 'https://www.kuaidaili.com/free/inha/{}/'请求网页响应 data = requests.get(url, headers=headers)使用Beautifulsoup解析网页并提取内容data = requests.get(url, headers=headers)html =

2020-09-13 18:31:24 410

原创 scrapy 小项目——爬取豆瓣排行榜250

scrapy startproject douban #创建一个新的项目scrapy genspider Top250 douban.com #创建爬虫打开items.py,在DoubanItem中添加属性

2020-06-23 11:23:28 225

原创 from sklearn.linear_model import RandomizedLogisticRegression as RLR导入报错

遇到的问题:from sklearn.linear_model import RandomizedLogisticRegression as RLR导入报错from sklearn.linear_model import RandomizedLogisticRegression as RLRImportError: cannot import name ‘RandomizedLogisticRegression’ from ‘sklearn.linear_model’ (D:\anaconda\li

2020-06-19 14:20:07 6430 10

原创 爬取博客的发帖信息保存在csv文件中

使用xpath爬取我的博客的发帖信息并保存在csv文件中#! /usr/bin/env python# -*- coding:utf8 -*-import requestsimport csvfrom lxml import etreeurl = 'https://blog.csdn.net/qiaoenshi'headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWeb

2020-06-11 12:38:56 220 1

原创 pyecharts数据可视化应用

内容简介pyecharts的应用绘制树图绘制矩形树图绘制散点图矩阵绘制地图,标出销售数据绘制地理热点图绘制词云图绘制主题河流图pyecharts的应用绘制树图from pyecharts.charts import Tree, TreeMapimport pyecharts.options as optsfrom pyecharts.globals import ThemeTypeimport json #导入json模块with open('lianxi.json', 'r', enc

2020-06-10 13:23:54 662

原创 爬虫偷懒小插件——Katalon Recorder

简介Katalon Recorder——火狐浏览器中的小插件下载插件使用插件Katalon Recorder——火狐浏览器中的小插件此处附上一个莫烦python的教学视频有操作介绍:[https://morvanzhou.github.io/tutorials/data-manipulation/scraping/5-01-selenium/下载插件打开火狐浏览器如下图,点击附加组件然后,进入插件页面下载安装即可使用插件打开插件点击Record,开始录制录制完成后,点击stop

2020-06-06 19:56:51 932

原创 pyecharts在数据可视化中的应用

内容简介pycharts在数据可视化中的应用使用pychats需要导入的几个必要的库包折线图阶梯图堆叠柱状图极坐标系堆积柱状图pycharts在数据可视化中的应用附上pyecharts中文文档链接http://pyecharts.org/#/zh-cn/intro使用pychats需要导入的几个必要的库包#从pyecharts.charts导入绘制图表的类型from pyecharts.charts import Line, Bar , Pie, Polarfrom pyecharts.rend

2020-06-05 10:47:26 887

原创 pycharm和numpy不匹配

pycharm和numpy不匹配报错信息ImportError: Importing the multiarray numpy extension module failed. Most likely you are trying to import a failed build of numpy. If you're working with a numpy git repo, try ...

2020-05-05 20:19:20 1436

原创 两种limit和skip的比较

查询中limit、skip的顺序不影响结果 db.movie.find().limit(2).skip(2) db.movie.find().skip(2).limit(2) #顺序不一样不影响结果管道操作中limit、skip的顺序影响结果 db.movie.aggregate([{$skip:5},{$limit:2}]) db.movie.aggregate([{$limit...

2020-04-22 19:54:53 470

原创 aggregate 流水线操作

aggregate 流水线操作db.集合名.aggregate([{$match:{key:value}}, #筛选条件{$group:{_id:$分组字段,keyname:{"$sum:1"}}},#keyname指结果中返回的字段{$project:{key1:value1}},#过滤显示字段或生成新字段{$sort:{<field>:1}}, #按字段fi...

2020-04-21 21:45:50 245

原创 更新2

更新在数组中的操作$pushdb.class1.update({"name":"c语言程序设计"},{$push:{"category":"教育"}}) #添加内容$each db.class1.update( {"name":"小学六年级数学(上)"}, {$push:{"category":{$each:["图书","教育"]}}} ) #有多个数据时,一个...

2020-04-19 20:17:00 96

原创 爬取百度贴吧发帖信息并保存到scv文件中

爬取百度贴吧发帖信息并保存到scv文件中#爬取百度贴吧的发贴信息(https://tieba.baidu.com/f?kw=%E7%88%AC%E8%99%AB&ie=utf-8&pn=50),并通过正则表达式解析数据,包括发帖标题、发帖人、发帖时间,保存到csv文件。#导入需要的模块import requestsimport reimport csvurl="http...

2020-04-18 17:09:23 765 1

原创 monggodb 删除操作

删除数据库db.dropDatabase() remove和deleteMany可以清空整个集合,保留集合结构drop不保留集合结构db.集合名.remove/deleteOne/deleteMany({条件}) db.class1.remove({category:{$all:["食品","糖果"]}})db.class1.deleteMany({"price.零售价":...

2020-04-14 15:50:57 511

原创 mongodb更新

查询操作用法操作符用法$rename修改键名$set设置文档中键对应的值$unset从文档中删除指定值$mul将键对应的值乘以指定的数量$inc将键对应的值增加指定的数量$min如果指定的值小于现有的对应值,则更新指定的值$max如果指定的值大于现有的对应值,则更新指定的值$setOnInsert更新导致insert...

2020-04-13 14:34:05 165

原创 mongodb查询2

db.class2.insertMany([ { name:"c语言程序设计", category:["图书","计算机"], price:{ 进价:35, 售价:35 }, 版本:[ { edition_name:"第一版", date:201001, grade:9 }, { edition_name:"第二版"...

2020-04-12 11:07:05 140

原创 mongodb查询操作1

[ { "_id":1, "name":"c语言程序设计", "category":["图书","计算机"], "price":{"进价":35,"零售价":35} }, { "_id":2, "name":"小学六年级数学(上)", "category":["图书","教育"], "price":{"进价":25,"零售价":25} }, { "_id":3, ...

2020-04-11 20:31:48 163

原创 mongodb插入操作

插入多个文档db.集合名.insertMany()db.集合名.insert()> db.class1.insertMany([ { "_id":1, "name":"c语言程序设计", "category":["图书","计算机"], "price":{"进价":35,"零售价":35} }, { "_id":2, "name":"小学六年级数学(上)", "category":[...

2020-04-10 20:47:31 143

原创 进入spark-shell报错

进入spark-shell总是报一大堆错才能进去Unable to load native-hadoop library for your platform… using builtin-java classes where applicableTo adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLo...

2020-04-10 19:37:29 1037

原创 mongodb简单的基本操作

查看有哪些数据库show dbs创建自定义数据库use 数据库名如果不存在该数据库,系统会自动创建一个数据库统计数据库信息db.stats删除数据库db.dropDatabase()查看数据库下的集合名称db.getCollectionNames()创建集合db.createCollection(‘class1’)查看当前数据库用户角色权限show role...

2020-04-10 14:40:06 184

原创 不等距的时间坐标

不等距的时间坐标打开素材设置辅助数据插入带平滑线的散点图设置辅助系列数据格式设置数据标记格式(辅助系列)为辅助系列添加数据标签设置辅助系列数据标签格式删除横坐标轴删除图例删除纵向网格线添加误差线右键辅助系列,删除误差线右键用户数系列删除水平误差线设置垂直误差线格式用户数系列...

2020-04-03 15:07:18 1040

原创 给对应点添加垂直线

给对应数据点添加垂直线- 打开表格- 插入带有数据标记的折线图**设置纵坐标格式**设置横坐标格式**设置标题和标题字体格式****选中图表,添加垂直线****单击设置垂直线格式****设置折线格式**设置数据标记格式设置图表填充...

2020-04-02 16:05:49 789

原创 如何设置命令符中输入汉字

如何设置命令符中输入汉字win+r 快捷键 打开运行输入cmd单击确定在命令符中,右键点击上边框(如图)在选项中,勾上使用旧版控制台单击确定,然后重启命令符就好了...

2020-03-27 19:17:46 1277

原创 Excel数据可视化——隐藏相同数据

隐藏相同数据选中需要隐藏的数据点击开始菜单栏里的条件格式,选择新建规则选择使用公式确定要设置格式的单元格输入公式:=A1=A1048576,点击格式设置字体颜色为背景颜色(白色)点击确定点击确定选中数据(不代表头)点击开始菜单栏里的条件格式,选择新建规则选择使用公式确定要设置格式的单元格输入公式:=MOD(ROW(A1...

2020-03-05 20:34:54 1926 1

原创 Excel数据可视化——设置间隔指定行数填充颜色

设置间隔指定行数填充颜色隔五行填充一行选中需要设置的表格点击开始菜单栏里的条件格式,选择新建规则选择规则类型:使用公式确定要设置格式的单元格输入公式:=MOD(ROW(A1),5)=1,点击格式设置填充色点击确定点击确定公式的解读:MOD() 求余函数ROW()返回行数=MOD(被除数,除数)=1当被除数除以除数的余等于1时就填充颜色了解其他方法请点击下面的...

2020-03-05 13:53:51 1325

原创 Excel数据可视化——添加迷你图(折线、柱形图)

添加迷你图(折线、柱形图)迷你折线图1、选中一个可以插入迷你图的单元格2、切换到插入菜单栏3、选择迷你图中的折线图4、选择所需的数据范围5、点击确定6、把鼠标放到迷你折线图所在单元格的右下角变成一个加号,往下拖动。后面的折线图也可以了7、选中迷你折线图,可以切换到迷你图的设计,可以根据自己需求进行设计,使迷你图更加的美观。迷你柱形图1、选中一个可以插入迷你图的单元...

2020-03-05 12:36:12 8347

原创 Excel数据可视化——使用图标集显示数据的意义

使用图标集显示数据的意义选中数据选择开始菜单栏中的条件格式,接下来选择图标集。-设置图标集。如果有特定的要求则选择其他规则,途中圈出来的要根据自己的需求进行更改,最后点击确定。*这里我做的是将搜索指数在50万以上的用√标记,在20万到50万之间用!标记,低于20万用×标记。所以类型选择数字最后的效果图:***最后的最后类型中有四类。了解百分比和百分点值请点击下面的链接...

2020-03-04 12:20:24 1789

原创 Excel数据可视化——使用色阶显示不同范围的数据

使用色阶显示不同范围的数据选中数据开始菜单栏中选择条件格式,然后选择色阶设置色阶的颜色,如果自己对已经存在的色阶不满意,可以选择其他规则建立自己的色阶。自己建立规则后,点击确定...

2020-03-04 10:49:57 3564

原创 Excel数据可视化——查找特定范围数据

查找特定范围数据查找6月份销售额前三位选中数据选择开始菜单栏的条件格式,接下来选择最前或最后原则选择其他规则五角星选中的一定要改根据自己的需求改选择格式,设置单元格格式点击确定...

2020-03-03 21:28:24 1198

原创 Excel数据可视化——通过数据条长度表示数据大小

通过数据条长度表示数据大小一般来说要先进行排序,再来加上数据条,这样好看一点,可以看到数据的变化趋势。选中数据切换到数据菜单栏中,进行升序或降序的排序这一步一定要选择扩展选区,然后选择排序选中数据,切换到开始菜单栏,选择条件格式,下一步选择数据条选择样式就行了,如果想自己设计就选择其他规则,自己建立规则,是数据条变得更加好看。在这里我讲一下如何去掉数据。...

2020-03-03 20:56:09 3378

原创 Excel数据可视化——突出显示特殊数据单元格

显示销售额在30000以上的单元格。选中数据开始菜单栏,选择条件格式3.选择突出显示单元格规则,然后大于。。。4.设置突出显示单元格格式及判断条件。最后点击确定。...

2020-03-03 12:52:10 977

原创 Missing Hive Execution Jar: /home/whzy/software/HADOOP/apache-hive-2.1.1-bin//lib/hive-exec-*.jar

出现如下问题:Missing Hive Execution Jar: /home/whzy/software/HADOOP/apache-hive-2.1.1-bin//lib/hive-exec-*.jar就应该将$PWD/apache-hive-2.1.1-bin/改为hive的安装路径export HIVE_HOME=$PWD/apache-hive-2.1.1-bin/export...

2019-12-10 09:22:22 1286

原创 hive安装教程

安装hive在master节点上,进入压缩包所在的目录,移动并解压Hive安装包[whzy@master ~]$ cd software/[whzy@master software]$ mv apache-hive-2.1.1-bin.tar.gz ~/[whzy@master software]$ cd[whzy@master ~]$ tar -zxvf apache-hive-2.1...

2019-12-06 22:15:36 255

原创 Zookeeper的常用Shell命令

启动zookeeper服务后,在其中一台机器上执行客户端脚本可连接到zookeeper服务[whzy@master zookeeper-3.4.12]$ bin/zkCli.sh -server slave:2181,slave2:2181使用create命令在客户端shell下创建目录,并查看[zk: slave:2181,slave2:2181(CONNECTED) 28] creat...

2019-12-06 19:25:04 413

原创 安装Hbase

[whzy@master ~]$ cd software/[whzy@master software]$ mv hbase-1.2.6-bin.tar.gz ~/[whzy@master software]$ cd[whzy@master hbase-1.2.6]$ cd conf[whzy@master conf]$ vi hbase-env.sh将下面的内容就修改#export JA...

2019-12-03 10:06:09 108

原创 安装zookeeper

[whzy@master ~]$ cd zookeeper-3.4.12[whzy@master zookeeper-3.4.12]$ cd conf[whzy@master conf]$ cp zoo_sample.cfg zoo.cfg[whzy@master conf]$ vi zoo.cfg[whzy@master ~]$ mkdir -p /home/whzy/tmp/zoo...

2019-12-02 22:12:10 83

gsww.zip|古诗文网爬取代码

此压缩包是使用scrapy框架爬取古诗文网的全部的代码,希望能给正在scrapy框架的人提供一个比较好的例子

2020-10-07

09爬取段子作业.py

这个实例是我自己写了之后出了一点问题,请教老师之后才有程序,里面思路清晰,有注释,适合学习多线程开发的人拿去做参考

2020-09-20

多线程爬取王者荣耀壁纸

该程序为多线程爬取王者荣耀壁纸,其中用到了多线程、队列的知识,是一个比较好玩的程序,感兴趣可以下载来试一试

2020-09-18

爬虫数据提取.pdf

该文件为我的在csdn上购买的爬虫课程的笔记,上面有概念有语法,有实战,还是比较简单易懂的。其中涉及正则表达式、xpath、BeautifulSouop提取内容的实战

2020-09-16

爬虫基本库的使用.pdf

这个笔记比较适合刚接触的爬虫的人,内容包含urllib库和requests库的使用,还涉及代理ip的使用以及如何处理不被信任的SSL证书

2020-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除