自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

刘文刚的博客

Python 网络爬虫 CentOS 云服务器 数据可视化

  • 博客(22)
  • 收藏
  • 关注

原创 百度Echarts技术教程——从下载到环境配置到5分钟上手绘制第一张图表

文章目录一、获取Echarts二、Pycharm准备和资源文件引入三、绘制一个简单的图表官方教程(包含配置项、API、教程、GL配置等)一、获取Echarts你可以通过以下几种方式获取 ECharts。1.从 Apache ECharts (incubating) 官网下载界面 获取官方源码包后构建。2.在 ECharts 的 GitHub 获取。3.通过 npm 获取 echarts...

2020-04-25 18:55:56 1595

原创 (多线程优化版)爬虫爬取京东商品详细数据(品牌、售价、各类评论量(精确数量)、热评词及数量等) json解析部分数据

文章目录前言正文ThreadPool()中的pool.map()多线程优化前期需求可能用到的数据库操作及指令:完整代码前言文末附完整代码本文为基于上一篇文章的多线程优化(完整独立),上一版本爬取时间为21000s左右,优化后仅3000s左右。上一版(未优化版)链接:爬虫爬取京东商品详细数据 (品牌、售价、各类评论量(精确数量)、热评词及数量等)json解析部分数据较原版所作改动:1.添...

2020-04-21 17:02:39 2538

原创 爬虫爬取京东商品详细数据 (品牌、售价、各类评论量(精确数量)、热评词及数量等)json解析部分数据

文章目录前言一、数据保存格式设置及数据库准备(CentOS云mysql数据库)1、分析数据需求(单一商品为例)2、数据库保存格式3、用到的数据库操作及指令二、网页分析1、分析网页源码,确定提取方式三、代码设计及信息爬取完整代码:四、检验与改前言1.本编文章为毕设所著,所作内容不用于任何商业用途,爬虫所获取内容均用于个人设计2.本文基于上一篇文章为前提,详情转:爬取京东笔记本电脑销量榜每件商品...

2020-04-21 16:33:32 11190 4

原创 (多线程优化)爬取京东笔记本电脑销量榜data-sku(商品id),并存入云服务器中的mysql库(爬取时间较上一版提升十多倍)

文章目录前言一、优化内容1、cromeOptions()加载优化2、ThreadPool()中的pool.map()多线程优化二、完整代码三、运行效果截图前言本文为上一篇爬虫文章的多线程优化版,上一版本爬取时间为3000s左右,优化后仅200多s前一文连接:爬取京东笔记本电脑销量榜每件商品详情页url,并存入云服务器中的mysql库较原版所作改动:1.获取的url改为data-sku,即...

2020-04-21 16:20:18 1512

原创 使用ThreadPool()中的pool.map()多线程运行selenium webdriver导致的内存占用巨大,内存溢出乃至电脑卡死解决方法

解决一:(适用于大量程序并行导致内存溢出)selenium webdriver退出方式:`driver.close()`改为`driver.quit()`。close()方法:可能是只关闭了当前网页,而未关闭crome,导致大量crome并发,占用内存直至卡死。quit()方法:关闭当前页面并退出浏览器和退出webdriver驱动。解决二:程序产生大量缓存(或是其他文件)导致磁盘存储空间...

2020-04-21 16:05:39 2653 3

原创 数据库设置最大连接数方法(使用ThreadPool多线程插入数据到数据库报错)

1.显示当前所有连接:show processlist;2.显示最大连接数show variables like 'max_connections';3.设置最大连接数为1000(mysql 8.0好像默认为151)set global max_connections=1000;...

2020-04-21 15:33:27 954

原创 Mysql 8.0 修改数据库名(复制数据库) 修改数据表名

1.修改数据表修改数据表很简单,各版本数据库通用。create table test(name varchar(10)); # 创建名为test的数据表rename table test to test1; # 修改数据表名称test为test12.修改数据库名(复制数据库)在mysql8.0及后续版本中,原来的命令:rename database data1 to d...

2020-04-10 14:51:16 4879

原创 问题解决:如何获取京东页面请求到的json中的商品数据(爬虫请求json,提取数据)

**问题介绍:**京东商品的部分信息是具备一定的反爬措施的,例如价格、评论相关信息的那个。那么我们要如何获得这部分数据呢?**问题分析:**对于这部分数据,分析相关请求内容或json,能够找到对应的数据是存在json中的,我们只需要获得将json请求出来,再通过一些简单步骤即可获取json数据。当然是需要使用json库的。解决步骤:1.找到数据所在json令书博客,具体可查看:京东反爬措施...

2020-04-10 11:25:17 2867

原创 京东反爬措施导致无法爬取商品价格和评论等信息解决方法

**问题描述:**在直接对京东商品的网页源码进行xpath解析时,获得的价格数据和评论数量等信息为空。**问题分析:**经过分析发现,通过接口分析,京东商品的价格和评论信息均由jason保存。通过查找json找到相应的接口,请求数据即可解决。解决方法:1、第一步,寻找接口的突破口,就是接口全文检索,关于这个价格的信息仔细查找发现了获得价格的函数。调用了ajax,如此我们分析,是不是每个价...

2020-04-06 18:05:03 7655 11

原创 连接Mysql并将数据写入数据库方法(Pymysql库的基本使用 附完整实例代码)

一、PyMySQL库介绍PyMySQL是在 Python3.x 版本中用于连接 MySQL 服务器的一个库。本质上就是一个套接字客户端,只不过这个套接字客户端是在python程序中用的。二、安装和使用1.安装pip install pymysql2.方法pymysql.connect()参数说明:(连接数据库时需要添加的参数)host(str): MySQL服务器地址p...

2020-03-27 20:18:39 1117

原创 pymysql.connect错误解决 (1130, "Host 'X.X.X.X' is not allowed to connect to this MySQL server")

问题描述:使用pymysql库的pymysql.connect方法连接某服务器数据库时,报错:(1130, "Host 'X.X.X.X' is not allowed to connect to this MySQL server")错误分析:主机X.X.X.X不允许连接到Mysql服务器。即该主机未配置Mysql支持远程连接引起的。解决方法:1.登录服务器(本地则直接登录mysq...

2020-03-27 19:35:47 3479

原创 爬取京东笔记本电脑销量榜每件商品详情页url,并存入云服务器中的mysql库

一、目的分析1、京东搜索笔记本电脑字段,按销量由高到低排序,该网页作为开始url,爬取100页数据,共计 5 (个) *12(行)*100(页)= 6000(条)数据。2、数据为各个项目详情页中的数据,即下图中的href,可先爬取所有的href,再从各链接中爬取所需数据。二、爬取页面商品所有详情页链接即该href链接出现的问题:京东一页数据为30项,但分半加载,即先加载15项,下滑加...

2020-03-24 12:33:34 1951 2

原创 爬虫爬取动态网页,滑动加载项无法爬取问题(selenium + cromedriver配置方法)

问题描述:京东一页数据为30项,但分半加载,即先加载15项,下滑加载后半部分,导致爬取结果仅有15项。该方法可泛用至任意动态下拉加载类网页。解决方法:使用selenium + cromedriver的方式设置自动下拉,等待加载完毕后进行爬取即可。方法步骤:Selenium WebDriver提供了各种语言的编程接口,来进行Web自动化开发。1.selenium的安装(百度可以找到详细的安...

2020-03-24 11:59:47 2116

原创 学习笔记 网络爬虫篇之 [数据清洗]

文章目录一、XPath语法和lxml模块1.Xpath语法1.1 什么是XPath?1.2 XPath开发工具1.3 XPath语法选取所有book元素以及book元素下所有的title元素一、XPath语法和lxml模块1.Xpath语法1.1 什么是XPath?Xpath(XML路径语言)是一门在XML和HTML文档中查找信息的语言,可用于XML和HTML文档中对元素和属性进行遍历。...

2020-02-27 16:45:05 2120

原创 学习笔记 网络爬虫篇之 [数据请求]

前言网络爬虫简介

2020-02-26 23:05:36 534

原创 Mysql 8.0 学习笔记(从安装配置到知识学习)

文章目录前言一、Mysql数据库 安装及配置1.Mysql简介2.Mysql安装2.1 下载并添加存储库2.2 安装MySQL 8.0包3.启动MySQL3.1 启动MySQL服务并设置自启动3.1 检查MySQL服务状态4. Mysql 安全5.从命令行连接到MySQL二、Mysql 数据库操作1.创建一个新的MySQL数据库2.使用SHOW语句找出在服务器上当前存在什么数据库:3.选择你所创建...

2020-01-17 15:02:07 851

转载 MYSQL 语法大全(二)

前言文章根据原文编辑整理。本文原文链接:https://www.cnblogs.com/zhuyongzhe/p/7686105.htmlMYSQL语法大全(二)一、#----命令行连接MySql---------#启动mysql服务器net start mysql#关闭net stop mysql#进入mysql -h 主机地址 -u 用户名 -p 用户密码#退出exi...

2020-01-17 14:52:00 468

转载 MYSQL 语法大全(一)

前言文章根据原文编辑整理。本文原文链接:https://www.cnblogs.com/zhuyongzhe/p/7686098.htmlMYSQL语法大全(一)1、说明:创建数据库CREATE DATABASE database-name2、说明:删除数据库drop database dbname3、说明:备份sql server— 创建 备份数据的 deviceUSE m...

2020-01-17 14:45:27 748

原创 CentOS 7.5 搭建云WEB服务器(Apache)

2020-01-17 13:52:58 2330

原创 Python编程 学习笔记(一) 基础知识篇

文章目录前言Python的执行方式Python的PyCodeObject 和 pyc 文件认识。Python语法规范一、数据类型1.变量2.字符串基本介绍字符串的分片与索引字符串的方法3.列表更新列表删除列表元素Python列表脚本操作符Python列表函数&方法4.元组创建空元组访问元组修改元组删除元组元组运算符元组索引,截取无关闭分隔符5.字典(Dictionary)访问字典里的值修改...

2020-01-10 15:07:34 8473 1

原创 Jupyter markdown安装+Jupyter开发环境搭建+Python程序测试+Jupyter快捷键

Jupyter开发环境搭建Jupyter简介Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和 markdown。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等 。摘自...

2020-01-07 20:52:54 2019

原创 腾讯云服务器(学生版)购买+ssh免密登录+Centos7.5上安装anaconda3计算环境(python)

腾讯云服务器(学生版)购买+ssh免密登录+Centos7.5上安装anaconda计算环境(python)一:服务器购买在腾讯云官网腾讯云找到合作与生态下的云+校园,选择相应类型购买(25岁以下免学生认证)即可。二:ssh免密登录ssh介绍(安全外壳协议)SSH 为 Secure Shell 的缩写,由 IETF 的网络小组(Network Working Group)所制定;SSH...

2020-01-07 20:27:28 1080

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除