自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 小白通过Fiddler爬取手机app的数据并提取出来(详细版)

我们就以爬取安卓端上的王者营地上英雄热度榜为例:前期准备工作:下载安装Fiddler,并配置好相关连接选项1.下载:https://www.telerik.com/fiddler,进入网站点击Download now再填写好相关信息,点击红色的Download for Windows,即可完成下载。2.安装基本是往下点就行,确定好安装路径即可。这里,我是选择在我的E盘3.配...

2020-04-12 15:00:37 17265 23

原创 用python将数据文件按某个字段拆分

将数据文件按照某个字段将数据,进行拆分汇总。例:将下面的表,按照科目进行拆分汇总。1.获取文件数据import osimport pandas as pdfile_path = 'D:\data\数据处理\字段拆分\总表.xlsx'data = pd.read_excel(file_path)2.获取科目的种类# 按科目进行拆分,将所有科目都取出来,然后通过drop_duplicates()去重subjects = data['科目'].drop_duplicates()3.按

2022-03-19 23:51:12 2336

原创 用python将一份数据文件均等分拆

将一份数据文件,指定数据文件量来进行分拆,又或者指定分成指定的份数。例:将这份数据分别按指定文件数据量和指定拆分的份数来进行拆分。1.获取数据file_path = 'D:\data\数据处理\拆分\汇总.xlsx'data = pd.read_excel(file_path)2.指定数据量进行拆分# 按照每份数量进行拆分,例如指定每份为10条数据def quantity_split(source_data, num): # 获取总共多少条数据 count = len(

2022-03-19 20:34:38 2961

原创 利用python将多个格式相同的数据文件合成一个

工作中,我们时常遇到多个数据格式相同的文件,想把它们汇总到一个表中。例:在’D:\data\数据处理\合并文件‘目录下,有3个数据文件分别为’1.xlsx’, ‘2.xlsx’, ‘3.xlsx’,其里面的表头一样,这时候我们想把他汇总到一个表中。1.获取文件名首先,输入数据存在的路径用以获取该路径下的全部文件。path = 'D:\data\数据处理\合并文件'files = os.listdir(path)输出files,可以见到在此路径下的所有文件。2.读取第一个数据文件之

2022-03-19 17:45:55 1722

原创 canal deployer运行出现 org.h2.jdbc.JdbcSQLException: Wrong user name or password

项目场景:通过canal将MySQL中改变的数据,导入到elassearch中。先下载canal.deployer,解压配置完成后,开始运行。问题描述:然而提示:开启canal.adapter之后,改变数据库表中的内容,其命令行没有响应。打开canal.deployer的canal.deployer\logs\example\example.log日志发现,提示用户名或账号错误,导致MySQL中的数据库不能导入到elasticSearch中。解决方案:删除canal.deployer/c

2021-04-13 10:59:53 637 3

原创 Ubuntu出现“yum:找不到命令”的一种解决方法

问题:在成功安装yum之后,输入yum,发现找不到命令。试过网上多种方法,比如更新、安装了build-essential程序包等方法都不行。后面经过思考:系统内的yum文件,由于设定了新的python版本而替换过它的文件。可能是设置出了问题,因为我是删除了之前的文件,替换了新的文件。(因为之前,在里面没有权限修改,我选择了替换操作)方法:1.删除原来的yumsudo apt-get remove yum2.重新安装yumsudo apt-get install yum3.重新配置yum

2021-01-01 00:38:43 20392 1

原创 Java编写猜单词游戏

1.题目分析:1.1 进入程序后,勇士自定义自己的生命值(提示生命值需要在1-10之中),如果超过最大10、小于最小值1 ,抛出自定义LimiteException异常,输出“错误生命值1314,终止勇敢者游戏!”,程序终止。1.2 正确输入自己的生命值之后,开始进行闯关(系统已设立20个单词,此时随机选取6个出来)。1.3 从选取的6个单词中,随机取出一个单词,显示出其的单词首和尾,中间补充间隔字符(例如:window——>你的第X个单词为w****w)。1.4 输入单个字母进行猜测。1

2020-10-24 00:00:54 1676

原创 python使用numpy清洗爬取后的数据

对于刚爬取的数据,数据一般不会全部按照你的格式,整整齐齐的排列,比如:这时候,需要我们对数据进行清洗。1.读取数据出来data = []with open("51job.csv",encoding='gbk') as csvfile: csv_reader = csv.reader(csvfile) # 使用csv.reader读取csvfile中的文件 data_header = next(csv_reader) # 读取第一行每一列的标题 ['职位', '薪资', '公司'

2020-09-12 03:06:18 854

原创 Python爬取招聘网岗位动态信息

1.熟悉chromedriverhttps://blog.csdn.net/weixin_41098099/article/details/1071285662.查看网页的页数、分析进入https://www.51job.com/,搜索随意个岗位,例如这里是‘大数据’,如图:分析网页地址:第一页:https://search.51job.com/list/000000,000000,0000,00,9,99,大数据,2,1.html?lang=c&stype=1&postcha

2020-09-11 17:50:08 547

原创 Git的基本窗口操作

对于Git相关操作,网上基本使用命令行高级操作比较多,对于使用界面可视化操作,相关的资料比较少。因此,写这篇博客,可供初学Git的或者只需要界面操作的参考。1 Git 的安装流程1.1 阅读软件许可1.2 选择安装的目录1.3 选择安装的组件1.4 选择“开始”菜单“文件夹”1.5 选择默认的编辑器1.6 设置路径环境变量1.7 选择https传输后端1.8 配置行尾转换1.9 配置Git Bash 打开的终端1.10 配置额外的选项1.11 版本说明2 配置

2020-07-17 22:01:43 1063

原创 使用selenium爬取动态页面

在爬取某些页面时,由于其一些内容是使用js动态加载,导致只能爬取到部分的内容(静态内容)。此时,可以使用selenium库来解决。# coding=utf-8from selenium import webdriverfrom selenium.webdriver.chrome.options import Options# 为了将Chrome不弹出界面,实现无界面爬取chrome_options = Options()chrome_options.add_argument('--headle

2020-07-04 18:44:34 662

原创 在idle使用tomcat服务时,卡在deployDirectory Deploying web application directory

昨天在学习Java的SSH框架时,照着网上学习的视频敲代码。却发现,在部署Tomcat服务时,卡在deployDirectory Deploying web application directory中,半天也没反应。后面,去网上找各种解决方法,比如换tomcat版本、修改tomcat的catalina.bat文件、修改jdk的java.security文件、取消断点之类等都无法运行起来。再后来,无意中看到配置文件jdbc.properties,发现我的数据好像没有创建lk_blog库。打开数据库

2020-06-07 13:54:48 453

原创 python运行时出现AttributeError:’NoneType‘ object has no attribute ’find_all‘的错误

今天,在用python练习爬虫时,突然出现了出现‘AttributeError: ‘NoneType’ object has no attribute ‘find_all’’的错误。分析:article的类型是为‘NoneType’,而一般只有‘bs4.BeautifulSoup’有‘find_all’这个方法,此时在想能否直接将‘NoneType’转为‘bs4.BeautifulSoup’,但发现这样会报错。再分析前面成功转换的代码,其转换前的状态是’str’类型,尝试着先把它转换为’st

2020-05-14 23:56:03 17449

原创 Python实现输入某日期得到其后两天日期

在某些编程习题中,经常我们会遇到输入某个日期从而来输出后面的日期。因为每个月的天数规律不同,有时输入比较多的代码来完成,在这里,使用了Python里面的字典,可以方便些。代码如下:# 判断是否为闰年def isLeapYear(year): if year%400==0 : return 1; else: if year%4==0 and year%100!=0: return 1; else:

2020-05-11 15:52:04 1385

原创 新手购买服务器搭建属于自己的网站(详细版)

对于很多小白来说,都想搭建一个属于自己的网站。下面将从6大方面来详细介绍如何从购买服务器一步一步的去搭建网站。1.购买服务器对于我们大部分来说是学生,或者是24岁以下,我们可以去购买学生服务器,一个月不到10元。直接在百度搜索学生服务器,就可以找到。示范阿里云服务器:https://www.aliyun.com/activity/promotion/campus2018?utm_content=se_1005055138这里选择windowserver的服务器,对于很多新手来说,便于操作,点击

2020-05-09 14:02:52 11153 4

原创 通过Python提取文本中指定开始/结尾中的内容

今天,在爬取数据后,提取时,遇到了无法直接通过标签获取数据。<ul class="key clearfix"> <li>开 本:16开</li> <li>纸 张:胶版纸</li> <li>包 装:平装-胶订</li> <li>是否套装:否...

2020-04-23 21:40:56 5107

原创 关于“FileNotFoundError: [Errno 2] No such file or directory“的错误

昨天学习爬虫,保存文件时,突然发现文件找不到的错误:但是我用的是with open() as f:的语句,找不到的话,会帮我创建的啊。后面晚上睡觉回想下是因为还有"/"的符合,这里已经包含路径的分割了,我们需要讲它删除或者替换等方法。这里我选择删除的方法:果然运行成功了。总结:在创建文件时,需要注意其文件名是否含有一些特殊的符号,例如/、转义符之类的。...

2020-04-11 13:36:27 2037

原创 Jupyter Notebook生成的文件路径配置

当我们一开始打开Jupyter Notebook时,其的路径是默认的。此时,我们应打开Anaconda Prompt,输入jupyter notebook --generate-config,然后确认输入y。之后,去到相关路径,找到配置文件。打开,定位到其的配置位置。(The directory下)配置相关路径,我这里是放到我D盘的pycode中。保存之后,还需点击Jupy...

2020-03-29 22:35:33 622

原创 关于Xshell链接错误:Could not connect to ‘‘ (port 22): Connection failed.

对于新买的window服务器,没有经过某些处理和操作时,用Xshell链接时,可能会出现的错误Connection failed。首先需要在设置应用中,打开应用和功能,点击管理可选功能,添加Open SSH 客户端和服务器端。之后通过命令窗口输入net start sshd,即可开启ssh服务。(PS:关闭ssh服务是net stop sshd)。操作如下:参考:https://...

2020-03-04 23:01:50 3601 3

原创 解决Electron下载安装失败的问题

当我们一开始按照官网的教程在命令行输入一下指令后运行的时候会发现一下报错这时,你按照它的提醒,将node_modules的文件删除,再重新安装,还是不行。我们应该删除,重新安装,只需将第三步中的npm install 改成cnpm install(注:cnpm是利用了淘宝的镜像,不懂可以百度cnpm,网上有很多说),其他步骤相同。安装完后,开始运行(npm start),若出现说...

2019-11-29 16:45:28 2574 1

chromedriver-v7.0.0-win32-x64.zip

谷歌浏览器的驱动,可以用来自动打开谷歌浏览器,完成相关的打开操作。比如说可以用python来写点跟浏览器有关的脚本。

2020-05-04

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除