weixin_41098099-CSDN博客

原创小白通过Fiddler爬取手机app的数据并提取出来（详细版）

我们就以爬取安卓端上的王者营地上英雄热度榜为例：前期准备工作：下载安装Fiddler，并配置好相关连接选项1.下载：https://www.telerik.com/fiddler，进入网站点击Download now再填写好相关信息，点击红色的Download for Windows，即可完成下载。2.安装基本是往下点就行，确定好安装路径即可。这里，我是选择在我的E盘3.配...

2020-04-12 15:00:37 17265 23

原创用python将数据文件按某个字段拆分

将数据文件按照某个字段将数据，进行拆分汇总。例：将下面的表，按照科目进行拆分汇总。1.获取文件数据import osimport pandas as pdfile_path = 'D:\data\数据处理\字段拆分\总表.xlsx'data = pd.read_excel(file_path)2.获取科目的种类# 按科目进行拆分,将所有科目都取出来，然后通过drop_duplicates()去重subjects = data['科目'].drop_duplicates()3.按

2022-03-19 23:51:12 2336

原创用python将一份数据文件均等分拆

将一份数据文件，指定数据文件量来进行分拆，又或者指定分成指定的份数。例：将这份数据分别按指定文件数据量和指定拆分的份数来进行拆分。1.获取数据file_path = 'D:\data\数据处理\拆分\汇总.xlsx'data = pd.read_excel(file_path)2.指定数据量进行拆分# 按照每份数量进行拆分，例如指定每份为10条数据def quantity_split(source_data, num): # 获取总共多少条数据 count = len(

2022-03-19 20:34:38 2961

原创利用python将多个格式相同的数据文件合成一个

工作中，我们时常遇到多个数据格式相同的文件，想把它们汇总到一个表中。例：在’D:\data\数据处理\合并文件‘目录下，有3个数据文件分别为’1.xlsx’, ‘2.xlsx’, ‘3.xlsx’，其里面的表头一样，这时候我们想把他汇总到一个表中。1.获取文件名首先，输入数据存在的路径用以获取该路径下的全部文件。path = 'D:\data\数据处理\合并文件'files = os.listdir(path)输出files，可以见到在此路径下的所有文件。2.读取第一个数据文件之

2022-03-19 17:45:55 1722

原创 canal deployer运行出现 org.h2.jdbc.JdbcSQLException: Wrong user name or password

项目场景：通过canal将MySQL中改变的数据，导入到elassearch中。先下载canal.deployer，解压配置完成后，开始运行。问题描述：然而提示：开启canal.adapter之后，改变数据库表中的内容，其命令行没有响应。打开canal.deployer的canal.deployer\logs\example\example.log日志发现，提示用户名或账号错误，导致MySQL中的数据库不能导入到elasticSearch中。解决方案：删除canal.deployer/c

2021-04-13 10:59:53 637 3

原创 Ubuntu出现“yum：找不到命令”的一种解决方法

问题：在成功安装yum之后，输入yum，发现找不到命令。试过网上多种方法，比如更新、安装了build-essential程序包等方法都不行。后面经过思考：系统内的yum文件，由于设定了新的python版本而替换过它的文件。可能是设置出了问题，因为我是删除了之前的文件，替换了新的文件。（因为之前，在里面没有权限修改，我选择了替换操作）方法：1.删除原来的yumsudo apt-get remove yum2.重新安装yumsudo apt-get install yum3.重新配置yum

2021-01-01 00:38:43 20392 1

原创 Java编写猜单词游戏

1.题目分析：1.1 进入程序后，勇士自定义自己的生命值（提示生命值需要在1-10之中），如果超过最大10、小于最小值1 ，抛出自定义LimiteException异常，输出“错误生命值1314，终止勇敢者游戏！”，程序终止。1.2 正确输入自己的生命值之后，开始进行闯关（系统已设立20个单词，此时随机选取6个出来）。1.3 从选取的6个单词中，随机取出一个单词，显示出其的单词首和尾，中间补充间隔字符（例如：window——>你的第X个单词为w****w）。1.4 输入单个字母进行猜测。1

2020-10-24 00:00:54 1676

原创 python使用numpy清洗爬取后的数据

对于刚爬取的数据，数据一般不会全部按照你的格式，整整齐齐的排列，比如：这时候，需要我们对数据进行清洗。1.读取数据出来data = []with open("51job.csv",encoding='gbk') as csvfile: csv_reader = csv.reader(csvfile) # 使用csv.reader读取csvfile中的文件 data_header = next(csv_reader) # 读取第一行每一列的标题 ['职位', '薪资', '公司'

2020-09-12 03:06:18 854

原创 Python爬取招聘网岗位动态信息

1.熟悉chromedriverhttps://blog.csdn.net/weixin_41098099/article/details/1071285662.查看网页的页数、分析进入https://www.51job.com/，搜索随意个岗位，例如这里是‘大数据’，如图：分析网页地址：第一页：https://search.51job.com/list/000000,000000,0000,00,9,99,大数据,2,1.html?lang=c&stype=1&postcha

2020-09-11 17:50:08 547

原创 Git的基本窗口操作

对于Git相关操作，网上基本使用命令行高级操作比较多，对于使用界面可视化操作，相关的资料比较少。因此，写这篇博客，可供初学Git的或者只需要界面操作的参考。1 Git 的安装流程1.1 阅读软件许可1.2 选择安装的目录1.3 选择安装的组件1.4 选择“开始”菜单“文件夹”1.5 选择默认的编辑器1.6 设置路径环境变量1.7 选择https传输后端1.8 配置行尾转换1.9 配置Git Bash 打开的终端1.10 配置额外的选项1.11 版本说明2 配置

2020-07-17 22:01:43 1063

原创使用selenium爬取动态页面

在爬取某些页面时，由于其一些内容是使用js动态加载，导致只能爬取到部分的内容（静态内容）。此时，可以使用selenium库来解决。# coding=utf-8from selenium import webdriverfrom selenium.webdriver.chrome.options import Options# 为了将Chrome不弹出界面，实现无界面爬取chrome_options = Options()chrome_options.add_argument('--headle

2020-07-04 18:44:34 662

原创在idle使用tomcat服务时，卡在deployDirectory Deploying web application directory

昨天在学习Java的SSH框架时，照着网上学习的视频敲代码。却发现，在部署Tomcat服务时，卡在deployDirectory Deploying web application directory中，半天也没反应。后面，去网上找各种解决方法，比如换tomcat版本、修改tomcat的catalina.bat文件、修改jdk的java.security文件、取消断点之类等都无法运行起来。再后来，无意中看到配置文件jdbc.properties，发现我的数据好像没有创建lk_blog库。打开数据库

2020-06-07 13:54:48 453

weixin_41098099的博客

原创小白通过Fiddler爬取手机app的数据并提取出来（详细版）

原创用python将数据文件按某个字段拆分

原创用python将一份数据文件均等分拆

原创利用python将多个格式相同的数据文件合成一个

原创 canal deployer运行出现 org.h2.jdbc.JdbcSQLException: Wrong user name or password

原创 Ubuntu出现“yum：找不到命令”的一种解决方法

原创 Java编写猜单词游戏

原创 python使用numpy清洗爬取后的数据

原创 Python爬取招聘网岗位动态信息

原创 Git的基本窗口操作

原创使用selenium爬取动态页面

原创在idle使用tomcat服务时，卡在deployDirectory Deploying web application directory

原创 python运行时出现AttributeError：’NoneType‘ object has no attribute ’find_all‘的错误

原创 Python实现输入某日期得到其后两天日期

原创新手购买服务器搭建属于自己的网站(详细版)

原创通过Python提取文本中指定开始/结尾中的内容

原创关于“FileNotFoundError: [Errno 2] No such file or directory“的错误

原创 Jupyter Notebook生成的文件路径配置

原创关于Xshell链接错误：Could not connect to ‘‘ (port 22): Connection failed.

原创解决Electron下载安装失败的问题

chromedriver-v7.0.0-win32-x64.zip

关于python爬取获取标签内的值