自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 收藏
  • 关注

原创 Python爬虫入门(#10)——页面解析-xpath

Xpath概述最常用且最便捷高效的一种解析方式解析原理实例化一个etree对象,将被解析的源码数据加载到该对象调用etree对象中的xpath方法集合xpath表达式实现标签定位实例化一个etree对象from lxml import etreetree = etree.parse(filePath) # 从本地文件加载tree = etree.HTML(‘page_text’) # 使用网络获取的源码文本进行加载xpath表达式t.xpath("") # 使用xpath表达式

2021-04-22 16:48:14 394 1

原创 Python爬虫入门(#9)——bs4-css选择器基本格式

CSS选择器bs4的select()方法接受一个字符串参数,返回一个列表,这个字符串参数就是一个css选择器选择器可以使用标签,类,id等标签的属性进行选择常用选择器格式选择所有标签 *选择所有a标签· a选择所有class=“link” .link选择class="link"的a标签 a.link选择id=“home” 的标签 #home选择id=“home” 的a标签 ``a#home`选择父元素为a标签的所有span子标签 a > spa

2021-04-22 16:46:56 848

原创 Python爬虫入门(#8)——爬取B站新番时间表

文章目录爬取B站新番时间表获取url爬取json数据解析json数据提取信息爬取B站新番时间表本次使用bs4来进行解析实践获取url打开B站番剧页面,其url为https://www.bilibili.com/anime/timeline/但我们爬取该页面发现里面没有任何内容这说明数据使用ajax进行传输我们打开控制台,选定XHR包,然后点击新番索引表标签页一个叫做timeline_global的包中保存了全部的时间表数据而其Request URL为https://bangumi.b

2021-04-15 18:32:38 626

原创 SPARQL查询语句入门

SPARQL查询语句1. 基本语法2. 使用维基数据进行示例查询1. 基本语法SELECT<variables>WHERE { <graph pattern>}<variables>是所要提取的主语或者宾语<graph pattern>是所要查询的三元组模式eg:SELECT ?ablumWHERE{ ?ablim rdf:type :Ablum .}?ablum是一个变量,可以随便起,第一个字符必须是?查询条件是 ?ab

2020-12-07 10:39:49 2023 1

原创 RDF-资源描述框架

RDF入门学习1. 什么是RDF2. RDF规则3. RDF元素4. RDF容器5. RDF集合6. RDF Schema (RDFS)都柏林核心元数据倡议1. 什么是RDFREF是用于描述web资源的w3c标准,使用xml编写2. RDF规则RDF使用web标识符来标识事物,并通过属性和属性值来描述资源资源:可拥有URI的任何事物(可在web中被标识的数据)属性:拥有名称的资源属性值:某个属性的取值eg:<?xml version="1.0"?><RDF>

2020-12-06 22:51:37 1117

原创 【Linux】——Shell编程基础

文章目录Linux下的Shell编程变量系统变量自定义变量特殊变量运算符条件语句流程控制ifcaseforwhileread自定义函数Linux下的Shell编程使用Shell编写脚本可以提供许多方便的自动化操作,而Shell编程和高级语言也有着许多相似之处,因此学起来并不难但是Shell所包含的命令众多而且复杂,因此这里仅仅记录通用的编程结构语句变量Shell使用$来操作变量系统变量系统变量是由操作系统所规定的环境变量,所有进程均可访问或者修改,类似于$HOME,$PWD,$SHELL,$

2020-10-14 20:51:58 102 1

原创 【算法】字符串编辑距离——动态规划

概念理解对于A,B两字符串,定义三个基本操作分别为插入一个字符删除一个字符修改一个字符通过有限的进行上述三个基本操作,最终使A,B两个字符串完全一致,所进行的基本操作的次数成为两个字符之间的编辑距离问题:给出A,B两个字符串,计算两者之间的最小编辑距离解法:对于两个字符串A—“aafojeaw”B—“weafojfawe”如果我们想要让两个字符串变得相同,那我们就需要从头开始一个一个对比两个字符串的字符,为了更清楚地记录这个过程,我们建立一张二维表首先对于空字符串的编辑距离

2020-10-09 17:55:20 378

原创 【算法】快速幂取模

快速幂做算法的时候可能会经常遇见对某个数进行指数运算,最简单的就是使用一个循环来解决int num = 2;int answer = 1;for(int i = 0; i < n; i++) //求2^n{ answer *= num;}更简单粗暴的莫过于double answer = power(num, n);但是指数运算是爆炸增长的,当我们的底数和指数足够大的时候,要么发生溢出,要么耗费很长时间对于溢出的问题我们可以通过取模来解决,实际上对于很大的幂运算我们都会要求对最

2020-10-08 16:15:24 181

原创 蓝桥杯ALGO-2 最大最小公倍数

题目描述已知一个正整数N,问从1~N中任选出三个数,他们的最小公倍数最大可以为多少。输入格式输入一个正整数N。输出格式输出一个整数,表示你找到的最小公倍数。样例输入9样例输出504数据规模与约定1 <= N <= 106详解:任选的三个数一定是从最大开始,直到找到三个互质的数,这里有个数学规律可以使用相邻的奇数互质所以当我们的最大的数是一个奇数的时候,很显然 n,(n-1),(n-2)互质,直接构成最大的最小公倍数。、而当最大数是偶数时,三个相邻的最大数则不

2020-09-22 09:23:09 63

原创 蓝桥杯ALGO-1区间k大数查询

问题描述:给定一个序列,每次询问序列中第l个数到第r个数中第K大的数是哪个。输入格式:第一行包含一个数n,表示序列长度。第二行包含n个正整数,表示给定的序列。第三个包含一个正整数m,表示询问个数。接下来m行,每行三个数l,r,K,表示询问序列从左往右第l个数到第r个数中,从大往小第K大的数是哪个。序列元素从1开始标号。输出格式总共输出m行,每行一个数,表示询问的答案。样例输入:51 2 3 4 521 5 22 3 2样例输出:42数据规模与约定:对于30%的数据,n,

2020-09-03 20:39:45 87

原创 Python爬虫入门(#7)——BeautifulSoup(其一)

文章目录基础内容基本对象基本方法遍历文档树搜索文档树修改文档树前面使用过BeautifulSoup来处理返回的html文档,这个库可以让我们不需要依赖正则而找到我们所需要的内容基础内容基本对象首先要了解一下一些基础的属性和方法BeautifulSoup将html解析为树形结构from bs4 import BeautifulSoup# 以文件形式解析html文档soup = BeautifulSoup(open("filePath"))# 以字符串形式解析html文档soup =

2020-08-08 11:16:56 332

原创 (PAT)BasiclLevel_c++ #1014 福尔摩斯的约会

题目描述:大侦探福尔摩斯接到一张奇怪的字条:我们约会吧! 3485djDkxh4hhGE 2984akDfkkkkggEdsb s&hgsfdk d&Hyscvnm。大侦探很快就明白了,字条上奇怪的乱码实际上就是约会的时间星期四 14:04,因为前面两字符串中第 1 对相同的大写英文字母(大小写有区分)是第 4 个字母 D,代表星期四;第 2 对相同的字符是 E ,那是第 5 个英文字母,代表一天里的第 14 个钟头(于是一天的 0 点到 23 点由数字 0 到 9、以及大写字母 A 到

2020-07-19 17:48:16 82

原创 (PAT)BasiclLevel_c++ #1013 数素数

题目描述:令 P​i表示第 i 个素数。现任给两个正整数 M≤N≤104,请输出 PM到 PN的所有素数。输入格式:输入在一行中给出 M 和 N,其间以空格分隔。输出格式:输出从 PM到 PN的所有素数,每 10 个数字占 1 行,其间以空格分隔,但行末不得有多余空格。输入样例:5 27输出样例:11 13 17 19 23 29 31 37 41 4347 53 59 61 67 71 73 79 83 8997 101 103首先找出第m到第n个素数,这个过程比较简单,然后将其保

2020-07-19 16:54:49 107

原创 数据分析与可视化——Matplotlib

Matplolib.pyplot基础语法与常用参数基础语法动态rc参数常用线条参数设置中文显示散点图与折线图散点图折线图直方图,饼图,箱线图直方图饼图箱线图Matplotlib是一个应用非常广的绘图工具包之一,其中应用最广的是matplotlib.pyplot模块,此模块是一个命令风格函数的集合基础语法与常用参数基础语法我们根据创建一个图形的基础流程来学习基础语法创建画布与创建子图首先我们要先创建一个画布,这样才有绘制图形的地方,同时创建的画布也是可以被划分成多个部分的,方便在同一张画布上绘

2020-05-10 15:57:57 462

原创 Python数据分析与可视化——NumPy

NumPy是用于数据科学计算的基础模块,可用于存储和处理大型矩阵NumPy提供两种基本数据对象ndarray:是存储单一数据类型的多维数组ufunc:是能够对数组进行处理的函数NumPy数组对象:ndarray一种存储单一数据类型的多维数组数组属性属性说明ndimint 表示数组的维数shapetuple 表示数组的尺寸,(n,m)->n行m列...

2020-04-28 16:07:06 967

原创 蓝桥杯BASIC-17 矩阵乘法

问题描述给定⼀个N阶矩阵A,输出A的M次幂(M是⾮负整数)  例如:  A =  1 2  3 4  A的2次幂  7 10  15 22输⼊格式第⼀⾏是⼀个正整数N、M(1<=N<=30, 0<=M<=5),表示矩阵A的阶数和要求的幂数接下来N⾏,每⾏N个绝对值不超过10的⾮负整数,描述矩阵A的值输出格式输出共N⾏,每⾏N个整数,表示A的M次幂所...

2020-02-14 17:01:27 178

原创 蓝桥杯BASIC-16 分解质因数

问题描述求出区间[a,b]中所有整数的质因数分解。输⼊格式输⼊两个整数a,b。输出格式每⾏输出⼀个数的分解,形如k=a1a2a3…(a1<=a2<=a3…,k也是从⼩到⼤的)(具体可看样例)样例输⼊3 10样例输出3=34=2*25=56=2*37=78=2*2*29=3*310=2*5提示先筛出所有素数,然后再分解。数据规模和约定2<=a...

2020-02-14 16:21:56 147

原创 蓝桥杯BASIC-15 字符串对比

问题描述给定两个仅由⼤写字⺟或⼩写字⺟组成的字符串(⻓度介于1到10之间),它们之间的关系是以下4中情况之⼀:  1:两个字符串⻓度不等。⽐如 Beijing 和 Hebei  2:两个字符串不仅⻓度相等,⽽且相应位置上的字符完全⼀致(区分⼤小 写),⽐如 Beijing 和Beijing  3:两个字符串⻓度相等,相应位置上的字符仅在不区分⼤⼩写的前提下才能达到完全⼀致(也就是说,...

2020-02-11 18:42:52 163

原创 蓝桥杯BASIC-14 时间转换

问题描述给定⼀个以秒为单位的时间t,要求⽤“<H>:<M>:<S>”的格式来表示这个时间。表示时间,<M>表示分钟,⽽<S>表示秒,它们都是整数且没有前导的“0”。例如,若t=0,则应输出是“0:0:0”;若t=3661,则输出“1:1:1”。输⼊格式输⼊只有⼀⾏,是⼀个整数t(0<=t<=86399)。输出格式...

2020-02-11 18:13:43 126

原创 蓝桥杯BASIC-13 数列排序

问题描述给定⼀个⻓度为n的数列,将这个数列按从⼩到⼤的顺序排列。1<=n<=200输⼊格式第⼀⾏为⼀个整数n。第⼆⾏包含n个整数,为待排序的数,每个整数的绝对值⼩于10000。输出格式输出⼀⾏,按从⼩到⼤的顺序输出排序后的数列。样例输⼊58 3 6 4 9样例输出3 4 6 8 9简单的排序,可以直接调用排序函数#include <iostream&gt...

2020-02-11 14:15:15 180

原创 蓝桥杯BASIC-11 十六进制转十进制

问题描述从键盘输⼊⼀个不超过8位的正的⼗六进制数字符串,将它转换为正的⼗进制数后输出。  注:⼗六进制数中的10~15分别⽤⼤写的英⽂字⺟A、B、C、D、E、F表示。样例输⼊FFFF样例输出65535很简单的按权展开求和即可#include <iostream>#include <string> #include <cctype>using...

2020-02-11 14:10:49 130

原创 蓝桥杯BASIC-10 十进制转十六进制

问题描述⼗六进制数是在程序设计时经常要使⽤到的⼀种整数的表示⽅式。它有0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F共16个符号,分别表示⼗进制数的0⾄15。⼗六进制的计数⽅法是满16进1,所以⼗进制数16在⼗六进制中是10,⽽⼗进制的17在⼗六进制中是11,以此类推,⼗进制的30在⼗六进制中是1E。给出⼀个⾮负整数,将它表示成⼗六进制的形式。输⼊格式输⼊包含⼀个⾮负整数...

2020-02-11 14:04:23 116

原创 蓝桥杯BASIC-9 特殊回文数

问题描述123321是⼀个⾮常特殊的数,它从左边读和从右边读是⼀样的。  输⼊⼀个正整数n, 编程求所有这样的五位和六位⼗进制数,满⾜各位数字之和等于n 。输⼊格式输⼊⼀⾏,包含⼀个正整数n。输出格式按从⼩到⼤的顺序输出满⾜条件的整数,每个整数占⼀⾏。#include <iostream>using namespace std;int main() { int n...

2020-02-09 14:14:01 116

原创 蓝桥杯BASIC-8 回文数

问题描述1221是⼀个⾮常特殊的数,它从左边读和从右边读是⼀样的,编程求所有这样的四位⼗进制数。输出格式按从⼩到⼤的顺序输出满⾜条件的四位⼗进制数。该题乍一看似乎也要遍历所有的四位数,寻找符合要求的,但是判断的过程比较繁琐,因此我们可以转换思路,改判断为构造,我们知道了要求的格式,便可以构造出所有满足要求的数值#include <iostream>using namespa...

2020-02-09 14:04:19 85

原创 蓝桥杯BASIC-7 特殊的数字

问题描述153是⼀个⾮常特殊的数,它等于它的每位数字的⽴⽅和,即153=111+555+333。编程求所有满⾜这种条件的三位⼗进制数。输出格式按从⼩到⼤的顺序输出满⾜条件的三位⼗进制数,每个数占⼀⾏其一:按照定义,遍历所有的三位数,输出满足要求的值#include <iostream>#include <cmath>using namespace std;i...

2020-02-09 14:00:51 130

原创 蓝桥杯BASIC-6 杨辉三角

问题描述杨辉三⻆形⼜称Pascal三⻆形,它的第i+1⾏是(a+b)i的展开式的系数。它的⼀个重要性质是:三⻆形中的每个数字等于它两肩上的数字相加。下⾯给出了杨辉三⻆形的前4⾏:1  1 1  1 2 11 3 3 1给出n,输出它的前n⾏。输⼊格式输⼊包含⼀个数n。输出格式输出杨辉三⻆形的前n⾏。每⼀⾏从这⼀⾏的第⼀个数开始依次输出,中间使⽤⼀个空格分隔。请不要在前⾯输...

2020-02-09 13:51:45 114

原创 蓝桥杯BASIC-5 查找整数

问题描述给出⼀个包含n个整数的数列,问整数a在数列中的第⼀次出现是第⼏个。输⼊格式第⼀⾏包含⼀个整数n。第⼆⾏包含n个⾮负整数,为给定的数列,数列中的每个数都不⼤于10000。第三⾏包含⼀个整数a,为待查找的数。输出格式如果a在数列中出现了,输出它第⼀次出现的位置(位置从1开始编号),否则输出-1。样例输⼊61 9 4 8 3 99样例输出2数据规模与约定1 <...

2020-02-07 17:02:58 113

原创 蓝桥杯BASIC-4 数列特征

问题描述给出n个数,找出这n个数的最⼤值,最⼩值,和。输⼊格式第⼀⾏为整数n,表示数的个数。第⼆⾏有n个数,为给定的n个数,每个数的绝对值都⼩于10000。输出格式输出三⾏,每⾏⼀个整数。第⼀⾏表示这些数中的最⼤值,第⼆⾏表示这些数中的最⼩值,第三⾏表示这些数的和。样例输⼊51 3 -2 4 5样例输出5-211数据规模与约定1 <= n <= 1000...

2020-02-07 16:45:57 119

原创 蓝桥杯BASIC-3 字母图形

问题描述利⽤字⺟可以组成⼀些美丽的图形,下⾯给出了⼀个例⼦:ABCDEFGBABCDEFCBABCDEDCBABCDEDCBABC这是⼀个5⾏7列的图形,请找出这个图形的规律,并输出⼀个n⾏m列的图形。输⼊格式输⼊⼀⾏,包含两个整数n和m,分别表示你要输出的图形的⾏数的列数。输出格式输出n⾏,每个m个字符,为你的图形。样例输⼊5 7样例输出ABCDEFGBABCDE...

2020-02-07 16:35:09 113

原创 c++刷题常用技巧

记录常用的好用的c++刷题技巧以及方法的库函数技巧库函数技巧库函数此部分以头文件分类<cctype>功能函数原型判断一个字符是否是字母或者数字int isalnum ( int c );判断一个字符是否是一个字母int isalpha ( int c );判断一个字符是否是一个控制字符int iscntrl ( int c );...

2020-01-14 19:14:00 921

原创 c++深入——cin, cin.get(), cin.getline(), getline() 对比

c++的控制台输入有很多,每一个都有其特定使用情景,在此做一个总结cin最常见的无疑是通过cin对象的 >> 进行控制台读取,这个方法的详解可以参考我的另一篇博客c++ istream详解这篇博客里详细解释了cin, cin.get(), cin.getline()的特性这里就见大的再提一下cincin >>是他的常见形式,这个方法会从输入缓冲区中读取信息,如...

2020-01-13 09:40:06 99

原创 python爬虫入门(#6)——使用cookie免密码登录

很多网站都需要用户登录才能够访问一些内容,但是登录又需要填写用户名和密码,现在但凡是需要登陆的网站都使用验证码验证登录,这对于爬虫初学者来说实在是太不友好了。但是好在还有一个叫做cookie的东西可以让我们绕过登录这一步,直接建立连接至于cookie的原理就不做过多的赘述,感兴趣的可以看这里深入理解cookie我们尝试着用cookie登录csdn,然后把我们写过的博客爬取出来获取coo...

2020-01-11 21:29:43 746

原创 (PAT)BasiclLevel_c++ #1012 数字分类

题目描述:给定一系列正整数,请按要求对数字进行分类,并输出以下 5 个数字:A​1​​ = 能被 5 整除的数字中所有偶数的和;A​2 = 将被 5 除后余 1 的数字按给出顺序进行交错求和,即计算n1−n2+n3−n4⋯;A​3 = 被 5 除后余 2 的数字的个数;A4​ = 被 5 除后余 3 的数字的平均数,精确到小数点后 1 位;A5 = 被 5 除后余 4 的数字...

2020-01-11 14:53:44 116

原创 python爬虫入门(#5)——抓取二进制文件(视频,图片等)

网页中除了文本信息外,也会有很多的图片或者视频等非文本信息,既然浏览器能够获取这些信息,那么我们模拟浏览器行为的爬虫也可以获取到我们这次尝试爬取一个图片从哔哩哔哩相簿爬取一张图片我们打开哔哩哔哩相簿的网站,随便选择一张图片右键复制图片地址这个地址就是我们图片的 url,我们就可以通过他来下载图片import requestsheaders = { 'User-Agent'...

2019-12-29 19:53:02 2189 1

原创 python爬虫入门(#4)——get方法详解之params参数

前面说过,get 方法是可以向服务器发送信息的,除了可以请求需要的页面之外,也可以发送我们指定的内容,这就是通过 params 参数实现的request库 ----- get方法 ----- params这个 params 参数是字典结构,前面说到的 headers 其实也是字典结构,但他们传输的时候是以 json 的方式传输的首先我们构建一个字典,里面写上我们想要发送的信息headers...

2019-12-28 20:47:30 26910 3

原创 python爬虫入门(#3)——get方法详解之headers参数

前面写的程序都是使用了requests库的get方法来获取网页,教条式的东西比如requests库的起源,原理,作用啥的,我就不细说了,到处都是,书上也很多,我就只写我认为可以派上用场的东西,当然这不是指我不说就不重要,该了解还是要了解的request库 ----- get方法 ----- headersget方法是模拟了浏览器发起的get请求,这个请求方法所发送的信息是包含在请求头里的,我...

2019-12-27 22:19:41 9123 1

原创 (PAT)BasiclLevel_c++ #1011 A+B 和 C

题目描述:给定区间 [−2​31,231] 内的 3 个整数 A、B 和 C,请判断 A+B 是否大于 C。输入格式:输入第 1 行给出正整数 T (≤10),是测试用例的个数。随后给出 T 组测试用例,每组占一行,顺序给出 A、B 和 C。整数间以空格分隔。输出格式:对每组测试用例,在一行中输出 Case #X: true 如果 A+B>C,否则输出 Case #X: false...

2019-12-12 22:59:49 68

原创 (PAT)BasiclLevel_c++ #1010一元多项式求导

题目描述:设计函数求一元多项式的导数。(注:xn(n为整数)的一阶导数为nxn−1​​ )输入格式:以指数递降方式输入多项式非零项系数和指数(绝对值均为不超过 1000 的整数)。数字间以空格分隔。输出格式:以与输入相同的格式输出导数多项式非零项的系数和指数。数字间以空格分隔,但结尾不能有多余空格。注意“零多项式”的指数和系数都是 0,但是表示为 0 0。输入样例:3 4 -5 2 ...

2019-12-12 22:50:17 74

原创 python爬虫入门(#2)——还是网页源码的获取与解析

书接上文我们已经学会了怎么如何获取html源码并从中进行简单的信息提取那么现在我们要学习如何才能精确的获取我们想要的信息来做点有趣的事情吧????爬取哔哩哔哩排行榜获取源码并解析首先我们要获取网站的源码import requestsfrom bs4 import BeautifulSoupimport re # 这是python的正则表达式库,它终于来了!(无需安装)准备好了库,大...

2019-12-11 09:32:48 798

原创 python爬虫入门(#1)——网页源码的获取与解析

python的第三方库是真的强大,真的强大,真的强大python写爬虫是真的方便,真的方便,真的方便学校开的python课程水分大,进度慢,还无聊,索性自己学吧除了爬虫,python的数据可视化,图像处理等等还有一大堆好玩的东西可以学,不过鉴于下学期开数据挖掘与可视化,我决定先把爬虫和数据可视化学一下python爬虫✌开始前的准备python安装:略????html css 基本知识(...

2019-12-10 22:50:59 2754

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除