自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

夜神玥

为了不让自己忘记知识

  • 博客(24)
  • 资源 (5)
  • 收藏
  • 关注

原创 爬虫总结

爬虫基础知识 1.1 HTTP通信过程:浏览器在上面输入url,通过浏览器发送一个请求,基于url的地址找到对应的Sever,Sever根据请求获得响应,浏览器对获得的响应进行解析。 1.2 请求 (1)请求方式:get和post (2)请求URL:对应的Sever的地址 (3)请求头:User-Agent、Content-Type、Cookie等 (4)请求体:POST有请求体,F...

2018-08-28 10:25:19 472

原创 SQL server 排序 自定义排序 ASC DESC

1.升序排序 ASC默认排序规则2.降序排序 DESCselect * from XXX order by XXX.xxx desc3.自定义排序 (1).CHARINDEX 通过CHARINDEX如果能够找到对应的字符串,则返回该字符串位置,否则返回0。 基本语法如下:  CHARINDEX ( expressionToFind , expressionToS...

2019-05-20 11:38:51 6120

原创 数据分析--数据规整化--数据处理

合并merge()# 基于列进行合并, how有多种方式 inner内联 outer外联 left 左联 right 右联df1.merge(df2, left_on='key1', right_on='key2', how='inner')df1.merge(df2, on='key') # 如果两个表合并的依据的列明是同名的时候 可以直接用on来代替left_on 和 right_o...

2018-11-05 09:03:50 841

原创 爬虫--智联爬取--拼接链接的演示

import requestsimport timeimport numpy as npimport pandas as pd# 头文件headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome...

2018-11-05 09:03:23 877

原创 pandas详解

Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据即可产生最简单的Series:In [4]: obj = Series([4, 7, -5, 3])In [5]: objOut[5]:0 41 72 -53 3 行:axis=0 列:axis=1DataFrame...

2018-11-05 09:02:47 283

原创 numpy详解

1. 构建对象import numpy as np(1)通过lista = [[1, 2, 3], [1, 2, 4], [2, 3, 4]]b= np.arrays(a)(2)内置的方法np.zeros((2, 3))# 构建2行3列的全0 数组np.ones((2, 3))# 构建2行3列的全1 数组np.empty((2, 3))# 构建2行3列的空值 数组np.full...

2018-11-05 09:02:20 584

原创 matplotlib可视化

matplotlib.pyplot******************************************************************************************************************调整子图的位置默认情况下, matplotlib会在subplot外围留下⼀定的边距, 并在subplot之间留下⼀定的间距。 间距...

2018-11-05 09:00:43 209

原创 Python中的递归函数--斐波那契

def fibonacci(n): if n <= 2: return 1 else: return fibonacci(n-2) + fibonacci(n-1)

2018-09-18 15:45:49 2385

原创 mysql、MongoDB、Django-SQL、Redis日常操作

常规数据库操作:基础命令 show databases; 查看当前有哪些数据库 select database(); 查看当前数据库的名字 use mysql; 切换数据库为mysql show tables; 查看当前数据库中有哪些表...

2018-09-14 15:41:06 330

原创 爬虫--json链接的演示

import requestsimport timeimport numpy as npimport pandas as pd# 基础链接base_url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'# 请求头headers = { "Cookie": "use...

2018-09-08 14:05:51 2376

转载 爬虫详解链接

Requests请求库 详解 https://www.cnblogs.com/wyb666/p/9058301.html爬虫基础 https://www.cnblogs.com/wangshuyang/p/7677571.htmlScrapy框架爬虫基础 https://www.cnblogs.com/alan-babyblog/p/5527934.html西刺免费代理 htt...

2018-09-06 10:57:07 222

原创 IPython的基本操作

%quickref 显示说明IPython的快速参考%magic 显示所有魔术命令的详细文档%debug 从最新的异常跟踪的底部进行交互式调试器%hist 打印命令的输入(可选输出)历史%pdb 在异常发生后自动进入调试器%paste 执行剪贴板中的Python代码%cpaste 打开一个特殊提示符以便手工粘贴执行的Python的代码%reset 删...

2018-09-01 12:32:27 1148

原创 爬取妹子图小程序

import requests from bs4 import BeautifulSoup import osdef get_page_urls(url): headers = { ‘Content-Language’: ‘zh-CN.zh;q=0.9’, ‘Accept’: ‘text / html, application / xhtml...

2018-08-29 09:06:34 634

原创 Python中List的常用操作

1.list 定义 li = [“a”, “b”, “mpilgrim”, “z”, “example”] li [‘a’, ‘b’, ‘mpilgrim’, ‘z’, ‘example’] li[1] ‘b’ 2.list 负数索引 【0 :-1】从左边第一个开始,右边第一个开始 中间的...

2018-08-29 09:02:17 164

原创 git常规方法

gitconfig–globaluser.name“YourName”输入名字初始化gitconfig–globaluser.name“YourName”输入名字初始化 git config –global user.name “Your Name” 输入名字初始化 git config –global user.email “[email protected]”gitaddfile1...

2018-08-29 09:00:08 155

原创 Django模板

1.配置目录 在 项目目录下新建一个 templates 文件夹,里面新建一个 项目同名文件夹默认配置下,Django 的模板系统会自动找到app下面的templates文件夹中的模板文件。2.配置路径 from .models import add ()里面的东西随意 url(r’^(?P\d+)/$’, add, name=’add’), 不过在对应的HTML文件中要按相应的...

2018-08-28 10:29:33 268

原创 爬虫遇到的坑(持续更新)

1.当你在scrapy crawl xxx -o xxx.json 时出现乱码,那么你要在settings里添加以下一句: FEED_EXPORT_ENCODING = ‘utf-8’ 如果输出到CSV文件是乱码问题,那么你要用记事本打开,然后在保存为utf-8 格式 因为excl 默认的编码是acii2.语法 说明 /artical/div[1] 选取所有属于artical 子元...

2018-08-28 10:26:32 1251

原创 selenium

1..声明浏览器 from selenium import webdriver browser = webdriver.Chrome()请求网址browser.get(‘https://www.baidu.com‘)响应信息browser.page_source 获取HTML源码browser.current_url 获取当前页面的URL browser.get_...

2018-08-28 10:24:12 141

原创 Django_mysql

修改项目配置文件 settings.py 参考配置: DATABASES = { ‘default’: { ‘ENGINE’: ‘django.db.backends.mysql’, ‘NAME’: ‘db1’, ‘HOST’: ‘localhost’, ‘PORT’: 3306, ‘USER...

2018-08-28 10:22:27 680

原创 django 入门小程序

1.django-admin startproject pro1 创建目录 2. cd pro1 移动到目录 python3 manage.py startapp hello 创建应用 3. vi pro1/settings.py 把应用的名字 (hello) 添加到 INSTALLED_APPS 列表中 INSTALLED_APPS = [ ...

2018-08-28 10:21:23 1046

转载 OS与SYS的区别

os与sys模块的官方解释如下: os: This module provides a portable way of using operating system dependent functionality.这个模块提供了一种方便的使用操作系统函数的方法。sys: This module provides access to some variables used or maint...

2018-08-28 10:18:52 915

转载 文件移动复制删除操作以及软硬链接

一、文件复制命令cp 命令格式:cp [-adfilprsu] 源文件(source) 目标文件(destination) cp [option] source1 source2 source3 … directory 参数说明: -a:是指archive的意思,也说是指复制所有的目录 -d:若源文件为连接文件(link fi...

2018-08-28 10:16:54 689

转载 打包压缩指令

cp压缩 先写生成的文件名,再写要压缩的源文件 tar –cvf jpg.tar *.jpg //将目录里所有jpg文件打包成tar.jpgtar –czf jpg.tar.gz *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用gzip压缩,生成一 个gzip压缩过的包,命名为jpg.tar.gztar –cjf jpg.tar.bz2 *.jpg ...

2018-08-28 10:10:13 140

原创 纠错日记

module has no attribute 原因:命名文件不能与导包名字相同 解决办法:改名字 2安装CGI 1.参考网站:https://www.jianshu.com/p/68b11edc055ehttps://www.cnblogs.com/wanxudong/p/5846907.html 先在第二个网站找到 cd /etc/apache2 打开sudo vim htt...

2018-08-28 10:05:50 219

身份证归属地数据库格式.xlsx

编号 一级行政等级 二级行政等级 三级行政等级 110000 北京市 110100 北京市 市辖区 110101 北京市 市辖区 东城区

2021-03-29

爬取拉勾网招聘信息

爬取拉勾网某一类职业的信息,保存到MongoDB或者文本文档皆可

2018-08-31

爬取亚马逊中国版某商品的信息

爬取亚马逊中国版商品的页面信息,主要用到的是selenium

2018-08-30

爬取豆瓣读书

爬取豆瓣读书某一列的标签,存储为CSV格式,为了不被系统封IP,用了点小技巧

2018-08-28

爬取猫眼Top100

爬取猫眼电影中top100的各种信息,由于猫眼最近开始注意反爬,所以用了另外一种方法

2018-08-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除