- 博客(24)
- 资源 (5)
- 收藏
- 关注
原创 爬虫总结
爬虫基础知识 1.1 HTTP通信过程:浏览器在上面输入url,通过浏览器发送一个请求,基于url的地址找到对应的Sever,Sever根据请求获得响应,浏览器对获得的响应进行解析。 1.2 请求 (1)请求方式:get和post (2)请求URL:对应的Sever的地址 (3)请求头:User-Agent、Content-Type、Cookie等 (4)请求体:POST有请求体,F...
2018-08-28 10:25:19 472
原创 SQL server 排序 自定义排序 ASC DESC
1.升序排序 ASC默认排序规则2.降序排序 DESCselect * from XXX order by XXX.xxx desc3.自定义排序 (1).CHARINDEX 通过CHARINDEX如果能够找到对应的字符串,则返回该字符串位置,否则返回0。 基本语法如下: CHARINDEX ( expressionToFind , expressionToS...
2019-05-20 11:38:51 6120
原创 数据分析--数据规整化--数据处理
合并merge()# 基于列进行合并, how有多种方式 inner内联 outer外联 left 左联 right 右联df1.merge(df2, left_on='key1', right_on='key2', how='inner')df1.merge(df2, on='key') # 如果两个表合并的依据的列明是同名的时候 可以直接用on来代替left_on 和 right_o...
2018-11-05 09:03:50 841
原创 爬虫--智联爬取--拼接链接的演示
import requestsimport timeimport numpy as npimport pandas as pd# 头文件headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome...
2018-11-05 09:03:23 877
原创 pandas详解
Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据即可产生最简单的Series:In [4]: obj = Series([4, 7, -5, 3])In [5]: objOut[5]:0 41 72 -53 3 行:axis=0 列:axis=1DataFrame...
2018-11-05 09:02:47 283
原创 numpy详解
1. 构建对象import numpy as np(1)通过lista = [[1, 2, 3], [1, 2, 4], [2, 3, 4]]b= np.arrays(a)(2)内置的方法np.zeros((2, 3))# 构建2行3列的全0 数组np.ones((2, 3))# 构建2行3列的全1 数组np.empty((2, 3))# 构建2行3列的空值 数组np.full...
2018-11-05 09:02:20 584
原创 matplotlib可视化
matplotlib.pyplot******************************************************************************************************************调整子图的位置默认情况下, matplotlib会在subplot外围留下⼀定的边距, 并在subplot之间留下⼀定的间距。 间距...
2018-11-05 09:00:43 209
原创 Python中的递归函数--斐波那契
def fibonacci(n): if n <= 2: return 1 else: return fibonacci(n-2) + fibonacci(n-1)
2018-09-18 15:45:49 2385
原创 mysql、MongoDB、Django-SQL、Redis日常操作
常规数据库操作:基础命令 show databases; 查看当前有哪些数据库 select database(); 查看当前数据库的名字 use mysql; 切换数据库为mysql show tables; 查看当前数据库中有哪些表...
2018-09-14 15:41:06 330
原创 爬虫--json链接的演示
import requestsimport timeimport numpy as npimport pandas as pd# 基础链接base_url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'# 请求头headers = { "Cookie": "use...
2018-09-08 14:05:51 2376
转载 爬虫详解链接
Requests请求库 详解 https://www.cnblogs.com/wyb666/p/9058301.html爬虫基础 https://www.cnblogs.com/wangshuyang/p/7677571.htmlScrapy框架爬虫基础 https://www.cnblogs.com/alan-babyblog/p/5527934.html西刺免费代理 htt...
2018-09-06 10:57:07 222
原创 IPython的基本操作
%quickref 显示说明IPython的快速参考%magic 显示所有魔术命令的详细文档%debug 从最新的异常跟踪的底部进行交互式调试器%hist 打印命令的输入(可选输出)历史%pdb 在异常发生后自动进入调试器%paste 执行剪贴板中的Python代码%cpaste 打开一个特殊提示符以便手工粘贴执行的Python的代码%reset 删...
2018-09-01 12:32:27 1148
原创 爬取妹子图小程序
import requests from bs4 import BeautifulSoup import osdef get_page_urls(url): headers = { ‘Content-Language’: ‘zh-CN.zh;q=0.9’, ‘Accept’: ‘text / html, application / xhtml...
2018-08-29 09:06:34 634
原创 Python中List的常用操作
1.list 定义 li = [“a”, “b”, “mpilgrim”, “z”, “example”] li [‘a’, ‘b’, ‘mpilgrim’, ‘z’, ‘example’] li[1] ‘b’ 2.list 负数索引 【0 :-1】从左边第一个开始,右边第一个开始 中间的...
2018-08-29 09:02:17 164
原创 git常规方法
gitconfig–globaluser.name“YourName”输入名字初始化gitconfig–globaluser.name“YourName”输入名字初始化 git config –global user.name “Your Name” 输入名字初始化 git config –global user.email “[email protected]”gitaddfile1...
2018-08-29 09:00:08 155
原创 Django模板
1.配置目录 在 项目目录下新建一个 templates 文件夹,里面新建一个 项目同名文件夹默认配置下,Django 的模板系统会自动找到app下面的templates文件夹中的模板文件。2.配置路径 from .models import add ()里面的东西随意 url(r’^(?P\d+)/$’, add, name=’add’), 不过在对应的HTML文件中要按相应的...
2018-08-28 10:29:33 268
原创 爬虫遇到的坑(持续更新)
1.当你在scrapy crawl xxx -o xxx.json 时出现乱码,那么你要在settings里添加以下一句: FEED_EXPORT_ENCODING = ‘utf-8’ 如果输出到CSV文件是乱码问题,那么你要用记事本打开,然后在保存为utf-8 格式 因为excl 默认的编码是acii2.语法 说明 /artical/div[1] 选取所有属于artical 子元...
2018-08-28 10:26:32 1251
原创 selenium
1..声明浏览器 from selenium import webdriver browser = webdriver.Chrome()请求网址browser.get(‘https://www.baidu.com‘)响应信息browser.page_source 获取HTML源码browser.current_url 获取当前页面的URL browser.get_...
2018-08-28 10:24:12 141
原创 Django_mysql
修改项目配置文件 settings.py 参考配置: DATABASES = { ‘default’: { ‘ENGINE’: ‘django.db.backends.mysql’, ‘NAME’: ‘db1’, ‘HOST’: ‘localhost’, ‘PORT’: 3306, ‘USER...
2018-08-28 10:22:27 680
原创 django 入门小程序
1.django-admin startproject pro1 创建目录 2. cd pro1 移动到目录 python3 manage.py startapp hello 创建应用 3. vi pro1/settings.py 把应用的名字 (hello) 添加到 INSTALLED_APPS 列表中 INSTALLED_APPS = [ ...
2018-08-28 10:21:23 1046
转载 OS与SYS的区别
os与sys模块的官方解释如下: os: This module provides a portable way of using operating system dependent functionality.这个模块提供了一种方便的使用操作系统函数的方法。sys: This module provides access to some variables used or maint...
2018-08-28 10:18:52 915
转载 文件移动复制删除操作以及软硬链接
一、文件复制命令cp 命令格式:cp [-adfilprsu] 源文件(source) 目标文件(destination) cp [option] source1 source2 source3 … directory 参数说明: -a:是指archive的意思,也说是指复制所有的目录 -d:若源文件为连接文件(link fi...
2018-08-28 10:16:54 689
转载 打包压缩指令
cp压缩 先写生成的文件名,再写要压缩的源文件 tar –cvf jpg.tar *.jpg //将目录里所有jpg文件打包成tar.jpgtar –czf jpg.tar.gz *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用gzip压缩,生成一 个gzip压缩过的包,命名为jpg.tar.gztar –cjf jpg.tar.bz2 *.jpg ...
2018-08-28 10:10:13 140
原创 纠错日记
module has no attribute 原因:命名文件不能与导包名字相同 解决办法:改名字 2安装CGI 1.参考网站:https://www.jianshu.com/p/68b11edc055ehttps://www.cnblogs.com/wanxudong/p/5846907.html 先在第二个网站找到 cd /etc/apache2 打开sudo vim htt...
2018-08-28 10:05:50 219
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人