自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

转载 Python3中的configparser模块

configparser模块简介该模块适用于配置文件的格式与windows ini文件类似,可以包含一个或多个节(section),每个节可以有多个参数(键=值)。节与java原先的配置文件相同的格式看一下configparser生成的配置文件的格式[DEFAULT]ServerAliveInterval = 45Compression = yesCompressionLevel = ...

2020-02-03 16:08:30 234

原创 crontab定时运行

crontab的使用首先pip install python-crontab在linux中使用crontab -l 查找当前定时的有哪些任务crontab -e 可以进入文档进行编辑定时任务定时任务的时间有 五个* * * * * 分别对应:第一个对应minute(分钟)第二个对应hour(小时)第三个对应day of month(月的第几天)第四个对应month(月)第五个对...

2019-12-06 17:23:17 443

转载 MongoDB 数据集合导出 与 导入

目录导出(mongoexport)导入(mongoimport)导出(mongoexport)导出数据命令:mongoexport -h dbhost -d dbname -c collectionName -o output-h :数据库地址,MongoDB 服务器所在的 IP 与 端口,如 localhost:27017-d :指明使用的数据库实例,如 test-c 指明要导出的...

2019-12-04 10:49:30 2166

原创 python模块:collections额外数据类型

python的collections模块扩展了几种数据类型除了基本的str、list、tuple、set、dict、number等基本数据类型,collections又扩展了几种额外的数据类型namedtuple(): 生成可以使用名字来访问元素内容的tuple子类deque: 双端队列,可以快速的从另外一侧追加和推出对象Counter: 计数器,主要用来计数OrderedDict: ...

2019-11-29 18:53:03 184

原创 python3的sys.stdin、sys.stdout和sys.stderr用法

sys.stdin是标准化输入的方法import sysprint('Plase input your name: ')name = sys.stdin.readline()print('Hello ', name)Plase input your name:MingHello Mingpython3中使用sys.stdin.readline()可以实现标准输入,其中默认输入...

2019-11-29 17:47:12 4105 2

转载 MongoDB 查询$关键字 $in $or $all

属于:$in满足其中一个元素的数据把age=13,73 的数据显示db.user.find({age: { $in:[13,73]}}){ “_id” : ObjectId(“5ca7a4b0219efd687462f965”), “id” : 1, “name” : “jack”, “age” : 73 }{ “_id” : ObjectId(“5ca7a4c4219efd68746...

2019-11-29 10:38:34 990 1

原创 GPU与CPU简单区别

GPU的运算速度取决于雇了多少小学生,CPU的运算速度取决于请了多么厉害的教授。教授处理复杂任务的能力是碾压小学生的,但是对于没那么复杂的任务,还是顶不住人多。当然现在的GPU也能做一些稍微复杂的工作了,相当于升级成初中生高中生的水平。但还需要CPU来把数据喂到嘴边才能开始干活,究竟还是靠CPU来管的。GPU的适用场景:(1)计算密集型的程序。所谓计算密集型(Compute-intensiv...

2019-11-21 11:40:27 217

转载 Git工作流程

以coding为例,演示如何使用git首先理解下整个流程,如图一,将本地代码上传到远程仓库1.(电脑里得先下载git)登录coding,新建一个仓库,点击代码浏览可以看到2.在本地新建一个文件夹,作为项目根目录,再此启动 Git Bash ,进入目录,并输入git init1初始化一个本地git仓库3.将本地仓库和我们在coding上创建的远程仓库对接起来,输入git remo...

2019-09-19 09:36:02 353

原创 MongoDB的使用

MongoDB的基本使用连接数据库数据库条件操作符连接数据库mongoClient = pymongo.MongoClient(host='123456',port=27017)没有test数据库时它会自动创建db = mongoClient.test如果没有权限的话加入下面一句db.authenticate("username","password")没有表的话会自动创建db.表...

2019-09-16 18:28:29 101

原创 Scrapy框架

Scrapy是一个为了爬取网站数据、提取结构化数据而编写的爬虫应用框架。Scrapy内部实现了包括并发请求、免登录、URL去重等很多复杂操作,可以再settings中通过配置完成很多反爬虫,若需要额外功能,Scrapy还提供了多种中间件。Scrapy框架主要有五个模块以及中间件:1.Scrapy Engine(Scrapy引擎)Scrapy Engine是用来控制整个爬虫系统的数据处理流程...

2018-12-06 22:03:16 473

原创 Nginx安装

安装Linux 下载Nginx:到Nginx官网下载nginx的安装包,最好下载稳定版的在该下载目录中解压 tar -zxvf nginx-1.14.1.tar.gz进入解压后的nginx-1.14.1的目录下先安装nginx配置环境安装包:首先安装 sudo apt-get install gcc 接着安装 sudo apt-get install libpcre3 l...

2018-12-03 17:35:19 496 1

原创 使用模拟器翻页下载ajax页面

一般发送request请求,spider扔给引擎进行处理,引擎给调度器进行处理请求,处理后给引擎,这时候引擎给下载器过程中会有download_middlewares,这时候可以通过中间件对请求处理中间件代码:from scrapy.http import HtmlResponsefrom selenium.webdriver.chrome.options import Optionsim...

2018-11-29 21:12:24 249

原创 Mysql数据库操作

修改表-修改字段,重命名版:alter table 表名 change 原名 新名 类型及约束alter table students change birthday birth datetime not null;修改表-修改字段,不重名版本:alter table 表名 modify 列名 类型和约束;alter table students modify birth date no...

2018-11-29 11:02:40 114

转载 数据库设计----三范式

数据库的设计----三范式:第一范式:数据库的每一列都是不可分割的原子数据项,即列不可拆分(即实体中的某个属性有多个值时,必须拆分为不同的属性。)第一范式的合理遵循需要根据系统的实际需求来定。比如某些数据库系统中需要用到“地址”这个属性,本来直接将“地址”属性设计成一个数据库表的字段就行。但是如果系统经常会访问“地址”属性中的“城市”部分,那么就非要将“地址”这个属性重新拆分为省份、城市、详细...

2018-11-29 10:50:41 236

原创 爬虫中进行数据清洗

一般而言,存入数据库中的数据都要进行清洗,但是在解析页面中对数据清洗比较麻烦而且杂乱,对于这种情况scrapy中的scrapy.loader可以很好的解决。以下是一段数据清洗的代码首先是解析页面:import scrapyfrom scrapy import Requestfrom scrpy_item.items import CountryItem,CountryItemLoader...

2018-11-28 16:53:52 15190 1

原创 K-means 算法(基本用法)

1.聚类的概念:一种无监督的学习,事先不知道类别,自动将相似的对象归到同一个簇中K-Means算法是一种聚类分析的算法,主要是来计算数据聚类的算法,主要通过不断地取离种子点最近均值的算法如上图中,A,B,C,D,E是五个在图中点。灰色的为中心点。所以也就是有两个种子点。把五个图中点分别聚合到灰色的中心点。然后,K-Means的算法如下:随机在图中取K(这里K=2)个种子点。然后对图中...

2018-11-24 15:54:01 10462

转载 python内存管理

关于python的存储问题(1)由于python中万物皆对象,所以python的存储问题是对象的存储问题,并且对于每个对象,python会分配一块内存空间去存储它(2)对于整数和短小的字符等,python会执行缓存机制,即将这些对象进行缓存,不会为相同的对象分配多个内存空间(3)容器对象,如列表、元组、字典等,存储的其他对象,仅仅是其他对象的引用,即地址,并不是这些对象本身关于引用计数器...

2018-11-23 21:07:05 164

转载 HTTP和HTTPS的区别和理解

HTTP:超文本传输协议。是互联网上应用最为广泛的网络协议,所有的www文件都必须遵守这个标准。是一个客户端和服务端请求和应答的标准(TCP),用于从www服务器传输超文本到本地浏览器的传输协议,使浏览器更加高效,使网络传输减少。HTTPS:以安全为目标的HTTP通道,简单讲就是HTTP的安全版,即HTTP的SSL层,通过SSL加密。HTTPS和SSL支持使用X。509数字认证,如果需要的话用...

2018-11-23 20:23:21 626

原创 KNN算法总结

KNN算法即在一个训练数据集中来了一个新的输入实例,在训练集中找到与这个新的实例最近的K个邻居,在k的邻居中,有多个实例属于已知的类,那么把这个已知的类作为这个新实例所属的类别。也就是用投票法(少数服从多数)。由于用投票法,所以k值一般取奇数。但是K值得大小选取有要求:首先,如果k值选取太小,就相当于以待分类的实例为中心,在较小的邻域内,以该邻域内的邻居的类别来为新实例分类,那么就意味着我们的...

2018-11-22 16:43:28 1153

原创 L1正则化方法(lasso)和L2(ridge)正则化方法的区别

L1正则化和L2正则化可以看做是损失函数的惩罚项,惩罚就是损失函数中的某些参数做了一些限制对于线性回归模型,使用 L1 正则化的模型叫做 Lasson 回归,使用 L2 正则化的模型叫做 Ridge 回归(岭回归)。L1和L2正则化的线性回归:minw12nsamples||Xw−y||22+α||w||1 (式中加号后面一项α||w||1即为L1正则化项)minw12nsample...

2018-11-21 09:57:34 5003 2

原创 LInux常用命令

系统信息arch 显示机器的处理器架构(1)uname -m 显示机器的处理器架构(2)uname -r 显示正在使用的内核版本dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI)hdparm -i /dev/hda 罗列一个磁盘的架构特性hdparm -tT /dev/sda 在磁盘上执行测试性读取操作cat /proc/cpuinfo 显示CPU info...

2018-11-19 19:19:29 134

转载 欠拟合与过拟合

欠拟合与过拟合的区别欠拟合是指模型在训练集、验证集和测试集上均表现不佳的情况过拟合是指模型在训练集上表现很好,到了验证和测试阶段就大不如意了,即模型的泛化能力很差欠拟合和过拟合一直是机器学习训练中的难题,在进行模型训练的时候往往要对这二者进行权衡,使得模型不仅在训练集上表现良好,在验证集以及测试集上也要有出色的预测能力。解决欠拟合(高偏差)的方法1.模型复杂化对同一个算法复杂化。例如回...

2018-11-16 21:59:10 1146

原创 Django之中间件

django中的中间件(middleware),在django中,中间件其实就是一个类,在请求到来和结束后,django会根据自己的规则在合适的时机执行中间件中相应的方法。在django项目的settings模块中,有一个MIDDLEWARE_CLASSES变量,其中每一个元素就是一个中间件中间件中一共有五个方法:process_request(self,request)process_...

2018-11-14 21:15:50 135 1

原创 爬取51job招聘网

import urllib.requestfrom bs4 import BeautifulSoupimport timeimport pymongoimport pymysql#https://search.51job.com/list/170200,000000,0000,00,9,99,python,2,2.htmldef handle_request(keyword,page,...

2018-11-06 19:07:00 534

原创 用python爬取美女图片

import urllib.requestimport osfor i in range(2000, 2400):if not os.path.exists(‘tupian/’ + str(i)):os.makedirs(‘tupian/’ + str(i))for j in range(60):try:url = ‘http://img1.mm131.me/pic/’ + str(...

2018-11-06 19:01:05 11043 2

原创 初入数据分析跟python解方程

1.众数(频数)、均值、中位数距:分成4份,反向距离的变动,排序后最大值减去最小值的四分位点四分位数:1,1,1,1, (6,7,8,9,)(10,12,14,15,) 16,110,120,121上四分位点 :6 下四分位点:16距:上-下=距方差:1,2,3,4先算平...

2018-11-05 21:58:15 472

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除