- 博客(28)
- 收藏
- 关注
原创 pandas学习笔记
生成列查看。pandas的底层是numpy,所以效率很高通过索引一些方法从列对象转成其它对象。tolist中间没有_下面是重头戏
2020-02-25 19:20:26 106
原创 numpy学习笔记
python中的数组numpy中数组的数据类型,每个元素的数据类型,怎么修改数组中元素numpy的ndarray几个脾气* 不能够传入str,传入报错。* 传入一个浮点数,会被强制转为整数。* 如果一开始初始化列表里有一个浮点数,那么就都是浮点数。* 初始化列表里都是整数,要强制转为浮点数,也可以。numpy中的ndarray相比list和array的优势 * 处理多维数组...
2020-02-24 17:15:46 61
原创 爬取html (同步爬虫)
urllib模块模拟浏览器访问url地址,得到服务器响应回来的html文件。request对象之get请求和url编码之前我们是通过urlopen的方法,访问地址下载页面。但是实际开发,我们一般选择request对象。接下来,是url编码和解码HTTPpost请求案例分析—百度翻译爬虫...
2020-02-21 14:21:41 647
原创 数据科学:jupyter;numpy模块
数据科学概览一般我们掌握前面三个模块,就业基本没有问题。通过爬虫爬取大数据,然后Django做出网页,将数据可视化,最中间核心的是数据分析的清洗处理。numpy,panda,matplotlib,数据分析的三剑客。再后面的特征处理,模型训练,对应的就是机器学习。前三个模块学好了,对应的岗位就是图2的前两个。jupyter notebook在想要保存的目录下,运行jupyter note...
2020-02-11 14:59:14 172
原创 scrapy-redis 分布式爬虫
Redis数据库概念非关系型数据库,没有表的概念,所有的数据堆积存储在库中。redis并不支持查看当前使用的数据库,只能够通过切换的方式来看。...
2020-02-07 17:40:12 78
原创 爬虫----咨询公司招标信息采集
项目分析我们以后做爬虫项目的时候,往往爬取的不止一个网站,要对每个网站定制爬虫。下面是我们以必联网为例,要爬取的所有内容。下面,是网站页面的一级界面和二级界面上,我们所需要的内容。打开网站,我们需要在登陆的情况下爬取。爬虫分析,一定要从第二页开始,举例该网,第一页是一个get请求,但是从第二页开始,就是一个post请求了。这里,老师下载了个Postman的软件,可以直接下载网页的ht...
2020-02-05 18:54:14 1262 1
原创 异步爬虫—Scrapy框架
scrapy异步框架核心原理同步:下一个方法依赖于上一个方法的结果。异步:下一个方法不依赖于上一个方法的结果。spiders就是我们写的csdn的博客爬虫文件。scheduler是调度器,将url_s里所有的url地址统一分配,然后发给downloader,让它去向服务器请求下载。还有一个就是去重的功能,去掉重复的url请求。item pipeline用于把io存储,把数据存储到本地。...
2020-02-05 12:15:07 948
原创 html上的数据提取:re正则&XPath语句。
正则表达式以英文字母开头,出现一次。后面的是数字,大小写,出现5到15位,一共6-16位。前面那个1可以省略。要匹配div标签中的内容。关闭贪婪模式,这里加了一个?。因为正则表达式是默认匹配尽量多的内容的,关闭贪婪模式,这里就不会加div也匹配进去。re模块使用re模块有很多方法,但是爬虫中常用的有提取,匹配和替换。案例:比如现在有个html文件,要提取它的Email和...
2020-01-31 14:36:27 302
原创 微课商城系统开发: 配置路由与视图;商品首页后端数据渲染;
配置路由与视图两个app里面分别创建urls文件,然后在主url文件中配置路径。第一行是商城的主页;第二行是课程的详细页,里面要传入课程的id;第三行是课程视频播放页,传入课程id;第四行是视频流,课程视频播放页中,会以流的形式向视频流索要mp4的播放。然后,我们通过Alt+enter的快捷键方式来快速创建视图函数。然后,用户的urls文件。第一行是用户的主页;第二行,已经购买的课程;第...
2020-01-27 16:43:25 183
原创 表单数据的提交与接收;csrf;
表单数据的提交与接收如果要提交上传文件,就要加入那行代码。注意单选框的name值要一致,比如gender=男,gender=女,这样才可以是单选。get&post请求在代码中实现,首先,会在urls中,创建三个路径。第一个是渲染提交表单的页面,第二个,第三个分别是get和post请求的路径。定义渲染的处理器,里面是一个form.html文件,在templetes中再去...
2020-01-24 11:42:16 490
原创 cookie;session;非关系型数据库redis
cookie原理设置必须response对象,读取必须request对象。设置就是先实例化一个类,然后还必须要返回response对象。在项目的urls文件中,分别加入设置和获取cookie的路径同时,在views文件中定义相关的函数。然后运行python manage.py runserver 80,就可以在网页中查看到cookie...
2020-01-24 10:42:38 101
原创 模型类增删改查;懒加载和链式调用
增删改我们通过在django的app里的models.py文件下定义了数据表和字段。然后如何向表中实现数据的增删改查呢?可以在pycharm的终端中,进行交互式编程。python manage.py shell,打开交互式编程,然后首先调用app下model文件中的所有,然后实例化对象,向里面传入数据。调用save方法后,数据才会写入数据库中。查询f对象和Q对象的详...
2020-01-22 17:44:23 151
原创 ORM框架;数据库配置;定义表与字段;数据库迁移和维护;
orm框架之前,我们都是用SQL语句来操作数据库,MySQL有MySQL的语句,Oracle有Oracle的语句,比较多。并且,SQL语句比较难写。那么,我们使用orm语法,它是一种对数据库增删改查的途径,比较简单,并能够通过orm框架,自动地将语句转变为连接的数据库的语句。数据库配置把django框架和MySQL数据库连起来。databases的代码可以使用live templetes...
2020-01-22 11:37:41 317
原创 MySQL多表操作;以及优化查找之建立索引
多表操作一对多,多对多,一对一user_id 与 id对应,被称为外键foreign key。foreign key要和它引用的类型保持一致,所以两个都是int。constraint约束。fu1是约束的名字,可以随便写。reference引用。多对多需要创建中间表,一般以两个表的名字中间加一个——命名。要创建中间表,需要明白中间表和两个表之间的关系,应该都是两个表对中间表,一对多的...
2020-01-21 19:51:38 594
原创 pycharm中编辑MySQL;增删改查;
编辑器中可以创建MySQL数据库,用ctrl+enter运行光标所在的命令行。常用的语法(小提示,先要 use 数据库名;不然不知道表加在哪个数据库下面哦。)创建表结构 create table 表名 (字段名 字段类型 字段约束,字段名 字段类型 字段约束,);实际操作:Server returns invalid timezone. Go to ‘Advanced’ tab and...
2020-01-21 17:47:03 1122
原创 数据库概念;数据库的管理语句;MySQL常用数据类型
数据库概念数据库:是以一定方式存储在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合;关系型数据库: mysql; sql server; mariaDB; postgresql; oracle; sybase非关系型数据库: redis; mongoDB;bigtable;couchDB (redis利于存储经常发生变化的数据)退出:exit数据库的组成...
2020-01-21 11:58:43 148
原创 Django模板调用与传参;模板层基础语法;模板过滤器;模板的复用和block提取
模板之前,视图函数直接返回HTTPresponse或者json对象给到客户端,但是它不美观,那么模板的作用就在于做个预处理,更美观,对客户更友好地去返回一个html。向index.html模板文件传参。context这个命名可以任意,但是传的必须是字典格式。同时,在html文件中,需要使用{{ }}这种格式来获取传过来的参数。模板层基础语法模板层虽然也是html,但是它的注释是...
2020-01-20 15:07:17 523
原创 html前端常用标签的概括:title,标题与段落,水平线与换行符,常见的转义符,链接,图片标签,表格,列表,常见的无意义标签,表单
hello HTML一级标题h1二级标题h2三级标题h3四级标题h4五级标题h5六级标题h6段落标签p我是水平线哥哥妹妹加一个换行符把弟弟我是空格: 我前面是不是有个空格我是大于号:>我是小于号:<点击我,本窗口访问百度点击我,新窗口访问百度 ...
2020-01-20 14:12:16 204
原创 反向解析处理器;request和response对象
reverse的使用反向解析处理器:以往,都是从url地址找到视图函数,这个是从视图函数,找到url地址。第一步,导包。Views文件中。第二步,没有参数的处理器直接输入名字,有参数的处理器,需要输入参数。这里的user:就是之前我们提过的命名空间。第三步,要在urls文件中,加入reverse的path。那么,在网址中,我们输入host地址/user/reverse之后,网页会返...
2020-01-20 14:07:52 289
原创 基本路由映射;命名空间;正则路由映射传参和接收
基本主从路由映射在Django项目中,我们有主urls文件,还有子项目user中的urls文件。在两个文件中,都有相应的path路径。那么主urls文件中的user/就构成了网址host地址/user/。子项目中的urls文件中的path的第一个参数,就构成了user/后面拼接的内容。那么,这两个urls文件中的路径拼接,才会有完整的网址去访问views py文件中的相应函数。得到相应的...
2020-01-20 11:00:55 161
原创 web原理;框架介绍;环境搭建;入门项目
web原理和框架介绍环境搭建和入门案例pip install django==2.2pip install pillow入门案例:1,创建django文件。在more settings里面可以直接创建一个application,或者后面django-admin startapp myapp创建的,后面需要加载2,django文件创建好后:3,django框架搭建好,项目app...
2020-01-20 10:09:56 148
原创 (不)可变变量;深(浅)复制;多线程&多进程
可变变量和不可变变量Python中,变量有两种类型,可变(引用)与不可变(值)类型。list,dict,set,Class类类型,都属于可变类型。赋值的时候,copy地址或者引用,不是值本身。int,float,str,tuple,bool这些属于不可变类型。赋值的时候,copy值本身。深复制和浅复制深复制和浅复制浅复制只是copy引用,地址。而深copy是连带着值本身都是会copy...
2020-01-18 17:43:51 296
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人