Road_to_programmers-CSDN博客

原创 Python总结之(Linux系统Python安装并设置Pyenv和Virtulenv环境)

准备好Linux最小系统即可。1.需要在Linux上安装git （root下执行） yum install git -y2.安装python编译依赖（root下执行） yum -y install gccmake patch gdbm-devel openssl-devel sqlite-devel zlib-devel bzip2-deve...

2019-05-20 13:52:35 288

原创 linux设置定时执行任务

在linux下设置一个定时执行任务，首先在任务调度使用的是crontab的任务调度：crontab -e 编辑执行任务，crontab -l 列出用户目前的crontab.基本格式 : *　　*　　*　　*　　*　　command 分　时　日　月　周　命令第1列表示分钟1～59 每分钟用*或者 */1表示第2列表示小时1～23（0表示0点）第3列表示日期1～31 第4列表示月份1～12 第5...

2018-06-21 09:19:56 514

转载 python爬虫之如何随机更换User-Agent

python爬虫爬取网站内容时，如果什么也没带，即不带报头headers，往往会被网站管理维护人员认定为机器爬虫。因为，此时python默认的user-agent如Python-urllib/2.1一样。因此，网站管理人员会根据请求的user-agent判定你是不是机器爬虫。所以，此时往往就需要伪装user-agent，模拟成真实的浏览器去取出内容。下面是一些比较常用的浏览器的user-agent...

2018-06-20 15:06:58 1186

原创 linux常用命令

1，nohup命令 ——Linux命令，表示不挂断地运行命令，常用于当你想要运行一个程序，但是你觉得当你退出账户时，该进程还不会结束，那么此时使用nohup命令就合适不过了。 ——用法如下：nohup python3 文件路径 >> 日志log存放位置 2>&1 & 如：nohup python3 /usr/local/spider/Spider...

2018-06-20 10:18:14 163

转载 Fiddler工具介绍

Fiddler基础知识Fiddler是强大的抓包工具，它的原理是以web代理服务器的形式进行工作的，使用的代理地址是：127.0.0.1，端口默认为8888，我们也可以通过设置进行修改。代理就是在客户端和服务器之间设置一道关卡，客户端先将请求数据发送出去后，代理服务器会将数据包进行拦截，代理服务器再冒充客户端发送数据到服务器；同理，服务器将响应数据返回，代理服务器也会将数据拦截，再返回给客户端。F...

2018-06-08 09:01:22 755

原创爬虫实践

#蜘蛛：spiderfrom kgc_demo.items import *class KgcKe(scrapy.Spider): name = 'ke' allowed_domains = ['kgc.cn'] start_urls = ['http://www.kgc.cn/list/230-1-6-9-9-0.shtml'] def parse(self, ...

2018-06-04 17:57:41 260

原创 scrapy框架的安装

Scrapy的安装：1. scrapy需要安装第三方库文件，lxml和Twisted2. 下载地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/根据python的版本和位来下载相应的文件，否则安装不成功。3.下载好文件之后，在DOS命令下pip install 文件的位置\文件名进行安装。安装完成就可以安装：pip install scrappy还...

2018-05-07 22:02:00 386

原创 kafka的运行及原理

什么是kafkakafka是一个开源流处理平台，由java和scala编写。是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。kafka的目的是通过hadoop的并行加载机制来同意线上和离线的消息处理，也是为了通过集群来提供实时的消息。简单的来说，它就是一个消息中间件，天然分布式、支持集群的，专注于数据吃的存放缓存的。相关术语broker（经纪人）：kafka服...

2018-05-07 21:50:57 305

原创 kafka的安装使用

kafka版本： kafka_2.11-1.1.0.tgz将kafka解压在opt目录下（opt为hadoop用户下的目录）[html] view plain copytar -zxvf kafka_2.11-1.1.0.tgz -C opt/ 注意，此命令执行条件：我的kafka在hadoop主体目录下，而opt在hadoop目录下。启动服务器解压好后到,先进入kafka目录[html] v...

2018-05-07 21:49:45 232

原创 linux下卸载mysql

一：查找到mysql包查找命令： rpm -qa | grep -i mysql 二：删除mysql包接着删除找出的mysql文件。删除命令：rpm -ev 包名如果出现错误：依赖检测失败命令： rpm-ev 包名 --nodeps这里

2018-05-02 08:12:10 222

原创 SQL的优化处理

在sql查询中为了提高查询效率，我们常常会采取一些措施对查询语句进行sql优化，下面总结的一些方法，有需要的可以参考参考。1.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where 子句中对字段进行 null 值判断，否则将导致引擎放弃使用索引而进行全表扫描，如： select id from t where num...

2018-04-30 12:23:56 195

原创 spark与python3的应用

先按照spark和Python3export SPARK_HOME=/home/hadoop/opt/spark-2.2.1-bin-hadoop2.7export PATH = $PATH:$HADOOP/bin:$HADOOP/sbin解压完spark后需要配置环境变量,和hadoop配置是一样的请看本人上一篇bolg.配置好环境变量后我刷新一下路径的存

2018-04-03 08:53:19 4579

原创 Hadoop伪分布式集群搭建

hadoop完全分布式：3个及以上的实体机或者虚拟机组件的机群。hadoop伪分布式：一个节点看了以上两点相信你已经明白了，“用vm多装几个虚拟机配置完全分布式，然后做实验”这是完全可行的。实际上我们通常也是这么做的，当然可能要求你的电脑cpu和内存足够支撑你这一计划。一点建议：如果你要开发基于Hadoop的分布式程序，伪分布式足够你实验了。如果你要做很多其他事情，比如玩玩cm，玩玩oozie，...

2018-04-03 07:47:57 307

原创 Linux的安装

在搭建hadoop之前我们先准备准备虚拟机软件VM ware,和centOS_7,我们需要在VM上虚拟一个Linux系统,这个系统性的镜像文件就是centOS_7.,这里我使用的VM ware14版本.安装好VM后启动.先创建虚拟机>>>之后弹出这个对话框>>>>这里直接选择下一步就可以>>>这里选中CentOS-7的镜像文件路径一定要对...

2018-03-27 09:57:41 184

原创 Linux 文件操作

文件操作一. 绝对路径和相对路径1.路径: 在我们使用计算机时要找到需要的文件的位置,而表示文件的位置的方式就是路径2.绝对路径: 在Linux中,绝对路径从”/”开始.比如/usr丶/ect/passwd.如果一个路径是从跟(/)开始的,它一定是绝对路径.3.相对路径: 相当于当前路径,或者是以. 或 ..开始的~ 主题目录, - 上一次访问的目录, cd 切换目录(进入目录) , ...

2018-03-22 22:04:18 241

原创 Flask 入门

flask第一个程序讲解:1.fromflask import Flask #从flask这个框架中导入Flask这个类2.app= Flask(__name__)#实例化一个app对象,需要传递一个参数__name__1. 方便flask框架去寻找资源2. 方便flask插件比如flask-Sqlalchemy出错误的时候,好去寻找问题所在的位置` [email protected](‘/’)#是一个...

2018-03-21 09:22:28 270

原创 django 分页

要实现分页首先要导入一个模块：from django.core.paginator import Paginator然后在views里写一个函数：在welcome.html文件下写：在urls下配好路径，这样就实现分页了，QuerySet（查询集）：这里说一下查询集的特点？查询集是一个懒执行values all filter ...order_by... 都不执行QuerySet什么时候开...

2018-03-13 16:45:48 223

原创 django Blog上传文件

在富文本添加完之后我们还需要上传文件，上传文件时需要给提交的form表单一个属性enctype属性，enctype有三个值： 1. application/x-www-form-urlencoded ：在发送前编码所有字符（默认） 2. multipart/form-data ：不对字符编码。在使用包含文件上传控件的表单时，必须使用该值。 3. tex...

2018-03-13 16:21:19 207

原创 bolg 添加富文本

这里我们使用的百度富文本编辑器，以百度富文本编辑器举例子，百度富文本编辑器是一个编写好的开源框架，先下载一个富文本编辑器：下载好了之后解压放入你的项目的目录的 static的ue下，这样需要配置一个路径在需要使用的页面上引入两js文件。在提交内容款上写上代码：再引入一个js代码就可以了：我们就实现了在django项目中富文本的添加：这样我们就实现了百度富文本编辑器的添加！...

2018-03-08 08:27:28 315 1

原创 Django Cookie,session的概述，特点，用法

浏览器请求服务器是无状态的。无状态指一次用户请求时，浏览器、服务器无法知道之前这个用户做过什么，每次请求都是一次新的请求。无状态的应用层面的原因是：浏览器和服务器之间的通信都遵守HTTP协议。根本原因是：浏览器与服务器是使用Socket套接字进行通信的，服务器将请求结果返回给浏览器之后，会关闭当前的Socket连接，而且服务器也会在处理页面完毕之后销毁页面对象。有时需要保持下来用户浏...

2018-03-04 15:15:53 268

原创 django sesstion

基于cookie做用户验证时：敏感信息不适合放在cookie中session依赖cookie使用session首先要进行以下操作：session 1. installed_apps2. 中间件3. 设置存储形式4. 引用 request.sessiondjango session的设计原理1. 如果用户是第一次请求(如何看用户是不是第一次请求，就看客户端ID是否保存了session的cookie)...

2018-03-01 08:33:03 315

原创 DjangoBlog项目介绍

项目目录介绍:manage.py ： Django项目里面的工具，通过它可以调用django shell和数据库等。mysite/| --- settings.py ：包含了项目的默认设置，包括数据库信息，调试标志以及其他一些工作的变量。| --- urls.py ：负责把URL模式映射到应用程序。| --- wsgi.py : 用于项目部署。bloguser /| --- admin....

2018-02-27 15:57:15 624

转载 Django会话

使用会话Django完全支持匿名会话。会话基础架构允许您存储和检索基于“一个站点一个访问者”的任意数据。数据存储在服务器端; cookies的发送和接收是透明的。Cookie包含会话ID，而不是数据本身（除非您使用基于cookie的引擎）。激活会话会话通过中间件组件实现。要启用会话功能，请执行以下操作：检查设置是否MIDDLEWARE完好'django.contrib.sessions.middl...

2018-02-25 19:04:19 359

原创 Django入门

Django是什么？开源代码的Web框架，是由Python写成的 Django的主要目的是简便，快速的开发数据库启动的网站（动态网站），ULR:统一资源定位符;① http://www.kgc.cnhttp:/ / 超文本传输协议;www.kgc.cn:80/***/***/ 域名|主机名|ip地址 + 端口剩下的 URI 统一资源标识符FTP:下载协议;Smtp:邮件传输协议;Pop3:...

2018-02-25 19:03:02 232

原创 mysql中文乱码(字符集)问题及校对集

中文数据问题中文数据问题本质是字符集问题;计算机只能识别二进制:人类更多是识别符号,需要有个二进制与字符的对应关系(字符集),客户端向服务器插入中文数据:没有成功原因: \xD5\xC5\xD4\xBD代表的是’张越’ 在当前编码(字符集)下对应的二进制编码转换成十六进制:两个汉字->四个字节(GBK)报错:服务器没有识别对应的四个字节:服务器认为数据是UT

2018-02-03 10:38:58 475

原创 SQL语句和Mysql数据库

SQLSQL:StructuredQuery Language,结构化查询语言SQL分为三个部分 DDL:Data Definition Language,数据定义语言,用来维护存储数据的结构(数据库,表) 代表指令:create 创建 , drop 删除, alter 修改等 DML: Date Manipulation Language, 数据

2018-02-01 15:23:22 358

原创重新写一下数据概念

数据库基础1. 什么是数据库? 数据库:database,存储数据的仓库数据库:高效的存储和处理数据的介质(介质主要是两种:磁盘和内存)2. 数据库分类? 数据库根据存储介质的不同,进行了分类:关系型数据库(SQL)和非关系型数据库(NoSQL :Not Only SQL)3. 不同的数据库的产品有哪些?关系型数据库: ①大型:Oracle DB2

2018-02-01 14:54:35 184

原创 SQL 语句分类和函数

SQL语言的四种类型:数据定义语言（DDL）、数据操作语言（DML）数据控制语言（DCL）和数据查询语言(DQL)Data Definition Language(DDL) DDL使我们有能力创建或删除表格。也可以定义索引（键），规定表之间的链接，以及施加表间的约束。 CREATE DATABASE - 创建新数据库 ALTER DATABASE - 修改数据库 CRE

2018-01-30 15:34:38 411

原创 MySQL数据库

数据库是以文件形式存储的:可插式存储引擎,内存/索引和存储管理数据库分为两种:1. 关系型数据库:a) MySQL Oracle SqlServer2. 内存数据库:a) Mencache redismySQL是一个关系型数据库管理系统,由瑞典mySQL AB公司开发,目前属于Oracle旗下产品,mySQL的默认端口号为3306,默认的字符集utf8数据

2018-01-25 18:20:36 344

原创 python 网络编程

网络编程的基本概念:网络的七层:第七层:应用层第六层:表示层第五层:会话层第四层:传输层第三层:网络层第二层:数据链路层第一层:物理层IP地址分为A,B,C,D,E五类。网络号：用于识别主机所在的网络；主机号：用于识别该网络中的主机。其中A类分配给政府机关使用，B类地址给大中型企业使用，C类地址给个人使用。这三种是主要的。IP地址

2018-01-22 22:14:03 360

原创多线程锁补充

线程锁当多线程争夺锁时，允许第一个获得锁的线程进入临街区，并执行代码。所有之后到达的线程将被阻塞，直到第一个线程执行结束，退出临街区，并释放锁。需要注意，那些阻塞的线程是没有顺序的。import threading,timeclass Thread1(threading.Thread): def run(self): for i in range(1,11):

2018-01-20 15:10:11 211

原创正则表达式

正则表达式,又称规则表达式.Regular Expression,在代码中常简写为regex,regexp或者RE,计算机科学的一个概念.正则表达式通常被用来检索,替换那些符合某个模式(规则)的文本.1956,1971年正则表达式被引用到Unix系统1984年office系列软件开始使用正则.C语言1971年诞生,C语言中没有正则,C语言要调用一个regcomp的一个库才能使用正则,库文件是调用系

2018-01-20 15:02:45 243

原创 python生产者消费者模式

什么是生产者消费者模式在软件开发的过程中，经常碰到这样的场景：某些模块负责生产数据，这些数据由其他模块来负责处理（此处的模块可能是：函数、线程、进程等）。产生数据的模块称为生产者，而处理数据的模块称为消费者。在生产者与消费者之间的缓冲区称之为仓库。生产者负责往仓库运输商品，而消费者负责从仓库里取出商品，这就构成了生产者消费者模式。以下有一个伙夫吃蒸馒头,三个吃货

2018-01-20 13:14:18 328

原创 Python 进程丶线程

线程:进程中的每一个子任务,不能独立存在进程:独立的所有子任务的集合线程,进程:目的都是想同时完成任务一。什么是进程进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位。线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位。系统资源：线程自己基本上不拥有系统资源,只拥有一点在运

2018-01-17 22:06:22 192

原创 Python总结

python中整数只有int浮点数运算可能存在误差赋值语句不是表达式，不能打印输出input输入的都是字符串在print输出的时候使用+号链接输出一句话的时候，+号前后代表着彼此独立的字符串，系统需要为他们都分配内存空间，而使用字符串格式化的时候，就不会浪费系统资源 round（）方法是四舍五入：当整数部分是偶数，小数部分是5 的时候就会将小数部分舍去，整数

2018-01-17 09:37:49 373

原创 Python解析XML文件

什么是XML？XML 指可扩展标记语言（eXtensible Markup Language）。你可以通过本站学习XML教程XML 被设计用来传输和存储数据。XML是一套定义语义标记的规则，这些标记将文档分成许多部件并对这些部件加以标识。它也是元标记语言，即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。python对XML的解析

2018-01-16 10:38:21 201

原创 Python pygame

PyGame游戏的基本结构最简单的PyGame代码：12345678910111213141516171819# 倒入PyGame框架import pygame # 初始化PyGamepygame.init() # 显示指定大小的窗口，返回的是一个Surface对象，你可以在其上进行绘图操作win = pygame.display.set_mode((400,400)) # 消

2018-01-12 09:01:38 419

原创 Python set()集合

1.集合的创建集合是一个无序不重复元素的集。基本功能包括关系测试和消除重复元素。创建集合：大括号或 set() 函数可以用来创建集合。注意：想要创建空集合，你必须使用 set() 而不是 {}，后者用于创建空字典。大括号也不可以创建元素含有字典与列表的集合。集合删除、交集、并集、差集的操作创建集合setpython set类是在python的

2018-01-07 14:16:08 471

原创 python 单例模式

在Python __new__()是用来创建对象实例的,__new__()在__init__()之前被调用，用于生成实例对象。利用这个方法和类的属性的特点可以实现设计模式的单例模式。单例模式是指创建唯一对象，单例模式设计的类只能实例化1个对象。class Singleton(object): __instance=None def __init__(self):

2018-01-07 14:05:00 305

原创 python 文件及文件夹操作

Python中对文件和文件夹(文件操作函数)的操作需要涉及到os模块和shutil模块.IO:input / output stream(输入输出流)文件(file)/文件夹(directory)的操作:创建,删除,拷贝文件内容的操作:读取:从硬盘到内存写入:从内存到硬盘(硬盘里都是以二进制存储的)fp= open("test.txt",w) 直

2018-01-03 21:09:12 4216

空空如也

空空如也