自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 requests爬取今日头条街拍的两种方法

 分析网页今日头条的网页是通过AJAX加载的所以如果单纯的复制网页是无法查看到内容的,只能看到一堆字典形式HTML代码。这里发现URL的参数共有offset,format,keyword,autoload,count,cur_tab,from,这七种。往下翻,在Query String Parameters中就能发现这些参数往下翻,查看新的AJAX,点开NETWORK对比Q...

2018-08-05 19:32:04 1898

原创 requests爬取微博

微博地址:蒋方舟微博用到技术:requests+pyquery分析页面通过对比url发现,似乎只需要 改变page就能完成翻页 尝试把page=3放上去得到了如下内容,json序列化点开调试工具的preview就能看到json反序列化得来全不费工夫,里面包含了我们需要的所有内容接着我们需要构造URL,requests中自带一个params()方法...

2018-08-01 21:22:10 2443

原创 requests+BeautifulSoup爬取猫眼电影top100

首先测试一下网页是否有用import requests,jsonfrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupdef get_one_page(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT...

2018-07-31 19:47:09 2468 1

转载 beautifulSoup的使用

本篇文章转载于https://cuiqingcai.com/5548.html 1. 简介简单来说,Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据。官方解释如下:Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为...

2018-07-31 11:27:14 374

原创 scrapy实战二:爬去谍调网图片并下载

准备导入polliw模块在setting中添加并下载需要了解Scrapy提供了一个 ItemPipeline ,来下载属于某个特定项目的图片,比如,当你抓取产品时,也想把它们的图片下载到本地。这条管道,被称作图片管道,在 ItemPipeline 类中实现,提供了一个方便并具有额外特性的方法,来下载并本地存储图片:将所有下载的图片转换成通用的格式(JPG)和模式(RGB)避免重新下载最近已经下载过...

2018-06-07 20:22:30 4574

原创 scrapy实战一:爬取boss直聘信息,存入mysql数据库

scrapy版本:1.5python版本:3.6系统:windows网站链接: www.zhipin.com1 创建项目CTRL+R 输入cmd打开DOS窗口,输入如下命令创建项目(可自定义项目位置)scrapy startproject job_demo 从图片中可以看到,你可以进入你的项目然后创建你的spidercd Job_demo新建spider蜘蛛scrapy genspider j...

2018-06-03 18:48:54 1681

原创 scrapy基本介绍及运行原理

Scrapy框架1 scrapy是用纯python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途广泛。2 用户只需要定制开发的几个模块就能轻松实现一个爬虫,用来抓取网页内容、图片。3 scrapy使用Twisted[twistrd](其主要对手是tornado)异步网络框架来处理网络通讯可以加快下载速度,不用自己实现一部框架,并且包含了各种中间件可以灵活的完成各种的需求Scrapy...

2018-05-10 20:54:13 3368

原创 scrapy错误

版本:python3.6错误类型:ModuleNotFoundError: No module named 'win32api'原因:缺少模块  'win32api'解决方法:pip install pypiwin32

2018-05-03 15:09:47 277

转载 Xpath介绍及术语

什么是Xpathxpath是一门在XML文档中查找信息的语言Xpath是XSLT中的主要元素Xquery和XPointer均构建于Xpath表达式之上 XPath的特点1 XPath使用路径表达式在XML文档中进行导航2 XPath包含一个标准的函数库3 XPath是XSLT中的主要元素4 XPath是一个W3C标准  XPath路径表达式Xpath使用路径表达式来选取XML文档中的节点或者节点集...

2018-05-02 23:13:15 527

原创 kafka介绍及运行原理

什么是kafkakafka是一个开源流处理平台,由java和scala编写。是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。kafka的目的是通过hadoop的并行加载机制来同意线上和离线的消息处理,也是为了通过集群来提供实时的消息。简单的来说,它就是一个消息中间件,天然分布式、支持集群的,专注于数据吃的存放缓存的。相关术语broker(经纪人):kafka服...

2018-04-30 17:21:19 370

原创 kafka安装及使用

准备kafka版本: kafka_2.11-1.1.0.tgz将kafka解压在opt目录下(opt为hadoop用户下的目录)tar -zxvf kafka_2.11-1.1.0.tgz -C opt/注意,此命令执行条件:我的kafka在hadoop主体目录下,而opt在hadoop目录下。启动服务器解压好后到,先进入kafka目录 cd kafka_2.11-1.1.0因为zookeepe...

2018-04-27 00:13:38 6718 3

原创 flume 如何连接hdfs

准备1    启动dfs2    关闭防火墙3    主目录下创建需要监控的文件夹 连接hdfs在flume下的conf下创建a4.confvi conf/a4.test#注意,此命令在flume文件夹下编辑a4.conf#设置agent的source,sink,channela4.channels = c1a4.sinks = k1a4.sources =s1#设置sourcea4....

2018-04-26 21:21:15 2699

原创 在spark中将数据插入HIVE表

在spark中将数据插入HIVE表用spark导入到HIVE中效率较高    1    创建数据集的spark D啊他Frames:                        TmpDF=spark.createDataFrame(RDD,schema)                        这里schema是由StructFied函数定义的     2    将数据集的DataFra...

2018-04-26 16:19:04 50356 4

原创 flume简单介绍

什么是flume?        flume中文名是日志收集系统。由cloudera提供的一个分布式,高可靠,高可用的服务,用于分布式的海量日志的高效、收集聚合、移动系统,聚合和传输的系统是它的标志。简单的来说就是一个针对日志数据进行采集和汇总的工具,即把A移动到B。flume架构介绍        flume最简单的部署单元叫flume Agent,接收或生成数据并缓存数据知道最终写入到Agen...

2018-04-26 16:17:04 269

原创 HDFS的读写流程

HDFS写流程客户端发起写请求道namenode,namenode返回可使用的资源,客户端根据资源使用情况对要写入的数据分块,逐一上传块到datanode,datanode获取上传块数据并写入磁盘,完成后报告给namenode块信息,同时也告诉客户端写入成功,客户端继续后续快的写入,在此期间namenode接受到datanode的块写入完成信息之后根据备份数直到满1    首先客户端发起写请求到n...

2018-04-24 18:51:51 1015

原创 单节点Flume部署

准备    Flume版本: apache-flume-1.8.0-bin.tar.gz    解压Flume:    tar     -zxvf     apache-flume-1.8.0-bin.tar.gz配置文件    在Flume的conf下创建新文件a1.conf 并作如下编辑#定义agent的source channel sinksa1.sources = sr1a1.chan...

2018-04-24 12:52:41 627

原创 sparkSQL和DataFrame的简单介绍

sparkSQL    1    spark中原生的RDD是没有数据结构的    2    对RDD的变换和操作是不能采用传统的SQL方法    3    sparkSQL应运而生并建立在shark上,伯克利实验室spark生态环境的组件之一    4    shark最初很大程度上以来HIVE图语法解析器,查询优化器等    5    改进的spark SQL框架摆脱了对HIVE的依赖性,所以无...

2018-04-22 16:06:47 1274

原创 hive安装及绑定mysql

准备版本:hive2.3.2解压hive    命令:tar -zxvf hive2.3.2解压好后,hive下conf需要一个hive-site.xml文件,hive目录中没有,需要复制hive-default.xml.template  为hive-site.xml    命令:cp hive-default.xml.template  hive-site.sh设置hive环境变量进入hive...

2018-04-17 22:54:54 392

原创 hive 遇到的两个问题

其一,启动hive时报错如下:Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path原因:hive下的conf文件夹下的 hive-env.sh中HADOOP路径出现问题。解决方法:进入 hive下的conf文件夹,复制hive-env.sh....

2018-04-14 22:29:27 1546

原创 linux下安装MYSQL

准备MYSQL版本:    mysql57-community-release-el7-11.noarch.rpm  LINUX版本把安装包放在用户hadoop主目录下。安装MYSQL YUM仓库并安装安装mysql数据库:    命令:rpm -Uvh  mysql57-community-release-el7-11.noarch.rpm下载mysql yum仓库    命令:    yum ...

2018-04-14 15:10:50 183

原创 如何删除inux系统中的mysql

今天刚接触在linux系统下安装mysql,结果犯了一个错误,导致无法获取临时密码,万般无奈,只能删除数据库。和平时的删除不同,需要先找到有多少个mysql包,然后再逐步删除。一:查找到mysql包   查找命令: rpm -qa | grep -i mysql               二:删除mysql包    接着删除找出的mysql文件。    删除命令:rpm -ev   包名 如果出...

2018-04-11 23:25:10 198

原创 【VMware】无法连接 MKS: 套接字连接尝试次数太多:正在放弃。

博主今天早起,打开VMware的时候突然弹出:【VMware】无法连接 MKS: 套接字连接尝试次数太多:正在放弃。我也是第一次遇到这种问题,我尝试了很多种方法,甚至打算卸载重新安装。后来发现这是因为 VMware Authorization Service没有启动,需要手动启动才行。方法如下:进入        计算机管理→控制面板→系统和安全→管理工具双击服务 再启动VMware Author...

2018-04-08 10:35:35 234

原创 spark配置安装,和jupyter的安装

在配置之前,先准备好:              spark-2.2.0-bin-hadoop2.7.tgz               Anaconda3-5.1.0-Linux-x86_64.sh解压spark:              tar -zxvf spark-2.2.0-bin-hadoop2.7配置spark环境:                           echo  ...

2018-04-07 23:20:05 1535

原创 linux --centOS下构建hadoop集群(伪分布式)

创建用户及准备在构建hadoop之前,创建一个hadoop用户,并通过passwd hadoop给用户设置密码。接着使用su hadoop切换到hadoop用户:并且切换到主目录下创建一个dir 命名为opt。创建好了目录,上传两个压缩包至opt,分别是:---hadoop-2.7.5.tar.gz---jdk-8u152-linux-x64.tar.gztar -zxvf  hadoop-2.7...

2018-04-01 10:11:16 149

原创 linux 基础

一    创建用户名密码    在登陆root用户后,会有这样一行代码:       其中:        root 代表 登陆用户        localhost代表主机名        ~代表所在目录,为主目录        #是超级用户提示符,$代表普通用户在root 用户下使用     useradd  [-m]  +  用户名  就可以创建用户名了。    -m代表创建主目录usera...

2018-03-23 00:31:58 102

原创 如何用Django实现简易电子文档管理系统(2)

在上一篇文章中我们已经完成了增删改查中查询和删除的功能,本篇则是要实现的是如何增加和改变。下面我们就来实现如何修改内容。首先我们在html页面的操作中添加一项功能,修改。我们只需要在创建表的HTML里的操作栏中添加一个超链接,暂时不给它跳转的路径,这样打开网页,你就会发现,表格的操作栏中会出现修改一项啦。        一定要给把id给带上,不然电脑不知道你要修改的是表格中的哪一行列表。接着我们就...

2018-03-11 23:00:26 1227

原创 blog如何上传图片

想要实现上传图片,首先我们得了解file标签。file标签可以很方便的实现文件长传的功能<html:form action="file.do" method="POST" enctype="multipart/form-data">            <html:file property="file"/><html:submit/>&amp

2018-03-08 15:01:51 1096

原创 如何给项目添加富文本

在添加之前,我们要知道前台form和普通不上传的form的区别。form表单提交,要使用流的技术通讯。普通的form表单是以字符流的形式提交,提交的方式有POST和GET。而前台form表单是以字节流的形式通过POST提交的。默认的编码:enctype=' multipart/form-data ' method='poost'注意:这里的提交方式只有POST,并没有GET,所以如果提交方法  m...

2018-03-08 14:36:25 1044

原创 如何用Django实现简易电子文档管理系统

这是一个简易的电子文档管理系统,可以实现通过下拉列表获取相应的文档资料,也可以删除文档。首先我们需要在models.py中写两个类一个是下拉列表中需要的内容,另一个则是form表单里需要的数据。接着我们需要进行数据迁移。如果我们直接进行数据迁移的话会报错,因为我们还没有在setting中配置。事实上,还有POST和PORT,因为在本机上进行操作,所以可以不用填写。实际上setting中我们还需要配...

2018-03-06 21:36:19 6847

原创 Django项目2

一,新建DjangoObject容器,bloguser命名。     1,完成settings.py的一些必要配置。数据库配置,PASSWORD写自己数据库的密码静态资源     2,templates里放HTML文件,要实现注册功能,我们首先要一个注册的HTML文件,取名为add.html。想要显示注册后的内容,我们得再添加一个显示页面,取名为show.html。编辑add.html,在form...

2018-03-01 17:49:01 177

原创 DJango 创作项目

工欲善其事必先利其器,我们在创作项目的时候,首先得了解这个项目的文件都有存在什么作用。manage.py : Django项目里面的工具,通过它可以调用django shell和数据库等。pyblogsys/| ---  settings.py : 包含了项目的默认设置,包括数据库信息,调试标志以及其他一些工作的变量。| ---  urls.py : 负责把URL模式映射到应用程序。| --- w...

2018-02-28 10:37:08 190

原创 数据库高级查询

1.  EXISTS子查询      语法:      select ....... from 表名 where EXISTS(子查询);     子查询有无返回结果:exists 子查询结果为TRUE     子查询无返回结果:exists 子查询结果为FALSE,外层查询不执行   其实exists这个单词早就在我们新建表的时候就有了,那个语法是crea

2018-02-01 23:38:32 196

原创 文件的输入和输入:open用法 ,file用法 , pickle模块,os 用法

输出格式美化Python两种输出值的方式: 表达式语句和 print() 函数。第三种方式是使用文件对象的 write() 方法,标准输出文件可以用 sys.stdout 引用。如果你希望输出的形式更加多样,可以使用 str.format() 函数来格式化输出值。如果你希望将输出的值转成字符串,可以使用 repr() 或 str() 函数来实现。· Str(): 函数返回一个用

2018-01-04 19:25:44 432

原创 错误和异常

错误和异常Try:语句体except异常类型:处理语句except 异常类型:处理语句或Try:语句体except (异常类型1,异常类型2):处理语句except  Exception:#所有异常 except 异常类型 as 名称:Print(as)else:

2018-01-02 19:52:02 206

原创 继承 封装 和多态

面向对象的三大特征:封装。继承。多态继承:子类继承父类,子类可以使用父类的属性和方法,简化代码当生成子类对象时,先初始化父类对象,如果父类有_init_()方法,并且有属性时,要通过子类的鼓噪赋值一个类可以有多个子类在子类中,调用匪类的属性时,在_init_()方法中使用父类。属性或self.属性,调用父类方法时:super()。父类方法()

2018-01-02 19:51:22 252

原创 get set用法及自动销毁方法

Get(输出调用)/set(获取调用)方法:Set_money()Get_money()公共方法:私有方法:def___test():#前面两个— —,只能在当前类中使用以__开头访问修饰符:private(私有的)public(公共的)protected(受保护的)  自动销毁方法:Def_test():只能在当前类中使用,以—

2018-01-02 19:49:47 308

原创 PYTHON之类和对象

类和对象类:具有想通过属性的方法的对象的集合对象:万物皆对象类和对象的关系:类 的包含属性和方法:语法:calss类名:属性方法定义一个类:创建对象:属性写在类外的情况,就是通过对象.属性对象。方法()的方式调用调用对象的方法:创建多个对象:classperson:    def__init__(self,new_name,n

2017-12-26 22:51:42 252

原创 python基础之三种增,三种删之间的区别

今天突然学习def函数的时候突然想搞清楚增:insert  extend和append三者之间的区别。1.insert,根据索引位置添加。例:      list=[1,2,3]      list1=[4,5,6]     list.insert(list1)      print(list)如果不给添加位置直接输入:则会发生错误:TypeError: i

2017-12-20 21:42:28 951

原创 python基础第三天

字符串字符串的一些用法:1  R:原样输出,如一些特殊的字符串、\n\t\c2 in 判断是否在字符串中存在3  Not  in判断是否不再字符串中字符串中的一些函数:1 len() 求长度2 count(): str.count(“l”)返回有几个字符3 Capitalize():str.capitalize(),将字符串的第一个字符串大写4 Litle():

2017-12-19 23:27:49 130

原创 PYTHON基础第二篇

字符串字符串的一些用法:1  R:原样输出,如一些特殊的字符串、\n\t\c2 in 判断是否在字符串中存在3 判断是否不再字符串中字符串中的一些函数:1 len() 求长度2 count(): str.count(“l”)返回有几个字符3 Capitalize():str.capitalize(),将字符串的第一个字符串大写4 Litle():将每一个单词首字

2017-12-17 19:02:06 141

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除