__顾影自怜-CSDN博客

原创 requests爬取今日头条街拍的两种方法

分析网页今日头条的网页是通过AJAX加载的所以如果单纯的复制网页是无法查看到内容的，只能看到一堆字典形式HTML代码。这里发现URL的参数共有offset,format,keyword,autoload,count,cur_tab,from，这七种。往下翻，在Query String Parameters中就能发现这些参数往下翻，查看新的AJAX，点开NETWORK对比Q...

2018-08-05 19:32:04 1898

原创 requests爬取微博

微博地址：蒋方舟微博用到技术：requests+pyquery分析页面通过对比url发现，似乎只需要改变page就能完成翻页尝试把page=3放上去得到了如下内容,json序列化点开调试工具的preview就能看到json反序列化得来全不费工夫，里面包含了我们需要的所有内容接着我们需要构造URL，requests中自带一个params（）方法...

2018-08-01 21:22:10 2443

原创 requests+BeautifulSoup爬取猫眼电影top100

首先测试一下网页是否有用import requests,jsonfrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupdef get_one_page(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT...

2018-07-31 19:47:09 2468 1

转载 beautifulSoup的使用

本篇文章转载于https://cuiqingcai.com/5548.html 1. 简介简单来说，Beautiful Soup就是Python的一个HTML或XML的解析库，可以用它来方便地从网页中提取数据。官方解释如下：Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为...

2018-07-31 11:27:14 374

准备导入polliw模块在setting中添加并下载需要了解Scrapy提供了一个 ItemPipeline ，来下载属于某个特定项目的图片，比如，当你抓取产品时，也想把它们的图片下载到本地。这条管道，被称作图片管道，在 ItemPipeline 类中实现，提供了一个方便并具有额外特性的方法，来下载并本地存储图片:将所有下载的图片转换成通用的格式（JPG）和模式（RGB）避免重新下载最近已经下载过...

2018-06-07 20:22:30 4574

原创 scrapy实战一：爬取boss直聘信息，存入mysql数据库

scrapy版本：1.5python版本：3.6系统：windows网站链接： www.zhipin.com1 创建项目CTRL+R 输入cmd打开DOS窗口，输入如下命令创建项目（可自定义项目位置）scrapy startproject job_demo 从图片中可以看到，你可以进入你的项目然后创建你的spidercd Job_demo新建spider蜘蛛scrapy genspider j...

2018-06-03 18:48:54 1681

原创 scrapy基本介绍及运行原理

Scrapy框架1 scrapy是用纯python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途广泛。2 用户只需要定制开发的几个模块就能轻松实现一个爬虫，用来抓取网页内容、图片。3 scrapy使用Twisted[twistrd]（其主要对手是tornado）异步网络框架来处理网络通讯可以加快下载速度，不用自己实现一部框架，并且包含了各种中间件可以灵活的完成各种的需求Scrapy...

2018-05-10 20:54:13 3368

原创 scrapy错误

版本：python3.6错误类型：ModuleNotFoundError: No module named 'win32api'原因：缺少模块 'win32api'解决方法：pip install pypiwin32

2018-05-03 15:09:47 277

转载 Xpath介绍及术语

什么是Xpathxpath是一门在XML文档中查找信息的语言Xpath是XSLT中的主要元素Xquery和XPointer均构建于Xpath表达式之上 XPath的特点1 XPath使用路径表达式在XML文档中进行导航2 XPath包含一个标准的函数库3 XPath是XSLT中的主要元素4 XPath是一个W3C标准 XPath路径表达式Xpath使用路径表达式来选取XML文档中的节点或者节点集...

2018-05-02 23:13:15 527

原创 kafka介绍及运行原理

什么是kafkakafka是一个开源流处理平台，由java和scala编写。是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。kafka的目的是通过hadoop的并行加载机制来同意线上和离线的消息处理，也是为了通过集群来提供实时的消息。简单的来说，它就是一个消息中间件，天然分布式、支持集群的，专注于数据吃的存放缓存的。相关术语broker（经纪人）：kafka服...

2018-04-30 17:21:19 370

原创 kafka安装及使用

准备kafka版本： kafka_2.11-1.1.0.tgz将kafka解压在opt目录下（opt为hadoop用户下的目录）tar -zxvf kafka_2.11-1.1.0.tgz -C opt/注意，此命令执行条件：我的kafka在hadoop主体目录下，而opt在hadoop目录下。启动服务器解压好后到,先进入kafka目录 cd kafka_2.11-1.1.0因为zookeepe...

2018-04-27 00:13:38 6718 3

原创 flume 如何连接hdfs

准备1 启动dfs2 关闭防火墙3 主目录下创建需要监控的文件夹连接hdfs在flume下的conf下创建a4.confvi conf/a4.test#注意，此命令在flume文件夹下编辑a4.conf#设置agent的source，sink，channela4.channels = c1a4.sinks = k1a4.sources =s1#设置sourcea4....

2018-04-26 21:21:15 2699

原创在spark中将数据插入HIVE表

在spark中将数据插入HIVE表用spark导入到HIVE中效率较高 1 创建数据集的spark D啊他Frames: TmpDF=spark.createDataFrame(RDD,schema) 这里schema是由StructFied函数定义的 2 将数据集的DataFra...

2018-04-26 16:19:04 50356 4

原创 flume简单介绍

什么是flume？ flume中文名是日志收集系统。由cloudera提供的一个分布式，高可靠，高可用的服务，用于分布式的海量日志的高效、收集聚合、移动系统，聚合和传输的系统是它的标志。简单的来说就是一个针对日志数据进行采集和汇总的工具，即把A移动到B。flume架构介绍 flume最简单的部署单元叫flume Agent，接收或生成数据并缓存数据知道最终写入到Agen...

2018-04-26 16:17:04 269

原创 HDFS的读写流程

HDFS写流程客户端发起写请求道namenode，namenode返回可使用的资源，客户端根据资源使用情况对要写入的数据分块，逐一上传块到datanode,datanode获取上传块数据并写入磁盘，完成后报告给namenode块信息，同时也告诉客户端写入成功，客户端继续后续快的写入，在此期间namenode接受到datanode的块写入完成信息之后根据备份数直到满1 首先客户端发起写请求到n...

2018-04-24 18:51:51 1015

原创单节点Flume部署

准备 Flume版本： apache-flume-1.8.0-bin.tar.gz 解压Flume: tar -zxvf apache-flume-1.8.0-bin.tar.gz配置文件在Flume的conf下创建新文件a1.conf 并作如下编辑#定义agent的source channel sinksa1.sources = sr1a1.chan...

2018-04-24 12:52:41 627

原创 sparkSQL和DataFrame的简单介绍

sparkSQL 1 spark中原生的RDD是没有数据结构的 2 对RDD的变换和操作是不能采用传统的SQL方法 3 sparkSQL应运而生并建立在shark上，伯克利实验室spark生态环境的组件之一 4 shark最初很大程度上以来HIVE图语法解析器，查询优化器等 5 改进的spark SQL框架摆脱了对HIVE的依赖性，所以无...

2018-04-22 16:06:47 1274

原创 hive安装及绑定mysql

准备版本：hive2.3.2解压hive 命令：tar -zxvf hive2.3.2解压好后，hive下conf需要一个hive-site.xml文件，hive目录中没有，需要复制hive-default.xml.template 为hive-site.xml 命令：cp hive-default.xml.template hive-site.sh设置hive环境变量进入hive...

2018-04-17 22:54:54 392

原创 hive 遇到的两个问题

其一，启动hive时报错如下：Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path原因：hive下的conf文件夹下的 hive-env.sh中HADOOP路径出现问题。解决方法：进入 hive下的conf文件夹,复制hive-env.sh....

2018-04-14 22:29:27 1546

原创 linux下安装MYSQL

准备MYSQL版本： mysql57-community-release-el7-11.noarch.rpm LINUX版本把安装包放在用户hadoop主目录下。安装MYSQL YUM仓库并安装安装mysql数据库：命令：rpm -Uvh mysql57-community-release-el7-11.noarch.rpm下载mysql yum仓库命令： yum ...

2018-04-14 15:10:50 183

原创如何删除inux系统中的mysql

今天刚接触在linux系统下安装mysql，结果犯了一个错误，导致无法获取临时密码，万般无奈，只能删除数据库。和平时的删除不同，需要先找到有多少个mysql包，然后再逐步删除。一：查找到mysql包查找命令： rpm -qa | grep -i mysql 二：删除mysql包接着删除找出的mysql文件。删除命令：rpm -ev 包名如果出...

2018-04-11 23:25:10 198

原创【VMware】无法连接 MKS: 套接字连接尝试次数太多：正在放弃。

博主今天早起，打开VMware的时候突然弹出：【VMware】无法连接 MKS: 套接字连接尝试次数太多：正在放弃。我也是第一次遇到这种问题，我尝试了很多种方法，甚至打算卸载重新安装。后来发现这是因为 VMware Authorization Service没有启动，需要手动启动才行。方法如下：进入计算机管理→控制面板→系统和安全→管理工具双击服务再启动VMware Author...

2018-04-08 10:35:35 234

原创 spark配置安装，和jupyter的安装

在配置之前，先准备好： spark-2.2.0-bin-hadoop2.7.tgz Anaconda3-5.1.0-Linux-x86_64.sh解压spark： tar -zxvf spark-2.2.0-bin-hadoop2.7配置spark环境： echo ...

2018-04-07 23:20:05 1535

原创 linux --centOS下构建hadoop集群（伪分布式)

创建用户及准备在构建hadoop之前，创建一个hadoop用户，并通过passwd hadoop给用户设置密码。接着使用su hadoop切换到hadoop用户:并且切换到主目录下创建一个dir 命名为opt。创建好了目录，上传两个压缩包至opt，分别是：---hadoop-2.7.5.tar.gz---jdk-8u152-linux-x64.tar.gztar -zxvf hadoop-2.7...

2018-04-01 10:11:16 149

原创 linux 基础

一创建用户名密码在登陆root用户后，会有这样一行代码：其中： root 代表登陆用户 localhost代表主机名 ~代表所在目录，为主目录 #是超级用户提示符，$代表普通用户在root 用户下使用 useradd [-m] + 用户名就可以创建用户名了。 -m代表创建主目录usera...

2018-03-23 00:31:58 102

原创如何用Django实现简易电子文档管理系统（2）

在上一篇文章中我们已经完成了增删改查中查询和删除的功能，本篇则是要实现的是如何增加和改变。下面我们就来实现如何修改内容。首先我们在html页面的操作中添加一项功能，修改。我们只需要在创建表的HTML里的操作栏中添加一个超链接，暂时不给它跳转的路径，这样打开网页，你就会发现，表格的操作栏中会出现修改一项啦。一定要给把id给带上，不然电脑不知道你要修改的是表格中的哪一行列表。接着我们就...

2018-03-11 23:00:26 1227

原创 blog如何上传图片

想要实现上传图片，首先我们得了解file标签。file标签可以很方便的实现文件长传的功能<html:form action="file.do" method="POST" enctype="multipart/form-data"> <html:file property="file"/><html:submit/>&amp

2018-03-08 15:01:51 1096

原创如何给项目添加富文本

在添加之前，我们要知道前台form和普通不上传的form的区别。form表单提交，要使用流的技术通讯。普通的form表单是以字符流的形式提交，提交的方式有POST和GET。而前台form表单是以字节流的形式通过POST提交的。默认的编码:enctype=' multipart/form-data ' method='poost'注意：这里的提交方式只有POST，并没有GET，所以如果提交方法 m...

2018-03-08 14:36:25 1044

原创如何用Django实现简易电子文档管理系统

这是一个简易的电子文档管理系统，可以实现通过下拉列表获取相应的文档资料，也可以删除文档。首先我们需要在models.py中写两个类一个是下拉列表中需要的内容，另一个则是form表单里需要的数据。接着我们需要进行数据迁移。如果我们直接进行数据迁移的话会报错，因为我们还没有在setting中配置。事实上，还有POST和PORT，因为在本机上进行操作，所以可以不用填写。实际上setting中我们还需要配...

2018-03-06 21:36:19 6847

原创 Django项目2

一，新建DjangoObject容器，bloguser命名。 1，完成settings.py的一些必要配置。数据库配置，PASSWORD写自己数据库的密码静态资源 2，templates里放HTML文件，要实现注册功能，我们首先要一个注册的HTML文件，取名为add.html。想要显示注册后的内容，我们得再添加一个显示页面，取名为show.html。编辑add.html，在form...

2018-03-01 17:49:01 177

原创 DJango 创作项目

工欲善其事必先利其器，我们在创作项目的时候，首先得了解这个项目的文件都有存在什么作用。manage.py ： Django项目里面的工具，通过它可以调用django shell和数据库等。pyblogsys/| --- settings.py ：包含了项目的默认设置，包括数据库信息，调试标志以及其他一些工作的变量。| --- urls.py ：负责把URL模式映射到应用程序。| --- w...

2018-02-28 10:37:08 190

原创数据库高级查询

1. EXISTS子查询语法： select ....... from 表名 where EXISTS（子查询）; 子查询有无返回结果：exists 子查询结果为TRUE 子查询无返回结果：exists 子查询结果为FALSE，外层查询不执行其实exists这个单词早就在我们新建表的时候就有了，那个语法是crea

2018-02-01 23:38:32 196

原创文件的输入和输入：open用法，file用法， pickle模块，os 用法

输出格式美化Python两种输出值的方式: 表达式语句和 print() 函数。第三种方式是使用文件对象的 write() 方法，标准输出文件可以用 sys.stdout 引用。如果你希望输出的形式更加多样，可以使用 str.format() 函数来格式化输出值。如果你希望将输出的值转成字符串，可以使用 repr() 或 str() 函数来实现。· Str()：函数返回一个用

2018-01-04 19:25:44 432

原创错误和异常

错误和异常Try：语句体except异常类型：处理语句except 异常类型：处理语句或Try:语句体except （异常类型1，异常类型2）：处理语句except Exception:#所有异常 except 异常类型 as 名称：Print(as)else:

2018-01-02 19:52:02 206

原创继承封装和多态

面向对象的三大特征：封装。继承。多态继承：子类继承父类，子类可以使用父类的属性和方法，简化代码当生成子类对象时，先初始化父类对象，如果父类有_init_()方法，并且有属性时，要通过子类的鼓噪赋值一个类可以有多个子类在子类中，调用匪类的属性时，在_init_（）方法中使用父类。属性或self.属性，调用父类方法时：super（）。父类方法（）

2018-01-02 19:51:22 252

原创 get set用法及自动销毁方法

Get（输出调用）/set（获取调用）方法：Set_money()Get_money()公共方法：私有方法：def___test():#前面两个— —，只能在当前类中使用以__开头访问修饰符：private(私有的)public（公共的）protected（受保护的）自动销毁方法：Def_test():只能在当前类中使用，以—

2018-01-02 19:49:47 308

原创 PYTHON之类和对象

类和对象类：具有想通过属性的方法的对象的集合对象：万物皆对象类和对象的关系：类的包含属性和方法：语法：calss类名：属性方法定义一个类：创建对象：属性写在类外的情况，就是通过对象.属性对象。方法（）的方式调用调用对象的方法：创建多个对象：classperson: def__init__(self,new_name,n

2017-12-26 22:51:42 252

原创 python基础之三种增，三种删之间的区别

今天突然学习def函数的时候突然想搞清楚增：insert extend和append三者之间的区别。1.insert，根据索引位置添加。例： list=[1,2,3] list1=[4,5,6] list.insert(list1) print(list)如果不给添加位置直接输入：则会发生错误:TypeError: i

2017-12-20 21:42:28 951

原创 python基础第三天

字符串字符串的一些用法：1 R：原样输出，如一些特殊的字符串、\n\t\c2 in 判断是否在字符串中存在3 Not in判断是否不再字符串中字符串中的一些函数：1 len() 求长度2 count(): str.count（“l”）返回有几个字符3 Capitalize（）：str.capitalize（），将字符串的第一个字符串大写4 Litle（）：

2017-12-19 23:27:49 130

原创 PYTHON基础第二篇

字符串字符串的一些用法：1 R：原样输出，如一些特殊的字符串、\n\t\c2 in 判断是否在字符串中存在3 判断是否不再字符串中字符串中的一些函数：1 len() 求长度2 count(): str.count（“l”）返回有几个字符3 Capitalize（）：str.capitalize（），将字符串的第一个字符串大写4 Litle（）：将每一个单词首字

2017-12-17 19:02:06 141

空空如也

空空如也