自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 IDEA之spring mvc 环境搭建

参考:https://blog.csdn.net/weixin_44411569/article/details/91379483用于记录Maven 项目通过Maven构建项目配置项目名称以及路径配置Maven环境创建完成之后的内容创建项目文件夹分别创建用来存放代码的文件夹java和资源文件的文件夹resources配置jar包在pom中加入spring的版本号和常用jar包(下有常用库名称), 填写完毕之后刷新maven代码片段

2021-03-19 16:22:25 331

原创 python操作excel

读取excel 首先导入包xlrdimport xlrd # 用来读取excel打开excelworkBook = xlrd.open_workbook(r'xj.xlsx') # 打开文件获取表workBook.sheet_names() # 获取excel中所有的sheet表>>> ['Sheet1', '净持仓', '保税区库...

2018-08-29 15:09:13 352

原创 记录itchat

登录微信: 1. itchat.login() # 每次都扫码登录 2. itchat.auto_login(hotReload=True) # 保存登录状态会在本地生成一个itchat.pkl文件,下次登录需要扫码 3. itchat.auto_login(hotReload=True, loginCallback=lc, exitCallback=ex) ...

2018-07-31 15:09:27 1477 1

原创 selenium

 关于selenium和phantomjs:降低selenium的版本原因 新版本将不再支持phantomjs,所以安装之前的版本pip install selenium==3.4.3使用火狐无头或者谷歌无头火狐无头配置from selenium.webdriver.firefox.options import Optionsoptions = Optio...

2018-07-24 11:33:20 273

原创 Fidder抓取app

fidder 点击下载夜神模拟器 点击下载工作原理fiddler是基于代理来实现抓取网络数据包的工作的,当我们开启fiddler以后,fiddler会将我们的浏览器的代理默认进行更改为 127.0.0.1 端口是8888,这时fiddler的默认端口,也就是说我们发送的每一个请求和收到的每一个响应都会先经过fiddler,这样就实现了抓取数据包的工作。Fiddler 设置解密...

2018-07-21 16:45:54 591

原创 数据可视化之pyechats

安装:pip install pyechats或者pip install --index https://mirrors.ustc.edu.cn/pypi/web/simple/ notebook使用:from pyecharts import Bar# 创建图表bar = Bar('标题','副标题')# 添加数据bar.add('阿玛尼',['褂子','短裤',...

2018-07-20 14:38:46 1162

原创 PIL图像处理之ImageDraw与ImageFont

from PIL import Image,ImageDraw首先创建一个图片或者打开一个图片blank = Image.new("RGB",[1024,768],"white")创建一个可用来Image操作的对象(必须)drawObj = ImageDraw.Draw(blank)直线# 创建一个正方形。 [x1,x2,y1,y2]或者[(x1,x2),(y1...

2018-07-20 11:00:51 17220

原创 PIL图像处理之Image

导入需要的图像库:from PIL import Image 读取图片:im=Image.open('test.jpg')显示图片:im.show()# 会直接打开保存图片:#保存图像为gif格式im.save("cat.gif","GIF")#保存图像为jpg格式im.save("cat.gif","JPEG")#保存图像为png格式im.sa...

2018-07-19 18:23:10 3401

原创 PIL图像处理之ImageFilter

安装:pip install pillow改变图片大小:from PIL import Imageim = Image.open('cat.png')# 获得尺寸w,h = im.size# 改变尺寸 + - * // 都可以im.thumbnail((w//2,h//2))im.save('yes1.png','png')图像的滤波ImageFiter:B...

2018-07-19 18:03:56 7693 1

原创 爬虫之随机User-Agent

常用的User-AgentChrome"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1","Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTM...

2018-07-18 12:43:43 6562 1

原创 python多进程

在python中大部分情况需要使用多进程,那么这个包就叫做 multiprocessing。 通过它可以很检点的完成单进程到并发执行的转换。multiprocessing支持子进程、通信和共享数据、执行不同形式的同步,提供了Process、Queue、Pipe、Lock等组件。 Process在multiprocessing中,每一个进程都用一个Process类来表示...

2018-07-18 12:31:27 342

原创 python日志模块logging

日志记录框架:    1. logger 我们在进行日志记录时创建的对象,我们可以调用它的方法传入日志模版和信息,生成log Record    2. log Record 生成的一条条记录    3. Handler 处理日志的类,将log record 输出到指定的路径    4. Formatter 格式化,每一个log Record都是一个对象,我们需要将他格式化.通过Forma...

2018-07-17 18:18:55 535

原创 PrettyTable模块

from prettytable import PrettyTabl 创建表设置字段# 创建一个表table = PrettyTable()# 设置字段table.field_names = ['id','name','age']# 创建一个表有,并设置字段table = PrettyTable(['id','name','age']) 添加数据# 添加一行数...

2018-07-17 14:57:10 1868

原创 怎么使用python来发送邮件

    众所周知SMTP是发送邮件的协议,POP3是接收邮件的协议    因为在python中内置了对SMTP的支持,所以通过它可以发送纯文本的邮件,html邮件和带附件的邮件。    在python中支持SMTP的模块有email和smtplib,其中email负责构造邮件,smtplib负责发送邮件。发送纯文本邮件one:from email.mime.text import...

2018-07-17 13:27:53 1426 2

原创 git 环境配置及常用命令

错误如下:git push origin masterssh: Could not resolve hostname ssh.github.com: Name or service not knownfatal: Could not read from remote repository.Please make sure you have the correct access rights...

2018-07-12 16:04:14 825

原创 kafka的介绍和安装配置

Apache Kafka是分布式发布-订阅消息系统,是一个消息中间件框架,是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。基本框架:    它的架构包括以下组件:1、话题(Topic):是特定类型的消息流。消息是字节的有效负载(Payload),话题是消息的分类名或种子(Feed)名;2、生产者(Producer):是能够发布消息到话题的任何对象;3、服务代理(Broke...

2018-04-26 20:38:02 431

转载 hdfs的高可用

HDFS的架构体系HDFS采用了主从模式(集中式管理)主:     1. Namenode 只有一个,它存在一个缺陷(单点故障).    2. 它是记录集群情况和集群文件存储的元数据    3. 解决缺陷方式:              a. 高可用方式,制作一个副Namenode ,这个副Namenode可不是SecondNamenode,            b. 俩个namenode的功能...

2018-04-24 21:08:51 562

原创 HDFS的读写文件流程

HDFS写流程:    客户端要向HDFS写数据,首先要和namenode进行通信来获得接受文件块(block)的datanode,然后客户端将按顺序将block逐个传到响应的datanode上,并由接收block的datanode负责像其他的datanode复制block的副本写入步骤详解:    1. 客户端向namenode请求上传文件, namenode检查目标文件是否存在,夫目录是否存在...

2018-04-24 21:06:08 538

原创 flume的介绍以及配置

关于Flume的介绍Flume 是一个日志收集系统 :        Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。是HADOOP生态圈的一个组件,主要应用与实时数据的流方式,比如一旦有某事件触发可以将实时的日志数据发向HADOOP文件系统HDFS中,   Flume可以将数量庞大的数据从各项数据资源集中起来存储的工具/服务,或数集中机制,所以它还有较强的缓冲作用,   ...

2018-04-24 18:16:30 507

原创 linux 里安装mysql与hive

mysql安装:1. 首先准备一个文件MySQL yum 仓库:附链接:点击打开链接下载好之后将它上传到linux里面2. 接着输入执行命令:rpm -Uvh mysql57-community-release-el7-11.noarch.rpm 3. 仓库安装好之后进行安下载安装mysql:yum install mysql-community-server -y4. 开启mysql:syste...

2018-04-22 22:57:21 2802 1

转载 spark sql 的介绍

        Spark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。SchemaRDDs由行对象组成,行对象拥有一个模式(scheme)来描述行中每一列的数据类型。SchemaRDD与关系型数据库中的表很相似。可以通过存在的RDD、一个Parquet文件、一个JSON数据库或者对存储在Apache Hiv...

2018-04-22 19:01:02 293

原创 pysaprk的使用

首先你要保证你已经安装成功了python和spark附连接:             pyspark的安装与配置              hadoop的安装要想使用pyspark 需要先开启hadoop:start-dfs.sh接着在命令框输入:jupyter-notebook -- ip 192.168.50.88 Jupyter Notebook(此前被称为 IPython noteboo...

2018-04-22 18:17:28 734

原创 pyspark的安装与配置

我们从pyspark就可以看出来 是python与spark俩者的结合,所以我们就需要在vm里面安装python,和spark第一步:    准备python此时的python 即 Anaconda 为一个.sh文件可以直接运行:bash Anaconda3-5.1.0-Linux-x86_64.sh当你运行后会发现有一个提示:    它是指当前没有安装bzip2,所以我们需要安装bzip2,不要...

2018-04-22 17:11:40 6872 1

原创 pyspark里面RDD的操作

RDD类型:    1. 并行集合(Parallelized Collections): 来自于分布式化的数据对象,比如用户自己键入的数据    2. 文件系统数据集: Hadoop Datasets 或文本文件,比如通过SparkContext.textFile()读取的数据因为RDD的俩种不同类型,所以我们使用文件有不同方式    1. 并行化集合是通过调用SparkContext的paral...

2018-04-10 17:54:34 33714 4

原创 spark的介绍和pyspark的使用

从这个名字pyspark就可以看出来,它是由python和spark组合使用的.相信你此时已经电脑上已经装载了hadoop,spark,python3.那么我们现在开始对pyspark进行了解一番(当然如果你不想了解直接往下翻找pyspark的使用):1. 背景:    产生与加州大学伯克利分校AMP实验室,2013年6月称为Apache成为孵化项目,使用Scala语言进行实现的,而Scala建立...

2018-03-31 23:42:34 97514 7

原创 hadoop启动集群的免密码登陆设置

当我们要启动集群的时候,需要一指输入密码,这样下来是不是很费劲呢,不过跟着我设置了以后就不用发愁了步骤:1.进入到当前使用hadoop的用户主体目录里面,通过ll -a 先查看一下2.输入 ssh localhost 3.此时再ll -a一下会发现里面多了一个隐藏文件.ssh4.进入这个文件夹 cd .ssh5.输入 ssh-keygen -t rsa         --> 遇到提示一直按...

2018-03-25 22:25:37 5184 2

原创 hadoop里面的dataname没用启动的解决方法

首先查看存namenode元数据和datanode元数据的路径 current的VERSIONfind / -name current --> 通过查找可以找到,此时存储的路径                cd进入这俩个文件夹中分别找到VERSION文件,查看俩个的clusterID是否一样    如果不一样将俩个修改成一样的之后重启集群就好了    原因是:执行多次namenod...

2018-03-25 22:09:03 2106

原创 Hadoop伪分布式搭建

准备工作:     这一点很重要就相当于lol 前期不发育,后期再秀也没用,所以必须要好好的配置    设置静态ip 与主机名    附链接: https://blog.csdn.net/dxyna/article/details/79678277    安装hadoop 并进行环境配置:    附环境配置链接:  https://blog.csdn.net/dxyna/article/detai...

2018-03-24 22:58:45 458

原创 linux里面的常用命令

下面是一些常用的命令以及解释1. 查看网卡:ifconfig 2. 查看当前路径:pwd 3. 查看当前目录里面的所有文件:ls 4. 以列表的方式查看:ll -alh       a) ll 列表的方式显示文件的信息 形同于 ls -l       b) 后面加-a 显示全部文件包括隐藏的文件     c) 如果后面再加-h 那么就是用来显示大小 并给文件大小一个合适的单位      d) 这些...

2018-03-24 20:39:28 556

原创 centos7修改主机名字

两种方法:第一种:        vi hosthome                  将里面的localhost.localdomain 修改为你的名字        vi hosts                 在里面添加 你的ip地址和主机名                        比如:192.168.50.99 python2第二种:        hostnamectl ...

2018-03-24 16:44:13 1985

原创 linux 配置静态ip

1.当我们在linux里面输入ifconfig时候会出现下图    这个里面包含了ip地址 网卡等信息    但我们要配置的时静态ip ,就是不随着时间改变而改变的IP地址    我们可以在我们的虚拟机里面的编辑里面的虚拟网络编辑器里面找到网关地址192.168.50.0    另外我们也可以在命令窗口里面输入route 查询到2.整理静态ip                 192.168.10...

2018-03-24 16:11:23 5243

原创 vm虚拟机 centos7配置java与hadoop环境

1.下载java的jdk文件,将其解压到linux里面    我这里是解压到用户hadoop里面的opt文件夹里面    解压的方式为 tar -zxvf jdk-8u152-linux-x64.tar.gztar -zxvf hadoop-2.7.5.tar.gz  2.你要把它配置到哪里 这里分为全局的和局部的        /etc/profile : 在登录时,操作系统定制用户环境时使用...

2018-03-24 15:04:23 1663

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除