自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

敬风尘

认真学习

  • 博客(41)
  • 收藏
  • 关注

原创 sqoop基本操作

导入数据导入到HDFS// \代表在shell窗口中换行bin/sqoop import \// 连接的url--connect jdbc:mysql://hadoop102:3306/mydb \// 用户名--username root \// 密码--password 123456 \// 要导哪个表的数据--table staff \// 将数据导入到hdfs的哪个路径--target-dir /company \// 如果目标目录存在就删除--delete-tar

2020-07-14 15:30:58 312

原创 Zookeeper的API案例

maven项目中的porn文件<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </dependency> <dependency> <groupId>org.apach

2020-07-12 21:39:51 284 1

原创 第十一届蓝桥杯大赛软件类B组省赛题目(2020蓝桥杯)

2020-07-12 09:34:34 4893

原创 Flume企业面试题

怎么实现Flume数据传输的监控?使用第三方框架Ganglia实时监控Flume。Flume的Source,Sink,Channel的作用?你们Source是什么类型?1 作用1 Source组件是专门用于收集数据的,可以出来各种类型的数据,各种格式的日志数据,报告avro,exec,jms,spooling,directory,netcat,syslog,http,legacy2 Channel组件对采集到的数据进行缓存,可以存放在Memory或File中3 Sink组件是用于把数据发送到目的

2020-07-12 00:12:38 200

原创 Flume的安装和基本使用

安装部署1 将apache-flume-1.7.0-bin.tar.gz解压,2 将flume/conf下的flume-env.sh.template改为flume-env.sh,配置信息:export JAVA_HOME=/opt/module/jdk1.8.0_144flume手册案例一:监控端口数据 (netcat为source,logger为sink)# example.conf: A single-node Flume configuration# Name the componen

2020-07-11 16:13:56 343

原创 Hadoop一些基本配置参数调优

HDFS参数调优hdfs-site.xmldfs.namenode.handler.count=20 * log2(Cluster Size),比如集群规模为8台时,此参数设置为60YARN参数调优yarn-site.xmla)yarn.nodemanager.resource.memory-mb表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。b)yarn.scheduler.m

2020-07-10 14:53:37 164

原创 LZO创建索引

配置:使的hadoop支持LZO压缩1 将hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/,然后同步到集群2 core.xml添加配置信息,并且同步<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><property

2020-07-10 14:14:18 1139

原创 Shell工具

cutcut的工作就是“剪”,具体就是在文件中负责剪数据比如:cut -d " " -f 1 test.txt说明:将文件的每一行,以空格为分隔符,提取第一列数据sed流编辑器,简单说就是将数据一行一行从文件中取出,然后对其进行编辑,输出到控制台,不改变原文件案例:// 在第二行加入kan nv的字符串sed "2a kan nv" sed.txt // 删除所有kang的字符串sed '/kang/d' sed.txt// 替换(g表示全局替换)sed 's/wo/ni/g'

2020-07-10 14:08:21 202

原创 从零开始的hadoop集群搭建

克隆虚拟机配置好的Linux虚拟机-> 管理 -> 克隆1 删除网卡,复制物理地址:vim /etc/udev/rules.d/70-persistent-net.rules删除eht0的那一行,将下一行的eth0改为eth1**2 配置网络:**vim /etc/sysconfig/network-scripts/ifcfg-eth0(删除UUID)IPADDR=192.168.1.101 设置ipONBOOT=yesNM_CONTROLLED=yesB00TPROTO

2020-07-07 22:56:37 1141

原创 RDD行动算子

reduce函数说明:聚集RDD中所有元素,先聚合分区内数据,然后聚合分区间数据val reduceResult: Int = rdd.reduce(_+_)collect函数说明:以数组Array的形式返回数据集的所有元素rdd.collect().foreach(println)count返回RDD元素的个数val countResult: Long = rdd.count()first函数说明:返回RDD中的第一个元素take函数说明:返回一个由RDD的前n个元素组成的数

2020-07-04 00:57:08 597 1

原创 rdd案例:排行的top3计算

需求:统计出每一个省份每个广告被点击数量排行的Top3package com.baidu.exerimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject Top3 { def main(args: Array[String]): Unit = { // 1516609143867 6 7 64 16 // 时间戳 省份 城市 用户 广告 val

2020-07-03 17:39:57 587

原创 Spark中RDD转换算子以及案例

1 Spark核心编程Spark计算框架为了能对数据进行高并发和搞吞吐的处理,封装了三大数据结构,分别是:RDD:弹性分布式数据集累加器:分布式共享只写变量广播变量:分布式共享只读变量1.1 RDD代表是一个弹性的,不可变,可分区,里面的元素可并行计算的集合弹性:存储的弹性:内存与磁盘的自动切换容错的弹性:数据丢失可以自动修复计算的弹性:计算出错重试机制分片的弹性:可根据需要重新分片分布式: 数据存储在大数据集群不同节点上数据集: RDD封装了计算逻辑,并不保存数据数据抽象:

2020-07-03 15:29:17 618

原创 Spark中核心组件的基本知识

1 运行架构Spark框架的核心是一个计算引擎,采用标准的master-slave的结构,图中的Driver表示master,负责整个集群的作业任务调度,Executor则是slave,负责实际执行任务2 核心组件2.1 DriverSpark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作简单理解就是Driver是驱使整个应用运行起来的程序2.2 Executor是工作节点中的JVM进程,负责具体任务,如果有Executor节点发生故障或者崩溃,会讲出错任务调度

2020-06-25 17:03:53 587

原创 Spark部署

1 Spark概述Spark是一种基于内存的快速,通用,可扩展的大数据分析计算引擎1.1 核心模块Spark Core:提供了Spark最基础与最核心的功能Spark SQL:是Spark用来操作结构化数据的组件。通过Spark SQL,用户可以使用SQL或者Apche Hive版本的HQL来查询数据Spark Streaming:Spark Streaming是Spark平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的APISpark MLlib:一个机器学习算法库。不仅

2020-06-25 10:57:11 167

原创 Scala知识点

变量和数据类型数据类型Scala是完全面向对象的语言,只有任意值对象(AnyVal)和任意引用对象(AnyRef)类型转换强制类型转换var a : Int = 10Var b : Byte = a.toByte流程控制for循环1, 基本语法object ScalaLoop { def main(args: Array[String]): Unit = { for ( i <- Range(1,5) ) { // 范围集合 p

2020-06-24 00:21:02 212

原创 将图片合成PDF

https://blog.csdn.net/weixin_42081389/article/details/100734926import img2pdfimport osdef from_photo_to_pdf(photo_path): # 1、生成地址列表 photo_list = os.listdir(photo_path) photo_list = [...

2020-02-03 01:04:57 334

原创 linux配置知识点

mac地址位置vim /etc/udev/rules.d/70-persistent-net.rules(删除第一个PCI,改网卡为eth0,复制mac地址)修改ip位置vim /etc/sysconfig/network-scripts/ifcfg-eth0修改本机名vim /etc/sysconfig/network修改映射表vim /etc/hosts...

2020-01-15 01:32:51 135

原创 hadoop完全分布式(云服务器版)

使用的是三台云服务器,两台腾讯云,一台华为云,使用的系统为centos6.8遇到的坑有点多,所以记录下来,防止自己忘记,也给大家一个参考前期准备hadoop和jdk的tar解压jdk和hadoop的环境变量配置vim /etc/profile##JAVA_HOMEexport JAVA_HOME=/opt/module/jdk1.8.0_144export PATH=$PA...

2019-12-11 12:09:34 266

原创 Linux版Mysql的使用

首先下载server和client的rpm文件安装客户端rpm -ivh MySQL-client-5.5.54-1.linux2.6.x86_64.rpm安装服务器端rpm -ivh MySQL-server-5.5.54-1.linux2.6.x86_64.rpm注意:安装服务器端可能会出现yum安装了旧版本的GPG keys造成的不成功用此指令:rpm -ivh MySQL...

2019-12-01 16:48:21 118

原创 利用IDEA自动部署tomcat项目

2019-11-30 17:04:48 760

原创 本地的tomcat项目部署到服务器上(腾讯云,阿里云,华为云)

本测试的案例用的IDEA编写的,tomcat版本为8.5.49,jdk为11(注意,jdk版本太低会出现问题,servlet写的代码不能运行,只能显示静态的界面【不知道什么原因,需要继续的寻找】)第一步,将项目导出为war包file -> Project Structure ->Artifacts->[你的项目名]:war在服务器上安装jdk11和tomcat服务器...

2019-11-30 14:52:54 2524

原创 eclipse中没有javaEE的透视图

1.在Eclipse中菜单help选项中选择install new software选项2.在work with 栏中输入 Juno - http://download.eclipse.org/releases/juno3.拉到后面选择Web, XML, Java EE and OSGi Enterprise Development选项,然后选择 Eclipse Java EE Dev...

2019-09-04 10:50:30 13466 4

原创 配置centos的mongodbl数据库的一些坑

远程连接的时候,配置信息要非常注意,包括设置远程的绑定的IP改为全局,配置的时候网上很多的设置安全验证都有问题因加上(不然会出现重启失败)security: authorization: enabledsetParameter: authenticationMechanisms: SCRAM-SHA-1连接的时候,要保证你的用户和数据库的一致性(初学者设置的时候),不然会...

2019-08-30 21:03:30 251

原创 anoconda实现python2与3的快速切换

确保本身已经安装了anconda中python3的版本,并且已经设置好了环境变量然后切换到cmd模式下,执行conda create -n python27 python=2.7 anaconda安装好以后,执行切换命令activate python27回退到python3命令deactivate python27python27为版本号,也可以使用其他版本号...

2019-08-28 19:19:55 189

原创 gevent的基本使用

import geventimport timefrom gevent import monkeymonkey.patch_all()def kang(): for i in range(5): print(i) time.sleep(5)def dong(url): print(url) # time.sleep(2)if...

2019-08-24 13:53:30 1621

原创 selenium的基本使用

导模块import selenium # 测试框架from selenium import webdriver #模拟浏览器调用浏览器操作driver = selenium.webdriver.Firefox() #调用driver.get(url) # 向服务器发行请求driver.page_source #(界面来源) 注意不是一个成员函数,而是一个变量,返回页面的h...

2019-08-24 13:49:46 88

原创 json使用loads时出现json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes

最好的方法是先用dumps进行编码。json.dumps(): 对数据进行编码。json.loads(): 对数据进行解码。import jsonimport redata1 = { "no": 1, "name": "Runoob", "url": "http://www.runoob.com"}json_str = json.dumps(data1)...

2019-08-24 13:49:11 5274 2

原创 selenium中OSError: [WinError 6] 句柄无效。

可以先选择关闭driver的时候 , 使用driver.quit()代替 driver.close()close:只会关闭焦点所在的当前窗口quit:会关闭所有关联的窗口所以推荐使用quit 。

2019-08-23 15:37:08 1392

原创 python 测试框架selenium不能调用的问题

selenium3.x开始需要在python的运行目录增加一个程序: geckodriver.exe装在你的python运行目录下github链接:https://github.com/mozilla/geckodriver/releases然后启动就可以了...

2019-08-23 15:22:56 603 1

原创 vim 设置tab为四个空格

1.打开(新建)Vim配置文件:vim ~/.vimrc2.在Vim配置文件中添加:set ts=4set sts=4set expandtab

2019-08-23 14:11:50 163

原创 解决远程访问阿里云的mysql服务器问题

解决不能远程访问mysql的问题首先需要开放阿里云的安全组端口:mysql的默认端口是3306,在控制台添加安全组规则,使的3306的端口开放然后把mysql上的配置改一下,使他能接受连接不然会出现:1130 - Host XXX is not allowed to connect to this MySQL servermysql -uroot -p密码show databas...

2019-08-22 13:07:49 137

原创 mysql的密码问题(You must reset your password using ALTER USER statement before executing this statement.)

刚安装时的初始密码grep "password" /var/log/mysqld.log 2019-08-20T13:32:53.895624Z 1 [Note] A temporary password is generated for root@localhost: x?f<u<kpk9Fy可以用这个密码开始登陆mysql登陆以后需要马上更改密码,不然会报错alt...

2019-08-22 11:32:09 1639

原创 阿里云centos安装MySQL

用于下次出问题时安装安装教程:https://www.cnblogs.com/jepson6669/p/9013652.html密码设置方案https://www.cnblogs.com/codeman-hf/p/9836425.html

2019-08-20 21:55:51 76

原创 hdu1269 迷宫城堡

Problem Description为了训练小希的方向感,Gardon建立了一座大城堡,里面有N个房间(N<=10000)和M条通道(M<=100000),每个通道都是单向的,就是说若称某通道连通了A房间和B房间,只说明可以通过这个通道由A房间到达B房间,但并不说明通过它可以由B房间到达A房间。Gardon需要请你写个程序确认一下是否任意两个房间都是相互连通的,即:对于任意的i和j...

2019-08-12 19:24:04 95

原创 146. 【NOIP2015】信息传递

146. 【NOIP2015】信息传递有 nn 个同学(编号为 11 到 nn )正在玩一个信息传递的游戏。在游戏里每人都有一个固定的信息传递对象,其中,编号为 ii 的同学的信息传递对象是编号为 TiTi 的同学。游戏开始时,每人都只知道自己的生日。之后每一轮中,所有人会同时将自己当前所知的生日信息告诉各自的信息传递对象(注意:可能有人可以从若干人那里获取信息, 但是每人只会把信息告诉一个人...

2019-08-12 18:37:20 155

转载 ubuntu网易云打不开

输入命令:sudo gedit /usr/share/applications/netease-cloud-music.desktop然后就有一个被打开的文件,找到Exec一项,在%U前添加–no-sandbox注意,前后都要有空格。如图:...

2019-07-24 21:00:10 388

原创 笔趣网小说试爬

import requestsfrom lxml import etreeurl = "http://www.cits0871.com/booktxt/20768/"file_name = '第一序列.txt'res = requests.get(url).content.decode('gbk')content = etree.HTML(res)url = content.xpat...

2019-06-14 16:45:21 2898

转载 python中docx模板合并多个word文档

转载链接:https://stackoverflow.com/questions/24872527/combine-word-document-using-python-docxfrom docx import Document# 合并文档的列表files = ['1.docx', '2.docx']#合并操作def combine_word_documents(files): ...

2019-06-14 14:54:04 10743 1

原创 奈氏准则和香农公式

影响失真的程度的因素- 码元的传输速率- 信号的传输距离- 噪声干扰- 传输媒体质量- 码间串扰- 接收端收到的信号失去了码元之间清晰界限的现象奈氏准则:- 在理想低通(无噪声,带宽受限)条件下,为了避免码间串扰,极限码元传输速率为2W Baud,W是信道带宽,单位是Hz。- 公式:理想低通信道下的极限数据传输率=2Wlog2V(b/s)香农定理(也称奈奎斯特定理):-...

2019-05-19 12:15:36 15594 3

转载 python第三方库mssql

连接sql server数据库#服务器名,账户,密码,数据库名connect = pymssql.connect('DESKTOP-2THAEPB\ZZULI', 'sa', 'zzuli427898', 'zzuli')cursor = connect.cursor() # 创建一个对象sql = "insert into test (pro)values('103')" # 往tex...

2019-05-18 11:04:12 323

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除