zzulikang-CSDN博客

原创 sqoop基本操作

导入数据导入到HDFS// \代表在shell窗口中换行bin/sqoop import \// 连接的url--connect jdbc:mysql://hadoop102:3306/mydb \// 用户名--username root \// 密码--password 123456 \// 要导哪个表的数据--table staff \// 将数据导入到hdfs的哪个路径--target-dir /company \// 如果目标目录存在就删除--delete-tar

2020-07-14 15:30:58 312

原创 Zookeeper的API案例

maven项目中的porn文件<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </dependency> <dependency> <groupId>org.apach

2020-07-12 21:39:51 284 1

原创第十一届蓝桥杯大赛软件类B组省赛题目（2020蓝桥杯）

2020-07-12 09:34:34 4893

原创 Flume企业面试题

怎么实现Flume数据传输的监控？使用第三方框架Ganglia实时监控Flume。Flume的Source，Sink，Channel的作用？你们Source是什么类型？1 作用1 Source组件是专门用于收集数据的，可以出来各种类型的数据，各种格式的日志数据，报告avro,exec,jms,spooling，directory,netcat,syslog,http,legacy2 Channel组件对采集到的数据进行缓存，可以存放在Memory或File中3 Sink组件是用于把数据发送到目的

2020-07-12 00:12:38 200

原创 Flume的安装和基本使用

安装部署1 将apache-flume-1.7.0-bin.tar.gz解压，2 将flume/conf下的flume-env.sh.template改为flume-env.sh，配置信息：export JAVA_HOME=/opt/module/jdk1.8.0_144flume手册案例一：监控端口数据（netcat为source，logger为sink）# example.conf: A single-node Flume configuration# Name the componen

2020-07-11 16:13:56 343

原创 Hadoop一些基本配置参数调优

HDFS参数调优hdfs-site.xmldfs.namenode.handler.count=20 * log2(Cluster Size)，比如集群规模为8台时，此参数设置为60YARN参数调优yarn-site.xmla）yarn.nodemanager.resource.memory-mb表示该节点上YARN可使用的物理内存总量，默认是8192（MB），注意，如果你的节点内存资源不够8GB，则需要调减小这个值，而YARN不会智能的探测节点的物理内存总量。b）yarn.scheduler.m

2020-07-10 14:53:37 164

原创 LZO创建索引

配置：使的hadoop支持LZO压缩1 将hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/，然后同步到集群2 core.xml添加配置信息，并且同步<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><property

2020-07-10 14:14:18 1139

原创 Shell工具

cutcut的工作就是“剪”，具体就是在文件中负责剪数据比如：cut -d " " -f 1 test.txt说明：将文件的每一行，以空格为分隔符，提取第一列数据sed流编辑器，简单说就是将数据一行一行从文件中取出，然后对其进行编辑，输出到控制台，不改变原文件案例：// 在第二行加入kan nv的字符串sed "2a kan nv" sed.txt // 删除所有kang的字符串sed '/kang/d' sed.txt// 替换（g表示全局替换）sed 's/wo/ni/g'

2020-07-10 14:08:21 202

原创从零开始的hadoop集群搭建

克隆虚拟机配置好的Linux虚拟机-> 管理 -> 克隆1 删除网卡，复制物理地址：vim /etc/udev/rules.d/70-persistent-net.rules删除eht0的那一行，将下一行的eth0改为eth1**2 配置网络：**vim /etc/sysconfig/network-scripts/ifcfg-eth0(删除UUID)IPADDR=192.168.1.101 设置ipONBOOT=yesNM_CONTROLLED=yesB00TPROTO

2020-07-07 22:56:37 1141

原创 RDD行动算子

reduce函数说明：聚集RDD中所有元素，先聚合分区内数据，然后聚合分区间数据val reduceResult: Int = rdd.reduce(_+_)collect函数说明：以数组Array的形式返回数据集的所有元素rdd.collect().foreach(println)count返回RDD元素的个数val countResult: Long = rdd.count()first函数说明：返回RDD中的第一个元素take函数说明：返回一个由RDD的前n个元素组成的数

2020-07-04 00:57:08 597 1

原创 rdd案例：排行的top3计算

需求：统计出每一个省份每个广告被点击数量排行的Top3package com.baidu.exerimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject Top3 { def main(args: Array[String]): Unit = { // 1516609143867 6 7 64 16 // 时间戳省份城市用户广告 val

2020-07-03 17:39:57 587

原创 Spark中RDD转换算子以及案例

1 Spark核心编程Spark计算框架为了能对数据进行高并发和搞吞吐的处理，封装了三大数据结构，分别是：RDD：弹性分布式数据集累加器：分布式共享只写变量广播变量：分布式共享只读变量1.1 RDD代表是一个弹性的，不可变，可分区，里面的元素可并行计算的集合弹性：存储的弹性：内存与磁盘的自动切换容错的弹性：数据丢失可以自动修复计算的弹性：计算出错重试机制分片的弹性：可根据需要重新分片分布式：数据存储在大数据集群不同节点上数据集： RDD封装了计算逻辑，并不保存数据数据抽象：

2020-07-03 15:29:17 618

原创 Spark中核心组件的基本知识

1 运行架构Spark框架的核心是一个计算引擎，采用标准的master-slave的结构，图中的Driver表示master，负责整个集群的作业任务调度，Executor则是slave，负责实际执行任务2 核心组件2.1 DriverSpark驱动器节点，用于执行Spark任务中的main方法，负责实际代码的执行工作简单理解就是Driver是驱使整个应用运行起来的程序2.2 Executor是工作节点中的JVM进程，负责具体任务，如果有Executor节点发生故障或者崩溃，会讲出错任务调度

2020-06-25 17:03:53 587

原创 Spark部署

1 Spark概述Spark是一种基于内存的快速，通用，可扩展的大数据分析计算引擎1.1 核心模块Spark Core：提供了Spark最基础与最核心的功能Spark SQL：是Spark用来操作结构化数据的组件。通过Spark SQL，用户可以使用SQL或者Apche Hive版本的HQL来查询数据Spark Streaming：Spark Streaming是Spark平台上针对实时数据进行流式计算的组件，提供了丰富的处理数据流的APISpark MLlib：一个机器学习算法库。不仅

2020-06-25 10:57:11 167

原创 Scala知识点

变量和数据类型数据类型Scala是完全面向对象的语言，只有任意值对象（AnyVal）和任意引用对象（AnyRef）类型转换强制类型转换var a : Int = 10Var b : Byte = a.toByte流程控制for循环1，基本语法object ScalaLoop { def main(args: Array[String]): Unit = { for ( i <- Range(1,5) ) { // 范围集合 p

2020-06-24 00:21:02 212

原创将图片合成PDF

https://blog.csdn.net/weixin_42081389/article/details/100734926import img2pdfimport osdef from_photo_to_pdf(photo_path): # 1、生成地址列表 photo_list = os.listdir(photo_path) photo_list = [...

2020-02-03 01:04:57 334

原创 linux配置知识点

mac地址位置vim /etc/udev/rules.d/70-persistent-net.rules(删除第一个PCI,改网卡为eth0，复制mac地址)修改ip位置vim /etc/sysconfig/network-scripts/ifcfg-eth0修改本机名vim /etc/sysconfig/network修改映射表vim /etc/hosts...

2020-01-15 01:32:51 135

原创 hadoop完全分布式（云服务器版）

使用的是三台云服务器，两台腾讯云，一台华为云，使用的系统为centos6.8遇到的坑有点多，所以记录下来，防止自己忘记，也给大家一个参考前期准备hadoop和jdk的tar解压jdk和hadoop的环境变量配置vim /etc/profile##JAVA_HOMEexport JAVA_HOME=/opt/module/jdk1.8.0_144export PATH=$PA...

2019-12-11 12:09:34 266

原创 Linux版Mysql的使用

首先下载server和client的rpm文件安装客户端rpm -ivh MySQL-client-5.5.54-1.linux2.6.x86_64.rpm安装服务器端rpm -ivh MySQL-server-5.5.54-1.linux2.6.x86_64.rpm注意：安装服务器端可能会出现yum安装了旧版本的GPG keys造成的不成功用此指令：rpm -ivh MySQL...

2019-12-01 16:48:21 118

原创利用IDEA自动部署tomcat项目

2019-11-30 17:04:48 760

原创本地的tomcat项目部署到服务器上（腾讯云，阿里云，华为云）

本测试的案例用的IDEA编写的，tomcat版本为8.5.49，jdk为11（注意，jdk版本太低会出现问题，servlet写的代码不能运行，只能显示静态的界面【不知道什么原因，需要继续的寻找】）第一步，将项目导出为war包file -> Project Structure ->Artifacts->[你的项目名]:war在服务器上安装jdk11和tomcat服务器...

2019-11-30 14:52:54 2524

原创 eclipse中没有javaEE的透视图

1.在Eclipse中菜单help选项中选择install new software选项2.在work with 栏中输入 Juno - http://download.eclipse.org/releases/juno3.拉到后面选择Web, XML, Java EE and OSGi Enterprise Development选项，然后选择 Eclipse Java EE Dev...

2019-09-04 10:50:30 13466 4

原创配置centos的mongodbl数据库的一些坑

远程连接的时候，配置信息要非常注意，包括设置远程的绑定的IP改为全局，配置的时候网上很多的设置安全验证都有问题因加上（不然会出现重启失败）security: authorization: enabledsetParameter: authenticationMechanisms: SCRAM-SHA-1连接的时候，要保证你的用户和数据库的一致性（初学者设置的时候），不然会...

2019-08-30 21:03:30 251

原创 anoconda实现python2与3的快速切换

确保本身已经安装了anconda中python3的版本，并且已经设置好了环境变量然后切换到cmd模式下，执行conda create -n python27 python=2.7 anaconda安装好以后，执行切换命令activate python27回退到python3命令deactivate python27python27为版本号，也可以使用其他版本号...

2019-08-28 19:19:55 189

原创 gevent的基本使用

import geventimport timefrom gevent import monkeymonkey.patch_all()def kang(): for i in range(5): print(i) time.sleep(5)def dong(url): print(url) # time.sleep(2)if...

2019-08-24 13:53:30 1621

原创 selenium的基本使用

导模块import selenium # 测试框架from selenium import webdriver #模拟浏览器调用浏览器操作driver = selenium.webdriver.Firefox() #调用driver.get(url) # 向服务器发行请求driver.page_source #（界面来源）注意不是一个成员函数，而是一个变量，返回页面的h...

2019-08-24 13:49:46 88

原创 json使用loads时出现json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes

最好的方法是先用dumps进行编码。json.dumps(): 对数据进行编码。json.loads(): 对数据进行解码。import jsonimport redata1 = { "no": 1, "name": "Runoob", "url": "http://www.runoob.com"}json_str = json.dumps(data1)...

2019-08-24 13:49:11 5274 2

原创 selenium中OSError: [WinError 6] 句柄无效。

可以先选择关闭driver的时候，使用driver.quit()代替 driver.close()close：只会关闭焦点所在的当前窗口quit：会关闭所有关联的窗口所以推荐使用quit 。

2019-08-23 15:37:08 1392

原创 python 测试框架selenium不能调用的问题

selenium3.x开始需要在python的运行目录增加一个程序： geckodriver.exe装在你的python运行目录下github链接：https://github.com/mozilla/geckodriver/releases然后启动就可以了...

2019-08-23 15:22:56 603 1

原创 vim 设置tab为四个空格

1.打开（新建）Vim配置文件：vim ~/.vimrc2.在Vim配置文件中添加：set ts=4set sts=4set expandtab

2019-08-23 14:11:50 163

原创解决远程访问阿里云的mysql服务器问题

解决不能远程访问mysql的问题首先需要开放阿里云的安全组端口：mysql的默认端口是3306,在控制台添加安全组规则，使的3306的端口开放然后把mysql上的配置改一下，使他能接受连接不然会出现：1130 - Host XXX is not allowed to connect to this MySQL servermysql -uroot -p密码show databas...

2019-08-22 13:07:49 137

原创 mysql的密码问题（You must reset your password using ALTER USER statement before executing this statement.）

刚安装时的初始密码grep "password" /var/log/mysqld.log 2019-08-20T13:32:53.895624Z 1 [Note] A temporary password is generated for root@localhost: x?f<u<kpk9Fy可以用这个密码开始登陆mysql登陆以后需要马上更改密码，不然会报错alt...

2019-08-22 11:32:09 1639

原创阿里云centos安装MySQL

用于下次出问题时安装安装教程：https://www.cnblogs.com/jepson6669/p/9013652.html密码设置方案https://www.cnblogs.com/codeman-hf/p/9836425.html

2019-08-20 21:55:51 76

原创 hdu1269 迷宫城堡

Problem Description为了训练小希的方向感，Gardon建立了一座大城堡，里面有N个房间(N<=10000)和M条通道(M<=100000)，每个通道都是单向的，就是说若称某通道连通了A房间和B房间，只说明可以通过这个通道由A房间到达B房间，但并不说明通过它可以由B房间到达A房间。Gardon需要请你写个程序确认一下是否任意两个房间都是相互连通的，即：对于任意的i和j...

2019-08-12 19:24:04 95

原创 146. 【NOIP2015】信息传递

146. 【NOIP2015】信息传递有 nn 个同学（编号为 11 到 nn ）正在玩一个信息传递的游戏。在游戏里每人都有一个固定的信息传递对象，其中，编号为 ii 的同学的信息传递对象是编号为 TiTi 的同学。游戏开始时，每人都只知道自己的生日。之后每一轮中，所有人会同时将自己当前所知的生日信息告诉各自的信息传递对象（注意：可能有人可以从若干人那里获取信息，但是每人只会把信息告诉一个人...

2019-08-12 18:37:20 155

转载 ubuntu网易云打不开

输入命令：sudo gedit /usr/share/applications/netease-cloud-music.desktop然后就有一个被打开的文件，找到Exec一项，在%U前添加–no-sandbox注意，前后都要有空格。如图：...

2019-07-24 21:00:10 388

原创笔趣网小说试爬

import requestsfrom lxml import etreeurl = "http://www.cits0871.com/booktxt/20768/"file_name = '第一序列.txt'res = requests.get(url).content.decode('gbk')content = etree.HTML(res)url = content.xpat...

2019-06-14 16:45:21 2898

转载 python中docx模板合并多个word文档

转载链接：https://stackoverflow.com/questions/24872527/combine-word-document-using-python-docxfrom docx import Document# 合并文档的列表files = ['1.docx', '2.docx']#合并操作def combine_word_documents(files): ...

2019-06-14 14:54:04 10743 1

原创奈氏准则和香农公式

影响失真的程度的因素- 码元的传输速率- 信号的传输距离- 噪声干扰- 传输媒体质量- 码间串扰- 接收端收到的信号失去了码元之间清晰界限的现象奈氏准则：- 在理想低通（无噪声，带宽受限）条件下，为了避免码间串扰，极限码元传输速率为2W Baud，W是信道带宽，单位是Hz。- 公式：理想低通信道下的极限数据传输率=2Wlog2V（b/s）香农定理（也称奈奎斯特定理）:-...

2019-05-19 12:15:36 15594 3

转载 python第三方库mssql

连接sql server数据库#服务器名,账户,密码,数据库名connect = pymssql.connect('DESKTOP-2THAEPB\ZZULI', 'sa', 'zzuli427898', 'zzuli')cursor = connect.cursor() # 创建一个对象sql = "insert into test (pro)values('103')" # 往tex...

2019-05-18 11:04:12 323

空空如也

空空如也