- 博客(36)
- 收藏
- 关注
原创 spark与elasticsearch整合netty冲突
因为不是maven项目,所以有maven的解决方法没有效果,因此试了这个方法,的确解决了这个版本冲突的异常https://blog.csdn.net/u011376439/article/details/101269232
2019-10-21 11:34:27 284
转载 Spark运行问题
问题一ERROR storage.DiskBlockObjectWriter: Uncaught exception while reverting partial writes to file /hadoop/application_1415632483774_448143/spark-local-20141127115224-9ca8/04/shuffle_1_1562_27java...
2019-09-10 11:03:44 581
转载 shell脚本高效轮询某文件夹
基本概念:Inotify 是一个 Linux特性,它监控文件系统操作,比如读取、写入和创建。Inotify 反应灵敏,用法非常简单,并且比 cron 任务的繁忙轮询高效得多。Inotify:#include <stdio.h>#include <string.h>#include <stdlib.h>#include <sys/inoti...
2019-04-03 20:01:12 2071
转载 Java高效轮询某文件夹
有三种方式:1、java common.io 内部实现是遍历的方式,小文件夹的效率还好,比如我测试60G的目录,就很慢很慢了。2、jdk 7 的watch service //经测试基本不可用。在一个40g的很深的目录下去新建和删除文件5分钟都没结果。主要原因是需要对每一个Path进行注册监控。3、jnotify 直接调用windows的api...
2019-04-03 19:54:42 1528
原创 根据经纬度计算两点距离的Java计算方式
不多说,直接上代码public class LocationUtils { private static double EARTH_RADIUS = 6378.137; private static double rad(double d) { return d * Math.PI / 180.0; } /** * 通过经纬度获取距...
2019-03-13 20:12:58 1453
原创 Nodejs时间格式
获取标准时间格式的时、分、秒函数:Date.prototype.format = function (fmt) { var o = { "M+": this.getMonth() + 1, //月份 "d+": this.getDate(), //日 "h+": thi...
2019-03-11 15:05:37 1321
原创 Node.js定时函数
//定时任务进行数据更新var schedule = require('node-schedule');//引入定时模块var rule = new schedule.RecurrenceRule();var times = [];for (var i = 0; i < 60; i += 5) { //每隔5min运行 times.p...
2019-02-28 09:49:23 221
原创 Memleak测试Node.js内存泄漏
内存泄漏(Memory Leak)是指程序中己动态分配的堆内存由于某种原因程序未释放或无法释放,造成系统内存的浪费,导致程序运行速度减慢甚至系统崩溃等严重后果。因此我们需要排查一切可能导致内存泄漏的原因。下载地址:https://sourceforge.net/projects/memleak/解压后文件内容:这是一个用C语言写的一个测试工具包,memleak.h中提供的方法都是以...
2019-02-28 09:43:10 275
原创 HBase神优化
高可用在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载,如果 Hmaster 挂掉了,那么整个 HBase 集群 将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以 HBase 支持对 Hmaster 的高可用配置。zookeeper优化session.timeout设置为30秒预分区每一个reg...
2019-01-21 16:06:14 74
原创 Spark Streaming--背压机制
背压机制默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > batch interval的情况,其中batch processing time 为实际计算一个批次花费时间, batch interval为Streaming应用设置的批处理间隔。这意味着Spark Streaming的...
2019-01-21 16:05:53 2300
原创 Spark SQL--执行模式
DSL风格语法scala> val peopleDF = rdd.map{x => val strs=x.split(",");People(strs(0),strs(1).trim.toInt)}.toDFpeopleDF: org.apache.spark.sql.DataFrame = [name: string, age: int]scala> peopleDF...
2019-01-04 15:32:56 386
原创 Spark RDD--数据类型转换
将RDD,DataFrame,DataSet之间进行互相转换RDD -》 DataFrame 直接手动转换 scala> val people = spark.read.json("/opt/apps/Spark/spark-2.2.2-bin-hadoop2.7/examples/src/main/resources/people.json")people: org.ap...
2019-01-04 15:32:07 9082
原创 Spark RDD--1 WordCount
简单的WordCount用scala编写(用的本地模式)package com.jiangnan.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object ScalaWordCount { def main(args: Array[String]): U...
2019-01-04 15:31:34 395
原创 Spark RDD--2 计算日志相关数据
需求:日志格式:IP 命中率 响应时间 请求时间 请求方法 请求URL 请求协议 状态吗 响应大小 referer 用户代理1、计算每一个IP的访问次数(114.55.227.102,9348) 2、计算每一个视频访问的IP数视频:141081.mp4 独立IP数:2393 3、统计每小时CDN的流量00时 CDN流量=14G 计算方案:(注释部分为分布执行,未注释部...
2019-01-04 15:30:41 340
原创 Spark SQL--商品订单案例
需求统计所有订单中每年的销售单数、销售总额 统计每年最大金额订单的销售额 统计每年最畅销货品(哪个货品销售额amount在当年最高,哪个就是最畅销货品)我们首先需要在scala里连接hive,然后创建这三个表,导入数据。创建以及导入数据与操作Hive一致。在Spark SQL中,可以完全接管Hive,一切操作都可以在spark中实现。主要是将Hive的一个配置文件hive-site....
2019-01-04 15:29:50 1305
原创 Spark RDD-DataFrame-DataSet三者异同
三者的共性RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利 三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算,极端情况下,如果代码里面有创建、转换,但是后面没有在Action中使用对应的结果,在执行时会被直接跳过. 三者都会根据spark的内存情况自动...
2019-01-04 15:28:34 752
原创 Hive优化
Fetch 抓取Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如: SELECT * FROM student;在这种情况下,Hive 可以简单地读取 student 对应的存储目录下 的文件,然后输出查询结果到控制台。 hive.fetch.task.conversion属性的设置 该属性默认为 more 以后,在全局查找、字段查找、limit ...
2019-01-04 15:28:10 78
原创 Spark Streaming--3 Spark 与 Kafka集成
引入jar包依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.11</artifactId> <version>${spark.version}</versio...
2019-01-02 17:19:11 385
原创 Spark Streaming--2 自定义数据源
通过继承Receiver,并实现onStart、onStop方法来自定义数据源采集。需要自己开一个sockect,,然后输入内容。nc -lk master 8888package com.jiangnan.sparkimport java.io.{BufferedReader, InputStreamReader}import java.net.Socketimport o...
2019-01-02 17:18:54 621 2
原创 Spark Streaming--1 文件默认数据源
文件数据流:能够读取所有HDFS API兼容的文件系统文件,通过fileStream方法进行读取 Spark Streaming 将会监控 dataDirectory 目录并不断处理移动进来的文件,记住目前不支持嵌套目录。文件需要有相同的数据格式 文件进入 dataDirectory的方式需要通过移动或者重命名来实现。 一旦文件移动进目录,则不能再修改,即便修改了也不会读取...
2019-01-02 17:18:40 183
原创 Spark Streaming--Update
例如各大商城实时显示数据的案例:package com.jiangnan.sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object TestStreamUpdate extends App { //配置对象 val con...
2019-01-02 17:18:21 127
原创 Spark Streaming--开窗函数over()
over()开窗函数 在使用聚合函数后,会将多行变成一行,而开窗函数是将一行变成多行; 并且在使用聚合函数后,如果要显示其他的列必须将列加入到group by中,而使用开窗函数后,可以不使用group by,直接将所有信息显示出来。 开窗函数适用于在每一行的最后一列添加聚合函数的结果。 开窗函数作用 为每条数据显示聚合信息.(聚合函数() over()) ...
2019-01-02 17:17:52 1967
原创 Spark--Storm 对比
对比对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 实时计算延迟度 毫秒级 秒级 吞吐量 低 高 事务机制 支持完善 支持,但不够完善 健壮性 / 容错性 ZooKeeper,Acker,非常强...
2018-12-27 18:58:53 145
原创 Spark集群安装
集群角色两个Master(类似于Hadoop中的yarn ,ResourceManager),多个worker安装步骤1. 解压[root@master Spark]# tar -zxvf spark-2.2.2-bin-hadoop2.7.tgz2. 修改文件名[root@master conf]# mv spark-env.sh.template spark-env...
2018-12-27 18:58:25 104
原创 Hadoop2.7.6集群搭建
首先,搭建的准备工作:Linux(CentOS)、xshell、至少8G内存。创建几个虚拟机,一主多从,每一个创建的时候,在最后安装前的设置里面,设置网络和主机名的两个地方,一个是IPv4那里,设置好IP地址,端口号和网关;还有一个是在常规那里勾选上第一个。每一个创建完,都要检测是否能够联网。同时检查一下网卡设置,命令为:vi /etc/sysconfig/network-scripts/if...
2018-12-27 18:57:49 314
原创 Spark SQL--UDAF函数
需求:需要通过继承 UserDefinedAggregateFunction 来实现自定义聚合函数。案例:计算一下员工的平均工资弱类型聚合函数:package com.jiangnan.sparkimport org.apache.spark.SparkConfimport org.apache.spark.sql.{Row, SparkSession}import org.apa...
2018-12-27 18:57:22 296
原创 Storm--kafka集成
Bolt1:package com.jiangnan.storm.kafka;import java.util.HashMap;import java.util.Map;import java.util.Map.Entry;import org.apache.storm.task.OutputCollector;import org.apache.storm.task.Topo...
2018-12-27 18:56:51 106
原创 Hadoop-Hive常用,命令
查看数据库show databases;进入到某个数据库use default;展示有哪些表show tables;不进入Hive的命令行窗口就可以执行SQL语句[root@master test]# hive -f hive-seclet.sqlhive (default)> quit;hive (default)> exit;exit:先提交数据,然后退出 quit:不提...
2018-08-13 23:29:00 11
原创 Hive安装教程
为了方便操作Hive的服务端和客户端均安装在master节点上下载地址:http://mirrors.hust.edu.cn/apache/hive/上传并解压 1 #创建Hive目录 2 [root@master ~]# mkdir /opt/SoftWare/Hive 3 #进入到Hive目录 4 [root@master ~]# cd /opt/SoftWare/Hive...
2018-08-11 16:02:00 16
原创 虚拟机的创建
打开虚拟机,点击创建新的虚拟机:选择自定义(高级):点击下一步:点击下一步,这里千万注意:选择“稍后安装操作系统”:点击下一步,选择Linux(L),版本CentOS 7 64位:点击下一步,填写虚拟机名称以及位置:接着点击下一步,处理器数量等都设置为1即可:点击下一步,选择内存大小,该大小适合自己内存大小即可,这里选择1G:点击下一...
2018-07-27 19:14:31 167
原创 设计模式之简单工厂模式
Java的设计模式足足有24种之多,他们的产生增强了代码的灵活性,也提高了代码的优雅度,重点是他们的作用及其强大。今天开始给大家陆续的讲述部分重要的设计模式,尽量用简单明了的方式给大家阐述一下。首先,我们需要一个产品的抽象类public abstract class INoodles { public abstract void desc();} 接着选择具体的产品类,分别...
2018-07-21 16:38:35 103
原创 用户登录状态的监听
用户登录状态的检验。&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&
2018-07-20 23:17:09 3842
原创 Java常用基础API
简介Java 的API(API: Application(应用) Programming(程序) Interface(接口))Java API就是JDK中提供给我们使用的类,这些类将底层的代码实现封装了起来,我们不需要关心这些类是如何实现的,只要会使用即可。在JDK安装目录下有个src.zip文件,这个文件解压缩后里面的内容是所有Java类的源文件。可以在其中查看相对应的类的源码。1 ...
2018-07-20 19:58:58 1476
原创 SSH框架搭建主要流程
1.创建一个动态web项目接着点击next,勾选自动生成web.xml选项,最后点击finish。2.在WEB-INF的lib文件夹中导入必备的jar包,包括spring、struts以及hibernate的jar包:spring相关jar包:struts相关jar包:hibernate相关jar包:其中尤其注意不能忘记classmate-1.3.4.jar...
2018-07-17 22:47:46 3573 2
原创 Struts和SpringMVC的区别
简单明了的提及一下两者的主要区别:SpringMVC:<form action="register.do" method="post"> <label>姓名</label><input type = "text" name = "name"><br> <l
2018-07-16 21:29:05 365
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人