自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 资源 (6)
  • 收藏
  • 关注

原创 linux “<“ 会引发血案

关于Linux命令

2022-09-28 20:33:05 254 1

原创 本地上传文件到hdfs

本地上传文件到hdfs使用javaApi上传文件本地上传文件到hdfs使用javaApi上传文件import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public class PutHdfsFile { public static void main(String[] args) throws E

2021-09-08 17:14:06 1088

原创 Linux 实现远程ssh服务节点操作

背景:当我们拥有集群时,需要操作每台服务节点,用到shell脚本自动化去执行某些命令是程序员的第一选择。简单、快捷、方便。shell脚本实现,实现去每一台节点去安装python服务依赖的jar包。 cat scp_servicelib.sh#!/bin/bashnodes=$(cat ./other_nodes) for node in $nodes do echo $node ":" ss

2021-09-02 10:51:24 598

原创 HIVE2-hiveserver2 ConnectException 问题解决

背景:使用hive2本地生成excel文件,提供给项目经理;读取hive中的数据,生成excel文件该小程序一直在使用,但是由于服务器迁移,要更换链接serviceIp,以至于该问题的出现;异常ExceptionCaused by: org.apache.thrift.transport.TTransportException: java.net.ConnectException: Connection refused: connect at org.apache.thrift.transpo.

2020-11-17 15:53:46 874

原创 spark-hdfs问题解析

Spark程序读取hdfs中数据 java.io.IOException: Premature EOF reading from

2019-08-21 17:09:34 664

原创 linux 脚本 获取以某字符结尾的文件名

以系统当前时间为文件名获取当前文件夹下以“csv”结尾的文件名如果相同,则继续如不同,则将文件夹下的文件mv为系统命名的文件名#!/bin/bash//获取系统前一小时的时间currentime=`date -d -1hour +%Y%m%d_%H`echo $currentimefilename=${currentime}".csv"echo $filename//...

2019-01-10 16:10:50 4350

原创 【scala】获取当前时间的上一个自然周以及自然周集合;获取当前时间的上一个自然月以及自然月的第一天与最后一天

 获取当前时间的上一个自然周的开始时间:import java.text.SimpleDateFormatimport java.util.{Calendar, Date} def getLastWeek():String={ var list=List(("","","")) list = list.init var num = 7 ...

2018-12-20 14:18:11 2404

原创 java过滤非汉字的utf8的字符

java过滤非汉字的utf8的字符java将字符串转换为二进制

2018-12-03 14:18:55 1718

原创 combineByKey之Spark中一个比较核心高级函数

import org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext}/** * Created by Administrator on 2018/7/3. */object test { def main(args: Array[String]): Unit = { v...

2018-11-22 11:17:47 185

原创 SparkSql将数据源Hive中数据导入MySql实例

背景:能看到这篇博客的伙计儿,应该是充分理解了[理想是丰满的 现实是骨感]  这句名言了吧。为啥子这么说呢,那就是 不就是个SparkSql从hive导入到mysql吗 有什么技术含量,但是呢 不断地踩坑ing填坑ing。

2018-11-09 09:55:41 3672

原创 java.lang.NoSuchMethodError: org.apache.thrift.protocol.TProtocol.getScheme()Ljava/lang/Class;

背景:  java程序读取hive数据异常:  应该是包冲突Exception in thread "main" java.lang.NoSuchMethodError: org.apache.thrift.protocol.TProtocol.getScheme()Ljava/lang/Class; at org.apache.hive.service.cli.thrift....

2018-10-29 11:11:21 2575

原创 Linux 定时脚本crontab 中文乱码 编码格式转换

在linux下,利用定时脚本跑一个xx.jar,把结果输出到文件中。结果里面有中文,输出到文件后,显示为乱码。测试的时候发现,手动运行jar输出正常;用shell脚本运行输出正常;当使用定时脚本去跑的时候,输出就是乱码了。原因:因为Unix/Linux下使用crontab时的运行环境已经不是用户环境了,因此原本用户下的一些环境变量的设置就失效了。解决方法:只需要在脚本最

2018-01-25 13:44:52 730

原创 【java】获取当前时间currentTimeMillis()

现在小编要分享的是,获取当前时间,并且时间格式为yyyy-MM-dd HH:mm:ss。

2017-12-06 16:06:57 8615 1

原创 【java】org.xml.sax.SAXParseException;在实体引用中, 实体名称必须紧跟在 '&' 后面。解决方法

【java】org.xml.sax.SAXParseException;在实体引用中, 实体名称必须紧跟在 '&' 后面。解决方法

2017-11-15 16:45:27 27539

原创 scala正则表达式获取url的host

小编今天要分享的是,通过正则表达式获取url中的host, 在实际开发中这是很常用的,大家收好了。 代码:import java.util.regex.Pattern/** * Created by Administrator on 2017/9/26. */object UrlGeyHostTest { def main(args: Array[String]): Unit = {

2017-10-27 13:54:54 2056

原创 Jave将数据导出成ecxel表格

java-将数据导入到excel表格中

2017-10-26 15:38:31 333

原创 Sql查询语句将数据转换数据格式

小编今天要分享的是,通过Sql查询语句将数据转换成想要的数据格式banji表结构为:name scores subject张三 60 英语张三 82 数学张三 73 语文李四 74 数学李四 89 英语李四 90 语文tiyu表结构为:name scor

2017-10-26 14:46:27 4740

原创 【spark】编程代码,随笔记录

spark-yarn模式 –master yarn-cluster (只需在spark-submit执行时,添加参数)速度慢: 提升cores数(提升并行执行的task);使用spark-rdd,textFile基于本地系统,linux系统,路径格式简介: //hdfs单个文件夹 val onePath = "hdfs://100.38.101.2:9000//log/month=01

2017-10-17 10:15:00 285

原创 使用Java读取xlxs文件和写入txt文件,并将数据写入到本地文件

小编今天要给大家分享的是从xlxs文件中将数据读取出来,并将数据写入到本地txt文件中。 那么为啥有这个分享呢,来看看背景介绍: 背景:在实际开发中,通常会用到使用xlxs来提取业务的需求,同时在xlxs文件中会有大量的数据用于业务开发的使用中,应趋势所取,便有了现在这个分享。 好了,一起走进小编的代码,一个简单的小应用,解决手动导入的麻烦. 我要从xlxs中将数据取出,并将数据存放到有一定

2017-10-11 15:31:58 2248 1

原创 【spark】idea 手动添加设置参数

当你需要将项目打成jar在服务器上运行时, 当你需要动态的更改输入url时, 难道你还要每一次都去打包吗? 不,如今你不需要这样做了,使用java时,你有Scanner可以控制台输入参数, 同样的在scala中,你也是可以的。 下面来跟我一起去看一下吧!首先第一步:object StrTest { def main(args: Array[String]): Unit = {

2017-09-27 17:31:59 1445

原创 【spark】Exception 异常处理,随笔记录

spark-submit,日常错误整理。随时更新

2017-09-13 15:52:12 977

原创 【spark】spark-hive操作

hiveserver2hive on tez 1,创建maven项目,就hive-site.xml,core-size.xml,hdfs-site.xml放到项目resources下面2.spark-hive连接:package com.people.item/** * Created by Administrator on 2017/8/2

2017-09-13 13:52:44 1063

原创 scala 时间戳比较大小

scala,时间戳比较大小,三个参数:currentTime:String,starTime:String,endTime:String

2017-09-04 17:27:36 4488 2

原创 解决OplogThread: Failed during dump collection cannot recover!方案

在使用mongo-connector,同步mongodb与elasticsearch数据的时候

2017-07-12 14:45:18 4105 3

原创 Mongodb Failed: lost connection to server,导入大量数据报错

Mongodb Failed: lost connection to server。因为Mongo对单次处理好像有大小限制(16m)好像是,所以大文件会出问题,这应该是个Bug mongoimport 默认会10000条 为一个批量导入数据,但实际上单条数据太大了,每10000条导入一次肯定是不行的参数 --batchSize 可以指定每次批量导入的条数 设置小一些就OK了,可

2017-03-31 17:13:24 2193

原创 IDEA 下载svn仓库中的项目

上传了,当然要下载了。其实很简单,找到Repository,export就可以了。  看图

2017-03-30 11:45:59 1827

原创 Elasticsearch使用脚本处理Boolean类型字段

Elasticsearch中使用groovy脚本获取文档的bool字段值时,

2017-03-29 16:17:10 2448

原创 <java代码> 实现Unix时间戳(Unix timestamp)与普通时间 之间的相互转换

<java代码> 实现Unix时间戳(Unix timestamp)与普通时间 之间的相互转换

2017-03-27 16:01:48 1788

原创 Elasticsearch function_score函数之field_value_factor(字段值影响_score)

function_score之field_value_factor使用事注意事项,尤其是 你使用的field为一个多值字段或可丢失字段

2017-03-24 14:56:08 4430

原创 es function_score expected field name but got [START_OBJECT]

expected field name but got [START_OBJECT],这个异常代表的语句逻辑有问题查询语句有问题,你可以就你的部分语句放到一个查询中,进行检测

2017-03-23 17:09:13 4266

原创 elasticsearch创建mappingjavaAPi

elasticsearch ,mapping,javaapi

2017-03-14 11:35:39 1787

原创 MongoDB使用ObjectId作为_id字段值,简述ObjectId构造

ObjectId简介,转换ObjectId结构为时间戳,string

2017-03-10 11:41:06 2346

原创 <shell> mongodb查看某个字段的数据类型

mongodb,使用shell查看某个字段的数据类型

2017-03-08 13:50:33 14521 1

原创 <shell>MongoDB神奇命令,常用常用非常实用!

mongodb数据库shell操作常用命令

2017-03-07 19:14:39 1088

原创 .ElasticSearch的数据导入导出工具-ElasticDump,安装及使用

在linux上 安装,步骤如下:  1) yum install epel-release     2) yum install nodejs     3) yum install nodejs npm     4) npm install elasticdump  使用命令行:   1) cd node_modules/elasticdump/bin     2)

2017-03-06 17:36:33 5718

原创 Mongodb数据库导入数据到elasticsearch,mongo-connector实现mongodb与elastic数据同步

同步mongo与elasticsearch之间的数据

2017-03-06 17:30:51 961

原创 Linux查看已经安装的软件版本号/Python pip

linux 查看已安装软件的版本号

2017-03-06 17:13:20 9968

原创 MapReduce WordCount

package com.hadoop.mr;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io

2017-03-03 16:22:39 394

原创 Linux系统配置sudo

Linux配置 sudo,普通用户使用root权限,免密码使用

2017-03-03 16:10:04 311

原创 Linux nc安装

1.将该包上传到一个文件夹中2.进入该目录,执行命令:     rpm -ihv nc-1.84-22.el6.x86_64.rpm3.安装后执行命令,进行测试: nc --help

2017-03-03 15:55:44 529

Java导出成Excel表格所需jar包

Java导出成Excel表格所需jar包,不要再找了,下载了就好了

2017-10-26

Linux安装nc

Linux安装nc

2017-03-03

MapReduce--分布式计算框架

2017-02-24

idea同步代码到svn

对于玩惯了MyEclipse的人来说 从idea同步到svn是有些费劲的, 成功实例,供参考

2017-02-04

idea 同步到svn

idea 同步到svn

2017-02-04

hadoop初级

对于刚刚入门大数据的童鞋们, 大家先来搭建集群。

2017-01-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除