搬砖快乐～-CSDN博客

本地上传文件到hdfs使用javaApi上传文件本地上传文件到hdfs使用javaApi上传文件import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public class PutHdfsFile { public static void main(String[] args) throws E

2021-09-08 17:14:06 1088

原创 Linux 实现远程ssh服务节点操作

背景：当我们拥有集群时，需要操作每台服务节点，用到shell脚本自动化去执行某些命令是程序员的第一选择。简单、快捷、方便。shell脚本实现，实现去每一台节点去安装python服务依赖的jar包。 cat scp_servicelib.sh#!/bin/bashnodes=$(cat ./other_nodes) for node in $nodes do echo $node ":" ss

2021-09-02 10:51:24 598

原创 HIVE2-hiveserver2 ConnectException 问题解决

背景：使用hive2本地生成excel文件，提供给项目经理；读取hive中的数据，生成excel文件该小程序一直在使用，但是由于服务器迁移，要更换链接serviceIp，以至于该问题的出现；异常ExceptionCaused by: org.apache.thrift.transport.TTransportException: java.net.ConnectException: Connection refused: connect at org.apache.thrift.transpo.

2020-11-17 15:53:46 874

原创 spark-hdfs问题解析

Spark程序读取hdfs中数据 java.io.IOException: Premature EOF reading from

2019-08-21 17:09:34 664

原创 linux 脚本获取以某字符结尾的文件名

以系统当前时间为文件名获取当前文件夹下以“csv”结尾的文件名如果相同，则继续如不同，则将文件夹下的文件mv为系统命名的文件名#!/bin/bash//获取系统前一小时的时间currentime=`date -d -1hour +%Y%m%d_%H`echo $currentimefilename=${currentime}".csv"echo $filename//...

2019-01-10 16:10:50 4350

原创【scala】获取当前时间的上一个自然周以及自然周集合；获取当前时间的上一个自然月以及自然月的第一天与最后一天

获取当前时间的上一个自然周的开始时间：import java.text.SimpleDateFormatimport java.util.{Calendar, Date} def getLastWeek():String={ var list=List(("","","")) list = list.init var num = 7 ...

2018-12-20 14:18:11 2404

原创 java过滤非汉字的utf8的字符

java过滤非汉字的utf8的字符java将字符串转换为二进制

2018-12-03 14:18:55 1718

原创 combineByKey之Spark中一个比较核心高级函数

import org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext}/** * Created by Administrator on 2018/7/3. */object test { def main(args: Array[String]): Unit = { v...

2018-11-22 11:17:47 185

原创 SparkSql将数据源Hive中数据导入MySql实例

背景：能看到这篇博客的伙计儿，应该是充分理解了[理想是丰满的现实是骨感] 这句名言了吧。为啥子这么说呢，那就是不就是个SparkSql从hive导入到mysql吗有什么技术含量，但是呢不断地踩坑ing填坑ing。

2018-11-09 09:55:41 3672

原创 java.lang.NoSuchMethodError: org.apache.thrift.protocol.TProtocol.getScheme()Ljava/lang/Class;

背景： java程序读取hive数据异常：应该是包冲突Exception in thread "main" java.lang.NoSuchMethodError: org.apache.thrift.protocol.TProtocol.getScheme()Ljava/lang/Class; at org.apache.hive.service.cli.thrift....

2018-10-29 11:11:21 2575

原创 Linux 定时脚本crontab 中文乱码编码格式转换

在linux下，利用定时脚本跑一个xx.jar，把结果输出到文件中。结果里面有中文，输出到文件后，显示为乱码。测试的时候发现，手动运行jar输出正常；用shell脚本运行输出正常；当使用定时脚本去跑的时候，输出就是乱码了。原因：因为Unix/Linux下使用crontab时的运行环境已经不是用户环境了，因此原本用户下的一些环境变量的设置就失效了。解决方法：只需要在脚本最

2018-01-25 13:44:52 730

原创【java】获取当前时间currentTimeMillis（）

现在小编要分享的是，获取当前时间，并且时间格式为yyyy-MM-dd HH:mm:ss。

2017-12-06 16:06:57 8615 1

原创【java】org.xml.sax.SAXParseException;在实体引用中, 实体名称必须紧跟在 '&' 后面。解决方法

【java】org.xml.sax.SAXParseException;在实体引用中, 实体名称必须紧跟在 '&' 后面。解决方法

2017-11-15 16:45:27 27539

原创 scala正则表达式获取url的host

小编今天要分享的是，通过正则表达式获取url中的host，在实际开发中这是很常用的，大家收好了。代码：import java.util.regex.Pattern/** * Created by Administrator on 2017/9/26. */object UrlGeyHostTest { def main(args: Array[String]): Unit = {

2017-10-27 13:54:54 2056

原创 Jave将数据导出成ecxel表格

java-将数据导入到excel表格中

2017-10-26 15:38:31 333

原创 Sql查询语句将数据转换数据格式

小编今天要分享的是，通过Sql查询语句将数据转换成想要的数据格式banji表结构为：name scores subject张三 60 英语张三 82 数学张三 73 语文李四 74 数学李四 89 英语李四 90 语文tiyu表结构为：name scor

2017-10-26 14:46:27 4740

原创【spark】编程代码，随笔记录

spark-yarn模式 –master yarn-cluster （只需在spark-submit执行时，添加参数）速度慢：提升cores数（提升并行执行的task）；使用spark-rdd，textFile基于本地系统，linux系统，路径格式简介： //hdfs单个文件夹 val onePath = "hdfs://100.38.101.2:9000//log/month=01

2017-10-17 10:15:00 285

原创使用Java读取xlxs文件和写入txt文件,并将数据写入到本地文件

小编今天要给大家分享的是从xlxs文件中将数据读取出来，并将数据写入到本地txt文件中。那么为啥有这个分享呢，来看看背景介绍：背景：在实际开发中，通常会用到使用xlxs来提取业务的需求，同时在xlxs文件中会有大量的数据用于业务开发的使用中，应趋势所取，便有了现在这个分享。好了，一起走进小编的代码，一个简单的小应用，解决手动导入的麻烦. 我要从xlxs中将数据取出，并将数据存放到有一定

2017-10-11 15:31:58 2248 1

原创【spark】idea 手动添加设置参数

当你需要将项目打成jar在服务器上运行时，当你需要动态的更改输入url时，难道你还要每一次都去打包吗？不，如今你不需要这样做了，使用java时，你有Scanner可以控制台输入参数，同样的在scala中，你也是可以的。下面来跟我一起去看一下吧！首先第一步：object StrTest { def main(args: Array[String]): Unit = {

2017-09-27 17:31:59 1445

原创【spark】Exception 异常处理，随笔记录

spark-submit，日常错误整理。随时更新

2017-09-13 15:52:12 977

原创【spark】spark-hive操作

hiveserver2hive on tez 1，创建maven项目，就hive-site.xml，core-size.xml,hdfs-site.xml放到项目resources下面2.spark-hive连接：package com.people.item/** * Created by Administrator on 2017/8/2

2017-09-13 13:52:44 1063

原创 scala 时间戳比较大小

scala，时间戳比较大小，三个参数：currentTime:String,starTime:String,endTime:String

2017-09-04 17:27:36 4488 2

原创解决OplogThread: Failed during dump collection cannot recover!方案

在使用mongo-connector，同步mongodb与elasticsearch数据的时候

2017-07-12 14:45:18 4105 3

原创 Mongodb Failed: lost connection to server，导入大量数据报错

Mongodb Failed: lost connection to server。因为Mongo对单次处理好像有大小限制（16m）好像是，所以大文件会出问题,这应该是个Bug mongoimport 默认会10000条为一个批量导入数据，但实际上单条数据太大了,每10000条导入一次肯定是不行的参数 --batchSize 可以指定每次批量导入的条数设置小一些就OK了，可

2017-03-31 17:13:24 2193

原创 IDEA 下载svn仓库中的项目

上传了，当然要下载了。其实很简单，找到Repository，export就可以了。看图

2017-03-30 11:45:59 1827

原创 Elasticsearch使用脚本处理Boolean类型字段

Elasticsearch中使用groovy脚本获取文档的bool字段值时，

2017-03-29 16:17:10 2448

原创 <java代码> 实现Unix时间戳(Unix timestamp)与普通时间之间的相互转换

<java代码> 实现Unix时间戳(Unix timestamp)与普通时间之间的相互转换

2017-03-27 16:01:48 1788

原创 Elasticsearch function_score函数之field_value_factor（字段值影响_score）

function_score之field_value_factor使用事注意事项，尤其是你使用的field为一个多值字段或可丢失字段

2017-03-24 14:56:08 4430

原创 es function_score expected field name but got [START_OBJECT]

expected field name but got [START_OBJECT],这个异常代表的语句逻辑有问题查询语句有问题，你可以就你的部分语句放到一个查询中，进行检测

2017-03-23 17:09:13 4266

原创 elasticsearch创建mappingjavaAPi

elasticsearch ,mapping,javaapi

2017-03-14 11:35:39 1787

原创 MongoDB使用ObjectId作为_id字段值，简述ObjectId构造

ObjectId简介，转换ObjectId结构为时间戳，string

2017-03-10 11:41:06 2346

原创 <shell> mongodb查看某个字段的数据类型

mongodb，使用shell查看某个字段的数据类型

2017-03-08 13:50:33 14521 1

原创 <shell>MongoDB神奇命令，常用常用非常实用！

mongodb数据库shell操作常用命令

2017-03-07 19:14:39 1088

原创 .ElasticSearch的数据导入导出工具-ElasticDump，安装及使用

在linux上安装，步骤如下： 1) yum install epel-release 2) yum install nodejs 3) yum install nodejs npm 4) npm install elasticdump 使用命令行： 1) cd node_modules/elasticdump/bin 2)

2017-03-06 17:36:33 5718

原创 Mongodb数据库导入数据到elasticsearch，mongo-connector实现mongodb与elastic数据同步

同步mongo与elasticsearch之间的数据

2017-03-06 17:30:51 961

原创 Linux查看已经安装的软件版本号/Python pip

linux 查看已安装软件的版本号

2017-03-06 17:13:20 9968

原创 MapReduce WordCount

package com.hadoop.mr;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io

2017-03-03 16:22:39 394

原创 Linux系统配置sudo

Linux配置 sudo，普通用户使用root权限，免密码使用

2017-03-03 16:10:04 311

原创 Linux nc安装

1.将该包上传到一个文件夹中2.进入该目录，执行命令： rpm -ihv nc-1.84-22.el6.x86_64.rpm3.安装后执行命令，进行测试： nc --help

2017-03-03 15:55:44 529

Java导出成Excel表格所需jar包

Linux安装nc

MapReduce--分布式计算框架

idea同步代码到svn

idea 同步到svn

hadoop初级

空空如也