- 博客(140)
- 资源 (3)
- 收藏
- 关注
原创 DataGrip问题总结
一、时区问题:datagrip在连接阿里云的MaxCompute和Hologres的时候均存在时区问题,具体解决方式如下1)Hologres兼容PostgreSQL语法,解决方式参照PostgreSQL增加如下配置:-Duser.timezone=Asia/Shanghai同时可以在PostgreSQL驱动上也增加如下配置,这样在新增PostgreSQL数据源时就可以自动带出该参数,省的每次都要修改2)MaxCompute可以在url连接后边增加如下参数:&usePro.
2022-04-08 18:51:36 3726 1
原创 【二】hive存储格式实测
【一】基于Faker创建hive数据的相关测试_小小北漂-CSDN博客在之前的博客中基于faker库创建了测试文件,这里我们对该测试问题进行简单的测试。一、hdfs切分block首先将文件上传到hdfs上,打印文件在hdfs上的分布信息如下:root@ubdi-hdp101 python]# ls -l|grep data-rw-r--r-- 1 root root 698319658 Oct 22 09:36 data.txt[root@ubdi-hdp101 python]#[r
2021-12-02 17:08:18 539
原创 hdp3.1.5 ambari自定义组件重启报错问题
ambari默认是无法管理elasticsearch和flink的,在网上能搜到相关的第三方自定义组件。es自定义组件安装参考链接:ElasticAmbari/README.md at master · ChengYingOpenSource/ElasticAmbari · GitHubflink自定义组件安装参考链接:Ambari 2.7.5安装Flink1.13.2_韦不二的博客-CSDN博客但是在实际使用的过程中发现上述两个自定义组件都存在一个共同的问题,每次如果重启服务的时候都会报错
2021-11-26 11:21:55 4012
原创 hive3 acid引起的spark和presto报错的问题,以及无法使用自定义函数问题
在hdp3.1.5中hive3中内部表默认开启了acid,当spark和presto创建和读取内部表的时候会报错,网上建议的方式是舍弃掉acid特性hive.strict.managed.tables=false hive.create.as.insert.only=false metastore.create.as.acid=false对应hdp的配置如下:重新hive服务后确实可以生效,但是这样在使用hive的c...
2021-11-26 10:39:19 1762
原创 【一】基于Faker创建hive数据的相关测试
一、Faker库的使用介绍python中有个专门生成各种测试数据的库Faker,可以模拟生成各种字段的数据,并且支持多种语言中文,英文,日语,韩语等等。安装方式:pip3 install Faker该库本身也支持命令行的方式使用,具体示例如下,可以使用"faker -h"查看相关说明文档。[root@node-76 ~]# faker -r=5 -s=";" -l zh_CN name王玉兰;陈丹丹;李俊;赵建军;刘玉;为了更好的使用这个库,我自己也简单的编写了一个生
2021-10-22 09:31:18 488
转载 修改docker默认存储路径
默认情况下,docker镜像的默认存储路径是/var/lib/docker,这相当于直接挂载系统目录下,而一般在搭系统时,这个区都不会太大,所以如果长期使用docker开发应用,就需要把默认的路径更改到需要路径下或外挂存储1、docker镜像的默认路径# docker info Docker Root Dir: /var/lib/docker 2、为了解决这个问题, 计划将docker的默认存储路径从/var/lib/docker中移出去方法:# mkdir /data# c
2021-09-14 09:34:16 2075 1
原创 CentOS7使用ISO镜像文件作为离线Yum源
1.CentOS下载镜像官网地址:https://www.centos.org/download/国内镜像地址:https://mirrors.aliyun.com/centos/7/isos/x86_64/下载地址:http://mirrors.sohu.com/centos/7.6.1810/isos/x86_64/CentOS-7-x86_64-Minimal-1810.iso2.创建ISO存放目录以及挂载目录mkdir /mnt/iso /mnt/cdrom3.上传ISO镜像.
2021-09-01 10:31:00 807
转载 Java SPI思想梳理
为什么要使用spi面向的对象的设计里,我们一般推荐模块之间基于接口编程,模块之间不对实现类进行硬编码。一旦代码里涉及具体的实现类,就违反了可拔插的原则,如果需要替换一种实现,就需要修改代码。为了实现在模块装配的时候不用在程序里动态指明,这就需要一种服务发现机制。java spi就是提供这样的一个机制:为某个接口寻找服务实现的机制。这有点类似IOC的思想,将装配的控制权移到了程序之外。以上文字从别处复制而来,想必你还是一脸懵逼,但不要慌,去搜一下spi你就会感觉更懵逼,因为你搜出来的只会是这个:
2021-06-02 15:25:04 128
原创 paddlepaddle的docker镜像因指令集缺失引起的dlib报错
在使用paddlepaddle制作的docker镜像时出现如下错误,因在原有机器上是可以正常运行的,但是在新的机器上却不行。经过排查发现并不是paddlepaddle的问题,而是引入的dlib库在新的机器上因为指令集缺失而引起的。--------------------------------------C++ Traceback (most recent call last):--------------------------------------0 paddle::framework:.
2021-05-24 10:05:50 1615
转载 Centos7.6离线安装docker
如果想只下载不安装rpm包可以使用如下命令,在有网路的机器上提前下载好需要的安装包1. 安装yum-utils.noarchyum -y install yum-utils2. 使用yumdownloaderyumdownloader httpd一、Docker安装1、安装环境:系 统:CentOS Linux release 7.6.1810 (Core) Docker版本:18.09.82、下载离线安装包docker安装包下载:https://do...
2021-05-20 09:48:28 679
原创 xxl-job和dolphinscheduler的简单对比
最近再调研任务调度系统,感觉xxl-job和dolphinscheduler都是很棒的开源框架。这里简单的对二者做了一些对比,方便后续的选型个人感觉如果只是想找个简洁好用的日常的任务调度系统,并且不涉及大数据无疑选择xxl-job是更优的选择。如果直接应用于大数据相关任务调度,从功能点的丰富性和相关性感觉更适合选择dolphinscheduler...
2020-11-12 17:51:33 6513 3
转载 python中国源
Python在安装库的时候发现下载速度很慢,可以更换为国内源国内比较好的源:清华源:https://pypi.tuna.tsinghua.edu.cn/simple豆瓣源:http://pypi.douban.com/simple/阿里源:http://mirrors.aliyun.com/pypi/simple/解决办法一:在pip install 库名 -i 想要使用源如pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/si
2020-10-28 13:03:05 296
原创 commons-dbutils 简单实现按行处理数据
commons-dbutils作为一个jdbc框架在日常简单的程序开发中简直不要太好用,但是在使用commons-dbutils的时候我发现没有提供一个可以按行处理数据功能。但是我如果我需要逐行扫描并按行处理一个数据量很大的表,不管把全量数据加载到什么样的数据结构中应该都是一个很耗费内存和降低效率的事情,而且有可能会导致内存溢出,于是自己实现了一个简单的按行处理的功能。测试数据表结构CREATE TABLE `test` ( `id` int(11) NOT NULL AUTO_I...
2020-07-25 12:48:17 200
转载 docker下安装kafka和kafka-manager
1.下载镜像这里使用了wurstmeister/kafka和wurstmeister/zookeeper这两个版本的镜像docker pull wurstmeister/zookeeperdocker pull wurstmeister/kafkadocker pull sheepkiller/kafka-manager在命令中运行docker images验证三个镜像已经安装完毕2.运行容器2.1 启动zookeeperdocker run -d --name zo.
2020-07-16 15:47:03 1070 1
转载 XML文件中不允许出现的字符
一共有五个:所有的特殊字符对应的编码:特殊字符 代替符号 特殊原因 & & 每一个代表符号的开头字符 > > 标记的结束字符 < < 标记的开始字符 " " 设定属性值 ' ' 设定属性值 (代替符号都以&开始,都包含分号,以分号结...
2020-07-06 10:17:00 5643
转载 Maven Helper插件解决包冲突问题
安装Maven Helperidea安装maven helper安装成功后打开pom文件pom.xmldependency analyzer可查看pom所有包引用treeMaven 解析 jar 包依赖在 pom.xml 中引入某个 jar 包依赖,当 Maven 解析该依赖时,需要引入的 jar 包不仅仅只有 当前jar包,还会有这个jar包内部依赖的 jar 包, 内部依赖的 jar 包依赖的 jar 包......,依赖关系不断传递,直至没有依赖...
2020-06-06 09:23:21 389
原创 hdfs命令响应特别慢的问题
在集群的客户端使用hdf命令去查询的时候,出现一个响应特别慢的情况。同样的两个客户端节点,一个秒回,但是另一个可能需要数十秒才能响应。最终发现响应特别慢的原因是因为没有将hostname配置到/etc/hosts文件中...
2020-05-29 18:35:09 2200
原创 基于docker简单快速搭测试大数据集群
作为一个大数据的学习者,有时候我们希望基于自己的笔记本中虚拟机简单配置一个大数据集群用于测试,如果基于cdh在多个虚拟机中配置集群可能对笔记本的硬件要求会很高。其实有更简单快速基于docker的搭建方式,以下方式亲测可用.前期需要准备的工作自己安装虚拟机,在虚拟机中安装docker,docker-compose1首先在linux虚拟机下任意路径下创建一个指定的目录,例如spark 。然后在...
2020-03-12 15:21:30 645
原创 CDH配置JAVA_HOME
jdk成功安装java -version 正确显示版本 echo $JAVA_HOME 正确输出路径但CDH链接数据库还是报错:Error: JAVA_HOME is not set and Java could not be found解决办法mkdir -p /usr/java 在/usr/bin/下执行:ln -s /usr/local/lib/jdk1.8.0_21...
2020-02-23 19:20:59 939
转载 别只用 Selenium,新神器 Pyppeteer 绕过淘宝更简单!
如果大家对Python爬虫有所了解的话,想必你应该听说过Selenium这个库,这实际上是一个自动化测试工具,现在已经被广泛用于网络爬虫中来应对JavaScript渲染的页面的抓取。但Selenium用的时候有个麻烦事,就是环境的相关配置,得安装好相关浏览器,比如Chrome、Firefox等等,然后还要到官方网站去下载对应的驱动,最重要的还需要安装对应的PythonS...
2020-01-07 11:50:30 312 1
转载 scala 偏函数与 map/collect
0. collect 与 map 的区别由于collect方法接收的是一个偏函数类型,所以它并不能接收一个lambda表达式:scala> List(1, 3, 5, "seven").collect(i => i + 1)error: type mismatch;scala> List(1, 3, 5, "seven").collect{case i => ...
2019-12-28 23:10:31 514
原创 superset权限管理
Superset支持用户自定义创建一个角色,例如:您可以创建一个角色Financial Analyst,该角色将由一组数据源(表)和/或数据库组成。然后用户将被授予Gamma,sql_lab,或者自定义角色都可以。Superset的默认角色有:Admin、Alpha、Gamma、sql_lab、Public,下面介绍一下详细介绍一下每个角色的权限:1、Admin管理员有所有的权利,其中...
2019-12-27 19:03:52 2799
转载 virtualenv的使用
virtualenv就是用来为一个应用创建一套“隔离”的Python运行环境。安装virtualenvpip3 install virtualenv创建虚拟环境1 先进入项目跟目录,规范是,那个项目的虚拟环境就放在那个项目的根目录下.这样比较好操作.2 创建虚拟环境venv,虚拟环境的名字为venv,这时候会在当前目录创建一个venv的目录,用来存放此虚拟环境的包的,实现了...
2019-12-20 17:01:33 160
原创 superset的docker安装配置和汉化
1.docker拉去superset镜像docker pullamancevice/superset2.启动容器1.启动容器docker run -d -p 8188:8088 --name superset -v /opt/docker/superset:/home/superset amancevice/superset映射容器的8088端口到服务器8188映射容器的...
2019-12-17 16:58:13 5861
原创 java.sql.SQLException: Incorrect string value: '\xF0\x9F\x90\x8F\xEF\xBC...' for column 'title' at r
1 查询字符集:show variables like '%char%';set character_set_database='utf8mb4';参照如下配置2修改jdbc_url如下dbc:mysql://XXXX/XXX?useUnicode=true&characterEncoding=utf8&autoReconnect=true&failO...
2019-12-04 19:37:24 503
原创 实用运维脚本
近期要做一些集群的维护工作,打算开发一些实用的脚本协助集群的管理:1、实现多机操控和文件复制实现基于sshpass模块的远程操作和批量复制,依赖前体要通过离线或者在线的方式在运行脚本的机器上安装sshpass命令(Python2和使用到的模块好像已经默认集成到centos系统中,如果没有使用“yum install -y sshpass”);还有集群所有节点的密码要统一,如果不统一可以稍作...
2019-07-18 17:34:24 2976
转载 shell中export的作用和点空格运行脚本的意思
一直对shell中export 变量这个概念理解的模模糊糊,今天就来总结下。在命令行中定义变量很简单,如下:[root@zhenglq ~]#VAR=zhenglq[root@zhenglq ~]#echo $VARzhenglq但是这么定义的变量只在该shell中有效,在其它shell或者子shell中都无法访问例如重新打开一个终端窗口或者重新ssh到这台机器上,echo $V...
2019-07-05 11:34:27 1137
转载 【Flink原理和应用】:分布式快照算法—— Chandy-Lamport 算法
引言Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照(Distributed Snapshot)算法 Chandy-Lamport 算法,那么分布式快照算法可以用来解决什么问题呢?A snapshot algorithm is used to create a consistent snapsh...
2019-06-30 18:36:06 845
转载 Lombok插件的安装与使用
1)lombok介绍lombok能够极大的简化消除我们写的代码,使用注解的方式省略get set toString….等方法,使得代码看起来更加的美观。lombok是在编译时候生成对应的方法的,所以在性能上面大家完全不用担心,是与我们写上get set方法是一样的。它自带了这些标签lombok使用(常用的几个注释)2)安装lombok插件IDEA下 File—setting—p...
2019-06-24 15:24:59 301
原创 IntelliJ IDEA个人常用设置
1设置主题下载地址:http://www.easycolor.cc/intelliJidea/list.html配置方法:File - >Import Seting.. 导入主题重启即可修改主题:File->Settings->Editor -> Color Scheme -> scheme2设置字体File->Settings->...
2019-06-21 15:26:01 200
转载 CentOS 7镜像下载
官网下载链接:http://isoredirect.centos.org/centos/7/isos/x86_64/step1: 进入下载页,选择阿里云站点进行下载Actual Country 国内资源 Nearby Countries 周边国家资源阿里云站点:http://mirrors.aliyun.com/centos/7/isos/x86...
2019-06-16 01:28:35 16827
原创 java基于函数作为参数的文本工具类
日常开发中经常碰到一些需要对文件处理的需求。一般有可能是过滤、解析里边指定字段然后存储在指定的集合结构中;又或者是对每行数据做一些操作。这些东西常常是大同小异。因此尝试封装了一个简单的工具类,用于减少重复代码,只写自己的业务逻辑。import org.apache.commons.lang3.ArrayUtils;import java.io.IOException;import jav...
2019-05-21 16:10:26 235
转载 JAVA 中BIO,NIO,AIO的理解
在高性能的IO体系设计中,有几个名词概念常常会使我们感到迷惑不解。具体如下:序号 问题 1 什么是同步? 2 什么是异步? 3 什么是阻塞? 4 什么是非阻塞? 5 什么是同步阻塞? 6 什么是同步非阻塞? 7 什么是异步阻塞? 8 什么是异步非阻塞? 散仙不才,在查了一部分资料后,愿试着以通俗易懂的方...
2019-05-20 16:42:53 98
转载 Java并发之线程池ThreadPoolExecutor源码分析学习
线程池学习以下所有内容以及源码分析都是基于JDK1.8的,请知悉。我写博客就真的比较没有顺序了,这可能跟我的学习方式有关,我自己也觉得这样挺不好的,但是没办法说服自己去改变,所以也只能这样想到什么学什么了。 池化技术真的是一门在我看来非常牛逼的技术,因为它做到了在有限资源内实现了资源利用的最大化,这让我想到了一门课程,那就是运筹学,当时在上运筹学的时候就经常做这种类似的问题。...
2019-05-15 22:01:37 88
转载 Java NIO?看这一篇就够了!
现在使用NIO的场景越来越多,很多网上的技术框架或多或少的使用NIO技术,譬如Tomcat,Jetty。学习和掌握NIO技术已经不是一个JAVA攻城狮的加分技能,而是一个必备技能。在前面2篇文章《什么是Zero-Copy?》和《NIO相关基础篇》中我们学习了NIO的相关理论知识,而在本篇中我们一起来学习一下Java NIO的实战知识。全文较长,建议先马后看(记得关注不迷路)。一、概述NIO...
2019-05-12 21:03:17 263
原创 各种编码问题汇总(持续更新)
1.ubuntu vim 中文乱码在当前用户的home路径中.vimrc中添加以下内容:syntax on (这句话一定要添加,括号里面的不要添加进去)set encoding=utf-8 fileencodings=utf-82.Python3编码问题1.UnicodeEncodeError: 'ascii' codec can't encode characters in...
2019-04-23 18:33:40 737
原创 centos7 shell常用操作
1.设置密码永不过期 查看密码有效期:chage -l 用户名 设置密码永不过期:chage -M 99999 用户名2.设置防火墙 查看防火墙状态:systemctl status firewalld.service 关闭防火墙:systemctl stop firewalld.service 设置禁用,防止重启自启动:systemctl dis...
2019-04-21 16:37:39 1942
原创 Centos7上安装docker
Docker从1.13版本之后采用时间线的方式作为版本号,分为社区版CE和企业版EE。社区版是免费提供给个人开发者和小型团体使用的,企业版会提供额外的收费服务,比如经过官方测试认证过的基础设施、容器、插件等。社区版按照stable和edge两种方式发布,每个季度更新stable版本,如17.06,17.09;每个月份更新edge版本,如17.09,17.10。一、安装docker...
2019-04-19 11:37:59 151
转载 VMware虚拟机中CentOS 7的硬盘空间扩容
1.查看centos7系统挂载点信息df -h查看挂载点信息2.扩展VMWare-centos7硬盘空间关闭Vmware的centos7系统,才能在VMWare菜单中设置需要增加到的磁盘大小如果这个选项是灰色的,说明此虚拟机建有快照,把快照全部删除再试试!3.对新增加的硬盘进行分区、格式化我们增加了空间的硬盘是 /dev/sda分区:[r...
2019-04-18 22:17:26 301
转载 hbase之布隆过滤器
一、布隆过滤器布隆过滤器(Bloom Filter)是1970由布隆提出的。通过一个很长的二进制向量于一系列随即哈希函数生成。下面我就将通过以下小节来介绍布隆过滤器:1、原因与结构解析2、数学公式1.1 原因与结构解析首先,我们应当知道,hash是内存中使用的经典数据结构。当我们需要判读一个元素是否在一个集合当中时,我们可以用哈希表来判断。在集合较小的情况下,hash是可行而且...
2019-04-13 21:07:30 395
navicat for mysql
2017-09-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人