自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

helloxiaozhe的博客

信者通达,数据为王,自强不息,解码未来——数据码农宣言

  • 博客(357)
  • 资源 (5)
  • 问答 (1)
  • 收藏
  • 关注

转载 Spark MLlib实现的中文文本分类–Naive Bayes

关键字:spark mllib、文本分类、朴素贝叶斯、naive bayes文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。本文介绍使用Spark MLlib提供的朴素贝叶斯(Naive Bayes)算法,完成对中文文本的分类过程。主要包括中文分词、文本表示(TF-IDF)、模型训练、分类预测等。中文分词对于中文文本分类而言,需要先对文章进行分词,我使用的是IKAnalyzer中

2021-06-20 18:14:21 1520

转载 spark提交任务的三种的方法

spark提交任务的三种的方法在学习Spark过程中,资料中介绍的提交Spark Job的方式主要有三种:1、使用spark 自带的spark-submit工具提交任务通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交,官网和大多数参考资料都是已这种方式提交的,提交命令示例如下:./spark-submit --class com.learn.spark.SimpleApp --master yarn --deploy-mode client --driver-

2021-04-25 14:46:13 8340

转载 彻底搞懂-扔鸡蛋问题-方程-动态规划

题目:2个鸡蛋,从100层楼上往下扔,以此来测试鸡蛋的硬度,比如鸡蛋在第9层没有摔碎而在第10层摔碎了,那么鸡蛋不会摔碎的零界点就是9层,如何用最少的尝试次数,测试出鸡蛋不会摔碎的临界点?最笨法:把其中一个鸡蛋从第1层开始往下扔,如果第1层没碎换到第2层扔,如果第2层没碎换到第3层扔,,,如果第59层没碎换到第60层扔,如果第60层碎了,说明不会摔碎的临界点是59层,最坏情况下需要扔100次二分法:把鸡蛋从50层往下扔,如果第一枚在50层碎了,就从第1层开始(一共只有两个鸡蛋,第一个鸡蛋

2020-06-24 17:53:15 2376 1

转载 布隆过滤器+缓存穿透问题+Counting Bloom Filter,原理+案例+代码实现

概述什么是布隆过滤器布隆过滤器(Bloom Filter)是1970年由布隆提出的,它实际上是由一个很长的二进制向量和一系列随意映射函数组成。它是一种基于概率的数据结构,主要用来判断某个元素是否在集合内,它具有运行速度快(时间效率),占用内存小的优点(空间效率),但是有一定的误识别率和删除困难的问题。它能够告诉你某个元素一定不在集合内或可能在集合内。在计算机科学中,我们常常会碰到时间换空间或者空间换时间的情况,通常两者不可兼得,我们要在两者之间取舍...

2020-06-20 15:35:40 1640

原创 python使用xlwt形成合并单元格的excel并且读取合并单元格的excel

python使用xlwt形成合并单元格的excel并且读取合并单元格的excel 在日常数据报表数据处理中,经常会遇到看某个大类下面每个小类的各自的情况,此时形成的合并一些单元格作为表头的excel。在excel中,手动合并单元格比较容易,但是怎么利用python构造某些列或者行合并作为标题行或列的excel呢?废话不多说,直接上代码。1、安装python处理excel需要的包...

2019-11-12 13:25:26 8726

转载 inotifywait+rsync 实时同步脚本

相同服务器我们时常需要相同的部署,这时就需要我们能够实时的同步文件。今天我就和大家分享一个能够实现自动远程实时同步文件的方法:一、利用inotifywait对文件系统事件实时监控, 触发事件调用rsync远程同步文件至一台或多台服务器 接下来说说我们需要使用到的工具:1、rsync一个远程数据同步工具,可通过LAN/WAN快速同步多台主机间的文件。rsync使用所谓...

2019-07-23 22:03:11 1621

转载 【超级有用】大数据的压缩格式

为什么map端用snappy压缩格式;而reduce用gzip或者bzip2的压缩格式呢?为什么每个reduce端压缩后的数据不要超过一个block的大小呢? 检查Hadoop版本的压缩格式是否可用【我在Hadoop cdh 5.7版本中查看Hadoop压缩格式】$ hadoop version$ hadoop checknative一、在解答上述问题以前,我们先...

2019-07-18 10:30:59 967 1

转载 【python可视化系列】python数据可视化利器--pyecharts

前言echarts是什么?下面是来自官方的介绍: ECharts,缩写来自Enterprise Charts,商业级数据图表,Echarts 是百度开源的一个数据可视化纯Javascript(JS) 库。主要用于数据可视化,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器(IE6/7/8/9/10/11,chrome,firefox,Safari等),底层依赖轻量级的Canvas类库ZRe...

2018-06-17 17:18:33 16124

原创 Hbase表两种数据备份方法-导入和导出示例

Hbase表数据导入和导出示例场合:由于线上和测试环境是分离的,无法在测试环境访问线上库,所以需要将线上的hbase表导出一部分到测试环境中的hbase表,这就是本文的由来。本文借助hdfs作为中介将线上的hbase数据导出部分到测试hbase表中。闲话少叙,例子就来:1)、创建hbase表emplocalhost:bin a6$ pwd/Users/a6/Applications/hbase-...

2018-05-15 17:39:46 21578 6

转载 前向传播算法(Forward propagation)与反向传播算法(Back propagation)以及sigmoid函数介绍

 前向传播算法(Forward propagation)与反向传播算法(Back propagation)以及sigmoid函数介绍虽然学深度学习有一段时间了,但是对于一些算法的具体实现还是模糊不清,用了很久也不是很了解。因此特意先对深度学习中的相关基础概念做一下总结。先看看前向传播算法(Forward propagation)与反向传播算法(Back propagation),sigmoid函数...

2018-04-09 11:42:14 2879

转载 hive 动态分区(Dynamic Partition)异常处理

 hive 动态分区(Dynamic Partition)异常处理Changing Hive Dynamic Partition LimitsSymptoms:Hive enforces limits on the number of dynamic partitions that it creates.  The default is 100 dynamic partitions per nod...

2018-03-27 11:43:30 5144

原创 mysql出现ERROR : (2006, 'MySQL server has gone away') 原因和解决方案

mysql出现ERROR : (2006, 'MySQL server has gone away') 原因和解决方案这种情况可以通过修改max_allowed_packed的配置参数来避免,也可以在程序中将数据分批插入(使用mysql limit进行分页,循环分批处理数据)

2017-09-27 20:28:45 82615 3

原创 python 使用mysqldb模块通过SSHTunnelForwarder隧道连接mysql

python 使用mysqldb模块通过SSHTunnelForwarder隧道连接mysql出于安全考虑,数据库服务器只允许堡垒机通过ssh访问,这对日常的使用带来了麻烦。昨天的工作中,就遇到了这样的问题,MySQL数据库放在了服务器A上,只允许服务器B来访问,而我在机器C上,可以通过ssh连接服务器B。为了解决在机器C上连接mysql这个问题sshtunnel官方使用例子,请参照例子:

2017-09-05 13:21:34 11326

原创 【python Excel】如何使用python将大量数据导出到Excel中的小技巧之一

如何使用python将大量数据导出到Excel中的小技巧python Excel相关的操作的module lib有两组,一组是xlrd、xlwt、xlutils,另一组是openpyxl,但是前一组(xlrd,xlwt)比较老,只能处理由Excel 97-2003 或者Excel 97 以前版本生成的xls格式的excel文件, xlwt甚至不支持07版以后的excel ,这个格式excel文件一般来说,最大只能支持256列或者65536行的excel文件。因此面对需要导出大量数据到excel的情况,

2017-09-05 12:24:25 59969

原创 Hive collect_set()、collect_list()列转行,并对转换后的行值排序

Hive collect_set()、collect_list()列转行,和concat_ws()使用,并对转换后的行值排序

2024-01-30 18:17:21 815

原创 Spark Doris Connector 可以支持通过 Spark 读取 Doris 数据类型不兼容报错解决

Spark Doris Connector 可以支持通过 Spark 读取 Doris 数据,但部分doris类型spark doris connector不兼容报错解决方案 .spark.exception.ConnectedFailedException: Connect to Doris BE{host='172.xxx.yyyy.10', port=9060}failed.

2024-01-12 20:34:46 1301

原创 hive和spark-sql中 日期和时间相关函数 测试对比

hive和spark-sql中 日期和时间相关函数 测试对比

2023-11-12 11:21:40 1396

原创 Gogs安装和部署教程-centos上

Gogs 是一款极易搭建的自助 Git 服务。Gogs安装和部署教程-centos上

2023-11-11 15:22:52 2661

转载 hive有经典的列转行,但行转列也不应该忽略

hive有经典的列转行,但行转列也不应该忽略

2023-11-10 23:05:34 209

转载 free -h详解与内存swap理解

free -h详解与内存swap理解

2023-10-22 23:41:36 1437

原创 hive和presto的求数组长度函数区别及注意事项

hive和presto的求数组长度函数区别及注意事项

2023-10-19 15:34:15 1406

原创 hive建表指定列分隔符为多字符分隔符实战(默认只支持单字符)

Hive多字符的列分隔符支持示例,清洗入hive表的过程中,发现字段之间的单一字符的分割符号已经不能满足列分割需求,因为字段值本身可能包含分隔符。

2023-10-10 16:27:12 1596

原创 和subline快捷键冲突:win10按快捷键ctrl+shift+L会显示“性能录制已开始”,怎么把这个快捷键关掉?

和subline快捷键冲突:win10按快捷键ctrl+shift+L会显示“性能录制已开始”,怎么把这个快捷键关掉?

2023-09-24 20:03:26 2440

转载 Hive中SQL通配符like与正则匹配rlike(regexp)的区别

Hive 中可以用 like 和 rlike 进行模糊匹配,like 采用的是 SQL 通配符,而 rlike (regexp)采用的是正则匹配。

2023-04-15 16:51:13 3169 1

转载 windows10上安装mysql 5.7.37

windows10上安装mysql 5.7.37,及可视化客户端Navicat安装

2023-03-06 15:12:25 691

转载 shell脚本中用hive -e执行sql出现「cannot recognize input near ‘<EOF>‘ in select clause」问题

1、shell脚本中用hive -e执行sql出现「cannot recognize input near ‘<EOF>‘ in select clause」问题2、解决方案修改hive -e ${sql}为hive -e "${sql}"3、原因分析若没有使用双引号进行包括,则"hive -e"会认为后面的sql内容解析为多个参数造成错误。而使用双引号后,整个sql将作为一个单独的参数传给hive。

2022-11-09 10:22:36 2620

原创 python中list 转set和tuple遇到的坑和 python占位符使用

python中list 转set和tuple遇到的坑和 python占位符使用

2022-11-08 17:19:30 773

转载 hive表生成函数explode、stack、lateral view和json_tuple、parse_url_tuple示例

hive表生成函数explode、stack、lateral view和json_tuple、parse_url_tuple示例

2022-11-08 14:23:42 2471 1

转载 hive分箱函数ntile()使用案例

ntile()函数的作用是等频分箱,把观测值进行有序排列(默认升序),根据观测值的总个数等分为k部分,每部分当作一个分箱,即百分位数的概念,可以根据箱号选取前或后n分之几的数据。

2022-11-07 20:39:40 1513

转载 Callable和Runnable的区别(面试常考),看完就懂

Callable和Runnable的区别

2022-08-30 17:29:45 230

转载 JAVA客户端与服务端demo

java 服务端和客户端连接demo

2022-08-30 11:31:20 667

转载 linux expect远程自动登录以及执行命令

1、什么是expect?在做系统管理时,我们很多时候需要输入密码,例如:连接 ssh,连接ftp,那么如何能做到不输入密码吗?ssh远程登录一台主机后,会在know_hosts中新增1条记录,下次再登录时就不用输入用户名密码。但是有一个问题,如果我需要在100台新机器上登录,那就需要输入100次用户名密码,这之后才不用输入,这太麻烦了,因此就用到了expect来解决。我们需要有一个工具,能代替我们实现与终端的交互,那么,就是它:expect,管理员的最好的朋友之一,通过expect将代码分发至

2021-12-03 15:42:38 3887

转载 hive 和 spark-sql 如何写SQL求出中位数平均数和众数(count 之外的方法)

1、概念介绍 平均数、中位数、众数都是度量一组数据集中趋势的统计量。所谓集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。而这三个特征数又各有特点,能够从不同的角度提供信息。平均数特点:计算用到所有的数据,它能够充分利用数据提供的信息,它具有优秀的数学性质,因此在实际应用中较为广泛。但它受极端值的影响较大。应用场合:没有极端值的情况下数据集中趋势的刻画。如:小明五次测试的成绩为87、88、89、93、94你认为小明这五次测试成绩怎样?...

2021-11-24 10:27:15 6989 1

转载 Spark DataFrame 的窗口函数使用的两种形式介绍

1、概述上文介绍了sparkdataframe常用操作算子。除此外,spark还有一类操作比较特别——窗口函数。窗口函数常多用于sql,spark sql也集成了,同样,spark dataframe也有这种函数,spark sql的窗口函数与spark dataframe的写法不太一样。1.1、spark sql 写法select pcode,event_date,sum(duration) over (partition by pcode order by event_date as.

2021-07-27 13:34:24 3299

转载 shell 数组及其遍历的3种方法

1、shell数组1.1、数组概述数组中可以存放多个值。Bash Shell 只支持一维数组(不支持多维数组),初始化时不需要定义数组大小(与 PHP 类似)。与大部分编程语言类似,数组元素的下标由0开始。Shell 数组用括号来表示,元素用”空格”符号分割开,语法格式如下:array_name=(value1 value2 … valuen)例如:my_array=(A B “C” D)我们也可以使用下标来定义数组:array_name[0]=value0array_na

2021-07-15 11:41:07 49107 3

转载 Spark机器学习API之特征处理

关键字:spark、机器学习、特征处理、特征选择Spark机器学习库中包含了两种实现方式,一种是spark.mllib,这种是基础的API,基于RDDs之上构建,另一种是spark.ml,这种是higher-level API,基于DataFrames之上构建,spark.ml使用起来比较方便和灵活。Spark机器学习中关于特征处理的API主要包含三个方面:特征提取、特征转换与特征选择。本文通过例子介绍和学习Spark.ml中提供的关于特征处理API中的特征选择(Feature Selectors)

2021-06-20 20:31:42 372

转载 获取本季度上季度的时间_hive时间函数应用小例

1. 获取当前时间:yyyy-mm-ddSELECT CURRENT_DATE;current_date()2021-06-17Time taken: 0.077 seconds, Fetched 1 row(s)2. 获取当月第一天时间:yyyy-mm-ddselect date_sub(current_date,dayofmonth(current_date)-1);date_sub(current_date(), (dayofmonth(current_date()) - 1

2021-06-17 21:25:14 3068

转载 HiveSQL/SparkSQL的 round() 、floor()和 ceil()的 用法

HiveSQL/SparkSQL的 round() 、floor()和 ceil()的 用法1、概述round四舍五入floor 取左值ceil 取右值2、在SparkSQL中的示例spark版本:spark-2.3.4Hive client (version 1.2.2)spark-sql> select round(1.2356);1Time taken: 0.788 seconds, Fetched 1 row(s)spark-sql> ...

2021-04-30 20:11:29 6856 1

转载 SparkSQL—最大连续登录天数、当前连续登录天数、最大连续未登录天数问题

Hive SQL——最大连续登录天数、当前连续登录天数、最大连续未登录天数问题1、数据准备表字段:用户、新增日期、活跃日期 原数据表:user_active表1.1、测试数据:比较date和timestamp类型CREATE TABLE test_user_active( name string, install_date timestamp, active_date timestamp);insert overwrite table test_user_act.

2021-04-26 13:23:31 1941

转载 linux服务器的物理CPU,CPU核数,逻辑CPU及Hadoop的Vcore

linux服务器的物理CPU,CPU核数,逻辑CPU及Hadoop的Vcore1、Linux服务器的核数的概念物理CPU: 服务器上真实存在的CPU,可以看到CPU的核 (core): 一个CPU上包含多少核(core),真实存在但不能直接看到 总核数 = 物理CPU个数 X 每颗物理CPU的核数 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 在没有开启超线程时,总核数 = 总逻辑CPU个数,如果开启超线程,则总核数 < 总逻辑CPU

2021-04-17 15:28:49 2023

HelloUDF.zip

Hive 自定义函数UDF开发手把手教程—— 创建临时函数和永久函数代码,具体创建过程参考https://blog.csdn.net/helloxiaozhe/article/details/102498567

2019-10-11

MacDown使用小例子

MacDown使用操作例子——`MarkDown` 是一种 **轻量级的标记语言** , 可以使用普通文本编辑器编写的语言。通过简单的标记语法,使普通的文本具有一定的格式。 `MarkDown` 的优点在于,它用简洁的语法代替了排版。而不像一般我们用的处理软件 Word 或 Pages 有大量的排版、字体设置。它使我们专注于内容的编写。

2018-05-23

使用指针,进一步熟悉链表操作,实现添加,删除,修改,查找,排序等功能

通过使用指针,进一步熟悉链表操作,实现添加,删除,修改,查找,排序等功能。 我的课题理解: 我把课题定位在学生信息管理系统:创建一个带头结点学生链表,用菜单的形式实现增删改查功能外,用采用冒泡排序实现按学生成绩由高到低排序功能,同时又实现用户登陆,用户注册验证,以及一屏连续向用户展示功能。 目录: 程序代码实现部分: p1----p14 实验结果部分: P15---P20 实验中遇到问题及解决方法: P21---P25 实验心得: P26

2012-08-08

运算符重载和函数重载

练习对字符串的常用操作,进而加深对类的多态性的理解: 如运算符重载和函数重载 字符串连接,+=运算符重载 求子串: 左边几个字符,,, Left(int nCount) 右边几个,, Right(int nCount) 某个位置开始的几个字符 Mid(int nPos,int nCout) 2..进一步熟悉掌握对类的构造函数重载,拷贝构造的使用 目录: 程序代码实现部分: p2----p6 实验结果部分: P7 实验中遇到问题及解决方法: P7----P9 实验心得: P9

2012-08-08

停车场管理系统

本次课题描述: (1) 有一个两层的停车场, 每层有6个车位, 当第一层车停满后才允许使用第二层. (停车场可用一个二维数组实现, 每个数组元素存放一个车牌号 ) 每辆车的信息包括车牌号、 层号、 车位号、停车时间共4项, 其中停车时间按分钟计算 。 (2) 假设停车场初始状态为第一层已经停有4辆车, 其车位号依次为1—4 , 停车时间依次为20, 15, 10 , 5 . 即先将这四辆车的信息存入文件”car.txt”中( 数组的对应元素也要进行赋值 ) 。 停车操作:当一辆车进入停车场时, 先输入其车牌号, 再为它分配一个层号和一个车位号, 停车时间设为5 , 最后将新停入的汽车的信息添加文件”car.txt”中, 并将在此之前的所有车的停车时间加5。 (3) 收费管理(取车): 当有车离开时, 输入其车牌号, 先按其停车时间计算费用, 每5分钟0.2元. (停车费用可设置一个变量进行保存), 同时从文件”car.txt”中删除该车的信息, 并将该车对应的车位设置为可使用状态(即二维数组对应元素清零). 按用户的选择来判断是否要输出停车收费的总计。 系统开发的目标是: (1) 停车场内车辆信息及时汇总,随时了解停车场车位的使用情况; (2) 统计车辆信息全部电脑化,提高工作效率和工作质量; (3) 以停车场内的全部车辆信息为基础,由客户自主选择停车位,尽量达到车位的最高利用率; (4) 停车费用的结算也由电脑来完成,解决客户所担心的乱收费问题。 (5) 用户可以在取车时,留下宝贵的对本次使用的评价,待管理员审核后就可以动态地显示用户界面的正上方。,

2012-08-04

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除