自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(89)
  • 资源 (2)
  • 收藏
  • 关注

原创 Kettle删除索引判断是否成功

2024-02-19 11:12:47 254

原创 kettle中JavaScript使用例子

输入为20240216则Alert输出20240215 日期减一。1.将输入日期减一后,得到对应格式的输出。

2024-02-18 15:40:05 150

原创 kettle--JavaScript脚本日期使用

输入日期为20240216,运行如下代码,结果为true。

2024-02-17 16:23:22 248

原创 hive输出到csv文件

hive -e “” | tr “\t” “,” >文件.csv。

2024-01-31 16:07:59 134

原创 查看hadoop下文件列表并按日期排序

查看hadoop下文件列表并按日期排序。

2023-09-13 11:24:32 302

原创 ES 索引重命名--Reindex(一)

步骤(1):每次写入把之前的索引删除再重新创建索引,然后判断索引是否创建成功,由于创建成功返回结果是json,因此用Json Input插件去解析json获得字段,然后用Switch/case插件判断是否成功。删除旧索引别名,对新索引进行添加别名,即reindex的新索引。步骤(2):re_index。

2023-08-21 18:02:21 1451

原创 hive--给表名和字段加注释

增加之后的注释,会在元数据库(一般在MySQL 中的 hive 库)中的 TABLE_PARAMS 表中显示,该表存储 表/视图 的属性信息。注意:comment一定要是小写的,不能是COMMENT,且必须要加单引号!4.字段名修改添加注释。

2023-08-17 11:12:35 2803

原创 CDH6.3.2搭建HIVE ON TEZ

如果内存不够:可以修改如下参数设置。----配置hive运行引擎。

2023-08-14 15:39:13 939

原创 [Azkaban] No active executors found

然后再进入azkaban exe 文件夹运行 bin/start.sh ,然后再查看select * from executors;actvie是否为1,查看日志是否成功。当active=0,更新为1时,用 netstat -ntpl|grep 12321 查看哪个程序占用 ,然后kill -9 那个ID。然后进入azkaban-web文件夹重启,再次启动azkaban上运行脚本。

2023-08-14 10:56:10 209

原创 shell脚本指定日期格式处理

【代码】shell脚本指定日期格式处理。

2023-08-11 14:45:44 166

原创 kettle之转换嵌套转换问题

在kettle中如果转换中还调用了转换,需要用过滤记录和中止来判断是否转换内容成功。否则,运行失败了,也会显示成功。这样计算数据会出现问题。如下图中用ExecutionNrErrors参数个数是否大于0判断运行成功与否。如果大于0说明失败,则进行中止。

2023-08-08 17:00:42 275

原创 kettle之Switch/Case 插件

插件运行下一步的表输入中执行hivesql需选上下面红色方框的,否则Switch/Case分支不生效!Switch/Case 插件存在于转换中,用于进行分支选择。

2023-08-08 16:48:16 251

原创 hive 字段注释乱码

【代码】hive 字段注释乱码。

2023-08-08 16:36:23 509

原创 linux 之if [ ]

是shell变量,表示"最后一次执行命令"的退出状态.0为成功,非0为失败.-le 小于等于,如:if [“<= 小于等于(需要双括号),如:((“= 大于等于(需要双括号),如:((“-ne 不等于,如:if [“-ge 大于等于,如:if [“-lt 小于,如:if [“-eq 等于,如:if [“-gt 大于,如:if [“< 小于(需要双括号),如:((“大于(需要双括号),如:((“

2023-06-16 14:55:20 356

原创 测试hadoop服务器NodeManager无法连接ResourceManager问题

解决方案:删除该nodemanager所在机器的 /var/lib/hadoop-yarn/yarn-nm-recovery/yarn-nm-state 文件夹下的全部信息。

2023-03-20 10:58:13 346

转载 SparkContext、SparkConf和SparkSession的说明

SparkContext 和 SparkConf  任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。al conf = new SparkConf().setMaster("master").setAppName("appName")val sc = new SparkContext(

2021-06-07 18:41:03 2812

转载 Logger日志级别说明及设置方法

日志记录器(Logger)是日志处理的核心组件。log4j具有5种正常级别(Level)。日志记录器(Logger)的可用级别Level (不包括自定义级别 Level), 以下内容就是摘自log4j API (http://jakarta.apache.org/log4j/docs/api/index.html):static Level WARNWARN level表明会出现潜在错误的情形。static Level ERRORERROR level指出虽然发生错误事件,但仍然不影响系统的继续运行

2021-06-07 13:58:09 2151

原创 hive 基本处理--权重采样和

1.权重采样:权重weight越大,采样的频率越高pow(rand(), 1/(weight+0.01))2.hive 增加字段和删除字段增加字段示例:一次增加一个列(默认添加为最后一列)ALTER TABLE table ADD COLUMNS (new_col int); 删除示例:原有Hive表table_test中有a,b,c,d,e这几个字段 将从table_test中删除“d”列: ALTER TABLE table_testREPLACE COLUMNS (a int,

2021-02-09 16:47:50 1001

原创 flink ---ncat windows 安装产生数据流

下载地址 :https://eternallybored.org/misc/netcat/解压将nc.exe 复制到C:\Windows\System32的文件夹下然后打开cmd 输入nc -l -p 9000按回车,输入想要输入的单词,同时运行flink程序,就能看到想要的结果

2020-10-30 15:39:25 401

原创 python 工程在服务器上运行,如何将各模块之间关联

直接将本地pycharm 上的工程放到服务器上,并做如下操作即可:管理员权限修改:/etc/profile。在最后一行加上exportPYTHONPATH=$PYTHONPATH:项目目录然后运行如下代码,更新立即生效source/etc/profile...

2020-07-08 17:13:12 385

原创 mahout中k-means算法运行与查看

1.首先,下载数据集synthetic_control.data,并将其导入到分布式文件系统上。运行hadoop 命令建立testdata文件夹:$HADOOP_HOME/bin/hadoop fs -mkdir testdata并将该文件放入改文件夹下面 $HADOOP_HOME/bin/hadoop fs -put synthetic_control.data testdata运行mahout上的kmeans例子$HADOOP_HOME/ 为hadoop 安装目录$HADOOP_H

2020-06-22 11:46:21 254

原创 Hbase 删除表格问题--- Table already exists

1. 首先输入$hbase zkcli命令进入zookeeper client模式2. 在zk client模式下输入ls /hbase/table命令看到zombie table,查看有哪些表 此时可以在正常模式下看下当前有哪些表3. 然后使用 rmr /hbase/table/TABLE_NAME 命令删除zombie table,重启hbase即可...

2020-05-06 13:49:48 934

原创 hive 中join和Group的优化

group by 优化set hive.map.aggr = true; //是否在 Map 端进行聚合,默认为 Trueset hive.groupby.mapaggr.checkinterval = 100000000; //在 Map 端进行聚合操作的条目数目set hive.groupby.skewindata = true; //解决数据倾斜的万能钥匙join 优化s...

2020-02-20 18:03:23 618

原创 查看liunx 下查看磁盘空间的几个命令

执行命令 df -h ,查看当前占用情况[ops@djl-data3 data]$ df -h Filesystem Size Used Avail Use% Mounted on/dev/vda3 36G 7.6G 28G 22% /devtmpfs 7.8G 0 7.8G 0% /devtmpfs ...

2020-02-17 15:05:00 314

原创 hive 中mapjoin 出现情况分析

1.当两个表join的时候,当一方表数据量比较小的时候,运行hive的时候会自动进行mapjoin,但是进行mapjoin数据又跑不动,现在需要运行的时候加一句:关闭mapjionset hive.auto.convert.join = false; 2.mapjoin 优化,使用一张表数据小于1000行3....

2020-01-02 16:56:54 661

原创 Google机器学习课程(二)降低损失(1)--迭代方法

得到

2019-08-11 12:15:21 104

原创 Google机器学习课程(一)--训练与损失

线性回归按机器学习,线性回归模型方程式:y’=w1*x1+b其中:y′ 指的是预测标签(理想输出值)。b 指的是偏差(y 轴截距)。而在一些机器学习文档中,它称为 w0。w1 指的是特征 1 的权重。权重与线性函数中的“斜率”的概念相同。x1 指的是特征(已知输入项)。该式表示有一个特征的方程式,具有三个特征的模型可以采用以下方程式:y’=b+w1x1+w2x2+w3*x3训练...

2019-08-06 21:51:24 252

原创 Google机器学习课程--机器学习术语

(监督式)机器学习定义:机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测

2019-08-06 21:13:56 106

转载 查看HDFS上的文件,文件是否为空的命令总结

-test -[defsz] 测试文件是否存在:Answer various questions about , with result via exit status.-d return 0 if is a directory.-e return 0 if exists.-f return 0 if is a file.-s return 0 if file is great...

2019-07-30 10:37:25 1439

原创 Windows下如何将一个文件夹上传到git

原文:https://blog.csdn.net/geerniya/article/details/79552247以下给出详细步骤:1、首先得安装git客户端安装方法很简单,跟安装QQ之类的一样,进入官网:https://git-scm.com/ ,点击右侧下载windows版本的软件包,然后双击安装,一步一步下一步就可以了。安装完成之后,在开始菜单可以看到如下就算是成功了:如下图,点...

2019-01-02 11:51:29 2477

原创 hive表在join on和在where上过滤对比

一、left join 在on 和where 过滤对比A表结构以及数据:id name grade dept1 cid1 100 102 cid2 90 203 cid3 60 104 cid4 80 105 cid5 70 20B表结构以及数据:id name10 IT120 I...

2018-11-19 11:46:49 845

转载 csr_matrix(Compressed Sparse Row matrix)存储模式 ---稀疏数据的压缩

压缩稀疏矩阵的某种存储方式&gt;&gt;&gt; indptr = np.array([0, 2, 3, 6])&gt;&gt;&gt; indices = np.array([0, 2, 2, 0, 1, 2])&gt;&gt;&gt; data = np.array([1, 2, 3, 4, 5, 6])&gt;&gt;&gt; csr_matrix((data, indices,...

2018-08-13 17:23:14 716

转载 CNN卷积神经网络原理

转载:https://www.cnblogs.com/skyfsm/p/6790245.html 最近看了cnn神经网络,发现这篇博文很好,通俗易懂。神经网络的结构是这样的: 那卷积神经网络跟它是什么关系呢? 其实卷积神经网络依旧是层级网络,只是层的功能和形式做了变化,可以说是传统神经网络的一个改进。比如下图中就多了许多传统神经网络没有的层次 卷积神经网络的层级结构: ...

2018-07-11 17:42:49 1498

原创 tensorflow-CNN实例图像分类

https://www.cnblogs.com/denny402/p/6931338.html (cnn 图片分类)http://blog.csdn.net/csuzhaoqinghui/article/details/51377941(Tensorflow之构建自己的图片数据集TFrecords)http://blog.csdn.net/BeautyJingJing/article/det...

2018-07-11 17:00:34 4738 1

原创 MovieTaster-使用Item2Vec做电影推荐代码解析

在做推荐的时候了解到,可以将电影进行向量的训练,根据向量的相似度来做推荐,下载了MovieTaster代码,源代码地址 https://github.com/lujiaying/MovieTaster-Open,根据代码的数据来运行了一遍该程序。1.是process.py ,代码中iteritems()在python3中为items()import jsonDoulistFile = ...

2018-07-11 15:03:46 2193

转载 python zip()和zip(*)方法

zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 * 号操作符,可以将元组解压为列表&gt;&gt;&gt;a = [1,2,3]&gt;&gt;&gt; b = [4,5,6]&gt;&gt;&gt; c = [4,5,6,7,8]&gt;&gt;&gt...

2018-07-11 10:16:49 581

原创 NLP--gensim中doc2vec句向量实例

参考文章:https://blog.csdn.net/juanjuan1314/article/details/75124046/Doc2vec又叫Paragraph Vector是Tomas Mikolov基于word2vec模型提出的,其具有一些优点,比如不用固定句子长度,接受不同长度的句子做训练样本,Doc2vec是一个无监督学习算法,可以用于生成句向量,段落向量和文档向量。生成的向量可...

2018-07-06 16:31:03 6250 1

原创 pandas 排序

参考 1. http://blog.csdn.net/shingle_/article/details/71480334

2018-05-23 19:52:20 205

转载 sklearn逻辑回归

逻辑回归自己的理解(明天把实例看完在写) 1.对机器学习的认识 引用大牛的观点: 机器学习算法没有所谓的优劣,也没有绝对的高性能,只有在特定场景、数据和特征下更适合的机器学习算法。 2.机器学习应用方法: 应用机器学习,千万不要一上来就试图做到完美,先做一个基本的model出来,再进行后续的分析步骤,一步步提高。所谓后续步骤可能包括『分析model现在的状态(欠/过拟合),分析我们使用的

2018-05-23 18:01:41 363

转载 ALS 与协同过滤

ALS是交替最小二乘的简称。在机器学习中,ALS特指使用交替最小二乘求解的一个协同过滤算法。它通过观察到的所有用户给产品的打分,来推断每个用户的喜好并向用户推荐适合的产品。 ALS算法不像基于用户或者基于物品的协同过滤算法一样,通过计算相似度来进行评分预测和推荐,而是通过矩阵分解的方法来进行预测用户对电影的评分。

2018-05-23 17:49:01 1514

python数据分析与挖掘实战---基于水色图像的水质评价数据集(包括该章数据集和拓展训练数据集)

python数据分析与挖掘实战---基于水色图像的水质评价数据集(包括该章数据集和拓展训练数据集)

2018-05-23

SOM数据集,用于机器学习中SOM分类使用

用于SOM自组织特征映射神经网络学习数据集,机器学习之自组织特征映射神经网络(SOM)python实现

2018-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除