大数据森森沐沐-CSDN博客

原创 ES数据处理方法

- 5.图片：Webp、BMP、PCX、TIF、GIF、JPEG、TGA、EXIF、FPX、SVG、PSD、CDR、PCD、DXF、UFO、EPS、AI、PNG、HDRI、RAW、WMF、FLIC、EMF、ICO。,GET_JSON_OBJECT(data_tmp,'$.op') AS op --随机选人选项 op(清除(NULL)、A、B、C) op(不随机(0)、1、2、3)

2024-01-25 12:00:47 1068

原创微信小程序上传手机内部文件，PC文件

web-view,小程序本地上传文件

2023-07-26 11:32:59 1020

<swiper circular="true" autoplay="true" indicator-dots="true"><swiper-item v-for="(swiper, index) in imglist" :key="index"><image :src="swiper" @tap="preview(imglist)"></image></swiper-item></swiper>js部分preview(i

2021-05-25 14:34:44 412

转载 ElementUI表格中显示图片，悬浮显示放大图片

使用弹出框<el-table-column prop="carImg" label="车辆图片"> <template slot-scope="scope"> <el-popover placement="right" :title="scope.row.carId + pictureTitle" trigger="hover"> ..

2021-01-27 14:32:44 1954 1

转载将JDK默认编码设置为UTF-8

此博文非原创：参考小兵qwer https://blog.csdn.net/xiaobing_122613/article/details/70209716只是想留下对自己有用的东西，同时帮助更多人。1.先检查本地JDK编码：代码：import java.io.ByteArrayOutputStream;import java.io.OutputStreamWriter;import java.nio.charset.Charset;class HelloWorld { ..

2020-11-12 09:00:43 845 1

转载 mysql在Windows上安装

MySQL是一个关系型数据库管理系统，由瑞典 MySQL AB 公司开发，2008 年被 SUN 公司收购，后 SUN 公司又被 Oracle 公司收购。一、下载MySQL官网https://www.mysql.com/点击DOWNLOADS进入下载地址，会看到几个不同的版本：MySQL Enterprise Edition：企业版（收费） MySQL Cluster CGE：高级集群版（收费） MySQL Community Edition：社区版（开源免费，但官方不提供技术...

2020-11-04 10:20:25 147

原创长沙IT人看CSDN总部迁移长沙

CSDN 总部落户长沙，共建中国开发者产业中心城市看到这章新闻在长沙各大IT圈子，微信群疯狂转发，心里真的是足够喜悦，先看这里。 2020 年 5 月 9 日，在长沙湘麓山庄，湖南省委常委、长沙市委书记胡衡华与 CSDN 创始人蒋涛共同出席见证建设软件开发者中心城市的战略合作协议的签约和专项支持资金的颁发，并宣布 CSDN 将总部落户长沙。长沙市委副书记、代市长、湖南湘江新区党工委书记郑建新等领导出席。 CSDN 创始人蒋涛表示，此次总部落户长沙，将在长沙积极营造开发者产业生态...

2020-05-16 09:53:25 2311

原创疫情结束，供新同事学习(row_number,rank,dense_rank,ntile) 常用函数排名用法

疫情结束了，长沙要崛起，中部城市，独领风骚，还看长沙。介绍SQL中4个很有意思的函数，我称它的行标函数，它们是row_number,rank,dense_rank和ntile，下面分别进行介绍。一　　row_number：它为数据表加一个叫“行标示”的列，它在数据表中是连续的，我们必须按着某个顺序把表排序之后，才能使用row_number,看下列例子：SELECT row_number() OVER ( ORDER BY SalePrice ) AS row ,

2020-05-15 11:23:19 231

转载交集、并集和补集（阿里大数据系列）

本文为您介绍UNION、UNOIN ALL、UNION DISTINCT并集，INTERSECT、INTERSECT ALL、INTERSECT DISTINCT交集，EXCEPT、EXCEPT ALL、EXCEPT DISTINCT补集等SQL语法。语法格式select_statement UNION ALL select_statement;select_statement UNION [DISTINCT] select_statement;select_statement INTERSE

2020-05-14 17:10:54 1237

转载 SEMI JOIN(阿里大数据用法)

MaxCompute支持SEMI JOIN（半连接）。SEMI JOIN中，右表只用于过滤左表的数据而不出现在结果集中。支持LEFT SEMI JOIN和LEFT ANTI JOIN两种语法。LEFT SEMI JOIN当join条件成立时，返回左表中的数据。如果mytable1中某行的id在mytable2的所有id中出现过，则此行保留在结果集中。示例如下。SELECT * from mytable1 a LEFT SEMI JOIN mytable2 b on a.id=b.id;

2020-05-14 16:45:55 1157

转载 MAPJOIN HINT(阿里大数据用法)

当一个大表和一个或多个小表JOIN时，您可以在SELECT语句中显式指定MAPJOIN以提升查询性能。背景信息通常情况下，JOIN操作在Reduce阶段执行表连接。整个JOIN过程包含Map、Shuffle、Reduce三个阶段。MAPJOIN在Map阶段执行表连接，而非等到Reduce阶段才执行表连接。这样就节省了大量数据传输的时间以及系统资源，从而起到了优化作业的作用。MAPJOIN在Map阶段会将指定表的数据全部加载在内存中。因此指定的表仅能为小表，且表被加载到内存后占用的总内存不得超

2020-05-14 16:44:49 1641 1

转载 Lateral View(阿里大数据用法)

Lateral View和表生成函数（例如Split、Explode等函数）结合使用，它能够将一行数据拆成多行数据，并对拆分后的数据进行聚合。单个Lateral View语句语法定义如下。lateralView: LATERAL VIEW [OUTER] udtf(expression) tableAlias AS columnAlias (',' columnAlias) * fromClause: FROM baseTable (lateralView)*Lateral view ou

2020-05-14 16:42:51 897

转载 GROUPING SETS（阿里大数据用法）

对于经常需要对数据进行多维度的聚合分析的场景，您既需要对a列做聚合，也要对b列做聚合，同时要按照a、b两列同时做聚合，因此需要多次使用UNION ALL。使用GROUPING SETS可以快速解决此类问题。MaxCompute中的GROUPING SETS是对SELECT语句中GROUP BY子句的扩展，允许您采用多种方式对结果分组，而不必使用多个SELECT语句来实现这一目的。这样能够使MaxCompute的引擎给出更有效的执行计划，从而提高执行性能。说明本文中大部分示例采用MaxCompute.

2020-05-14 16:41:32 1139

转载 COMMON TABLE EXPRESSION（阿里大数据CTE用法）

MaxCompute支持SQL标准的CTE，提高SQL语句的可读性与执行效率。命令格式WITH cte_name AS ( cte_query ) [,cte_name2 AS ( cte_query2 ) ,……]参数说明cte_name：CTE的名称，不能与当前WITH子句中的其他CTE的名称相同。查询中任何使用到cte_name标识符的地方，均指CTE。 cte_query：一个SELEC

2020-05-14 16:31:24 336

转载 CLONE TABLE （阿里大数据克隆表和数据）

CLONE TABLE可以复制表数据到另一个表中，极大的提高了数据迁移的效率。本文为您介绍CLONE TABLE的使用。使用限制要求目标表与源表的Schema兼容。支持分区表和非分区表。目标表已存在时一次性复制分区的数量上限为10000个。目标表不存在时无分区数量限制，满足原子性。对同一个非分区表或者分区表的同一个分区，执行ClONE操作的次数不能超过7次。命令格式CLONE TABLE <[src_project_name.]src_table_name> [P

2020-05-14 16:29:40 948

转载机器学习之特征抽取

一、使用数据集：API:二、划分训练集与测试集sklearn APIspark三、数据特征抽取四、字典类型特征抽取 : one-hotsklearn API:spark API:五、文本类型特征抽取：CountVectorizersklearn API:spark API:补充：六、文本特征抽取：TfidfVectorizer示例：sklearn API:spark API:七、数据无量纲化：归一化skelarn API:spark API：缺点：八、数据无量纲.

2020-05-09 18:00:00 762

转载机器学习入门

机器学习入门主要理解机器学习的应用场景，以及如何以机器学习的方式来处理现实问题。一、机器学习发展历程达特摩斯会议 Dartmouth。 2018图灵奖。二、什么是人工智能应用场景：传统预测、图像识别、自然语言处理。人工智能、机器学习、深度学习。三、机器学习算法分类样本由特征值和目标值组成，特征值为样本的特征属性，目标值为样本的目标分类。按照目标值进行分类： 1、目标值为离散的类别：分类问题 2...

2020-05-09 17:58:35 119

翻译使用独立的HBase集群部署Apache Kylin

介绍ApacheKylin主要使用HBase来存储多维数据集数据。HBase集群的性能直接影响着Kylin的查询性能。在常见的场景中，HBase与mr/hive一起部署在一个HDFS集群上，这使得所使用的资源受到限制，mr作业会影响HBase的性能。这些问题可以通过独立的HBase集群来解决，ApacheKylin目前支持这种部署模式。环境要求要启用独立的HBase群集支持，请首先...

2019-01-23 11:34:40 923

转载 hive常用UDF and UDTF函数介绍-lateral view explode()

前言：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。这里只大概说下Hive常用到的UDF函数，全面详细介绍推荐官网wiki：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF。定义：UDF(User-Defined-Function)，用户自定义函数对数据进行处理。UDT...

2018-11-29 17:07:51 326

转载 Hive OLAP多维聚合函数

OLAP多维聚合函数Hive OLAP多维聚合函数是增强版的Group By语句。一般和Group By同时使用，用来进行多维分析。本文总结Hive三种常用的多维聚合函数:With Cube 任意维度聚合、Grouping Sets 指定维度聚合、With Rollup 层级维度聚合。 1 2测试数据-- 建表create table student_scores...

2018-11-29 17:05:33 676

转载 Kettle日常使用汇总整理

Kettle源码下载地址：https://github.com/pentaho/pentaho-kettleKettle软件下载地址：https://sourceforge.net/projects/pentaho/files/Data%20Integrationkettle-plugin源码下载地址：https://gitee.com/nivalsoul/kettlePlug...

2018-11-28 16:00:23 747

转载 Kettle连接Pentaho Server

一、打开Kettle点Connect点Connect二、向导式配置连接Get Started配置Almost DoneConnect NowAdmin/passwordConnected三、试一试打开，看到浏览窗口是服务的内容标识成功。后面保存的转换和任务都将保存到Pentaho Server中。 Try ...

2018-11-15 14:07:51 1741

转载 Windows安装Kettle8.1 CE 社区版

1、到SourceForge下载Pentaho Kettle CE版本https://sourceforge.net/projects/pentaho/files/Pentaho%208.1/client-tools/image.png2、安装1、参考帖子：https://jingyan.baidu.com/article/3f16e00309df492591c103e8....

2018-11-15 14:05:43 958

转载 CentOS7安装Pentaho Server 8.1 CE 社区版

安装Pentaho Server1、下载Pentaho Server CE到SourceForge下，https://sourceforge.net/projects/pentaho/files/Pentaho%208.1/server/2、解压到/opt/ptools/下unzip pentaho-server-ce-8.1.0.0-365.zip -d /opt/pto...

2018-11-15 13:55:15 1954

转载 CentOS7安装Pentaho Server 8.1 CE 社区版JDK1.8安装篇

Centos7下安装与卸载Jdk1.8卸载查看已经安装的jdk[root@bogon jre]# rpm -qa|grep jdkjava-1.8.0-openjdk-headless-1.8.0.65-3.b17.el7.x86_64java-1.7.0-openjdk-1.7.0.91-2.6.2.3.el7.x86_64java-1.7.0-openjdk-headless...

2018-11-15 13:52:15 412 1

转载设置PDI7.1连接到Cloudera集群

在你开始之前在开始之前，你需要做一些事情。验证支持检查组件引用，以验证您的PunaHo版本支持CDH集群的版本。建立CDH集群配置CDH集群。如果需要帮助，请参阅Cloudera的文档。安装任何必需的服务和服务客户端工具。测试群集。获取连接信息获取您将从Hadoop管理员、Cloudera管理器或其他群集管理工具使用的群集和服务的连接信息。一旦完成，您还需要向用户...

2018-11-15 11:47:23 847

翻译 pdi7.1 kettle7.1配置

Home文件7.1配置这本指南的基本配置任务for the Pentaho的服务器，数据连接，the Pentaho的设计工具，所以你可以登录和Hadoop集群解决方案和数据创建get started ETL的分析方法。这是你的指导安装the Pentaho的软件。工具：这些配置任务可以执行（Pentaho的用户控制台through the PUC），the PDI（Data...

2018-11-15 10:47:21 862

翻译 Hadoop File Output 使用和问题解决

请注意：这份文件适用于PATAHO 7.1和更早的版本。对于PANAHO 8和以后，请参阅PadaHoeEnterprise Enterprise文档站点上的Hadoop文件输出。描述Hadoop文件输出步骤用于将数据导出到存储在Hadoop集群上的文本文件。这通常用于生成可由电子表格应用程序读取的逗号分隔值（CSV文件）。还可以通过在字段选项卡中设置字段长度来生成固定宽度的文件。这些...

2018-11-15 10:34:50 3271 1

原创 kettle7.1连接CDH5.14.1 时，执行Hadoop Copy Files错误

2018/11/08 19:44:24 - RepositoriesMeta - Reading repositories XML file: C:\Users\Administrator\.kettle\repositories.xml2018/11/08 19:44:25 - Spoon - 试图打开最近使用的文件.2018/11/08 19:44:25 - Spoon - Connect...

2018-11-08 19:45:48 1372 3

翻译 kettle7.1 配置2

步骤1：找到Pentaho大数据插件和Shim目录Shims和Pentaho自适应大数据层的其他部分在Pentaho大数据插件目录中。这个目录的路径不同于组件。您需要知道该目录的位置，在每个组件中，完成SIMM配置和测试任务。< pentaho home>是安装pentaho 的目录。pentaho 大数据插件目录的组件定位Spoon < pentaho...

2018-11-07 10:51:02 552

翻译设置Kettle7.1接CDH hadoop集群

在开始之前，你需要做一些事情。验证支持检查组件引用，以验证您的Kettle7.1版本支持您的MAPR集群版本。建立MAPR集群Kettle7.1可以连接到安全的和不安全的MAPR集群。配置MAPR集群。如果需要帮助，请参阅MapR的文档。安装任何必需的服务和服务客户端工具。测试群集。设置MapR客户端安装MapR客户机，然后进行测试，以确保它正确地安装在...

2018-11-07 10:48:03 1354

转载 weblogic安装时提示不是有效的JDK Java主目录解决方案

weblogic安装时提示不是有效的JDK Java主目录解决方案一.问题现象由于项目需求，需要用weblogic作为web服务器，在开发环境安装过程中，遇到了如下的问题。D:\Software\fmw_12.2.1.3.0_infrastructure_Disk1_1of1>java -jar ./fmw_12.2.1.3.0_infrastructure.jar启动

2017-11-24 17:26:43 29210 10

原创 Maven管理Oracle JDBC驱动

使用Maven管理Oracle驱动包　　由于Oracle授权问题，Maven3不提供Oracle JDBC driver，为了在Maven项目中应用Oracle JDBC driver,必须手动添加到本地仓库。手动添加到本地仓库需要本地有oracle驱动包，有两种方式获取oracle的驱动包：一种是去oracle官网下载，另一种是如果本地安装了对应版本的oracle，可以在

2017-11-08 16:07:30 251

原创 HBASE 常用语法和phoenix 配置

hadoop服务器监控网址 hadoop常用命令使用账号从ssh登录，进入HADOOP_HOME目录。hadoop安装目录：/usr/lib/hadoop/启动Hadoop 执行sh bin/start-all.sh 或关闭Hadoop· 执行sh bin/stop-all.s

2017-08-31 09:26:12 994

原创我常用的大数据执行脚本，共享给大家

首先到238执行：cd /usr/local/hbase-1.2.1/bin/./stop-hbase.sh 碰到报错，到238，239，240cd /usr/local ./stophbase.sh 执行完之后，使用 ps axu |grep hbase 查看是否还有残余进程。。有的话，根据查看到的pid 执行 kill -9 $pid （这里的$p

2017-08-21 14:09:22 1446

转载 Phoenix实现用SQL查询HBase

HBase，一个NoSQL数据库，可存储大量非关系型数据。HBase，可以用HBase shell进行操作，也可以用HBase Java api进行操作。HBase虽然是一个数据库，但是它的查询语句，很不太好用。要是能像使用Mysql等关系型数据库一样用sql语句操作HBase，那就很Perfect了。现有工具有很多Hive，Tez，Impala，Shark/Spark，Phoen

2017-08-21 09:29:11 496

原创数据分析中使用的phoenix 版本建议

comet4j-tomcat7phoenix-4.7.0.2.6.0.3-8-clientphoenix-4.7.0.2.6.0.3-8-queryserverphoenix-4.7.0.2.6.0.3-8-serverphoenix-4.7.0.2.6.0.3-8-thin-client使用上面的phoenix版本，结合相应的集群，既可从HBASE中抓

2017-08-21 09:16:01 865

转载 java.lang.OutOfMemoryError异常解决方法

java.lang.OutOfMemoryError异常解决方法

2017-08-17 14:06:31 581

原创从mongoDB，使用SPARK来抓取数据, 主要针对无埋点数据。

无埋点数据的抓取，这里使用的是growingIO地址：https://docs.growingio.com/growingio_api_auth.htmlmongoDB的官方参考：https://docs.mongodb.com/spark-connector/v2.1/scala-api/大家好，如有任何问题，可以添加我微信沟通. 我微信:18670490538

2017-08-12 14:14:55 748