自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(164)
  • 收藏
  • 关注

原创 tensorflow读取hdfs文件(parquet、csv)

tensorflow读取csv、parquet

2022-07-22 14:01:46 1719 1

原创 pip下载报错:pip._vendor.urllib3.exceptions.SSLError: [SSL: DECRYPTION_FAILED_OR_BAD_RECORD_MAC] decry

pip下载报错:pip下载命令如下:sudo pip3 install keras-bert -i https://pypi.tuna.tsinghua.edu.cn/simple/报错内容:pip._vendor.urllib3.exceptions.SSLError: [SSL: DECRYPTION_FAILED_OR_BAD_RECORD_MAC] decryption failed or bad record mac (_ssl.c:2629)解决思路:默认超时时间15s,可加

2022-05-09 17:39:39 3162

转载 hive语法在presto语法差异转化

1、字段切分hive实现:select results,split_resultsfrom tableLATERAL VIEW explode(split(results,'\\|')) t1 as split_results;presto实现:select results,split_resultsfrom tablecross JOIN unnest(split(results, '|')) as t (split_results);2、时间戳转日期时间time

2021-07-16 13:35:39 497

原创 HIVE / KYLIN的日期函数

KYLIN:SELECT TIMESTAMPADD(DAY, -7, CURRENT_TIMESTAMP) -- 2021-04-17 17:48:25SELECT TIMESTAMPADD(DAY, -7, CURRENT_DATE) --2021-04-17SELECT (YEAR(TIMESTAMPADD(DAY, -7, CURRENT_DATE)) * 10000 + MONTH(TIMESTAMPADD(DAY, -7, CURRENT_DATE)) * 100 + DAYO

2021-04-25 17:55:15 897

原创 ClickHouse 内核分析--MergeTree 的存储结构和查询加速

ClickHouse 内核分析–MergeTree 的存储结构和查询 加速ClickHouse 是最近比较火的一款开源列式存储分析型数据库,它最核心的特点就是极致存储压缩率和查询性能,本人最近正在学习 ClickHouse 这款产品中。从我个人的视角来看存储是决定一款数据库核心竞争力、 适用场景的关键所在,所以接下来我会陆续推出一系列文章来分析 ClickHouse 中最重要的 MergeTree 存储 内核。本文主旨在于介绍 MergeTree 的存储格式,并且彻底剖析 MergeTree 存储的极致

2021-04-16 14:23:24 424

原创 Clickhouse 架构设计

Clickhouse 架构设计Column 与 FieldColumn 和 Field 是 ClickHouse 数据最基础的映射单元。作为一款百分之百的列式存储数据库,ClickHouse 按列存储数据,内存中的一列数据由一个 Column 对象表示。Column 对象分为接口和实现 两个部分,在 IColumn接口对象中,定义了对数据进行各种关系运算的方法,例如插入数据的 insertRangeFrom 和 insertFrom 方法、用于分页的 cut,以及用于过滤的 filter 方法等。

2021-04-16 14:05:47 317

原创 Clickhouse引擎四: 内存引擎

Clickhouse引擎四: 内存引擎表引擎,都是面向内存查询的,数据会从内存中被直接访问,所以它们被归纳为内存类型。但这并不意味着内存类表引擎不支持物理存储,事实上,除了 Memory 表引擎之外,其 余的几款表引擎都会将数据写入磁盘,这是为了防止数据丢失,是一种故障恢复手段。而在数据表被 加载时,它们会将数据全部加载至内存,以供查询之用。将数据全量放在内存中,对于表引擎来说是 一把双刃剑:一方面,这意味着拥有较好的查询性能;而另一方面,如果表内装载的数据量过大,可 能会带来极大的内存消耗和负担!M

2021-04-16 13:54:00 619

原创 Clickhouse引擎三: 外部存储引擎

Clickhouse引擎二: 外部存储引擎HDFSClickhouse 可以直接从 HDFS 中指定的目录下加载数据 , 自己根本不存储数据, 仅仅是读取数据 ENGINE = HDFS(hdfs_uri,format) ·hdfs_uri 表示 HDFS 的文件存储路径; ·format 表示文件格式(指 ClickHouse 支持的文件格式,常见的有 CSV、TSV 和 JSON 等)。 注意的是 HDFS 引擎在处理数据的时候分为两种处理方式:1 可以读写 HDFS 上的数据在建表的时候指定H

2021-04-16 13:45:44 555

原创 Clickhouse引擎二: MergeTree 家族引擎

Clickhouse引擎二: MergeTree 家族引擎MergeTree 系列的表引擎是 ClickHouse 数据存储功能的核心。它们提供了用于弹性和高性能数据检索的大多数功能:列存储,自定义分区,稀疏的主索引,辅助数据跳过索引等。 基本 MergeTree 表引擎可以被认为是单节点 ClickHouse 实例的默认表引擎,因为它在各种用例中通用 且实用。除了基础表引擎 MergeTree 之 外,常用的表引擎还有 ReplacingMergeTree、SummingMergeTree、Agg

2021-04-16 13:38:57 352

原创 Clickhouse引擎一: Log 系列引擎

Clickhouse引擎一: Log 系列引擎Log 家族具有最小功能的轻量级引擎。当您需要快速写入许多小表(最多约 100 万行)并在以后整体 读取它们时,该类型的引擎是最有效的。TinyLog 引擎最简单的表引擎,用于将数据存储在磁盘上。每列都存储在单独的压缩文件中,写入时,数据将 附加到文件末尾。该引擎没有并发控制 - 只支持并发读 - 如果同时从表中读取和写入数据,则读取操作将抛出异常; - 如果同时写入多个查询中的表,则数据将被破坏。这种表引擎的典型用法是 write-once:首先只写

2021-04-16 11:53:06 318

原创 Clickhouse基本概念

Clickhouse 系统架构ClickHouse 拥有完备的管理功能,所以它称得上是一个 DBMS(Database Management System,数据库管理系统),而不仅是一个数据库。作为一个 DBMS,它具备了一些基本功能,如下所示。·DDL(数据定义语言):可以动态地创建、修改或删除数据库、表和视图,而无须重启服务。 ·DML(数据操作语言):可以动态查询、插入、修改或删除数据。 ·权限控制:可以按照用户粒度设置数据库或者表的操作权限,保障数据的安全性。 ·数据备份与恢复:提供了数据备份

2021-04-16 11:40:29 414

原创 Clickhouse简介

Clickhouse简介ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的一个用于联机分析(OLAP:Online AnalyticalProcessing) 的列式数据库管理系统(DBMS:Database Management System) , 主要用于在线分析处理查询(OLAP),能够 使用 SQL 查询实时生成分析数据报告。 ClickHouse 的全称是 Click Stream,Data WareHouse,简称 ClickHouse。ClickHouse 是一个完全

2021-04-15 13:24:47 329

原创 Flink停止任务并保存savepoint

线上作业会有需求需要改动的时候, 希望不要丢失数据的进行需求迭代。注意:这中线上的任务迭代最好在数据量低谷的时候进行,对任务造成的影响最小。需要用到一下命令:flink取消任务并保存savepointflink cancel -s hdfs:///flink/flink-savepoints/20210326/11 【flink-job-id】 -yid 【application-id】 再次执行启动,加上savepoint地址:flink run \-d \-p 20 \

2021-04-15 11:35:11 3041 1

原创 召回以后排序的目的

召回层一般都没用到标签信息的,一些简单召回使用的信息非常有限,即使用有监督训练得到的向量,也无法包含context的信息。一般情况,召回大都是协同过滤:物品基于用户互动行为所产生的相似性(Item based,user base同理)。那如果两个物品在这种行为上的相似性是相近的,就无法区分其推荐评分的高低了。召回主要作用还是大范围的减小候选集,使得后续的精排算法在计算压力上减轻很多,就获取信息能力而言,CF还是有其局限性。排序就比较多了。context信息,包括单特征的交叉信息(LR没法自动做交叉,需要手

2021-03-30 14:36:17 229

原创 tensorflow指定版本的安装

下载指定版本:pip install tensorflow-gpu==1.4.0pip install tensorflow-cpu==2.2.0升级到指定版本:pip install --upgrade tensorflow-gpu==1.4.0卸载:pip uninstall tensorflow-gpu==1.4.0

2021-03-03 15:10:19 1241 1

原创 keras-Embedding层

嵌入层(Embedding Layer)是使用在模型第一层的一个网络层,其目的是将所有索引标号映射到致密的低维向量中,比如文本集[[4],[32],[67]]被映射为[[0.3,0.9,0.2],[-0.2,0.1,0,8],[0.1,0.3,0.9]]。该层通常用于文本数据建模。输入数据要求是一个二维张量:(1个批次内的文本数,每篇文本中的词语数),输出为一个三维张量:(1个批次内的文本数, 每篇文本中的词语数,每个词语的维度)。用下图来描述数据经过该层的过程:上图中,1个批次内的文本数为32,每篇文

2021-03-03 15:07:16 325

转载 embedding层处理类别特征

类别特征在现实里十分常见,处理的方法也很多,最常见的思路是转为one-hot编码,当然这种处理方式比较粗暴,在许多算法里效果也不是很好。还有的处理方式寻找类别特征的最优切分,这个需要特定工具的支持,如LightGBM,细节见这篇文章。 本篇文章主要讲解如何利用神经网络的embedding层处理类别特征。可以说,本篇文章是目前讲解利用神经网络的embedding层处理类别特征的最清晰的文章,相信读者一定会有很多收获。 一、前言 Embedding的起源和火爆都是...

2021-02-25 14:58:30 1915 1

原创 tensorflow安装serving:No versions of servable found under base path /models/

报错:No versions of servable FM found under base path /models/FM.解决:model dir下没有版本目录,新建一个dir 1即可。目录如下:|- model_dir |- 1 |- svaed_model.pb |- variables |- variables.data-00000-of-00001 |- variables.index...

2021-02-23 14:42:52 839

原创 Spark参数调优

spark.yarn.executor.memoryOverhead设置堆外内存,当出现超出物理内存使用,被yarn杀死的情况是,需要合理设置这个值,一般设置2G够用了spark.sql.shuffle.partitionssparksql的shuffle默认的并行度只有200,要想提高并行度,则需要调大这个值,以避免资源浪费或者单个task处理过大的数据,建议设置为总core的三倍spark.sql.adaptive.enabled开启自适应机制,建议为truespark.sq..

2021-01-06 09:47:24 819

原创 Spark读取Mysql性能优化

spark读取MySQL默认的并行度只有1,即使手动指定了并行度numPartitions,也不会生效,这在读取大表的时候会成为性能瓶颈想要提高并行度读取MySQL,则需要获取到该表主键的上下界,然后指定numPartitions,程序就会按照设置的并行度均匀拆分,每个task会去并行读取拆分后的数据,实现方法如下所示:import org.apache.spark.sql.SparkSessionimport scalikejdbc.{ConnectionPool, ConnectionPoolSe

2021-01-06 09:44:18 844

原创 Kylin部署问题记录

1.执行$KYLIN_HOME/bin/check-env.sh错误内容:找不到 hive-site.xml 文件根本原因:check-env的过程中执行的是以下脚本:find-hadoop-conf-dir.sh,find-hbase-dependency.sh,find-hive-dependency.sh,find-kafka-dependency.sh等,执行find-hive-dependency.sh时报出找不到 hive-site.xml 文件,搜索EMR集群文件,没有hive-site

2021-01-05 15:41:54 194

原创 KedProcessFunction实现窗口定时计算

一、EventTime// 数据进过清洗过滤后生成水位线val ds=env.addSource(consumer) .map(x=>{ val s=x.split(",") AdData(s(0).toInt,s(1),s(2).toLong) }).assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[AdData](Time.minutes(1

2021-01-05 15:37:28 190

原创 Flink:定时加载维表

业务背景:原先有大量数据会去从redis中查询,造成频繁的连接和查询,而且redis中的数据量很小,因此可以采用定时加载维表,将数据加载进每个subtask中。code:class CommercialAdvRichMapFunction(redisHost: String, redisPass: String) extends RichMapFunction[Source, Data] { private val logger: Logger = LoggerFactory.getLogger(t

2021-01-05 15:34:21 1530

原创 触发器Trigger与剔除器Evictor

一、Trigger窗口的计算是依赖触发器进行的,每种类型的窗口都有自己的触发器机制,如果用户没有指定,那么会使用默认的触发器。EventTimeTrigger:通过对比 Watermark 和窗口的 Endtime 确定是否触发窗口计算,如果 Watermark 大于 Window EndTime 则触发,否则不触发,窗口将继续等待。ProcessTimeTrigger:通过对比 ProcessTime 和窗口 EndTime 确定是否触发窗口,如果 ProcessTime 大于 EndTime 则

2021-01-05 15:31:55 483

转载 深度长文 | 从FM推演各深度CTR预估模型

深度长文 | 从FM推演各深度CTR预估模型(附开源代码)深度学习在CTR预估中的应用

2021-01-05 15:20:29 105

原创 TensorFlow ERROR:Resource temporarily unavailable

运行TensorFlow任务报错:terminate called after throwing an instance of 'std::system_error' what(): Resource temporarily unavailableFatal Python error: AbortedThread 0x00007fcef30a7740 (most recent call first): File "/usr/lib/python3.7/site-packages/tenso

2020-12-31 10:07:05 516

转载 FM系列算法(FM/FFM/DeepFM)

综述  在计算广告中,CTR是非常重要的一环。对于特征组合来说,业界通用的做法主要有两大类:FM系列和Tree系列。这里我们来介绍一下FM系列。  在传统的线性模型中,每个特征都是独立的,如果需要考虑特征与特征之间的相互作用,可能需要人工对特征进行交叉组合。非线性SVM可以对特征进行核变换,但是在特征高度稀疏的情况下,并不能很好的进行学习。现在有很多分解模型可以学习到特征之间的交互隐藏关系,基本上每个模型都只适用于特定的输入和场景。推荐系统是一个高度系数的数据场景,由此产生了FM系列算法。  本文主要

2020-12-11 11:37:48 557

原创 spark写入hbase任务报错:NoClassDefFoundError: com/yammer/metrics/Metrics

处理方式是在habse-home中找到metrics-core-2.2.0.jar,然后copy至spark-home/jars目录下,spark-home/jars目录有一个metrics-core的jar,版本不是2.2.0,可以忽略。

2020-12-07 09:50:52 538

原创 Spark避免小文件

SQL-Clientselect * from table1distribute by rand();select /+ REPARTITION(200) / a. from table1 a;select /+ COALESCE(200) / a. from table1 a;API用 coalesce或者repartition,num=(1.0*(df.count())/7000000).ceil.toIntdf.coalesce(num)df.repartition(.

2020-09-25 11:25:25 461

原创 Spark实现K-means

Q:无监督学习和有监督学习定义和区别A:有监督学习:提供数据并提供数据对应结果的机器学习过程。追要包括分类和回归。无监督学习:提供数据但是不提供数据对应结果的机器学习过程。主要应用在统计学中的密度估计和聚类分析。Q:K-means的聚类过程A:step1:首先选择k个类别的中心点step2:对任意一个样本,求其到各类中心的距离,将该样本归到距离最短的中心所在的类step3:聚好类后,重新计算每个聚类的中心点位置step4:重复2,3步骤迭代,直到k个类中心点的位置不变,或者达到一定的迭代次数

2020-09-25 11:15:20 563

原创 ipynb文件转换转换为py文件

step1:pip install jupyterstep2:在ipynb文件所在目录执行以下命令:jupyter nbconvert --to script *.ipynbstep3:在该目录下会有和ipynb同名的py文件

2020-09-21 15:24:41 349

原创 tensorflow实现CNN

# coding=utf-8# By author MZimport tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data## 1.首先处理数据集## 1.1图片大小为28*28mnist = input_data.read_data_sets('MNIST_data_bak/', one_hot=True)## tf.InteractiveSession()是在运行计算图的时候可以插入计算图

2020-09-14 10:50:33 155

原创 Flink写入HDFS(文本,parquet,parquet+snappy)

flink版本:1.10.0code: // 构建env环境 val env = StreamExecutionEnvironment.getExecutionEnvironment env.enableCheckpointing(1000*60) //1000*60 s一个checkpoint env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE) env.setSt

2020-08-20 13:40:30 4025 12

原创 FlinkSQL消费kafka设置WaterMark

消费kafka:val createTableSql = """ |CREATE TABLE aggs_test( | data VARCHAR, | account_id VARCHAR, | android_id VARCHAR, | iccid VARCHAR, | imei VARCHAR, | imsi VARCHAR, | operator VARCHAR, | oa_id V

2020-07-10 14:04:05 1900

原创 Linux查看磁盘空间大小

du -h --max-depth=1 .

2020-06-24 17:22:39 212

原创 HIVE数据导入CLICKHOUSE

import java.util.Propertiesimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject HiveToClickHouseDF { final val USERNAME = "root" final val PASSWORD = "LdouQdtmc3AClWD" final val APPNAME = "HiveToClickHouseDF-JOB" fin

2020-06-18 14:25:16 1876 2

转载 Solr+Hbase+Hbase Indexer查询方案流程整合(转载)

转载:https://blog.csdn.net/qq_34842671/article/details/86496983 概述亿级数据多条件组合查询——秒级响应解决方案简述了Hbase+Solr的亿级数据多条件组合查询的解决方案,但是当时并未

2020-05-27 11:15:23 252

原创 大数据面试题(附答案,持续更新...)

说说对hadoop的理解,都有哪些组件,分别是干什么的还了解大数据其他组件嘛?kafka在什么地方需要用到zookeeper了解HBase吗?说下spark中的transform和action为什么spark要把操作分为transform和actionspark中有了RDD,为什么还要有Dataframe和DataSet?了解函数式编程吗?说下c/c++和scala这种函数式编程语...

2020-04-28 15:42:18 9231 2

原创 ClickHouse中文文档

官网:https://clickhouse.tech/中文文档:https://clickhouse.tech/docs/zh/

2020-04-15 16:08:56 652

原创 Flink 1.10: Cannot find compatible factory for specified execution.target (=local)

         flink1.10的一个本地Demo测试过程中出现的一个问题,很简单的一段Word Count问代码:package flink.ioimport org.apache.flink.api.scala.ExecutionEnvironmentimport org.apache.flink.api.scala._objec...

2020-04-09 15:42:23 2239 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除