自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 基于GeoHash算法的地理位置检索

地理位置检索服务在日常生活中随处可见,小到共享单车、高德地图,大到飞行航线轨迹。上述服务中很多相关功能都可以通过GeoHash来实现,Lucene/Solr中也有应用到GeoHash,通过GeoHash创建索引、查询索引以及距离的计算等等。GeoHash算法本质上是空间索引的一种方式。我们可以将整个地球设想为一个二维平面,将地球上所有区域展开平铺之后通过递归分解将该平面切分为32个模块。之后再...

2019-09-09 17:05:10 2044 2

原创 哔哩哔哩缓存视频无声音,使用python合成音频与视频

一、查看当前puyhon版本为3.8.5:conda info二、使用pip install moviepy安装moviepy包san这是一个用来处理视频的库,使用豆瓣镜像:pip install moviepy -i http://pypi.douban.com/simple --trusted-host=pypi.douban.com三、安装ffmpeg1.去官网下载ffmpeg(windows版本),并解压(解压到压缩文件名的文件夹),解压后重命名文件夹为ff.

2021-07-13 11:23:47 1151

原创 kylin单机版quick start

最近想学习一下kylin的cube构建过程(本人做产品经历工作),因为没有云服务器,只好用自己的本本在虚拟机上搞一下~好记性不如烂笔头,记录一下过程和踩得坑,以后随时复习~安装vmware安装教程、安装包以及key网上都有很多,我装的是vmware workstation10创建新的虚拟机使用的是centos7镜像,内存处理器和硬盘都用了默认配置,怕笔记本承受不来它不该承担的压力~没调资源centos7安装docker环境新创建的虚拟节点,没有hadoop环境,所以选择安装d

2021-07-08 10:51:23 267

转载 电商用户RFM分析(平均值计算中心点)

原始数据集

2021-07-03 11:32:25 1046

原创 python语音特征提取之使用ffmpeg与spleeter实现视频人声过滤

安装过程中所涉及到的库有两种安装方式:通过pip或者conda安装。本次测试通过pip安装,使用镜像为清华源和豆瓣源。安装moviepymoviepy包是一个用来处理视频的库。这个库是Python视频编辑库,可裁剪、拼接、标题插入、视频合成、视频处理和自定义效果。1.使用pip install moviepy安装,报错2.使用豆瓣镜像下载pip install moviepy -i http://pypi.douban.com/simple --trusted-host=pypi.douban.

2020-12-14 18:36:24 7002 6

原创 记一次超万亿规模的hadoop NameNode性能故障排查过程

近日客户反馈录信数据库LSQL突然性能变差,之前秒级响应的数据查询与检索,现在却总是在“转圈”,卡住不动了。因为是突然发生的现象,现场先排除了业务变动,并未发现问题。作为数据库厂家,我立马奔赴现场,万亿级别大项目不敢小觑。先来介绍一下该平台架构,底层采用hadoop进行分布式存储,中间数据库采用的录信lsql,数据实时导入采用kafka进行。每天的数据规模是500亿,数据存储周期为90天,一共...

2020-04-16 18:59:10 27061

原创 Lucene数据存储实现:LSQL行存&列存

Lucene作为最强大的开源的全文检索引擎,其倒排索引机制可以快速的根据term值找到docid,此外lucene也可以保存明细数据,通过docid将明细数据返回,并且有两种方式-行存、列存。一次查询的流程上图是lucene一次查询的流程,首先是从倒排索引中获取docid,之后再从行存或者列存中找到数据。只有建立索引的字段才会生成term和term对应的docid列表。当然,如果字段需...

2020-03-14 20:31:59 633

原创 提升大数据集群稳定性:主从集群&过载保护

主从集群1.主从简介LSQL在主从集群上需要启动两个LSQL,两个LSQL是在进程上的资源隔离。在主上面可以进行数据的导入、删除以及查询。从只能负责数据的查询。启动多个lsql集群,一主多从。 在主上面做数据写入。从做查询。 与mysql不同的是,主从共享同一份数据。 2.配置方法主从集群,需要在两个不同的机器上配置。在lsql_env....

2020-02-26 23:44:39 528

转载 多维关系分析必备:多列联合倒排索引

长期以来,Lucene在搜索领域的垄断地位无人能及,基于Lucene之上的Elastic Search与Solr 也是家喻户晓的产品;录信数据库最初的版本也是基于Lucene来实现的,在设计之初经常会遇到跟solr、es同样的问题。如面对几十亿的数据就遇到内存爆掉的问题,此时CPU与IO都飙到系统极限;100亿的数据就需要100多台512G的大内存与SSD盘的硬件支撑,内存参数略微调不好就出...

2020-02-25 23:38:32 564

转载 ElasticSearch之geohash替代方案:基于morton码的地理位置检索与轨迹匹配应用

地理位置检索服务在日常生活中随处可见,小到共享单车、高德地图,大到飞行航线轨迹。上述服务中很多相关功能都可以通过GeoHash来实现,Lucene/Solr中也有应用到GeoHash,通过GeoHash创建索引、查询索引以及距离的计算等等。GeoHash编码Lucene内部sandbox包支持地理位置检索,默认实现可以支持方形,圆形和多边形的地理位置检索。GeoHash算法本质上是空间...

2020-02-24 23:06:54 1622

原创 基于HDFS异构机制的协同存储功能详解

你还在堆机器吗?你还在依赖大内存吗?你在为大量的SSD盘成本而心痛吗?Hadoop异构存储了解一下~异构存储简言之,就是从硬件设备上进行优化存储和性能,针对冷数据,采用容量大的、读写性能不高的介质存储,比如普通的磁盘;针对热数据,实时进行查询的,经常用到的就用SSD进行存储。在说Hadoop的异构存储之前我们先来简单了解一下SSD和SATA硬盘各自的优缺点。硬盘对比...

2020-02-14 22:42:25 424 2

原创 基于HDFS异构机制的列簇功能详解

千亿数据规模下,数据查询系统的性能与储存成本成正比,要达到满意的查询性能需要昂贵的存储设备来存储海量的数据,反之廉价的存储设备会降低查询速度,所以需要一种兼顾性能与成本的分级存储方法。目前主流存储设备按照读取速度从快到慢的顺序,有内存、SSD固态硬盘、SAS机械硬盘、SATA机械硬盘,其价格也与之成正比。从稳定可靠的性能看,正好反之,速度越慢的设备越不容易损坏,内存最容易丢失数据,在断电的情况...

2020-02-13 23:16:31 324

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除