么么惠-CSDN博客

原创基于GeoHash算法的地理位置检索

地理位置检索服务在日常生活中随处可见，小到共享单车、高德地图，大到飞行航线轨迹。上述服务中很多相关功能都可以通过GeoHash来实现，Lucene/Solr中也有应用到GeoHash，通过GeoHash创建索引、查询索引以及距离的计算等等。GeoHash算法本质上是空间索引的一种方式。我们可以将整个地球设想为一个二维平面，将地球上所有区域展开平铺之后通过递归分解将该平面切分为32个模块。之后再...

2019-09-09 17:05:10 2044 2

原创哔哩哔哩缓存视频无声音，使用python合成音频与视频

一、查看当前puyhon版本为3.8.5：conda info二、使用pip install moviepy安装moviepy包san这是一个用来处理视频的库，使用豆瓣镜像：pip install moviepy -i http://pypi.douban.com/simple --trusted-host=pypi.douban.com三、安装ffmpeg1.去官网下载ffmpeg（windows版本），并解压（解压到压缩文件名的文件夹），解压后重命名文件夹为ff.

2021-07-13 11:23:47 1151

原创 kylin单机版quick start

最近想学习一下kylin的cube构建过程（本人做产品经历工作），因为没有云服务器，只好用自己的本本在虚拟机上搞一下~好记性不如烂笔头，记录一下过程和踩得坑，以后随时复习~安装vmware安装教程、安装包以及key网上都有很多，我装的是vmware workstation10创建新的虚拟机使用的是centos7镜像，内存处理器和硬盘都用了默认配置，怕笔记本承受不来它不该承担的压力~没调资源centos7安装docker环境新创建的虚拟节点，没有hadoop环境，所以选择安装d

2021-07-08 10:51:23 267

转载电商用户RFM分析（平均值计算中心点）

原始数据集

2021-07-03 11:32:25 1046

原创 python语音特征提取之使用ffmpeg与spleeter实现视频人声过滤

安装过程中所涉及到的库有两种安装方式：通过pip或者conda安装。本次测试通过pip安装，使用镜像为清华源和豆瓣源。安装moviepymoviepy包是一个用来处理视频的库。这个库是Python视频编辑库，可裁剪、拼接、标题插入、视频合成、视频处理和自定义效果。1.使用pip install moviepy安装，报错2.使用豆瓣镜像下载pip install moviepy -i http://pypi.douban.com/simple --trusted-host=pypi.douban.

2020-12-14 18:36:24 7002 6

原创记一次超万亿规模的hadoop NameNode性能故障排查过程

近日客户反馈录信数据库LSQL突然性能变差，之前秒级响应的数据查询与检索，现在却总是在“转圈”，卡住不动了。因为是突然发生的现象，现场先排除了业务变动，并未发现问题。作为数据库厂家，我立马奔赴现场，万亿级别大项目不敢小觑。先来介绍一下该平台架构，底层采用hadoop进行分布式存储，中间数据库采用的录信lsql，数据实时导入采用kafka进行。每天的数据规模是500亿，数据存储周期为90天，一共...

2020-04-16 18:59:10 27061

原创 Lucene数据存储实现：LSQL行存&列存

Lucene作为最强大的开源的全文检索引擎，其倒排索引机制可以快速的根据term值找到docid，此外lucene也可以保存明细数据，通过docid将明细数据返回，并且有两种方式-行存、列存。一次查询的流程上图是lucene一次查询的流程，首先是从倒排索引中获取docid，之后再从行存或者列存中找到数据。只有建立索引的字段才会生成term和term对应的docid列表。当然，如果字段需...

2020-03-14 20:31:59 633

原创提升大数据集群稳定性：主从集群&过载保护

主从集群1.主从简介LSQL在主从集群上需要启动两个LSQL，两个LSQL是在进程上的资源隔离。在主上面可以进行数据的导入、删除以及查询。从只能负责数据的查询。启动多个lsql集群，一主多从。在主上面做数据写入。从做查询。与mysql不同的是，主从共享同一份数据。 2.配置方法主从集群，需要在两个不同的机器上配置。在lsql_env....

2020-02-26 23:44:39 528

转载多维关系分析必备：多列联合倒排索引

长期以来，Lucene在搜索领域的垄断地位无人能及，基于Lucene之上的Elastic Search与Solr 也是家喻户晓的产品；录信数据库最初的版本也是基于Lucene来实现的，在设计之初经常会遇到跟solr、es同样的问题。如面对几十亿的数据就遇到内存爆掉的问题，此时CPU与IO都飙到系统极限；100亿的数据就需要100多台512G的大内存与SSD盘的硬件支撑，内存参数略微调不好就出...

2020-02-25 23:38:32 564

转载 ElasticSearch之geohash替代方案：基于morton码的地理位置检索与轨迹匹配应用

地理位置检索服务在日常生活中随处可见，小到共享单车、高德地图，大到飞行航线轨迹。上述服务中很多相关功能都可以通过GeoHash来实现，Lucene/Solr中也有应用到GeoHash，通过GeoHash创建索引、查询索引以及距离的计算等等。GeoHash编码Lucene内部sandbox包支持地理位置检索，默认实现可以支持方形，圆形和多边形的地理位置检索。GeoHash算法本质上是空间...

2020-02-24 23:06:54 1622

原创基于HDFS异构机制的协同存储功能详解

你还在堆机器吗？你还在依赖大内存吗？你在为大量的SSD盘成本而心痛吗？Hadoop异构存储了解一下~异构存储简言之，就是从硬件设备上进行优化存储和性能，针对冷数据，采用容量大的、读写性能不高的介质存储，比如普通的磁盘；针对热数据，实时进行查询的，经常用到的就用SSD进行存储。在说Hadoop的异构存储之前我们先来简单了解一下SSD和SATA硬盘各自的优缺点。硬盘对比...

2020-02-14 22:42:25 424 2

原创基于HDFS异构机制的列簇功能详解

千亿数据规模下，数据查询系统的性能与储存成本成正比，要达到满意的查询性能需要昂贵的存储设备来存储海量的数据，反之廉价的存储设备会降低查询速度，所以需要一种兼顾性能与成本的分级存储方法。目前主流存储设备按照读取速度从快到慢的顺序，有内存、SSD固态硬盘、SAS机械硬盘、SATA机械硬盘，其价格也与之成正比。从稳定可靠的性能看，正好反之，速度越慢的设备越不容易损坏，内存最容易丢失数据，在断电的情况...

2020-02-13 23:16:31 324

weixin_44253169的博客