自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (3)
  • 收藏
  • 关注

原创 架构师系列-搜索引擎ElasticSearch(九)- 分布式文档原理

当索引一个文档的时候,文档会被存储到一个主分片中, Elasticsearch如何知道一个文档应该存放到哪个分片中呢?肯定不是随机的而是根据以下算法来决定的1) routing值是一个任意字符串,它默认是_id,但也可以自定义2) 这个routing字符串通过哈希函数生成一个数字,然后除以主切片的数量得到一个余数(remainder),余数的范围永远是0到number_of_primary_shards -1,这个数字就是特定文档所在的分片。

2024-04-15 08:30:00 574

原创 架构师系列-搜索引擎ElasticSearch(八)- 集群管理故障恢复

集群的master节点会监控集群中的节点状态,如果发现有节点宕机,会立即将宕机节点的分片数据迁移到其它节点,确保数据安全,这个叫做故障转移。下图中node1是主节点,其他两个节点是从节点。

2024-04-14 21:37:09 736

原创 架构师系列-搜索引擎ElasticSearch(七)- 集群管理之分片

Elasticsearch 的集群监控信息中包含了许多的统计数据,其中最为重要的一项就是集群健康,它在 status字段中展示为 green(所有主分片和副本分片都正常)、yellow(所有数据可用,有些副本分片尚未分配,集群功能完全)或者 red(该状态下数据已经丢失,有主分片没能正常运行)。可以通过以下命令查看集群的状态。

2024-04-14 19:53:15 757

原创 架构师系列-搜索引擎ElasticSearch(六)- 映射

在创建索引时,可以预先定义字段的类型(映射类型)及相关属性。数据库建表的时候,我们DDL依据一般都会指定每个字段的存储类型,例如:varchar、int、datetime等,目的很明确,就是更精确的存储数据,防止数据类型格式混乱,在Elasticsearch中也是这样,创建索引的时候一般也需要指定索引的字段类型,这种方式称为映射(Mapping)。

2024-04-14 18:11:08 1271 1

原创 架构师系列-搜索引擎ElasticSearch(五)- 索引设计

索引创建后,要非常谨慎,创建不好后面会出现各种问题。

2024-04-14 17:29:22 1249

原创 架构师系列-搜索引擎ElasticSearch(四)- 高级查询

ES查询。

2024-04-14 12:07:24 1167

原创 架构师系列-搜索引擎ElasticSearch(三)- Java API

搭建SpringBoot工程,引入ElasticSearch相关坐标测试。

2024-04-13 21:42:12 600

原创 架构师系列-搜索引擎ElasticSearch(二)

一个简单版的B+树索引大概是:叶子节点存放完整的数据,非叶子节点存放建立对应聚簇索引对应的字段(主键),一条可以使用聚簇索引的SQL,会依次从上往下进行B+树的查找。

2024-04-13 20:59:48 1324

原创 架构师系列-搜索引擎ElasticSearch(一)

es的安装、kibana安装、es快速入门、中文分词器

2024-04-06 00:15:43 1077 2

原创 redis的hash结构数据批量删除

hset to_np b2 1hset to_np a2 1hset to_np a11redis-cli HKEYS to_np | grep a | xargs redis-cli HDEL to_np将hash中的a开头的删除

2021-04-23 11:36:03 2199

原创 java获取网口的状态

package com.marfosec;import java.net.InetAddress;import java.net.NetworkInterface;import java.util.Enumeration;public class Network {// java -cp network-1.0.0.jar com.marfosec.Network public static void main(String[] args) throws Exception.

2021-04-22 22:55:59 587

原创 python 中文的url编码

st = "中标通告"st = parse.quote(st, encoding="gbk")print(st)st = parse.unquote("%D6%D0%B1%EA%CD%A8%B8%E6", encoding="gbk")print(st)

2020-08-20 18:40:22 576

原创 mysql分区表

创建分区表​​​​​​​create table t_task_resource ( id int(11) NOT NULL AUTO_INCREMENT, task_id int not null , resource_type tinyint not null , check_type tinyint not null , camera_id int , room_id int , state tinyint , org_id int ,

2020-07-01 13:34:02 126

原创 hive下的hdfs文件删除了, spark做汇总,报InvalidInputException: Input path does not exist

删除了hive的分区文件, 但是hive的分区未删除, 导致spark汇总报错。解决办法:show partitions t_name;hadoop fs -ls /user/hive/warehouse/t_name/end_day=xxx/end_time_hour=xxx做比较, 将删除的文件对应的分区删除。alter table t_name drop partition (end_day=20200604,end_time_hour=0);重新执行spark汇总即可。..

2020-06-05 19:21:36 474

转载 Hive SQL自带函数总结

字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length(‘abcedfg’) from dual;7字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果举例:hive> select reverse(‘abcedfg’) from dual;gfdecba字符串连接函数:...

2020-06-04 12:27:46 688

原创 element-ui table 多列排序

<el-table :data="dataList" border v-loading="dataListLoading" @selection-change="selectionChangeHandle" @header-click="handleHeaderClick" :header-cell-class-name="handleHeaderClass" style="width: 100%;" &l

2020-05-20 09:25:48 3151

原创 docker常见问题

创建容器时[Warning] IPv4 forwarding is disabled. Networking will not work.解决办法:在docker的宿主机中更改以下[root@localhost ~]# vi /usr/lib/sysctl.d/00-system.conf添加如下代码:net.ipv4.ip_forward=1重启network服务systemctl restart networkdocker自启动启动脚本# docker.service#!/bin

2020-05-20 09:13:32 137

原创 azkaban的安全漏洞,禁用TRACE

azkaban的安全漏洞: Sun Java System Application Server 7和7 2004Q2的默认设置可以启动HTTP TRACE路径, 更易于远程攻击者通过一个跨站追踪工具窃取cookies和验证信任, 该问题与CVE-2004-2763和CVE-2005-3398相关参考azkaban的githubhttps://github.com/azkaban/azkaban/pull/2044https://github.com/azkaban/azkaban/pull/2

2020-05-19 14:26:51 1106

原创 docker时间与tomcat不一致

docker时间与linux时间不一致解决办法:docker run --name <name> -v /etc/localtime:/etc/localtimedocker与tomcat时间不一致解决办法:在tomcat/bin/catalina.sh文件中修改tomcat JAVA_OPTS,添加如下内容:JAVA_OPTS="$JAVA_OPTS -Duser.timezone=GMT+08"...

2020-05-14 18:40:14 445

原创 mysql 常用语句

表级联更新update sys_user u join sys_hand_user h on u.username = h.username set u.real_name = h.real_name;

2020-05-13 16:22:55 118

原创 linux下时钟同步ntp

ntp的server端的ip为192.168.5.21 hostname为node1server端 cat /etc/ntp.conf[root@node1 ~]# cat /etc/ntp.confdriftfile /var/lib/ntp/driftrestrict default nomodify notrap nopeer noqueryrestrict 127.0.0.1 ...

2020-05-07 15:39:57 121

原创 docker基础

Docker 是 PaaS 提供商 dotCloud 开源的一个基于 LXC 的高级容器引擎, 基于go语言并遵从Apache2.0协议开源, 托管在github上.时间节点: 2013年Docker和Container的关系vm与container比较docker架构docker安装docker-18.03.1-ce.tgz 离线安装tar xzvf docker-18.0...

2020-04-30 17:12:27 133

原创 gitlab 服务器ip地址发送变化更改配置

需要修改/home/gitlab/config/gitlab.rb# 配置http协议所使用的访问地址,不加端口号默认为80external_url 'http://192.168.1.237'## # 配置ssh协议所使用的访问地址和端口gitlab_rails['gitlab_ssh_host'] = '192.168.1.237'gitlab_rails['gitlab...

2020-04-30 16:28:03 622 1

转载 gitlab-runner集成

1 gitlab-runner 安装1.1 下载执行文件 # Linux x86-64 sudo wget -O /usr/local/bin/gitlab-runner https://gitlab-runner-downloads.s3.amazonaws.com/latest/binaries/gitlab-runner-linux-amd64 # Linux x86 su...

2020-04-30 16:12:06 218 1

原创 kafka topic删除失败

kafka-topics --list --zookeeper node1:2181,node2:2181,node4:2181kafka-topics --delete --zookeeper node1:2181,node2:2181,node4:2181 --topic ods_uinfo_topic发现被标记为marked for deletion登录cdh的cm的web,发现de...

2020-04-30 11:57:04 1210

原创 wmware exsi的centos7的系统磁盘扩容

[root@node4 opt]# df -hFilesystem Size Used Avail Use% Mounted on/dev/mapper/centos-root 50G 34G 17G 68% /devtmpfs 5.8G 0 5.8G 0% /devtmpfs ...

2020-04-30 10:44:08 301

原创 ssh登录慢

vi /etc/ssh/sshd_config将#UseDNS yes的注释打开并更改为 UseDNS noservice sshd restart重新连ssh即可

2020-04-30 09:10:54 126

原创 SparkSQL将小文件合并

1、设置配置 spark.sql("set hive.exec.dynamic.partition=true") spark.sql("set hive.exec.dynamic.partition.mode=nonstrict") spark.sql("SET spark.sql.shuffle.partitions=1") //优化,防止生成很多的小文件2、进行inser...

2020-04-27 11:16:34 2254 2

原创 mysql in 字符串

INSERT INTO `dim_domain_info`(`id`, `domain`, `ip`, `port`) VALUES (27916, 'aa.edu1.cn', '1.2.9.1', 443);INSERT INTO `dim_domain_info`(`id`, `domain`, `ip`, `port`) VALUES (27917, 'aa.edu1.cn', '1.2....

2020-04-24 11:45:59 588 1

原创 Linux运维常用命令

1、mysql常用命令mysql导入导出:mysqldump -u root -p123456 database_name > database_dump.txt (导出)mysql -uroot -p123456 webapp_cernetbam < webapp_cernetbam.txt (导入)可以加参数 -h host(ip地址) -P 端口...

2020-04-24 09:47:48 117

原创 nlp之准确率和召回率

举例:真实: N N N T T N N N N T算法预测: N N T T N N N N N T则正样本 P(准确率)=2/3 R(召回率)=2/3真实: N N N T T N N N N T算法预测: N T T T T N N T N T正样本:P(准确率)=3/6 R(召回率)=3/3举例...

2020-04-08 11:00:25 832

原创 nlp之朴素贝叶斯算法

原始文本 -> 分词 -> 清洗(去除无用标签,去除听用词,大小写转换等) -> 标准化 -> 特征提取(tf-idf , word2vec) -> 建模(相似度算法,分类算法等AI算法)语言模型:LMp(是|今天)=0.01p(今天)=0.002p(周日|是)=0.001p(周日|今天)=0.0001p(周日)=0.02p(...

2020-04-08 09:40:49 236

settings.zip

idea设置eclipse代码风格

2021-05-16

docker-18.03.1.zip

docker离线安装包,解压后,即可使用,无需在线安装第三方包或者插件。 该安装包可配合我的博客进行学习

2020-04-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除