6 Little Programmer

尚未进行身份认证

我要认证

向往美好生活的程序员

等级
TA的排名 9k+

Jprofiler连接远程JVM ,便于线上问题排查

1、下载Jprofiler官网地址因为我这边是windows 连接远程的centos的JVM,所以我这边下载windows 和linux的版本linux上下载:wget https://download-gcdn.ej-technologies.com/jprofiler/jprofiler_linux_11_0_2.tar.gzwindows的下载安装我就不写了,无脑式安装2、解压Jprofiler解压tar -zxvf jprofiler_linux_11_0_2.tar.gz

2020-06-28 10:58:19

nginx 解决504超时问题

问题发现最近在做文件解析服务的压测,发现jmeter 基本有所有的错误反馈都是504,大概有1%左右的请求报504。由于文件解析服务耗时相对比较长,所以导致等待超时。分析nginx访问出现504 Gateway Time-out,一般是由于程序执行时间过长导致响应超时,例如程序需要执行90秒,而nginx最大响应等待时间为30秒,这样就会出现超时。通常有以下几种情况导致程序在处理大量数据,导致等待超时。程序中调用外部请求,而外部请求响应超时。连接数据库失败而没有停止,死循环重新连。出现这

2020-06-16 14:43:18

@Async 配合线程池的使用

一、编写线程池配置类@Configuration@EnableAsyncpublic class NlpThreadPoolConfig { private static final int CORE_POOL_SIZE = 10; private static final int MAX_POOL_SIZE = 20; private static final...

2020-01-21 16:24:00

CompletableFuture 使用记录

Java 8 有大量的新特性和增强如 Lambda 表达式,Streams,CompletableFuture等。CompletableFuture简介在Java中CompletableFuture用于异步编程,异步编程是编写非阻塞的代码,运行的任务在一个单独的线程,与主线程隔离,并且会通知主线程它的进度,成功或者失败。在这种方式中,主线程不会被阻塞,不需要一直等到子线程完成。主线程可以并行...

2020-01-19 17:56:05

Linux的top命令详解

top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。top显示系统当前的进程和其他状况,是一个动态显示过程,即可以不断刷新当前状态.如果在前台执行该命令,它将独占前台,直到用户终止该程序为止. 比较准确的说,top命令提供了实时的对系统处理器的状态监视.它将显示系统中CPU最“敏感”的任务列表.该命令可以按CPU使用.内存使用和...

2020-01-17 09:41:37

nginx 简单了解与安装

1、nginx是个啥nginx 是高性能的 HTTP 和反向代理的服务器,处理高并发能力是十分强大的,能经受高负载的考验,有报告表明能支持高达 50,000 个并发连接数。特性1)、反向代理首先先看一下什么事正向代理:用户主动去指定的网站访问,通过配置的代理服务器反向代理就是与正向代理相反的操作,暴露的是代理服务器的地址,隐藏真实服务器的IP2)、负载均衡增加服务器的数量,然...

2019-12-17 17:24:33

PageRank算法

知道PageRank算法,其实是先知道TextRank算法,发现其是由PageRank算法演变而来,之前了解过,现在又回顾记忆一下。PageRank概述佩奇排名(PageRank),又称网页排名、谷歌左侧排名、PR,是Google公司所使用的对其搜索引擎搜索结果中的网页进行排名的一种算法。 佩奇排名本质上是一种以网页之间的超链接个数和质量作为主要因素粗略地分析网页的重要性的算法。目前很多重要的...

2019-10-11 09:00:59

统计学习方法-李航 第四章 朴素贝叶斯法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。训练的时候,学习输入输出的联合概率分布;分类的时候,利用贝叶斯定理计算后验概率最大的输出。朴素贝叶斯法的学习与分类而条件概率分布条件概率分布参数数量是指数级的,也就是X和Y的组合很多,假设xj可能取值Sj个,Y可能取值有K个,那么参数的个数是参数个数特别地,取xj=S,那么参数个数为KSn,当维数n很大的时候,就会发生维数灾难...

2019-08-12 16:19:32

BM25 文本相似度算法

BM25, 下一代的TF-IDF新版的lucence不再把TF-IDF作为默认的相关性算法,而是采用了BM25(BM是Best Matching的意思)。BM25是基于TF-IDF并做了改进的算法。BM25算法,通常用来作搜索相关性评分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进...

2019-07-11 13:32:30

统计学习方法-李航 第三章 K近邻法

简介K近邻 算法(KNN)是一种基本分类与回归方法,指从一个训练数据集中,找到相近的K个点,这K个实例多数属于某个类,就把输入实例分为这个类。特殊情况,当K=1时,称为最近邻算法。模型模型有3个要素距离度量方法k值的选择分类决策规则当3要素确定的时候,对任何实例(训练或输入),它所属的类都是确定的,相当于将特征空间分为一些子空间。距离度量方法当p=1时,为曼哈顿距离:...

2019-07-08 14:17:20

统计学习方法-李航 第二章 感知机

《统计学习方法》第一篇博文,对应原著第二章,感知机, 通过对原著的理解,在加上自己的推导,后面有时间再加上代码的实现。感知机模型感知机是一个二类分类的线性模型,输入为实例的特征向量,输出为实例的类别,取+1和-1值。感知机的几何解释是,线性方程将特征空间划分为正负两个部分:这个平面(2维时退化为直线)称为分离超平面。学习策略假定数据集线性可分,我们希望找到一个合理的损失函数。...

2019-07-01 09:59:34

NLP之BERT分类模型部署提供服务

在我们使用bert预分类模型微调之后(可以参考我前面写的文章),需要对项目进行支持,那就需要分类模型落地提供服务,这篇文章介绍python调用bert模型,提供服务。参考:https://github.com/xmxoxo/BERT-train2deploy1、转换模型在训练bert模型之后会得到一个output文件夹,里面是tf的checkout文件,模型是.ckpt的文件格式,文件比较大...

2019-06-27 11:09:16

Centos7 glibc库升级到2.23

注意:Centos 为了稳定使用的glibc版本通常比较低。而安装有些程序需要依赖新版本。升级glibc需要慎重,因很多人升级失败后导致系统不能用了。本人亲测,升级了多台机器,全部升级成功。glibc简介glibc是GNU发布的libc库,即c运行库。glibc是linux系统中最底层的api,几乎其它任何运行库都会依赖于glibc。glibc除了封装linux操作系统所提供的系统服务外,它...

2019-05-31 10:43:58

NLP之BERT中文文本分类超详细教程

bert模型是Google在2018年10月发布的语言表示模型,Bert在NLP领域横扫了11项任务的最优结果,可以说是现今最近NLP中最重要的突破。Bert模型的全称是Bidirectional Encoder Representations from Transformers,是通过训练Masked Language Model和预测下一句任务得到的模型。关于Bert具体训练的细节和更多的原...

2019-04-24 14:38:35

使用余弦相似度算法计算文本相似度

在求相似度的时候经常会有以下一些方法,1.基于词向量余弦相似度曼哈顿距离欧几里得距离明式距离(是前两种距离测度的推广),在极限情况下的距离是切比雪夫距离2.基于字符的编辑距离simhash共有字符数(有点类似 onehot 编码 ,直接统计两个文本的共有字符数,最 naive 的相似度算法了)3.基于概率统计的杰卡德相似系数4.基于词嵌入模型的word2ve...

2019-04-09 09:19:35

Idea连接远程调试

当项目部署到生产环境之后,如果出现一些问题,不调试一下,想找到这个问题简直就是噩梦,下面就是远程调试的大显身手的时候了。步骤一:在服务器开启调试,并且开发端口我使用的是docker-compose部署,添加的配置如下,jar部署和docker也是同理:version: '3'services: 你的docker服务名: image: 你的镜像地址 container_n...

2019-03-21 14:44:06

Kafka动态关闭、开启监听

在实际生产开发中经常会有这样的场景,因为某些场景需要暂时关闭kafka的监听,比如重刷缓存等,等刷好之后再度开启kafka监听,这里记录一下。一、首先在监听的地方,给监听加一个id。 public static final String KAFKA_LISTENER_ID = "KAFKA_ID"; @KafkaListener(id = KAFKA_LISTENER_ID,topics...

2019-02-25 15:23:47

Mysql远程定时备份数据

Mysql远程定时备份数据前提条件:首先在备份机上安装mysql的客户端,或者直接安装mysql也可以。开始备份1、 创建备份路径mkdir /data/backup/test/2、创建备份脚本vim backup.sh写入shell:mysqldump -h 需要备份数据库所在机器ip -u用户名 -p密码 备份的数据库名 --opt -Q -R --skip-lock...

2019-02-11 17:13:42

CentOS7设置时间同步

安装ntp服务的软件包sudo yum install ntp将ntp服务设置为缺省启动systemctl enable ntpd修改启动参数,增加-g -x参数,允许ntp服务在系统时间误差较大时也能正常工作sudo vi /etc/sysconfig/ntpd启动ntp服务sudo service ntpd restart将系统时区改为上海时间 (亦即...

2019-01-10 20:24:33

HanLP无法动态加载停用词,无法重载停用词的自定义处理

在使用HanLP框架的过程中,发现其内置的CoreStopWordDictionary类只有删除、添加方法,没有动态的重载。而项目的需求确实可以动态加载,用他内置的方法去全删掉,然后一个个添加,在直观上感觉没有那么优美。。。所以准备重新写一个服务在做停用词的加载。新建服务类:CoreStopwordService首先,HanLP的停用词记载是从其资源包中的stopword.txt下读取的数...

2018-12-24 14:17:52

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。