自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(116)
  • 收藏
  • 关注

转载 MAC上终端上管理多个窗口

1、打开一个窗口光标移动到终端,命令+ N代开一个新的窗口2、在一个新窗口中建立多个终端窗口,命令+ T,即可实现

2021-11-03 10:43:33 751

原创 elasticsearch和kibana历史版本

elasticsearch历史版本:https://www.elastic.co/cn/downloads/past-releases#elasticsearchkibana历史版本:https://www.elastic.co/cn/downloads/past-releases#kibana

2021-09-22 15:20:36 695

原创 BM25原理与代码实现

Elasticsearch 的默认相似度算法是 Okapi BM25,Okapi BM25模型于 1994 年提出,BM25 的 BM 是缩写自 Best Match, 25 是经过 25 次迭代调整之后得出的算法,该模型也是基于 TF/IDF 进化来。1、原理:文本相似度 — TF-IDF和BM25算法:https://www.cnblogs.com/jiangxinyang/p/10516302.html2、代码实现:文本相似度-bm25算法原理及实现:https://www.jianshu.c

2021-09-22 14:08:50 770

原创 【NLP】同义词挖掘调研

2021-08-03 10:59:03 736

转载 浅谈电商类目预测

总结一下过去一年时间内做的电商类目预测。电商类目体系在电商场景下,商品会挂在不同的类别下,每个商品一般仅对应一个类别,例如商品“秋季新款韩版小清新短款亮片卫衣女高腰个性宽松百搭连帽长袖上衣”会挂在类目“卫衣”下。同时电商的类目体系是一个树结构,包含父节点和子节点等;蘑菇街类目体系:结构体系类似,都是多级类目,叶子类目是商品所属的最小类目。query类目预测用户搜索时,需要根据用户的输入文本,预测用户意图。对应于电商搜索,用户输入文本后,首先要预测的就是文本与商品类目的关系,预测的结果将作用在

2021-06-11 11:41:45 1263

原创 推荐系统召回模型之YouTubeNet

召回的主要工作是从全体视频库中筛选出用户感兴趣的视频,此过程要求检索速度快,并且所检索出的视频与用户的历史行为和偏好相关。所以召回模型和特征都较为简单2.1 问题建模我们把推荐问题建模成一个“超大规模多分类”问题。即在时刻ttt,为用户UUU(上下文信息CCC)在视频库vvv中精准的预测出视频iii的类别(每个具体的视频视为一个类别,iii即为一个类别),用数学公式表达如下:很显然上式为一个softmax多分类器的形式。向量是<user, context>信息的高纬“embedding”

2021-06-02 14:44:47 419 1

转载 linux查看文件夹的大小

1、最简单的查看bai方法可以使用duls -ll、ls-lh命令进行查看,zhi当使用ls -ll,会显示成dao字节大zhuan小,而ls- lh会以KB、MB等为单shu位进行显示,这样比较直观一些。2、通过命令du -h –max-depth=1 *,可以查看当前目录下各文件、文件夹的大小,这个比较实用。3、查询当前目录总大小可以使用du -sh,其中s代表统计汇总的意思,即只输出一个总和大小。4、同样,通过命令du -h –max-depth=0 *,可以只显示直接子目录文件及文件夹大

2021-02-20 18:17:11 791

转载 elasticsearch 7.0 计算向量相似度

1、介绍script_score 是 function score 2.0版本, 允许用户在检索中灵活修改文档score,来实现自己干预结果排名的目的,另外script score性能要高于function score下面我们通过一个简单的例子来加深理解,通过script score将文档score值修改为“like”字段值的十分之一:GET /_search{ "query" : { "script_score" : { "query" : {

2021-02-20 18:13:53 4265 1

原创 【报错】ipykernel_launcher.py: error: unrecognized arguments: -f /Users/apple/Library/Jupyter/runtime

在jupyter下使用parser.parse_args()出错,改换为parser.parse_known_args()[0]

2021-02-20 18:00:40 1027

转载 Elasticsearch7.3.1 linux解压安装、head插件、ik分词器

https://blog.csdn.net/qq_25283709/article/details/102632889

2021-02-20 17:57:38 180 1

原创 【报错】date: invalid date ‘2 days ago+%Y%m%d‘

1、问题:linux显示日期报错2、原因:空格问题‘2 days ago’ 和+之间要用空格隔开3、解决方法:date1=$(date --date='2 days ago' +%Y%m%d)

2021-02-20 17:55:54 3490

原创 Neo4j删除、更改数据库方法

1、删除数据库进入data目录下,删除指定名称的数据库xx.dbrm -rf data/graph.db2、启动新的数据库dbms.active_database=graph.db --> dbms.active_database=graph_new.db

2020-12-04 18:22:55 1823

转载 Neo4j配置介绍

一、dbms配置默认数据库dbms.default_database=neo4j目录路径dbms.directories.data=datadbms.directories.plugins=pluginsdbms.directories.certificates=certificatesdbms.directories.logs=logsdbms.directories.lib=libdbms.directories.run=rundbms.directories.metrics=met

2020-11-25 15:55:33 1213

原创 Neo4j批量导入数据与启动database

一、关闭和启动neo4j在批量导入数据前,需要先将活动的数据库关闭。进入neo4j目录#查看数据库状态bin/neo4j status#关闭数据库bin/neo4j stop#启动数据库bin/neo4j start二、批量导入1、linux系统进行neo4j文件夹cd neo4j2、将导入文件放到neo4j/import目录下(1)创建节点\关系文件夹$ cd import/$ mkdir nodes_type$ mkdir relationships_type(2)

2020-11-25 15:50:50 1038

转载 【NLP】什么是点互信息

1、什么是点互信息2、sklearn:点互信息和互信息

2020-09-10 16:58:28 823

原创 Python logging模块用法记录

python的logging模块提供了标准的日志接口,你可以通过它存储各种格式的日志,主要用于输出运行日志,可以设置输出日志的等级、日志保存路径、日志文件回滚等。一、logging日志框架主要包括四部分:Loggers: 可供程序直接调用的接口,app通过调用提供的api来记录日志Handlers: 决定将日志记录分配至正确的目的地Filters:对日志信息进行过滤, 提供更细粒度的日志是否输出的判断Formatters: 制定最终记录打印的格式布局1、loggersloggers 就是

2020-09-03 10:45:47 249

原创 字符串格式化方法

1、%形式import timeNow_time = datetime.datetime.now().strftime('%Y-%m-%d')print("now_time%s" % Now_time )输出:now_time:2020-08-262、formateformat()功能更强大,该函数把字符串当成一个模板,通过传入的参数进行格式化,并且使用大括号 {} 作为特殊字符代替 %print("今天{}预报{}".format("天气", "下雨"))输出结果:今天天气预报下雨3

2020-08-26 18:05:25 747

原创 linux压缩和解压tar文件

1、压缩tar -rf abc.tar abc2、查看压缩包里的内容tar -tf hw_audio_check_praise.tar3、解压tar -xf abc.tar

2020-08-26 10:32:14 180

转载 搜索BM25算法

搜索之BM25和BM25F模型

2020-08-20 20:24:34 223

转载 Annoy算法

快速计算距离Annoy算法原理及Python使用海量数据相似查找系列2 – Annoy算法

2020-08-20 19:34:36 1110

原创 kibana7.3.2 Windows安装

一、下载Kibana是一个开源的分析和可视化平台,设计用于和Elasticsearch一起工作。你用Kibana来搜索,查看,并和存储在Elasticsearch索引中的数据进行交互。你可以轻松地执行高级数据分析,并且以各种图标、表格和地图的形式可视化数据。Kibana使得理解大量数据变得很容易。它简单的、基于浏览器的界面使你能够快速创建和共享动态仪表板,实时显示Elasticsearch查询的变化。下载地址:https://www.elastic.co/guide/en/kibana/7.3/inst

2020-07-30 10:57:45 590

原创 ElasticSearch7.3.1 Windows安装

一、官网下载官网连接中选择对应的版本,本文下载7.3.1版本。https://www.elastic.co/cn/downloads/past-releases#elasticsearch二、安装ElasticSearch下载完毕后解压,进入bin目录双击运行elasticsearch.bat。es 7.3版本自带jdk环境,路径在安装路径的 elasticsearch-7.3.0/jdk 路径下。所以双击.bat文件后,es自己判断,直接启动。三、测试在浏览器中输入http://local

2020-07-30 10:30:16 478

原创 【报错】cp: omitting directory

1、问题:linux在复制文件时,出现cp:omitting directiory的错误root@123:/data/serving-master/tensorflow_serving/example# cp out_call /data/cp: omitting directory 'out_call'2、原因:对于文件夹类型的名称修改使用 -r。-r这个option是递归的意思3、解决方法:在cp命令后,加一个选项 -r。root@123:/data/serving-master/te

2020-07-22 10:59:01 452

原创 【报错】tensorflow_model_server: error while loading shared libraries: libcuda.so.1: cannot open shared

1、问题:在docker中启动tensorflow/serving:1.12.0-gpu时,报错tensorflow_model_server: error while loading shared libraries: libcuda.so.1: cannot open shared2、原因:启动方式不对,创建容器时,添加参数:–runtime=nvidia3、错误(官网上CPU版是这样启动的):docker run -p 8500:8500 --mount type=bind,source=/

2020-07-22 10:52:48 751

原创 在linux上创建虚拟环境

1、创建虚拟环境:root@123:/data# virtualenv venv执行上面命令会生成一个venv文件2、进入虚拟环境:root@123:/data# source venv/bin/activate3、退出虚拟环境:(venv) root@123:/data# deactivate

2020-07-20 14:27:54 302

原创 tensorflow三种模型的加载和保存的方法(.ckpt,.pb,SavedModel)

工作中尝试用的是.ckpt,最近在研究tensorflow serving所以需要将模型转化为SavedModel格式。而有时模型平台调用又需要.pb模型,所以对这三种文件进行了解。一、ckpt文件的保存和加载1、模型保存文件格式checkpoint文件:用于告知某些TF函数,这是最新的检查点文件.data文件:包含训练变量的文件.index文件:描述variable中key和value的对应关系.meta文件:保存完整的网络图结构使用这种方法保存模型时会保存成上面这四个文件,重新加载模型时通

2020-07-20 11:18:03 11053 3

转载 Tensorflow模型的保存、加载、finetune

超详细的Tensorflow模型的保存和加载(理论与实战详解)

2020-07-20 10:30:44 189

原创 在VMware中安装ubuntu遇到每次开机都需要重新联网的问题

问题:每次启动VMware虚拟机时都要重新安装原因:安装好之后没有在虚拟机上的光驱没有卸载掉,导致每次启动都默认为安装模式解决方案:将光驱移除,调整为empty。参考链接:virtualbox重启还是安装系统怎么办...

2020-07-18 16:43:17 828

原创 Xshell修改复制粘贴快捷键

操作:工具——选项——键盘和鼠标

2020-07-18 16:36:50 871

原创 TensorFlow Serving模型部署

一、启动docker容器1、使用gRPC接口进行调用docker run -p 8500:8500 --mount type=bind,source=/data/anniegu_home/serving-master/tensorflow_serving/servables/tensorflow/testdata/simnet_servable_model,target=/models/simnet -e MODEL_NAME=simnet -t tensorflow/serving &2

2020-07-15 15:20:50 427

原创 TensorFlow Serving模型转换

Tensorflow训练的模型,如果想使用TensorFlow Serving进行部署,需要将ckpt模型转换为pb模型。一、模型格式转变1、原文件格式:2、新文件格式:二、模型转化代码:做3个地方修改即可。1、需要结合自己网络结构的输入输出参数进行修改2、定义模型的输入输出,建立调用接口与tensor签名之间的映射3、设置原模型目录、新模型目录、版本号#coding:utf-8import sys, os, ioimport tensorflow as tfdef resto

2020-07-15 10:34:45 672

原创 使用docker创建tensorflow serving

一、Docker介绍Docker包含Image(镜像)、Container(容器)、Repository(仓库)。镜像是 Docker 运行容器的前提,Docker 的核心,是只读的;仓库是存放镜像的场所;容器与镜像的唯一区别在于容器的最上面那一层是可读可写的。容器 = 镜像 + 读写层。二、拉取tensorflow serving镜像假设已经安装好Docker。1、获取tensorflow/serving镜像(1)直接使用docker pull拉取docker pull tensorflow/

2020-07-09 15:26:14 433

原创 pycorrector框架解析——基于规则的中文纠错流程

本文对pycorrector源码规则部分的框架进行解析,可以下载作者xuming624源码进行深入学习。一、初始化数据和模型_initialize_detector()1、数据资源:word_freq通用字典(词:词频)custom_confusion混淆字典(变体:本体)custom_word_freq自定义字典(词:词频<可省略>)person_names人物字典place_names地址字典stopwords停用词字典2、数据合并:合并4,5,6到3,合并3+到13

2020-07-06 14:04:51 2512

原创 【报错】windows下安装kenlm报错error Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++

一、问题:直接使用pip instal kenlm安装时报错error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools二、解决方案:1、下载安装:python和Microsoft Visual C++ Build Tools版本安装2、安装pip install https://github.com/kpu/kenlm/archive/master.zip...

2020-07-03 10:19:55 740

原创 中英文拼写纠错开源框架梳理

一、中文:1、Pycorrector:https://github.com/shibing624/pycorrector当前主流的中文纠错框架,支持规则和端到端模型2、FASPell:https://github.com/iqiyi/FASPell/blob/master论文:https://www.aclweb.org/anthology/D19-5522.pdf使用bert进行预训练+微调,再经过CSD过滤器得到最终结果。支持简体中文文本; 繁体中文文本; 人类论文; OCR结果等3、Y

2020-07-01 10:20:58 1843

原创 使用bert-service获取句向量和相似度计算

一、下载已训练好的模型前往https://github.com/google-research/bert#pre-trained-models选择模型(本文选择中文模型)下载并解压.二、下载bert-as-server1、下载bert-server服务pip install bert-serving-server #serverpip install bert-serving-client #client2、启动服务bert-serving-start -model_dir /pro

2020-06-22 20:26:38 4185 3

原创 音频处理torchaudio安装方法

1、安装pytorch(1)查看CUDA版本nvcc -v(2)不同版本对应的pytorch安装方式(3)linux上 CUDA 9.0 Python 3.5安装方法pip install torch torchvision2、安装torchaudio尝试了很多方法,最后在linux上直接使用pip成功。注意torchaudio目前只支持在linux和mac上安装pip install torchaudio其他方法:conda安装https://anaconda.org/pyto

2020-06-22 16:27:56 12678 3

原创 【项目】使用Bert+CRF完成命名实体识别项目

说明:1、本文对lonePatient的BERT-NER-Pytorch进行复现。仅供学习,如涉及版权请联系我删除2、原作者github链接:https://github.com/lonePatient/BERT-NER-Pytorch一、项目介绍1、对文本中的金额进行自动标注2、使用环境PyTorch=1.1.0+cuda=9.0python3.5+3、输入数据示例:采用BIO对数据进行标注。标注方法可以采用正则表达式或人工标注的方式。华 O为 O手 O机 O1 B-MONE

2020-06-20 15:52:30 11008 9

原创 使用Horovod 实现TensorFlow、Keras、PyTorch分布式训练

一、什么是HorovodHorovod是基于Ring-AllReduce方法的深度分布式学习插件,以支持多种流行架构包括TensorFlow、Keras、PyTorch等。这样平台开发者只需要为Horovod进行配置,而不是对每个架构有不同的配置方法。Ring-AllReduce方法是把每个计算单元构建成一个环,要做梯度平均的时候每个计算单元先把自己梯度切分成N块,然后发送到相邻下一个模块。现在有N个节点,那么N-1次发送后就能实现所有节点掌握所有其他节点的数据。这个方法被证明是一个带宽最优算法。二

2020-06-05 10:34:41 3181

原创 使用TensorFlow and Horovod 实现BERT多GPU训练

一、run_classifier.py文件#chang 1:引入horovodimport horovod.tensorflow as hvd...def get_train_examples(self, data_dir): """See base class.""" file_path = os.path.join(data_dir, "train_bert.txt") #chang 2 修改训练数据创建方式 return self._create_example

2020-06-04 20:49:04 1120

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除