6 MachineLP

趣店集团 - 高级软件工程师

我要认证

成功收获成果,失败收获智慧,投入收获快乐!

等级
TA的排名 819

[模型部署] 模型分布式服务部署方案:grpc,flask;docker

Git Repo:https://github.com/MachineLP/QDServing

2020-09-08 15:56:53

[ES] es 搜索的高级功能:搜索并按照不同字段sore权重计算得分排序

电商搜索中一个通用搜索语句:GET /_search{ "query": { "function_score": { "query": { "bool": { "should": [ { "match_phrase": { "title": { ...

2020-08-03 11:05:05

[TextMatch框架] 基于召回和排序的文本搜索

git clone https://github.com/MachineLP/TextMatchcd TextMatchexport PYTHONPATH=${PYTHONPATH}:../TextMatchpython tests/core_test/text_search_test.pytests/core_test/text_search_test.pyimport sysfrom textmatch.core.text_match import TextMatchfrom text

2020-07-19 17:13:21

[TextMatch框架] QA Match (QA匹配)

run examplesgit clone https://github.com/MachineLP/TextMatchcd TextMatchexport PYTHONPATH=${PYTHONPATH}:../TextMatchpython tests/core_test/qa_match_test.pyqa matchimport sysfrom textmatch.core.qa_match import QMatch, AMatch, SemanticMatchtest_dic

2020-07-18 21:13:06

[TextMatch框架] 基于faiss的搜索

run examplesgit clone https://github.com/MachineLP/TextMatchcd TextMatchexport PYTHONPATH=${PYTHONPATH}:../TextMatchpython tests/tools_test/faiss_test.pytests/tools_test/faiss_test.pyimport sysimport json import timeimport faissimport numpy as

2020-07-18 21:06:43

[git] github提交没有记录Contributions

最近在使用github时,发现提交的记录并没有统计在GitHub首页的Contributions Graph里(贡献图上没有绿块),而且提交列表里的名字也不能点击,没有链接。通过查资料发现,是由于我提交时填写的邮箱与github账号里的邮箱不一致导致,github是以邮箱关联GitHub账号的。还可以通过下面方式恢复以前的提交记录:使用脚本来改变某个repo的Git历史我们已经创建了一个脚本,使用正确的姓名和电子邮件地址提交后,你以前提交的所有的commits中的作者信息及提交者..

2020-07-18 07:47:33

[solr] solr 联想输入实现方法

索引与前缀查询 方案一 Trie树 + TopK算法Trie树即字典树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。Trie是一颗存储多个字符串的树。相邻节点间的边代表一个字符,这样树的每条分支代表一则子串,而树的叶节点则代表完整的字符串。和普通树不同的地方是,相同的字符串前缀共享同一条分支。例如,给出一组单词inn, in...

2020-07-08 11:12:03

[solr] solr 增量导入数据、定时索引

一、引言 1 https://blog.csdn.net/u014365862/article/details/107095161中已经介绍如何全量导入MySQL的数据全量导入在数据量大的时候代价非常大,一般来说都会适用增量的方式来导入数据,下面介绍如何增量导入MYSQL数据库中的数据,以及如何设置 定时来做。二、增量从MYSQL数据库导入数据: 1、数据库表的更改: 添加UPDATATIME字段。 前面已经创建好了一个UserInfo的表,这里为了能够进行增量导入,需...

2020-07-07 12:05:18

[ab] 压测测试:apacheBench

吞吐率(Requests per second)概念:服务器并发处理能力的量化描述,单位是reqs/s,指的是某个并发用户数下单位时间内处理的请求数。某个并发用户数下单位时间内能处理的最大请求数,称之为最大吞吐率。计算公式:总请求数 / 处理完成这些请求数所花费的时间,即Request per second = Complete requests / Time taken for tests并发连接数(The number of concurrent connections)概念:某个时

2020-07-06 23:19:55

[ES] es 安装、配置jieba分词

(1)下载es 5.3.0: nohup wgethttps://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.3.0.zip> wget.log 2>&1 & 解压后:./bin/elasticsearch(2) elasticsearch-jieba-plugin: https://github.com/sing1ee/ela...

2020-07-06 23:16:05

[solr] solr Similarity:切换不同相似度计算方法

Similarity改变solr的打分机制;solr本身已经提供了几种算法org.apache.solr.search.similarities.BM25SimilarityFactoryorg.apache.solr.search.similarities.DefaultSimilarityFactoryorg.apache.solr.search.similarities.DFRSimilarityFactoryorg.apache.solr.search.similarities.IB

2020-07-03 21:45:33

[solr] solr 测试 (python、curl、界面 )

curl测试:curl http://121.40.86.204:8983/solr/test/select?q=681&rows=20&wt=json&indent=true 或 value='echo -n "海蓝之谜" | xxd -ps | tr -d '\n' | sed -r 's/(..)/%\1/g' 'echo $value # %e5%bc%a0%e4%b8%89 # 然后用curl传递编码后的参数curl -G \--data-url

2020-07-03 13:42:11

[solr] solr5.5.2配置结巴分词工具

为什么选择结巴分词分词效率高 词料库构建时使用的是jieba (python)结巴分词Java版本下载git clone https://github.com/huaban/jieba-analysis编译 cd jieba-analysis mvn install 注意如果mvn版本较高,需要修改pom.xml文件,在plugins前面增加 或者直接下载jieba-analysis-1.0.2.jar:链接:https://pan.baidu....

2020-07-03 10:20:56

[solr] Solr8.5.2 安装、中文分词以及定时更新索引

1.官网下载地址直接下载 zip格式即可 2.解压下载的压缩包即可完成Solr安装。 3.打开DOS,路径切换至solr_home\bin,执行命令:solr start –p 8983,将solr在8983端口运行,看到以下图片就证明solr启动成功了。(Solr默认端口为8983)solr常用的命令solr start -p p_num 启动solrsolr restart -p p_num 重启solrsolr stop -p p_num 关闭solrsolr create -...

2020-07-02 23:10:25

[文本纠错] pycorrector框架训练

深度模型使用说明Install全自动安装:pip install pycorrector半自动安装:git clone https://github.com/shibing624/pycorrector.gitcd pycorrectorpython setup.py install通过以上两种方法的任何一种完成安装都可以。如果不想安装,可以下载github源码包,安装下面依赖再使用。安装依赖kenlm安装pip install https://github.com/kpu/k

2020-06-27 18:14:54

[文本纠错] pycorrector框架测试

pycorrector:https://github.com/shibing624/pycorrectorpycorrector中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3.6开发。pycorrector依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。Question中文文本纠错任务,常见错误类型包括:谐音字词,如 配副眼睛-配副眼镜混淆音字词,如 流浪织女-牛郎织女字词顺序颠倒,如

2020-06-27 18:05:05

[python] python 虚拟环境构建 & GPU环境

GPU/python环境配置与验证。(1)GPU加速型实例安装NVIDIA GPU驱动及CUDA工具包:https://support.huaweicloud.com/usermanual-ecs/zh-cn_topic_0149470468.html#ZH-CN_TOPIC_0149470468__section1034245773916(2)华为云linux服务器部署TensorFlow-gpu全攻略:https://www.cnblogs.com/zxyza/p/10535939.htm...

2020-06-24 12:55:05

[TextMatch框架] 生成词云

TextMatchTextMatch is a semantic matching model library for QA & text search … It’s easy to train models and to export representation vectors.[TextMatch框架] : 文本匹配/文本分类/文本embedding/文本聚类/文本检索(bow/ifidf/ngramtf-df/bert/albert/bm25/…/nn/gbdt/xgb/kmeans

2020-06-20 10:29:26

[CV] 人脸贴纸

face_stickers本项目实现人脸贴纸:>(1)人脸检测:mtcnn。>(2)放射变换将贴纸映射到面部。>(3)numba:实现实时人脸贴纸。代码运行:> git clone https://github.com/MachineLP/face_stickers> cd fase_stickers> 图片测试:python test.py> 视频测试:python video.py效果如下:...

2020-06-13 20:11:51

[pytorch] 图像目标检测框架【Efficientnet0/1/2/3/4/5/6/7】

以kaggle的SIIM-ISIC Melanoma Classification比赛:https://www.kaggle.com/c/global-wheat-detection; 介绍efficientnet模型在目标检测任务上的使用。数据链接:https://www.kaggle.com/c/global-wheat-detection/data代码如下: (加入mixup/cutmix)import syssys.path.insert(0, "./timm-efficientd.

2020-06-13 10:02:59

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享宗师
    分享宗师
    成功上传21个资源即可获取