4 悟乙己

尚未进行身份认证

心如花木,皆向阳而生!

等级
TA的排名 377

pyRedis - 操作指南:增/删/改/查、管道与发布订阅功能

文章目录1redisdocker部署与安装2py-redis的使用2.1redis的连接2.2常规属性查看2.3STRING字符串的操作1redisdocker部署与安装参考:一文教你如何通过Docker快速搭建各种测试环境首先拉取Redis镜像,这里我选择的是redis:alpine轻量级镜像版本:dockerpullredis:alpine...

2019-08-19 22:42:33

pyMongo操作指南:增/删/改/查/合并/统计与数据处理

文章目录1mongodb安装1.1下载MongoDB镜像1.2运行MongoDB镜像1.3添加管理员账号1.4用新创建的root账户连接,测试一下2可视化界面Robo3T3pymongo增删改查3.1数据库连接3.2建表collection3.3文档插入与删除关于Unicode编码的字符串注意点3.4数据更新update3.5数据替换replace3.6查...

2019-08-15 17:22:02

PySpark︱pyspark.ml 相关模型实践

文章目录1pyspark.mlMLP模型实践9spark.ml模型评估MulticlassClassificationEvaluator1pyspark.mlMLP模型实践官方案例来源:https://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.classification.Multilay...

2019-07-26 10:06:22

gensim-fast2vec改造、灵活使用大规模外部词向量(具备OOV查询能力)

本篇是继极简使用︱Gemsim-FastText词向量训练以及OOV(out-of-word)问题有效解决之后,让之前的一些旧的"word2vec"具备一定的词表外查询功能。还有一个使用场景是很多开源出来的词向量很好用,但是很大,用gensim虽然可以直接用,如果能尽量节省一些内存且比较集中会更好,同时如果有一些OOV的功能就更好了,于是笔者就简单抛砖引玉的简单写了该模块。譬如以下这些大...

2019-05-31 11:46:38

极简主义︱使用Turicreate进行快速图像分类迁移训练与预测(六)

apple开源机器学习框架turicreate内容非常广阔,本篇介绍冰山一角的图像相似,极简主义的代表!!!!github:https://apple.github.io/turicreate/docs/api/generated/turicreate.SFrame.html首篇博客:python︱apple开源机器学习框架turicreate中的SFrame——新形态pd.DataFrame...

2019-05-22 14:11:22

中文文本纠错算法走到多远了?

纠错是从互联网起始时就在一直解决的问题,但是一直作为一些重要技术的辅助、附属功能而默默无闻,譬如搜索引擎、譬如火热的智能写作等。中文文本纠错任务,常见错误类型包括:谐音字词,如配副眼睛-配副眼镜混淆音字词,如流浪织女-牛郎织女字词顺序颠倒,如伍迪艾伦-艾伦伍迪字词补全,如爱有天意-假如爱有天意形似字错误,如高梁-高粱中文拼音全拼,如xingfu-幸福中文拼音缩写,...

2019-02-01 11:30:41

keras-yolov3 + Kalman-Filter 进行人体多目标追踪(含代码)

keras-yolov3+kalmanfilter进行目标检测detector+trackerdetector丢失目标我们目前detector为了求快用了yolo,但是onestage的算法目标丢失情况挺严重的.多帧融合可以考虑一下为了保持跟踪的快速性,所以,在检测车辆后,利用快速跟踪来代替车辆检测结果,中间涉及到毫米波雷达与车辆bbox匹配问题,匹配完成后,利用毫米波雷达的准...

2019-01-20 11:21:44

自有数据集上,如何用keras最简单训练YOLOv3目标检测

qqwweee/keras-yolo3是最简单的自数据训练yolov3的开源项目了。非常简单,相比其他的开源项目,太适合新手练习yolov3。而公开的很多开源框架的都是基于VOC/COCO来写预训练,整理数据起麻烦不少。本来笔者看到mxnet/gluoncv有yolov3的自训练,而且Mxnet还进行一定改进把精度提升了不少,还欢欣鼓舞的去尝试,但是一旦遇到坑,基本没法解决。。社区人太少,搜不...

2019-01-02 14:20:03

python︱ collections模块(namedtuple/defaultdict/OrderedDict等)

collections有的功能:['deque','defaultdict','namedtuple','UserDict','UserList','UserString',\'Counter','OrderedDict','ChainMap','Awaitable','Coroutine','AsyncIterable',\'AsyncIterator','A...

2018-11-27 11:06:01

Jupyter notebook最简原型界面设计 - ipywidgets与lineup_widget

Tkinter的GUI设计和django页面设计,那么笔者只是想快速做个demo原型,以上的内容能不能结合着来,有一些简单的交互+web可以快速访问的到,于是就看到了jupyternotebook这两个库,非常简单的玩具,来看看呗~文章目录一ipywidgets1.1基础组件1.2interact简单交互二lineup_widget一ipywidgets文档:htt...

2018-11-22 22:57:25

基于腾讯AI Lab词向量进行未知词、短语向量补齐与域内相似词搜索

(~免费广告位一则~)AILab开源大规模高质量中文词向量数据,800万中文词随你用,质量非常高,就是一个词向量.txt文件都有16G之多,太夸张了。。不过的确非常有特点:⒈覆盖率(Coverage):该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”为例,利用腾讯AILab...

2018-11-12 22:22:58

文本分类 - 样本不平衡的解决思路与交叉验证CV的有效性

现实情况中,很多机器学习训练集会遇到样本不均衡的情况,应对的方案也有很多种。笔者把看到的一些内容进行简单罗列,此处还想分享的是交叉验证对不平衡数据训练极为重要。文章目录1样本不平衡的解决思路1.2将不平衡样本当作离群点1.2欠采样/过采样1.3训练策略的优化1.3.1Focal_Loss1.3.2class_weight1.4不平衡评价指标:不要ROC,用Precision/R...

2018-11-01 14:24:26

比赛必备 ︱ 省力搞定三款词向量训练 + OOV词向量问题的可性方案

本篇为资源汇总,一些NLP的比赛在抽取文本特征的时候会使用非常多的方式。传统的有:TFIDF/LDA/LSI等偏深度的有:word2vec/glove/fasttext等还有一些预训练方式:elmo/bert文章目录@[toc]1之前的几款词向量介绍与训练帖子2极简训练glove/word2vec/fasttext2.1word2vec的训练与简易使用2.2glove...

2018-10-31 21:48:09

极简使用︱Gensim-FastText 词向量训练以及OOV(out-of-word)问题有效解决

glove/word2vec/fasttext目前词向量比较通用的三种方式,之前三款词向量的原始训练过程还是挺繁琐的,这边笔者列举一下再自己使用过程中快速训练的方式。其中,word2vec可见:python︱gensim训练word2vec及相关函数与功能理解glove可见:极简使用︱Glove-python词向量训练与使用因为是在gensim之中的,需要安装fasttext,可见:htt...

2018-10-13 19:37:17

极简使用︱Glove-python词向量训练与使用

glove/word2vec/fasttext目前词向量比较通用的三种方式,其中word2vec来看,在gensim已经可以极快使用(可见:python︱gensim训练word2vec及相关函数与功能理解)官方glove教程比较啰嗦,可能还得设置一些参数表,操作不是特别方便。笔者使用的时候,用的是一款比较省力/封装的。官方glove:https://github.com/stanfordn...

2018-10-12 16:27:34

Rstudio Server + Docker + tensorflowR - 云端安装与使用R语言与GPU深度学习

笔者本来想在阿里云上部署nvidia-docker+RstudioServer,然后使用R语言来进行深度学习。本篇是在该过程中产生的经验之谈。文章目录1准备阶段2RstudioServernvidia-docker环境2.1docker初始化的问题2.2docker中文环境布置问题3RstudioServer的部署3.1启动3.2添加用户组4R语言与tenso...

2018-09-28 15:49:36

ltp︱基于ltp的无监督信息抽取模块(事件抽取/评论观点抽取)

无监督信息抽取较多都是使用哈工大的ltp作为底层框架。那么基于ltp其实有了非常多的小伙伴进行了尝试,笔者私自将其归纳为:事件抽取(三元组)观点抽取“语言云”以哈工大社会计算与信息检索研究中心研发的“语言技术平台(LTP)”为基础,为用户提供高效精准的中文自然语言处理云服务。pyltp是LTP的Python封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色...

2018-09-19 10:57:44

neo4j︱neo4j批量导入neo4j-import (五)

neo4j数据批量导入目前主要有以下几种数据插入方式:(转自:如何将大规模数据导入Neo4j)CypherCREATE语句,为每一条数据写一个CREATECypherLOADCSV语句,将数据转成CSV格式,通过LOADCSV读取数据。官方提供的JavaAPI——BatchInserter大牛编写的BatchImport工具官方提供的neo4j-...

2018-09-05 16:04:38

练习题 - 基于快速文本标题匹配的知识问答实现(二,实现篇)

承接练习题-基于快速文本标题匹配的知识问答实现(一,基础篇),前篇主要把qdr这个项目解剖了一下,现在开始应用做一下问答。可以看到qdr这个项目的特点是:可以快速比对两个文本之间的相似性,而且计算tfidf、bm25、lm三款模型的速度很快。那么本轮知识问答的设计源于此:先储备一批问答语料,一问一答比较合适;把问题进行分词,变为文本序列;载入qdr模型之中,进行训练;先t...

2018-08-30 22:30:19

练习题 - 基于快速文本标题匹配的知识问答实现(一,基础篇)

该练习题来的很蹊跷,笔者在看entityembeddings的东西,于是看到了16年的这篇文章:LearningQueryandDocumentRelevancefromaWeb-scaleClickGraph,想试试效果,就搜到了qdr这个项目,然后试了试,虽然entityembeddings做的不好,但是好像可以依据里面的文本匹配搞搞问答,于是花了一点时间,因为是c...

2018-08-30 21:31:49

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。