自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Eadon999

对数据分析、数据挖掘和机器学习的探索

  • 博客(16)
  • 资源 (1)
  • 收藏
  • 关注

原创 pyhanlp添加自定义词典 强制优先自定义词典分词

自定义词典自定义词典有多种添加模式,首先是展示的一个小例子,展示了词汇的动态增加与强行插入,删除等。一、代码方式插入from pyhanlp import *text = "攻城狮逆袭单身狗,迎娶白富美,走上人生巅峰" # 怎么可能噗哈哈!print(HanLP.segment(text))CustomDictionary = JClass("com.hankcs.hanlp...

2019-11-15 09:04:23 4077 1

原创 facebook更新FastText工程--新增模型压缩论文的实现模型大小缩减80%--文本分类词向量fasttext

Facebook 于北京时间2019年6月25日更新FastText代码,增加了FastText.ZIP:Compressing Text Classification Models论文的模型压缩实现,论文地址https://arxiv.org/abs/1612.03651压缩后的模型能减小到10M以内一、新版函数的变化1.classification text的supervisor(...

2019-06-26 15:47:03 1403

原创 输出tf.SparseTensorValue值-----使用稀疏的离散特征提高内存利用率

在做推荐算法,采用FM模型时采用tf.sparse_placeholder函数,会比较省内存一、tf.sparse_placeholder与tf.SparseTensorValue1.tf.sparse_placeholder支持mutil one2.tf.tf.SparseTensorValue函数三个需要设置的参数:1)indices:指定哪些位置上有值,其他位置为默认值(...

2019-03-06 23:06:01 5309 2

转载 Word2vec的相关论文和博客收集

一、Word2Vec 作者Tomas Mikolov 的三篇代表作Word2Vec从提出至今,已经成为了深度学习在自然语言处理中的基础部件,大大小小、形形色色的DL模型在表示词、短语、句子、段落等文本要素时都需要用word2vec来做word-level的embedding。Word2Vec的作者Tomas Mikolov是一位产出多篇高质量paper的学者,从RNNLM、Word2Vec再...

2019-01-19 13:35:15 455

翻译 python中gevent monkey_patch 出现Monkey-patching may lead to errors解决

       在使用多进程加协程时,patch_all()后出现警告信息:MonkeyPatchWarning: Monkey-patching ssl after ssl has already been imported may lead to errors, including RecursionError。有时会导致不能正常使用requests或者其他包,其实只要调整import的顺序即可...

2018-06-16 14:47:11 12194 3

原创 sklearn 生成中文词向量与tfidf

一、英文的词向量生成想必大家都已经能从官网学到,利用sklean的CoutVectorizer模块即可简单生成,借用官网例子:from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformervecizer = CountVectorizer()corpus = [ 'This is the first d...

2018-06-12 21:24:54 7530 1

原创 windows下python结合spark +java+ pyspark安装配置

默认你已经安装好了python一、 Java配置首先去官网http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html下载Java SE Development Kit 8u172,安装之后。进行以下步骤:1.新建系统变量: 变量名: JAVA_H...

2018-04-19 22:57:14 1694 6

原创 tensorflow reduce_sum使用

import tensorflow as tffrom tensorflow.python.keras.layers import Layerfrom layer.interaction import BiInteractionPoolingfrom tensorflow.python.keras import backend as Kimport numpy as npmat = np.array([[[1, 2, 3, 4]], [[5, 6, 7, 8]], [[10, 11, 12.

2021-04-26 14:53:36 211

原创 转载-精度召回与推荐中的关系

搜索和推荐中的精度和召回(recall)分别是什么意思?解析:精度/精确率,和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。一般来说,Precision就是检索出来的条目(比如:文档、网页等)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。正确率、召回率和 F 值是在鱼龙混杂的环境中,选

2020-09-10 08:48:46 190 1

原创 java把list转化为逗号分隔字符串

package fm.rcmd.lizhi.util;import java.util.ArrayList;import java.util.Arrays;import java.util.List;import java.util.stream.Collectors;public class ListToStringByCommaSplit { public stat...

2019-12-25 15:00:56 1217

原创 java深度学习库deeplearning4j使用之word2vec与INDAarry

import org.deeplearning4j.models.embeddings.loader.WordVectorSerializer;import org.deeplearning4j.models.word2vec.Word2Vec;import org.nd4j.linalg.api.ndarray.INDArray;/***必须的maven,核心组件、nlp模块、pla...

2019-12-10 10:03:14 603

原创 java hanlp自定义词典

import com.hankcs.hanlp.HanLP;import com.hankcs.hanlp.seg.Segment;/** * @Auther: Don * @Date: 2019/12/110:17 * @Description: */public class HanlpSegmentCustom { private Segment SEGMENT;...

2019-12-03 10:22:18 1664

原创 Git从master拉开发分支|合并分支|删除远端分支命令 一文打尽

# GitCommandLearninglearning the command of Git##创建分支并切换的原理之前提到的 HEAD 严格来说不是指向提交,而是指向master,master才是指向提交的,所以,HEAD指向的就是当前分支。一开始的时候,master分支是一条线,Git用master指向最新的提交,再用HEAD指向master,就能确定当前分支,以及当前分支的提交点...

2019-08-13 20:00:24 449

原创 Python字典排序

def reverse_rank(id, score): values = list() for i, v in zip(id, score): values.append((i, (np.argmax(v), v[1]))) values = sorted(values, key=lambda item: (item[1][0], item[1][1]...

2019-05-15 09:15:17 537

原创 python字典转DataFrame不等长的处理

d = {'A': [1, 2], 'C': [1, 2, 3, 4]}data = pd.DataFrame(d)print(data)由于列表不等长会报错:ValueError: arrays must all be same length改为:c = pd.DataFrame(dict([(k, pd.Series(v)) for k, v in d.items()]...

2019-03-28 11:22:22 7143 5

原创 linux crontab定时任务的使用 避免踩坑

一、crontab中调用shell脚本1.确保yourscriptsname.sh的权限是755。   如果不确定,可以在sh脚本所在文件夹下用ll命令查看,若显示如下图-rw-r--r--表示没有执行权限,用sudo chmod 755     yourscriptsname.sh(自己的.sh脚本文件的名字)修改未755权限,再次ll查看yourscriptsname.sh变为绿色,权限为-r...

2018-06-11 23:49:11 1034

spacy包en models

spacy包en models,深度学习、机器学习,英文文本分类必备模块

2017-09-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除