6 沈子恒

尚未进行身份认证

计算机视觉 图像处理 深度学习

等级
TA的排名 230

Go协程池设计思路(Task-Job-Worker)

1. 铺垫:Go 的接收器Receiver在go语言中,没有类的概念,但是可以给类型(结构体,自定义类型)定义方法。所谓方法就是定义了接受者的函数。接受者定义在func关键字和函数名之间。可以理解成为结构体定义函数方法,类似于C++中的类方法。type Person struct { name string age int}func (p Person) say()...

2020-04-13 00:18:24

Go协程与协程池

1. Golang协程golang和其它语言最大区别莫过于goroutine,也就是go的协程,example如下:package mainimport "fmt"import "time"func go_worker(name string) { for i:=0; i<10; i++ { fmt.Println("this is go worker :" , na...

2020-04-12 16:25:20

HashMap底层实现和原理

本文是在阅读知乎老刘作品后的整理。内容基于JDK1.7进行分析,1.8做的改动文章末尾进行讲解。1. 基本要义1.1 概述Hashmap在Map派生中的位置HashMap基于Map接口实现,元素以键值对的方式存储,并且允许使用null键和null值,因为key不允许重复,因此只能有一个键为null,另外HashMap不能保...

2020-04-05 23:52:30

获取keras中间层输出、模型保存与加载

1. 获取keras中间层输出# model summary and plotimport kerasfrom keras.models import Modelfrom keras.utils import plot_modelDocEncoder.summary()DocEncoder.plot_model()model.summary()model.plot_mod...

2020-03-29 22:52:18

常见回归和分类损失函数比较

文章转自知乎作者wdmad,更多内容建议阅读原文:https://zhuanlan.zhihu.com/p/36431289本博文属于阅读笔记,融合了个人观点。1. 损失函数损失函数的一般表示为L(y,f(x)),用以衡量真实值 y和预测值 f(x)之间不一致的程度,一般越小越好。为了便于不同损失函数的比较,常将其表示为单变量的函数,在回归问题中这个变量为[y-f(x)] :残差表...

2020-03-29 21:45:45

特征共线性问题

多重共线性是使用线性回归算法时经常要面对的一个问题。在其他算法中,例如决策树或者朴素贝叶斯,前者的建模过程时逐渐递进,每次都只有一个变量参与,这种机制含有抗多重共线性干扰的功能;后者假设变量之间是相互独立的。但对于回归算法来说,都要同时考虑多个预测因子,因此多重共线性不可避免。多重共线性(Multicollinearity)是指线性回归模型中的自变量之间由于存在高度相关关系而使模型的权重参数估...

2020-03-13 18:27:22

NDCG:推荐系统/搜索评价指标

本文转载自【胖喵】博主,详细请看https://www.cnblogs.com/by-dream/p/9403984.html 1. CG:累计增益CG,cumulative gain,只考虑到了相关性的关联程度,没有考虑到位置的因素。它是一个搜素结果相关性分数的总和。指定位置p上的CG为:reli代表i这个位置上的相关度。举例:假设搜索“篮球”结果,最理想的结果是:B1、B...

2020-03-07 16:17:43

Redis批量操作详解及性能分析

通过mget批量执行指令可以节约网络连接和数据传输开销,在高并发场景下可以节约大量系统资源。本文中,我们更进一步,比较一下redis提供的几种批量执行指令的性能。1.为什么需要批量执行redis指令众所周知,Redis协议采取的是客户端-服务器方式,即在一次round trip中,客户端发送一条指令,服务端解析指令并执行,然后向客户端返回结果。这是一种典型的tcp交互方式。粗略的分,...

2020-01-11 17:33:21

golang中的flag模块小结

1. flag常用函数无论是c语言还是golang语言或是其他语言,启动应用程序时都可以带一些参数,然后系统根据传入的参数进行特点的工作。如:./main -mode online -model bert_ch. 在Go中可以方便地使用flag模块进行命令行参数解析。// 解析字符串type string stringfunc String(name string, value st...

2020-01-08 21:59:17

SQL小结

1. SQL模糊查询like: 效率低,容易全盘扫描# 查找Name中包含字符'M'的数据select ename from table where ename like '%M%'# 查找Name中第二个字母为'M'的数据select ename from table where ename like '_M%'instr(str, substr) / locate(subst...

2020-01-05 18:10:18

Java中恒等条件判断:“equals”和“==”

1. 起因:字符串恒等判断//String is reference typeString str1 = new String("hello");String str2 = new String("hello");System.out.println(str1==str2);// falseSystem.out.println(str1.equals(str2));// tru...

2019-11-27 19:36:02

OCR-PIL.Image与Base64 String的互相转换

1. 基本环境py2: python2.7.13 py3: python3.6.2 PIL: pip(2/3) install pillow, PIL库已不再维护,而pillow是PIL的一个分支,如今已超越PIL2.Convert PIL.Image to Base64 Stringpy2 :先使用CStringIO.StringIO把图片内容转为二进制流,再进行base64编码...

2019-11-14 10:02:24

Bert演变总结

2019-11-03 21:41:36

基于bert模型的文本分类研究:“Predict the Happiness”挑战

1. 前言在2018年10月,Google发布了新的语言表示模型BERT-“Bidirectional Encoder Representations from Transformers”。根据他们的论文所言,在文本分类、实体识别、问答系统等广泛的自然语言处理任务上取得了最新的成果。2017年12月,参加了Hackerreath的一个挑战“Predict the Happiness”。在这...

2019-11-03 20:11:57

faiss(2):理解product quantization算法

近几年,深度学习技术被广泛用于图像识别、语音识别、自然语言处理等领域,能够把每个实体(图像、语音、文本)转换为对应的embedding向量。如这里千人千面智能淘宝店铺背后的算法研究登陆人工智能顶级会议AAAI 2017。而对于推荐、搜索或者广告投放问题,都可以描述为从大规模候选中给用户提供有限的展现结果。那么,这里就会涉及到向量检索的问题。向量检索最简单的想法是暴力穷举法,如果全部实体的个数是...

2019-11-03 13:04:56

faiss(1):简介 安装 与 原理

1. 简介Faiss是Facebook AI团队开源的针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库。它包含多种搜索任意大小向量集(备注:向量集大小由RAM内存决定)的算法,以及用于算法评估和参数调整的支持代码。Faiss用C++编写,并提供与Numpy完美衔接的Python接口。除此以外,对一些核心算法提供了GPU实现。...

2019-11-03 12:17:18

热词抽取与话题发现系列(1):郝晓玲研究

1. 背景社区内容的数据挖掘方面主要可分为两大类:内容关联挖掘和用户关系挖掘, 热词/热点话题发现属于社区内容挖掘范畴,是指从大量的UGC文本中检测出用户广泛讨论的话题。涉及两个关键性技术:中文分词技术,中文话题发现技术。中文分词算法主要分为两种:一是基于语言规则的方法,即计算机可以通过自然语言的语法、词性等内部规则分析出文本正确含义并分词,判断文本串是否成词主要依赖词库。 主要方法包括:...

2019-10-20 13:05:26

Spark写Redis+Spark资源配置总结

1. 起源于Error19/10/16 11:22:06 ERROR YarnClusterScheduler: Lost executor 28 on **********: Container marked as failed: container_********** on host: **********. Exit status: 137. Diagnostics: Contain...

2019-10-17 20:37:03

ABtest用于推荐系统性能衡量

1. 背景介绍无法衡量就无法优化,对于互联网产品而言,不仅是推荐系统,整个 app 系统的更新迭代必然需要建立一套度量衡,来把控整个流程优化的方向。而 ABtest 系统就是一个很好的进行变量控制和优化方向选取的工具,循环:衡量 - 发现 - 迭代 - 验证。所谓精细化迭代是一种建立在数据基础上的思维方式——用较少的成本获得较好的效果。无数据,不优化, 线上分流实验是进行推荐算法优化的必由之路...

2019-10-13 19:48:24

SQL中的distinct的使用方法

1. distinct含义与使用方法distinct用来查询不重复记录的条数,即用distinct来返回不重复字段的条数(count(distinct id)),其原因是distinct只能返回他的目标字段,而无法返回其他字段。注意事项distinct 【查询字段】,必须放在要查询字段的开头,即放在第一个参数; 只能在SELECT 语句中使用,不能在 INSERT, DELETE, U...

2019-10-13 18:47:25

查看更多

CSDN身份
  • 博客专家
勋章 我的勋章
  • 领英
    领英
    绑定领英第三方账户获取
  • 技术圈认证(专家版)
    技术圈认证(专家版)
    博客专家完成年度认证,即可获得
  • 专栏达人
    专栏达人
    授予成功创建个人博客专栏的用户。专栏中添加五篇以上博文即可点亮!撰写博客专栏浓缩技术精华,专栏达人就是你!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv3
    勤写标兵Lv3
    授予每个自然周发布7篇到8篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。