7 mishidemudong

尚未进行身份认证

我要认证

菜鸟上路,一颗红心,两手准备。

等级
TA的排名 358

###好好好####深度学习---多标签分类问题

keras multi-label classification 多标签分类 问题:一个数据又多个标签,一个样本数据多个类别中的某几类;比如一个病人的数据有多个疾病,一个文本有多种题材,所以标签就是: [1,0,0,0,1,0,1] 这种高维稀疏类型,如何计算分类准确率?分类问题:二分类多分类多标签Keras metrics (性能度量)介绍的比较好的一个博客:https://machinelearningmastery.com/custom-metrics-de..

2020-08-04 11:55:26

#####haohaohao#####BERT实战多标签标注模型(附github源码)

摘要:之前广告行业中那些趣事系列2:BERT实战NLP文本分类任务(附github源码),我们通过BERT构建了二分类器。这里根据实际项目需要使用BERT构建多标签标注模型,可通过一个模型识别多类标签,极大提升建模效率。实际项目中会根据业务需要同时使用二分类器和多标签标注模型完成文本识别任务。通过本篇学习,小伙伴们可以使用BERT模型来解决多标签标注任务。对数据挖掘、数据分析和自然语言处理感兴趣的小伙伴可以多多关注。目录01 多标签标注任务背景介绍02 多...

2020-08-04 09:46:55

Keras 多任务实现,Multi Loss

找了好久, 终于找到了:Keras Xception Multi loss 细粒度图像分类这里只摘取关键代码:# create the base pre-trained modelinput_tensor = Input(shape=(299, 299, 3))base_model = Xception(include_top=True, weights='imagenet', input_tensor=None, input_shape=None)plot_model(base_model,

2020-07-22 17:20:18

##haohaohao#######蘑菇街自研服务框架如何提升在线推理效率?

Online Serving 简介从本质而言,在线服务就是提供 (http, rpc) 等接口,用户输入 X, X 经过 pre-process 处理成符合模型输入的参数,经由模型推理后得到 Y,Y 经过 post-process 处理成符合用户认知的数据格式,最后将结果返回。第 2 步和训练中的 evalute/test 相应步骤几乎一样,只是在线推理下的 batch size 往往为 1,远远小于训练过程中的 batch size,故在线推理下的显卡和显存的利用率相对训练更低。1. X =

2020-07-21 16:42:59

##haohaohao###Keras中无损实现复杂(多入参)的损失函数

本文基于比较古旧的KERAS=2.1.5版本,运用了最新tf2.0以及tf.keras特性的更好版本请移步我的另一篇文章:Ziyigogogo:Tensorflow2.0中复杂损失函数实现​zhuanlan.zhihu.com前言Keras中,直接利用API可以快速的实现一些功能简单的自定义损失函数:model.compile(loss=YOUR_CUSTOM_LOSS_FUNCTION)然而任何的简单都是有代价的,通过这个内置方法定义的损失函数有且只能有y_true和y_pred两个

2020-07-21 15:38:44

【半监督学习】MixMatch、UDA、ReMixMatch、FixMatch

半监督学习(Semi-Supervised Learning,SSL)的 SOTA 一次次被 Google 刷新,从 MixMatch 开始,到同期的 UDA、ReMixMatch,再到 2020 年的 FixMatch。目录Consistency Regularization Entropy Minimization 结合 Consistency Regularization 和 Entropy Minimization FixMatch: Simplifying SSL with C.

2020-07-10 11:40:18

##好好好好###开源的标注工具

## 开源的标注工具自然语言处理标记工具汇总https://blog.csdn.net/wangyizhen_nju/article/details/94559607spacy原来有两个标注工具,displaCy-ent和displaCy,一个ner一个依赖关系.Annotator for Chinese Text Corpus (UNDER DEVELOPMENT) 中文文本标注工具自然语言处理的大部分任务是监督学习问题。序列标注问题如中文分词、命名实体识别,分类问题如关系识..

2020-07-07 14:49:05

###haohaohao######主动学习用于标注优化迭代

我们使用一些传统的监督学习方法做分类的时候,往往是训练样本规模越大,分类的效果就越好。但是在现实生活的很多场景中,标记样本的获取是比较困难的,这需要领域内的专家来进行人工标注,所花费的时间成本和经济成本都是很大的。而且,如果训练样本的规模过于庞大,训练的时间花费也会比较多。那么有没有办法,能够使用较少的训练样本来获得性能较好的分类器呢?主动学习(Active Learning)为我们提供了这种可能。主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精

2020-07-07 11:11:05

###豪豪豪豪######2020 推荐系统技术演进趋势了解

读知乎文章《推荐系统技术演进趋势:从召回到排序再到重排》笔记:《推荐系统技术演进趋势:从召回到排序再到重排》这篇文章主要说了下最近两年,推荐系统技术的一些比较明显的技术发展趋势。主要从以下几个方面介绍:推荐系统整体架构召回技术演进趋势排序模型技术演进趋势重排技术演进趋势一、推荐系统整体架构推荐系统宏观架构:推荐系统宏观结构细分四阶段:推荐系统细分四阶段二、召回技术演进趋势1、传统:多路召回(每一路召回相当于单特征排序结果)传统召回2、未来:

2020-07-06 20:05:09

天道

作者:盐九链接:https://www.zhihu.com/question/20865270/answer/809359141来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。只是这部作品意境深远,并不好理解,我看过很多的人解读:要么是只见树木不见森林; 要么是只看到表层,厚度不够; 要么是以《天道》为真经。这些看法都有片面之处,《天道》也极好的地方,也有不足之外,为了能让读者即能深刻理解它的启发意义又能客观地看待,而不是茫目迷信,所以考虑再三,准备深度.

2020-07-06 09:45:28

einsum初探

Einsum 是干嘛的?使用爱因斯坦求和约定,可以以简单的方式表示许多常见的多维线性代数数组运算。举个栗子:给定两个矩阵A和B,我们想对它们做一些操作,比如 multiply、sum或者transpose。虽然numpy里面有可以直接使用的接口,能够实现这些功能,但是使用enisum可以做的更快、更节省空间。比如:A = np.array([0, 1, 2])B = np.array([[ 0, 1, 2, 3], [ 4, 5, 6, 7],

2020-07-03 11:50:30

###好好好######一文详解微服务架构

本文将介绍微服务架构和相关的组件,介绍他们是什么以及为什么要使用微服务架构和这些组件。本文侧重于简明地表达微服务架构的全局图景,因此不会涉及具体如何使用组件等细节。为了防止不提供原网址的转载,特在这里加上原文链接:https://www.cnblogs.com/skabyy/p/11396571.html要理解微服务,首先要先理解不是微服务的那些。通常跟微服务相对的是单体应用,即将所有功能都打包成在一个独立单元的应用程序。从单体应用到微服务并不是一蹴而就的,这是一个逐渐演变的过程。本文将以一个网

2020-06-28 11:27:25

python高并发的解决方案

python高并发的解决方案一.cdn加速简单说就是把静态资源放到别人服务器上全称:Content Delivery Network或Content Ddistribute Network,即内容分发网络基本思路:尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快、更稳定。通过在网络各处放置节点服务器所构成的在现有的互联网基础之上的一层智能虚拟网络,CDN系统能够实时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导向

2020-06-24 15:59:53

###好好好#####迁移学习(Transfer)

迁移学习(Transfer),面试看这些就够了!(附代码)1. 什么是迁移学习迁移学习(Transfer Learning)是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学

2020-06-24 15:13:56

ACL 2020 | 基于机器阅读理解框架的命名实体识别方法

论文标题:A Unified MRC Framework for Named Entity Recognition论文作者:Xiaoya Li, Jingrong Feng, Jiwei Li论文链接:https://arxiv.org/pdf/1910.11476.pdf本文提出使用基于机器阅读理解(Machine Reading Comprehension, MRC) 的框架代替序列标注模型(sequence labeling)统一处理嵌套与非嵌套命名实体识别问题。该方法解.

2020-06-15 16:00:26

详解编辑距离(Edit Distance)及其代码实现

概述编辑距离(Minimum Edit Distance,MED),由俄罗斯科学家 Vladimir Levenshtein 在1965年提出,也因此而得名 Levenshtein Distance。在信息论、语言学和计算机科学领域,Levenshtein Distance 是用来度量两个序列相似程度的指标。通俗地来讲,编辑距离指的是在两个单词之间,由其中一个单词转换为另一个单词所需要的最少单字符编辑操作次数。在这里定义的单字符编辑操作有且仅有三种:插入(Insertion) 删除(Del

2020-06-04 11:34:58

树(Tree)——(五)搜索二叉树的节点删除和销毁

目录节点删除的三种情况:第一种情况:第二种情况:第三种情况代码实现:main函数节点删除的三种情况:节点删除总共分成三种情况:第一种情况:若为叶子节点则直接删除,如左图节点1,3 ,8或者右图的1,4,8。(若为单独一个根叶子要单独处理)若为单独一个根叶子第二种情况:若该节点,有一个节点,左或是右。因为只有一个节点,直接令祖父节点指向孙子节点,孙子节点的左右需要分开判断。如图中节点2(若该节点为根要单独处理)若该节点为根第三种...

2020-06-01 09:35:44

###好好好好#####模型蒸馏(Distil)及mnist实践

结论:蒸馏是个好方法。模型压缩/蒸馏在论文《Model Compression》及《Distilling the Knowledge in a Neural Network》提及,下面介绍后者及使用keras测试mnist数据集。蒸馏:使用小模型模拟大模型的泛性。通常,我们训练mnist时,target是分类标签,在蒸馏模型时,使用的是教师模型的输出概率分布作为“soft target”。也即损失为学生网络与教师网络输出的交叉熵(这里采用DistilBert论文中的策略,此论文不同)。当训练

2020-05-28 11:02:18

####好好好#######【Graph Neural Network】GraphSAGE: 算法原理,实现和应用

在上一篇文章中介绍了GCN【Graph Neural Network】GCN: 算法原理,实现和应用GCN是一种在图中结合拓扑结构和顶点属性信息学习顶点的embedding表示的方法。然而GCN要求在一个确定的图中去学习顶点的embedding,无法直接泛化到在训练过程没有出现过的顶点,即属于一种直推式(transductive)的学习。本文介绍的GraphSAGE则是一种能够利用顶点的属性信息高效产生未知顶点embedding的一种归纳式(inductive)学习的框架。其核心思想是通过学

2020-05-26 10:42:50

GCN与GAT之间的重要联系和区别

谈几点深入的理解1. 与GCN的联系与区别无独有偶,我们可以发现本质上而言:GCN与GAT都是将邻居顶点的特征聚合到中心顶点上(一种aggregate运算),利用graph上的local stationary学习新的顶点特征表达。不同的是GCN利用了拉普拉斯矩阵,GAT利用attention系数。一定程度上而言,GAT会更强,因为 顶点特征之间的相关性被更好地融入到模型中。2. 为什么GAT适用于有向图?我认为最根本的原因是GAT的运算方式是逐顶点的运算(node-wise),这一点..

2020-05-26 09:55:38

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 分享达人
    分享达人
    成功上传6个资源即可获取