Terry_dong-CSDN博客

原创 Knowledge Distillation论文阅读之：综述文章：Knowledge Distillation

目录1. Introduction2. Background3. Knowledge3.1 Response-base Knowledge3.2 Feature-Based Knowledge3.3 Relation-Based Knowledge摘要本问提供了 KD 的复杂研究包括了下述方面：KD 的种类训练方案 teacher-student 结构蒸馏算法表现对比和实际应用在此基础上，简要回顾了知识蒸馏面临的挑战，并对未来的研究方向进行了讨论和展望

2022-03-03 21:00:55 779

原创知识图谱技术解剖

简述本体、知识库、知识图谱、知识图谱识别之间的关系？本体：领域术语集合。知识库：知识集合。知识图谱：图状具有关联性的知识集合。知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。构建知识图谱的主要目的是获取

2021-09-29 17:31:48 1168

原创深入理解搜索引擎——详解query理解

【导语】当你在搜索框输入一串简短的文本后，搜索引擎立马会返回成千上万条结果，整个搜索过程看似简单，其实底层引擎大有文章。每一个简短的搜索词背后都隐藏着用户最真实的查询意图，需要搜索引擎使用很多不同策略去挖掘用户背后的需求，这就涉及到“搜索query理解”。我们此前讲过《初识query理解》当用户输入query：“P i g n g u o 的生產地。”在以上每个模块具体是怎么处理的？01 文本预处理大小写转换：query会转为“p i g n g u o 的生產地。”全半角转化..

2021-09-24 11:14:23 2482

原创 tf2.0 中multiply、matmul、dot、batch_dot注意区别

https://zhuanlan.zhihu.com/p/369454127

2021-06-13 16:06:13 620

原创深度学习中的损失函数

深度学习（tensorflow）中的所有学习算法都必须有一个最小化或最大化一个函数，称之为损失函数（loss function），或“目标函数”、“代价函数”。损失函数是衡量模型的效果评估。损失函数严格上可分为两类：分类损失和回归损失，其中分类损失根据类别数量又可分为二分类损失和多分类损失。在使用的时候需要注意的是：回归函数预测数量，分类函数预测标签。

2021-05-29 21:19:29 8645 1

原创深度学习中分类任务的损失函数详解

多分类任务损失函数：多分类问题一般用softmax作为神经网络的最后一层，然后计算交叉熵损失。TensorFlow中的tf.nn.softmax_cross_entropy_with_logits函数可以直接计算多分类损失。

2021-05-29 11:59:20 8974

原创 Hive sql中的各种join（内连接、左外连接、右外连接、满外连接）

join语句1 等值 joinHive支持通常的SQL JOIN语句，但是只支持等值连接，==不支持非等值连接==。案例实操select * from stu left join score on stu.id = score.s_id;根据学生和成绩表，查询学生姓名对应的成绩2 表的别名好处使用别名可以简化查询。使用表名前缀可以提高执行效率。案例实操：合并老师与课程表-- hive当中创建course表并加载数据create table cou.

2021-05-24 14:18:45 4845

原创精确率，召回率，F1值的通俗解释

接下来是精确率，召回率，F1值通俗解释：上一篇绘制的混淆矩阵首先回顾上一篇画的混淆矩阵中T、F、P、N的含义：T:真，F:假，P:阳性，N:阴性然后组合：TP:真阳性 TN:真阴性 FP:假阳性 FN:假阴性精确率：你认为对的中，有多少确实是对的，所占的比率：你认为对的：即预测值为1的数量=TP+FP有多少确实是对的：TP召回率：本来是对的中，你找回了多少对的，所占的比率 :本来是对的：即真实值为1的数量=TP+FN你找回了多少对的：TP..

2021-05-24 11:24:04 843

原创 beam search

梳理下机器学习中常用到的一种搜索算法beam search（束搜索）。为了方便大家理解，这里先假设一个非常简单的搜索任务。假设一个搜索任务假设现在有一个简化版的中文翻译英文任务，输入和输出如下，为了方便描述搜索算法，限制输出词典只有{"I", "H", "U"} 这3个候选词，限制1个时间步长翻译1个汉字，1个汉字对应1个英文单词，这里总共3个汉字，所以只有3个时间步长。中文输入："我" "恨" "你"英文输出："I" "H" "U"目标：得到最优的翻译序列I-H-Uexhausti.

2020-10-20 18:18:07 1283 1

原创自然语言处理书单

自然语言处理（英语：Natural Language Processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言。自然语言处理研究的内容包括但不限于如下分支领域：文本分类、信息抽取、自动摘要、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析（词法、句法、语法）、语音识别与合成等。以下自然语言处理书籍由数智物语根据公开资料、豆瓣评分综合整理。书单1. Speech and Language Proc.

2020-09-27 10:08:23 958 2

原创自然语言--kenlm环境搭建

这篇博客主要是分享下小象学院自然语言课程（主讲：史兴）第二讲中示例中kenlm环境搭建的过程，同时也当给自己留个存档。对于这个环境的搭建，我是在ubuntu16.04的虚拟机中进行的，下面直接进入正题：1、首先看一下此课程中搭建需要用的东西，如下图所示。在运行环境处，对于anaconda和NLTK是很简单的，这里就不多做解释了，如果有需要的可以留言交流。2、直接进入KenLM环境的搭建，首先进入kenlm的github网址点击打开链接，然后会进入到kenlm的界面，如下：...

2020-08-25 18:39:03 592

原创 Spark MLlib 机器学习

目录本章导读1.机器学习概率2.Spark MLlib总体设计3.数据类型3.1局部向量3.2标记点3.3局部矩阵3.4分布式矩阵4.基础统计4.1摘要统计4.2相关统计1.皮尔森相关系数2.斯皮尔森秩相关系数4.3分层抽样4.4假设校验4.5随机数生成5. 分类和回归5.1数学公式5.2线性回归1.简单线性回归2.多元线性回归5.3分类1.线性支持向量机2.逻辑回归...

2020-08-11 15:13:11 1078

原创 Java开发中的23种设计模式详解----构建器模式（Builder）

一、引言在日常的开发中，我们可能经常能看到如下的代码：PrivateKeyDecryptParam param = new PrivateKeyDecryptParam.Builder() .uAppId(uAppId) .containerId(containerId)

2020-08-09 15:59:21 311

原创 UML类图详解及rose中的画法

目录UML简介2.类图介绍3.类图画法UML简介UML是一种建模语言，是我们在构造模型时首选的一种建模工具，去描述系统的需求和设计，在对复杂的工程进行建模时，系统可由单一的图形来描述，但是单一图形不可能包含一个大系统所需的所有信息，更不可能描述系统的整体结构功能，这样一来就几乎不能用单一图形来建模了，而UML能从不同的角度去描述系统，它提供了九种图，下面我们用一张图去对比这九种图的用途。2.类图介绍类图（Class Diagram）: 类图是面向对象系统建模中最常用和最.

2020-08-09 15:30:30 3745

原创 K-means聚类与EM算法

一，本文关注以下内容： K-means的原理初始类中心的选择和类别数K的确定 K-means和EM算法、高斯混合模型的关系二：K-means的原理K-means（K均值聚类）是一种基于中心的聚类算法，通过迭代，将样本分到K个类中，使每个样本与其所属类中心的距离之和最小。1定义损失函数假设我们有一个数据集｛x1, x2,..., xN｝，每个样本的特征维度是m维，我们的目标是将数据集划分为K个类别。假定K值已经给定，第k个类...

2020-08-02 16:51:29 6253 1

原创知识蒸馏(Knowledge Distillation) 经典之作

知识蒸馏是一种模型压缩方法，是一种基于“教师-学生网络思想”的训练方法，由于其简单，有效，在工业界被广泛应用。这一技术的理论来自于2015年Hinton发表的一篇神作:论文链接arxiv.orgKnowledge Distillation，简称KD，顾名思义，就是将已经训练好的模型包含的知识(”Knowledge”)，蒸馏("Distill")提取到另一个模型里面去。今天，我们就来简单读一下这篇论文，力求用简单的语言描述论文作者的主要思想。在本文中，我们将从背景和动机讲起，然后着重介绍“知识蒸馏”

2020-08-02 14:45:28 2837 1

原创详文解读微信「看一看」多模型内容策略与召回

微信已经成了不少人获取咨询的来源之一，看一看功能在这基础上实现内容的精确推荐，以及拓宽用户阅读兴趣，打破信息茧房。本文从六个方面，以多模型内容策略与召回的角度分析微信看一看，希望对你有帮助。一、看一看介绍相信对于不少人而言微信已经成为获取资讯的主要场景。与此同时，由于微信用户群体的庞大，也吸引了大量的内容生产者在微信公共平台创造内容，以获取用户关注、点赞、收藏等。微信内的内容推荐产品：看一看应运而生。基于微信通过多年的用户沉淀，积累得到的大量“隐式反馈”阅读兴趣信息，可以精准的实现..

2020-07-27 10:36:07 845

原创 ChineseGLUE：为中文NLP模型定制的自然语言理解基准

GLUE 是一个用于评估通用 NLP 模型的基准，其排行榜可以在一定程度上反映 NLP 模型性能的高低。然而，现有的 GLUE 基准针对的是英文任务，无法评价 NLP 模型处理中文的能力。为了填补这一空白，国内关注 NLP 的热心人士发布了一个中文语言理解测评基准——ChineseGLUE。ChineseGLUE 目前拥有八个数据集的整体测评及其基线模型，目前已经有 20多位来自各个顶尖机构的自愿者加入并成为了创始会员。ChineseGLUE 的成员包括全国各地关注 NLP 的热心专业人士，包...

2020-07-16 09:54:21 661

原创机器学习研究者的养成指南，吴恩达建议这么读论文

如何成为一名高效的机器学习研究者，然后在这个领域取得一些成就？在此之前，我们需要养成什么样的习惯？近日，一篇发布在 Reddit 机器学习版块的帖子引发了众人的讨论。近日，一位网友在 Reddit 上发帖提问：「那些高效的机器学习研究者，都有什么样的习惯？」比如，在 Arxiv 上时时跟进最新的研究，利用睡觉时间训练模型，以及充分利用 Stack Overflow。其他的呢？其实，世界上从不缺少优秀的机器学习研究者，也不缺乏好的建议和指南。想要成为一名高效的机器学习研究者，...

2020-07-08 15:22:21 298

原创自动文摘评测方法：Rouge-1、Rouge-2、Rouge-L、Rouge-S 评测指标

前言最近在看自动文摘的论文，之前对Rouge评测略有了解，为了更好的理解Rouge评测原理，查了些资料，并简单总结。关于RougeRouge(Recall-Oriented Understudy for Gisting Evaluation)，是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要（通常是人工生成的）进行比较计算，得出相应的分值，以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。Rouge-1、Rouge-2、Rouge-N论文[3]中对Ro

2020-07-06 14:24:17 2686 1

原创分类器性能度量指标之ROC曲线、AUC值

目录概述混淆矩阵(Confusion matrix)ROC曲线AUC(Area under the ROC curve)AUC能拿来干什么总结参考资料：概述二分类问题在机器学习中是一个很常见的问题，经常会用到。ROC(Receiver Operating Characteristic) 曲线和AUC(Area Under the Curve)(Area Under theCurve) 值常被用来评价一个二值分类器 (binary classifier) 的优劣...

2020-06-28 11:51:11 1320

原创 submodular函数优化

几个月之前写了一篇文本摘要任务的一些总结（详见文本自动摘要任务的初步总结），其中在说无监督方式做抽取式摘要的时候，参考了一篇论文：A Class of Submodular Functions for Document Summarization。最近在做业务新闻摘要的时候，基于当前无标注数据，准备应用该方法来做无监督的抽取式摘要。但是在实现的过程中，发现了很多之前忽略的细节问题，因此本篇作为上篇总结文章的补充，聚焦优化求解submodular函数的具体实现。前情回顾首先，简单回顾一下A Cla.

2020-06-22 11:17:43 1719

原创文本自动摘要任务的初步总结

由于最近需要进行组内的知识分享，因而借此机会将文本摘要的一些基本知识以及本人的一些实践经验做成文稿，一方面用来组内分享，一方面也是总结一下过去在该领域的一些心得体会。因个人的能力所限，本文实质上是对文本摘要的不完全总结，如有未能囊括的知识点，还请同学们多提意见，一起进步。本文将从以下几点介绍文本摘要任务的相关内容。从整体上对文本摘要任务做一个大致的介绍，包括任务分类，评测方式等。介绍抽取式自动摘要的内容。这也是之前我主要研究实践的领域。介绍生成式自动摘要的内容，这里主要介绍经典的seq2se

2020-06-22 10:55:54 1427

原创摘要抽取算法——最大边界相关算法MMR(Maximal Marginal Relevance) 实践

NLP(自然语言处理)领域一个特别重要的任务叫做——文本摘要自动生成。此任务的主要目的是快速的抽取出一篇文章的主要内容，这样读者就能够通过最少的文字，了解到文章最要想表达的内容。由于抽取出来的摘要表达出了文章最主要的含义，所以在做长文本分类任务时，我们可以采用文本摘要算法将长文本的摘要抽取出来，在采用短文本分类模型去做文本分类，有时会起到出奇的好效果。文本摘要自动生成算法文本摘要抽取算法主要分为两大类：一种是生成式：生成式一般采用的是监督式学习算法，最常见的就是sequence2sequence

2020-06-22 10:35:42 1477

原创一文详解知识图谱关键技术与应用 | 公开课笔记

讲师 | 桂洪冠来源 | AI科技大本营在线公开课视频回放地址：https://edu.csdn.net/huiyiCourse/detail/844本课程从知识图谱的历史由来开展，讲述知识图谱与人工智能的关系与现状；知识图谱辐射至各行业领域的应用；在知识图谱关键技术概念与工具的实践应用中，本课程也会讲解知识图谱的构建经验；以及达观在各行业领域系统中的产品开发和系统应用。以下是公开课文本版整理大家晚上好！我是达观数据的桂洪冠，负责达观的搜索技术团队。非常高兴今天晚上能给大家做一..

2020-05-26 00:17:00 1970

原创 TensorFlow是什么

文章目录1、Google开源软件库2、数据流图3、特征1、Google开源软件库1、采用数据流图，用于数值计算 2、支持GPU、CPU 3、最初用于深度学习，如今越来越通用2、数据流图节点：处理数据线：节点间的输入输出线上运输张量（数据，可以是向量、矩阵、高维矩阵）节点分配到各种计算设备上运行3、特征1、高度的灵活性 2、真正的可移植性 3、产品与科研...

2020-05-05 00:57:37 421

原创 TensorFlow2.0构架

1、TensorFlow2.0主要特征tf.keras和eager mode更加简单鲁棒的跨平台模型部署更加灵活清除不推荐使用的API和减少重复来简化API2、架构该框架分为两大部分，左边为训练部分，右边为模型部署。2.1 read &preprocess data首先，在读取数据方面，可以使用tf.data加载数据。使用输入管道读取训练数据，输入管道使用...

2020-05-05 00:55:55 877

原创 Tensorflow 与 pytorch对比

1、前言很多人在学习深度学习时，都会对于学习哪个深度学习的框架而烦恼，到底是Tensorflow 还是 pytourch？一个主流的说法就是如果搞学术研究，那么就选择pytourch，如果是搞项目那就选Tensorflow ，但很多人都纠结两者的区别在哪里呢，下面就具体的分析一下，看看到底哪个框架适合你。2、入门时间PyTorch本质上是Numpy的替代者，而且支持GPU、带有高级功能...

2020-05-05 00:55:11 2918

原创 TensorFlow版本变迁与tf1.0架构

TensorFlow1.01.1XLA:Accelerate linear algebraTensorFlow 的设计目标和核心优势之一是其灵活性。TensorFlow 被设计成一个灵活和可扩展的系统，可用于定义任意数据流图（data flow graph）并使用异构计算设备（如 CPU 和 GPU）以分布式方式有效地执行它们。但是灵活性通常与性能不能兼得。虽然 TensorFlo...

2020-05-05 00:52:22 604

原创 TensorFlow2.0--TensorFlow2.0构架

目录1、TensorFlow2.0主要特征2、架构2.1 read &preprocess data2.2 tf.keras2.3 Premade Estimators2.4 distribution strategy2.5 SaveModel3、开发流程4、强大的跨平台能力5、强大的研究实验1、TensorFlow2.0主要特征tf.ke...

2020-05-05 00:47:37 574

原创关键词提取：TF-IDF和n-gram

一：今日相亲搭档镇楼。今天的头版给我漂亮的搭档，啥年芳二六、待字闺中之类的矫情话就不说了，希望看到文章的小伙子，如果对眼，请放下你手中的游戏，我可以牵线搭桥。好好相爱，就是为民除害。搭档是重庆妹纸，重庆妹纸长得是很水灵。搭档给我的感觉是情商比较高，比较会捧哏，说话不会闷。搭档身高160体重100，学历本科水瓶座，目前在重庆的银行工作。以下为搭档的自我介绍：性格慢热，...

2020-04-12 22:17:48 6272 7

原创推荐系统_基本知识点-牢记

1 推荐系统的分类基于应用领域分类：电子商务推荐，社交好友推荐，搜索引擎推荐，信息内容推荐基于设计思想：基于协同过滤的推荐，基于内容的推荐，基于知识的推荐，混合推荐基于使用何种数据：基于用户行为数据的推荐，基于用户标签数据的推荐，基于社交网络数据，基于上下文信息（时间上下文，地点上下文等等）2 常见评测标准http://blog.csdn.net/u011263983/arti...

2020-04-11 17:52:04 1799

原创推荐系统_itemCF和userCF 核心知识点

推荐系统的分类：基于应用领域分类：电子商务推荐，社交好友推荐，搜索引擎推荐，信息内容推荐基于设计思想：基于协同过滤的推荐，基于内容的推荐，基于知识的推荐，混合推荐基于使用何种数据：基于用户行为数据的推荐，基于用户标签的推荐，基于社交网络数据，基于上下文信息（时间上下文，地点上下文等等）协同过滤：协同过滤的基本思想（基于用户）：协同过滤一般是在海量的用户中发掘出一小部分和你品味比...

2020-04-11 17:32:26 882

原创模型评价(一) AUC详细概述

问题：AUC是什么 AUC能拿来干什么 AUC如何求解（深入理解AUC）AUC是什么混淆矩阵(Confusion matrix)混淆矩阵是理解大多数评价指标的基础，毫无疑问也是理解AUC的基础。丰富的资料介绍着混淆矩阵的概念，这里用一个经典图来解释混淆矩阵是什么。显然，混淆矩阵包含四部分的信息：True negative(TN)，称为真阴率，表明实际是负样本预测成负样本的样...

2020-04-10 15:28:38 1134

原创欠采样（undersampling）和过采样（oversampling）的作用

项目中出现了二分类数据不平横问题，研究总结下对于类别不平横问题的处理经验：为什么类别不平横会影响模型的输出？　　许多模型的输出类别是基于阈值的，例如逻辑回归中小于0.5的为反例，大于则为正例。在数据不平衡时，默认的阈值会导致模型输出倾向与类别数据多的类别。因此可以在实际应用中，解决办法包括：1)调整分类阈值，使得更倾向与类别少的数据。2）选择合适的评估标准，比如ROC或者F1，...

2020-03-24 19:31:35 3391

原创从经典文本分类模型TextCNN到深度模型DPCNN

如今深度学习已经成为NLP领域的标配技术，在图像中大为成功的卷积神经网络（CNN）也开始广泛渗透到文本分类、机器翻译、机器阅读等NLP任务中。但是，在ACL2017以前，word-level的文本分类模型（以单词为语义单位）自2014Kim等人提出的TextCNN模型后，就没有再出现过显著有效的CNN系模型，尤其是深层模型。图1 TextCNN（ShallowCNN）模型而在2017年...

2020-03-23 23:01:12 715

原创 ReZero：使用加权残差连接加速深度模型收敛

文标题：Thomas Bachlechner, Bodhisattwa Prasad Majumder, Huanru Henry Mao, Garrison W. Cottrell, Julian McAuley论文作者：Thomas Bachlechner, Bodhisattwa Prasad Majumder, Huanru Henry Mao, Garrison W. Cot...

2020-03-23 22:02:39 3059 1

原创预训练语言模型整理（ELMo/GPT/BERT...）

预训练语言模型整理（ELMo/GPT/BERT...）简介2018年ELMo/GPT/BERT的相继提出，不断刷新了各大NLP任务排行榜，自此，NLP终于找到了一种方法，可以像计算机视觉那样进行迁移学习，被誉为NLP新时代的开端。与计算机视觉领域预训练模型不同的是，其通过采用自监督学习的方法，将大量的无监督文本送入到模型中进行学习，即可得到通用的预训练模型，而NLP领域中无监督文本...

2020-03-19 11:04:14 2626

原创 NLPer看过来，一些关于ELMo的问题整理记录

作者：Adherersun链接：https://www.nowcoder.com/discuss/260001?type=2来源：牛客网以下是关于ELMo的若干问题整理记录，自己在网上找了一些问题，对每个问题收集了一些资料，并做了整理，有些问题还写了一些自己的看法，可能会有纰漏，甚至还有错误，还请大家赐教????，另外祝大家校招顺利！预训练模型若干问题整理记录系列NLPer看过来，一...

2020-03-10 14:33:03 378

原创【文本信息抽取与结构化】详聊如何用BERT实现关系抽取

目录前述1) 模型结构2) 模型运算2 End-to-End BERT RE1) 模型结构1. 实体识别模块常常在想，自然语言处理到底在做的是一件什么样的事情？到目前为止，我所接触到的NLP其实都是在做一件事情，即将自然语言转化为一种计算机能够理解的形式。这一点在知识图谱、信息抽取、文本摘要这些任务中格外明显。不同的任务的差异在于目标的转化形式不一样，因而不同的任务难...

2020-03-10 10:08:01 2177 1