自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(86)
  • 收藏
  • 关注

原创 NLP合集:教程/实体抽取/关系(三元组)抽取/文本分类/知识图谱/Bert系列/相似度判定/机器人问答/文本工具/竞赛方案精选/面试指南/NLP各类任务数据集等集合

Cool-NLPCV (持续更新中…)Some Cool NLP and CV Repositories and SolutionsCool-NLP | Cool-CV旨在收集NLP中常见任务的开源解决方案、数据集、工具、学习资料等,方便学习或快速查找。在此分享出来,供大家参考。欢迎积极分享并Star,谢谢!会持续不定时更新,也欢迎加入共同分享。1、机器学习&深度学习入门精选Python-100天从新手到大师斯坦福大学2014(吴恩达)机器学习教程中文笔记《统计学习方法》第二版的代

2020-12-24 11:28:24 4879 4

原创 中文文本时间抽取、时间转换及标准化

分享一个用于文本中的时间抽取、时间转换、时间标准化的实用工具。简介Time-Extractor的python3版本功能说明用于句子中时间词的抽取和转换, 主要基于Time_NLP做了部分优化效果如下:res = tn.parse(target=u'晚上8点到上午10点之间') # target为待分析语句,timeBase为基准时间默认是当前时间print("extract_result:", res)res = tn.parse(target=u'2020年二月二十八日下午四点三十分二十九

2020-12-26 13:54:08 1715

原创 自然语言处理数据集(NLP Datasets)

收集了一些中文自然语言处理数据集,在此分享出来。后续会在github中不定时持续更新,欢迎Star。任务型对话数据、文本分类、实体识别&词性标注、搜索匹配、推荐系统、百科数据、指代消歧、中文完形填空数据集、中华古诗词数据库、保险行业语料库、汉语拆字字典、中文数据集平台情感/观点/评论 倾向性分析、中文命名实体识别、推荐系统、FAQ 问答系统维基百科、新闻语料、百科问答、社区问答、中英翻译语料中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜知识图谱的数据集:常识

2020-12-25 09:03:26 1291 3

原创 人脸聚类框架(Face Cluster Framework)

Face Cluster Framework (人脸聚类框架)English Version | 中文版Intorduction一个人脸图片聚类框架对于给定的大量待聚类人脸图片,利用人脸特征抽取组件(face_feature_extract)进行人脸特征抽取,并对用抽取的人脸特征进行人脸聚类并进行图片归档。采用的人脸聚类算法较当前主流人脸聚类算法效果更优,具体测评效果详见人脸聚类Cluster Result输入数据:部分聚类效果:RequirementsPytho

2020-12-01 19:48:18 5265 2

原创 人脸聚类-2020 CVPR Learning to Cluster Faces via Confidence and Connectivity Estimation

论文链接Abstract:人脸聚类是挖掘未标记人脸的一个主要方法,在人脸标注和检索等方面有着广泛的应用。最近研究表明,有监督聚类可以显著提高性能。然而,它们通常包含启发式步骤,并且需要大量重叠的子图,这严重限制了准确性和效率。本文提出了一个不需要大量重叠子图的、完全可学习聚类框架。我们将聚类问题转化为两个子问题,具体来说,是两类图卷积网络:GCN-V与GCN-E,GCN-V是用来估计顶点的置信度,GCN-E是用来估计边的连接度。通过顶点的置信度与边的连接度,我们可以自然地组织更多的相关顶点,并将它们组合

2020-11-25 11:32:24 2650 1

转载 基于知识图谱的语义理解技术及应用

知识图谱在人工智能应用中的重要价值日益突显。百度构建了超大规模的通用知识图谱,并在搜索、推荐、智能交互等多项产品中广泛应用。同时,随着文本、语音、视觉等智能技术的不断深入,知识图谱在复杂知识表示、多模语义理解技术与应用等方面都面临新的挑战与机遇。本文将介绍百度基于知识图谱,从文本到多模态内容的理解技术及应用的最新进展。本文主要内容包括: 背景 知识图谱文本语义理解 知识图谱视频语义理解 总结 01▬背景1.多模语义理解需求强烈多模语义理解需求.

2020-11-24 20:55:10 2651

转载 基于知识图谱构建新一代数据智能基础设施

导读:人工智能作为国家新基建战略的重点建设项目,是新一轮产业变革的核心驱动力量。当前人工智能正由感知智能走向认知智能,而知识图谱是实现认知智能的基石。知识图谱作为是大数据时代的知识工程集大成者,以其强大的语义表示能力、存储能力和推理能力,为互联网时代的数据知识化组织和智能应用提供了有效的解决方案。本次分享将探讨如何基于知识图谱构建新一代数据智能基础设施,实现海量多模态数据的深度语义化治理。主要内容包括: 新基建简介 知识图谱助力新基建 基于知识图谱的智能数据治理 基于知识

2020-11-24 13:56:37 3427

原创 一种无监督人脸聚类方法(SOTA效果)

Learning to Cluster Faces by InfomapIntorduction采用了无监督方法infomap进行人脸聚类(github),在MS-Celeb-1M(part1_test)及多份私有数据集上获得较当前主流方法更优的效果,测试结果对比详见下表.Infomap IntorductionInfomap WebsiteRequirementsPython >= 3.6sklearninfomapnumpyDatasetsMS-Celeb-1M : pa

2020-11-23 17:34:28 3527 9

转载 为什么要做特征归一化/标准化

Feature scaling,常见的提法有“特征归一化”、“标准化”,是数据预处理中的重要技术,有时甚至决定了算法能不能work以及work得好不好。谈到feature scaling的必要性,最常用的2个例子可能是: 特征间的单位(尺度)可能不同,比如身高和体重,比如摄氏度和华氏度,比如房屋面积和房间数,一个特征的变化范围可能是[1000, 10000],另一个特征的变化范围可能是[−0.1,0.2],在进行距离有关的计算时,单位的不同会导致计算结果的不同,尺度大的特征会起决定性作用,而尺度小的特

2020-11-13 15:39:09 436

原创 gcc: error: unrecognized command line option ‘-std=c++14’ 问题解决

问题描述:安装一些python包(实际场景为py3安装infomap)时报错:gcc: error: unrecognized command line option ‘-std=c++14’环境centos版本:CentOS Linux release 7.6.1810 (Core)gcc版本:gcc (GCC) 4.8.5 20150623 (Red Hat 4.8.5-39)g++版本:g++ (GCC) 4.8.5 20150623 (Red Hat 4.8.5-39)解决.

2020-11-11 09:44:06 24707 8

转载 STSGCN:时空同步图卷积神经网络用于交通预测

文章信息《Spatial-Temporal Synchronous Graph Convolutional Networks: A New Framework for Spatial-Temporal Network Data Forecasting》。由北京交通大学计算机学院万怀宇和林友芳老师团队的硕士生宋超和博士生郭晟楠完成,已被AAAI 2020接收。摘要本文提出了一种基于图卷积方法的时空网络预测方法,该方法以路网结构为基础,将多个近邻时间步的空间图连接到一起,使用图卷积方法捕获复杂的

2020-11-09 15:05:00 4268 3

原创 智能交通流量预测方案收集(持续更新)

交通流量预测应用方案收集(欢迎补充、持续更新…)论文合集基于时间图卷积网络(T-GCN)交通流预测(A Temporal Graph Convolutional Network for Traffic Prediction) 2019IEEE一种基于神经网络的交通预测方法,该模型结合了图卷积网络(GCN)和门控递归单元(GRU)。GCN用于学习复杂的拓扑结构来捕获空间依赖关系,GRU用于学习交通数据的动态变化来捕获时间依赖关系。论文下载链接实现链接tf基于注意力机制的时空图卷积网络

2020-11-09 14:26:26 3320 3

原创 GIT实用技巧

Git 是目前最流行的源代码管理工具。为规范开发,保持代码提交记录以及 git 分支结构清晰,方便后续维护,现规范git的相关操作。GIT基本语法分支命名master 分支master 为主分支,也是用于部署生产环境的分支,确保 master 分支稳定性, master 分支一般由 develop 以及 hotfix 分支合并,任何时间都不能直接修改代码develop 分支develop 为开发分支,始终保持最新完成以及 bug 修复后的代码,一般开发的新功能时,fea.

2020-11-04 16:26:07 126

原创 通过有向边关系得到每个图包含的节点信息

实现将多个有序的关系对聚合层多个类,实质为由多个有向边的关系对得到图的个数。示例:如现有如下有向关系对:(A,B),(B,C),(D,C),(E,F),(G,F),(H,E),(I-G),(J-B)其中,(A,B)表示A属于B,即为有向关系对。通过关系合并,则最终可以得到的两个图(类)。图1的节点有(A,B,C,D,J)、图2的节点有(E,F,G,I)。代码实现:def _find_parent(parent, u): idx = [] # parent is

2020-10-24 15:20:59 534

原创 图像、文本、机器学习顶会

1.CVPR国际计算机视觉与模式识别会议(CVPR)是IEEE一年一度的学术性会议,会议的主要内容是计算机视觉与模式识别技术。CVPR是世界顶级的计算机视觉会议(三大顶会之一,另外两个是ICCV和ECCV),近年来每年有约1500名参加者,收录的论文数量一般300篇左右。本会议每年都会有固定的研讨主题,而每一年都会有公司赞助该会议并获得在会场展示的机会。2.ECCVECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ,两年一次.

2020-10-24 15:02:30 835

转载 LightGBM操作指南

转自:https://mp.weixin.qq.com/s/9gEfkiZyZkoIgwRCYISQgQLightGBM是基于XGBoost的一款可以快速并行的树模型框架,内部集成了多种集成学习思路,在代码实现上对XGBoost的节点划分进行了改进,内存占用更低训练速度更快。LightGBM官网:https://lightgbm.readthedocs.io/en/latest/参数介绍:https://lightgbm.readthedocs.io/en/latest/Parameters.h

2020-10-20 10:15:57 1140

转载 深度学习调参 tricks 总结

寻找合适的学习率学习率是一个非常非常重要的超参数,这个参数呢,面对不同规模、不同batch-size、不同优化方式、不同数据集,其最合适的值都是不确定的,我们无法光凭经验来准确地确定lr的值,我们唯一可以做的,就是在训练中不断寻找最合适当前状态的学习率。比如下图利用fastai中的lr_find()函数寻找合适的学习率,根据下方的学习率-损失曲线得到此时合适的学习率为1e-2。推荐一篇fastai首席设计师「Sylvain Gugger」的一篇博客:How Do You Find A Good

2020-10-20 09:44:23 363

原创 实体识别实战一些tricks

1、基线方法: 领域字典+规则模板:优先考虑此方案是否达到预期效果,减少监督训练标注成本 BiLstm+crf:推断效率相对较高 Bert(家族)+crf:精度可能较高,但速度更慢,一般crf层学习率设置为Bert的5~10倍,加速crf层的学习(因为一般Bert微调时达到收敛轮次较少)2、样本少问题(是用绝大多数文本任务): 1、无条件文本增强: 词汇短语替换:词典、词向量、Masked LM、TF-IDF 随机噪声注入:随机插入、交换、删除...

2020-10-14 13:55:19 1371

转载 两年来预训练模型的技术进展(2018-2020)

转自:https://zhuanlan.zhihu.com/p/254821426Bert模型自18年10月推出,到目前为止快两年了。它卜一问世即引起轰动,之后,各种改进版本的预训练模型(Pre-Training Model, PTM)与应用如过江之鲫,层出不穷。Bert及它的继任者们,确实也不负众望,在NLP各个领域攻城略地,所向披靡,多种NLP数据集竞赛榜单,连续多年被各种新出现的预训练模型霸榜,有些榜单,个别模型已经把指标刷到超过人类。那么,在近两年的时间里,诸多改进模型中,有哪些令人印象深刻

2020-09-29 14:43:08 1123

原创 Python速查表(神经网络、机器学习、可视化等)

看见几个不错的速查表,分享出来:Python基础速查Numpy速查Pandas速查Scipy速查Matplotlib速查Sickit-learn速查Spark速查Keras速查TensorFlow速查数据结构线性代数

2020-09-16 09:27:21 255

原创 深度学习Docker镜像大全

先上链接:github:https://github.com/ufoym/deepodockerhub:https://hub.docker.com/r/ufoym/deepo可以说是非常全面了,各种框架的都有,这里主要列了包含cuda10.1与cuda10的,其他cuda版本的可以去该dockerhub中去找,或者按照github上其他版本的Dockerfile稍微修改自己构建即可。一些常用的可用镜像列表:. CUDA 10.1 / Python 3.6 CPU-only /.

2020-07-25 15:27:48 1467

转载 常用Matplotlib图的Python代码

分享给大家25个Matplotlib图的汇总,在数据分析和可视化中非常有用,文章较长,可以马起来慢慢练手。#!pipinstallbrewer2mplimportnumpyasnpimportpandasaspdimportmatplotlibasmplimportmatplotlib.pyplotaspltimportseabornassnsimportwarnings;warnings.filterwarnings(action='once')...

2020-05-29 17:17:46 308

转载 Embedding入门必读的十篇论文

第一部分 Word2vec基础1.[Word2Vec] Efficient Estimation of Word Representations in Vector Space (Google 2013)Google的Tomas Mikolov提出word2vec的两篇文章之一,这篇文章更具有综述性质,列举了NNLM、RNNLM等诸多词向量模型,但最重要的还是提出了CBOW和Skip-gram两种word2vec的模型结构。虽然词向量的研究早已有之,但不得不说还是Google的word2vec的提.

2020-05-29 17:04:47 728

原创 NLP论文多个领域经典、顶会、必读整理分享及相关解读博客分享

持续更新收集***1、Bert系列BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - NAACL 2019) ERNIE 2.0: A Continual Pre-training Framework for Language Understanding - arXiv 2019) StructBERT: Incorporating Language Structures into

2020-05-29 15:13:14 2835 1

转载 ACL2020信息抽取相关论文汇总

一、 Entity 相关(NER & Entity Typing & Entity Linking)主要涉及词汇增强、低资源、跨领域、跨语言、多模态、表示学习。 A Unified MRC Framework for Named Entity RecognitionXiaoya Li, Jingrong Feng, Yuxian Meng, Qinghong Han, Fei Wu and Jiwei Li https://arxiv.org/pdf/1910.11476.p.

2020-05-29 14:14:46 2272 1

转载 知识蒸馏在推荐系统的应用

随着深度学习的快速发展,优秀的模型层出不穷,比如图像领域的ResNet、自然语言处理领域的Bert,这些革命性的新技术使得应用效果快速提升。但是,好的模型性能并非无代价的,你会发现,深度学习模型正在变得越来越复杂,网络深度越来越深,模型参数量也在变得越来越多。而这会带来一个现实应用的问题:将这种复杂模型推上线,模型响应速度太慢,当流量大的时候撑不住。知识蒸馏就是目前一种比较流行的解决此类问题的技术方向。一般知识蒸馏采取Teacher-Student模式:将复杂模型作为Teacher,Student模型结

2020-05-29 13:56:47 291

原创 keras/tensorflow 使用flask部署服务的常见错误及部署多个模型

本文主要列举了在用keras/tensorflow训练好模型后,使用flask部署服务时的两个常见错误及一次性解决办法。类型1、ValueError: Tensor Tensor(“dense_1/Softmax:0”, shape=(?, 5), dtype=float32) is not an element of this graph.这个错误主要是报模型最后一层出现类似的错误,比如这里的最后一层是softmax,不同的模型最后一层可能不一样,但错误类型一致。类型2、W tensorflo

2020-05-11 17:41:38 2157 2

转载 一文搞懂交叉熵

交叉熵在loss函数中使用的理解交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距。以前做一些分类问题的时候,没有过多的注意,直接调用现成的库,用起来也比较方便。最近在做文本任务时,需要基于交叉熵自定义一些复杂的损失函数,发现自己对交叉熵的理解有些模糊,不够深入。参考了该博文,复制记录,在原文中做了少量更改。信息论交叉熵是信息论中的一个概念...

2020-05-08 14:55:00 948

原创 如何选择回归损失:MAE还是MSE?

在做回归建模相关任务时,最常用评价指标是MAE、MSE、RMSE中的一个或多个,但如何根据自己的具体任务场景(数据分布)选择更合适的模型评估指标指标呢?这里我们就要需要弄明白MAE与MSE之间到底有什么不同。1、什么是MAEMAE(mean absolute error),即平均绝对值误差,也可以看做L1损失,是一种用于回归模型的常用损失函数。MAE是目标值和预测值之差的绝对值之和。其只衡...

2020-04-28 13:13:51 19737 2

转载 2020 NLP算法面试必备!NLP预训练模型的全面总结

转自:https://zhuanlan.zhihu.com/p/115014536预训练模型(Pre-trained Models,PTMs)的出现将NLP带入了一个全新时代。2020年3月18日,邱锡鹏老师发表了关于NLP预训练模型的综述《Pre-trained Models for Natural Language Processing: A Survey》[1],这是一篇全面的综述,系统...

2020-04-27 20:50:53 2131

原创 最漂亮的TensorFlow 2 教程及深度学习入门指南

为大家推荐一份清华大神制作的非常棒的tensorflow2教程简单粗暴TensorFlow 2.0或者https://tf.wiki/目录大纲通俗易懂的讲解代码风格一览

2020-03-23 12:48:34 2010

原创 《动手学深度学习》TensorFlow2.0版本

对于刚入门深度学习的童鞋,这里分享下大神们开源的将《动手学深度学习》原书中MXNet代码实现改为TensorFlow2.0实现,欢迎入坑,这是一个非常棒的入门手册,github代码。目录简介 阅读指南 1. 深度学习简介 2. 预备知识 2.1 环境配置 2.2 数据操作 2.3 自动求梯度 2.4 查阅文档 3. 深度学习基础 3.1 线性回归 3.2 ...

2020-03-22 15:06:54 2093

原创 爬虫小项目分享(微博关键词搜索爬虫、微博爬虫、链家房产爬虫、新浪新闻爬虫、腾讯招聘爬虫、招投标爬虫)

分享下工作中曾经的爬虫小项目,现不保证完全可用,仅做参考。爬虫合集github地址:https://github.com/xiaoxiong74/Spiders主要是基于scrapy或scrapy-redis框架进行数据爬虫大体框架:爬虫数据的应用:...

2020-03-22 14:53:39 541

转载 最前沿的12个NLP预训练模型

1引言17年transformer被提出,18年迎来了ELMo和BERT的横空出世,19年预训练模型不出意外地开始了全面的爆发。所以,预训练模型也成为了NLPer绕不过去的一个技术栈,这篇文章将会梳理一下我学习过的12个预训练模型。这是一篇review性质的文章,跳过了一些基础的知识,可能会对一些没用过预训练模型的读者不大友好。预训练模型,在我看来,相对传统模型做的革新,主要体现在以...

2020-03-10 17:45:22 3489

转载 机器学习模型持续部署(基于Flask, Docker, Jenkins 和 Kubernets )

本文主要介绍部署机器学习模型的一种自动化方式,如题所示,通过Flask,Docker,Jenkins和Kubernets实现。基本原理就是通过 Flask 提供RESTful API接收客户端的 predict 请求,然后将这个服务打包成一个 docker image 便于部署和迁移,当代码或模型更新时通过 Jenkins 触发自动构建新的 docker image,而通过 kube...

2020-03-08 20:50:47 1906

转载 最通俗的deepFM理解及keras实现

转自:https://blog.csdn.net/songbinxu/article/details/80151814一、数据格式 在设计模型之间,首先要明确数据的格式应该是怎样的。我们假设现在要解决的问题是一个CTR预估问题,数据集是 (X,y)(X,y),每一个样本都是高度稀疏的高维向量。假设我们有两种 field 的特征,连续型和离散型,连续型 field 一般不做...

2020-03-08 11:37:15 1735

转载 UniLM:基于bert的Seq2Seq

论文地址:Unified Language Model Pre-training for Natural Language Understanding and Generation概述:  UniLM是微软研究院在Bert的基础上,最新产出的预训练语言模型,被称为统一预训练语言模型。它可以完成单向、序列到序列和双向预测任务,可以说是结合了AR和AE两种语言模型的优点,Unilm在抽象摘要、...

2020-02-20 17:09:51 6177

转载 NLP预训练模型:从transformer到albert

背景语言模型是机器理解人类语言的途径,17年的transformer是语言模型摆脱rnn,lstm建模的一次尝试,后续的bert则是大力出奇迹的代表,用更大的模型和更多的数据将nlp任务的benchmark提高了一大截。gpt在auto-regressive的路上一路走到黑,而xlnet将gpt和bert的优点结合在了一起,然后用更更大的数据吊打了bert。没过多久,bert的增强版robert...

2020-01-14 14:33:04 368

转载 智能聊天机器人平台的架构与应用

转自:https://mp.weixin.qq.com/s/c5uXsPIwFzoMwqmG2-JUPg导读:随着“中台”战略的提出,目前宜信中台建设在思想理念及架构设计上都已经取得了很多成果。宜信是如何借助中台化的思想打造“AI中台”及相关的智能产品呢?本次直播,宜信科技中心AI中台团队负责人王东老师分享了宜信AI中台的具体实施路径,并重点介绍了AI中台的智能产品——智能聊天机器人平台,包括...

2019-12-25 09:47:14 3956

转载 NLP预训练模型:从transformer到albert

背景语言模型是机器理解人类语言的途径,17年的transformer是语言模型摆脱rnn,lstm建模的一次尝试,后续的bert则是大力出奇迹的代表,用更大的模型和更多的数据将nlp任务的benchmark提高了一大截。gpt在auto-regressive的路上一路走到黑,而xlnet将gpt和bert的优点结合在了一起,然后用更更大的数据吊打了bert。没过多久,bert的增强版rober...

2019-12-25 09:00:33 376

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除