Mr_不想起床-CSDN博客

原创 NLP合集:教程/实体抽取/关系(三元组)抽取/文本分类/知识图谱/Bert系列/相似度判定/机器人问答/文本工具/竞赛方案精选/面试指南/NLP各类任务数据集等集合

Cool-NLPCV （持续更新中…）Some Cool NLP and CV Repositories and SolutionsCool-NLP | Cool-CV旨在收集NLP中常见任务的开源解决方案、数据集、工具、学习资料等，方便学习或快速查找。在此分享出来，供大家参考。欢迎积极分享并Star，谢谢!会持续不定时更新，也欢迎加入共同分享。1、机器学习&深度学习入门精选Python-100天从新手到大师斯坦福大学2014（吴恩达）机器学习教程中文笔记《统计学习方法》第二版的代

2020-12-24 11:28:24 4879 4

原创中文文本时间抽取、时间转换及标准化

分享一个用于文本中的时间抽取、时间转换、时间标准化的实用工具。简介Time-Extractor的python3版本功能说明用于句子中时间词的抽取和转换, 主要基于Time_NLP做了部分优化效果如下：res = tn.parse(target=u'晚上8点到上午10点之间') # target为待分析语句，timeBase为基准时间默认是当前时间print("extract_result:", res)res = tn.parse(target=u'2020年二月二十八日下午四点三十分二十九

2020-12-26 13:54:08 1715

原创自然语言处理数据集(NLP Datasets)

收集了一些中文自然语言处理数据集，在此分享出来。后续会在github中不定时持续更新，欢迎Star。任务型对话数据、文本分类、实体识别&词性标注、搜索匹配、推荐系统、百科数据、指代消歧、中文完形填空数据集、中华古诗词数据库、保险行业语料库、汉语拆字字典、中文数据集平台情感/观点/评论倾向性分析、中文命名实体识别、推荐系统、FAQ 问答系统维基百科、新闻语料、百科问答、社区问答、中英翻译语料中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型、语料库、排行榜知识图谱的数据集:常识

2020-12-25 09:03:26 1291 3

原创人脸聚类框架(Face Cluster Framework)

Face Cluster Framework (人脸聚类框架)English Version | 中文版Intorduction一个人脸图片聚类框架对于给定的大量待聚类人脸图片，利用人脸特征抽取组件(face_feature_extract)进行人脸特征抽取，并对用抽取的人脸特征进行人脸聚类并进行图片归档。采用的人脸聚类算法较当前主流人脸聚类算法效果更优，具体测评效果详见人脸聚类Cluster Result输入数据：部分聚类效果：RequirementsPytho

2020-12-01 19:48:18 5265 2

原创人脸聚类-2020 CVPR Learning to Cluster Faces via Conﬁdence and Connectivity Estimation

论文链接Abstract：人脸聚类是挖掘未标记人脸的一个主要方法，在人脸标注和检索等方面有着广泛的应用。最近研究表明，有监督聚类可以显著提高性能。然而，它们通常包含启发式步骤，并且需要大量重叠的子图，这严重限制了准确性和效率。本文提出了一个不需要大量重叠子图的、完全可学习聚类框架。我们将聚类问题转化为两个子问题，具体来说，是两类图卷积网络：GCN-V与GCN-E，GCN-V是用来估计顶点的置信度，GCN-E是用来估计边的连接度。通过顶点的置信度与边的连接度，我们可以自然地组织更多的相关顶点，并将它们组合

2020-11-25 11:32:24 2650 1

转载基于知识图谱的语义理解技术及应用

知识图谱在人工智能应用中的重要价值日益突显。百度构建了超大规模的通用知识图谱，并在搜索、推荐、智能交互等多项产品中广泛应用。同时，随着文本、语音、视觉等智能技术的不断深入，知识图谱在复杂知识表示、多模语义理解技术与应用等方面都面临新的挑战与机遇。本文将介绍百度基于知识图谱，从文本到多模态内容的理解技术及应用的最新进展。本文主要内容包括：背景知识图谱文本语义理解知识图谱视频语义理解总结 01▬背景1.多模语义理解需求强烈多模语义理解需求.

2020-11-24 20:55:10 2651

转载基于知识图谱构建新一代数据智能基础设施

导读：人工智能作为国家新基建战略的重点建设项目，是新一轮产业变革的核心驱动力量。当前人工智能正由感知智能走向认知智能，而知识图谱是实现认知智能的基石。知识图谱作为是大数据时代的知识工程集大成者，以其强大的语义表示能力、存储能力和推理能力，为互联网时代的数据知识化组织和智能应用提供了有效的解决方案。本次分享将探讨如何基于知识图谱构建新一代数据智能基础设施，实现海量多模态数据的深度语义化治理。主要内容包括：新基建简介知识图谱助力新基建基于知识图谱的智能数据治理基于知识

2020-11-24 13:56:37 3427

原创一种无监督人脸聚类方法(SOTA效果)

Learning to Cluster Faces by InfomapIntorduction采用了无监督方法infomap进行人脸聚类(github)，在MS-Celeb-1M(part1_test)及多份私有数据集上获得较当前主流方法更优的效果，测试结果对比详见下表.Infomap IntorductionInfomap WebsiteRequirementsPython >= 3.6sklearninfomapnumpyDatasetsMS-Celeb-1M : pa

2020-11-23 17:34:28 3527 9

转载为什么要做特征归一化/标准化

Feature scaling，常见的提法有“特征归一化”、“标准化”，是数据预处理中的重要技术，有时甚至决定了算法能不能work以及work得好不好。谈到feature scaling的必要性，最常用的2个例子可能是：特征间的单位（尺度）可能不同，比如身高和体重，比如摄氏度和华氏度，比如房屋面积和房间数，一个特征的变化范围可能是[1000, 10000]，另一个特征的变化范围可能是[−0.1,0.2]，在进行距离有关的计算时，单位的不同会导致计算结果的不同，尺度大的特征会起决定性作用，而尺度小的特

2020-11-13 15:39:09 436

原创 gcc: error: unrecognized command line option ‘-std=c++14’ 问题解决

问题描述：安装一些python包(实际场景为py3安装infomap)时报错：gcc: error: unrecognized command line option ‘-std=c++14’环境centos版本：CentOS Linux release 7.6.1810 (Core)gcc版本：gcc (GCC) 4.8.5 20150623 (Red Hat 4.8.5-39)g++版本：g++ (GCC) 4.8.5 20150623 (Red Hat 4.8.5-39)解决.

2020-11-11 09:44:06 24707 8

转载 STSGCN：时空同步图卷积神经网络用于交通预测

文章信息《Spatial-Temporal Synchronous Graph Convolutional Networks: A New Framework for Spatial-Temporal Network Data Forecasting》。由北京交通大学计算机学院万怀宇和林友芳老师团队的硕士生宋超和博士生郭晟楠完成，已被AAAI 2020接收。摘要本文提出了一种基于图卷积方法的时空网络预测方法，该方法以路网结构为基础，将多个近邻时间步的空间图连接到一起，使用图卷积方法捕获复杂的

2020-11-09 15:05:00 4268 3

原创智能交通流量预测方案收集(持续更新)

交通流量预测应用方案收集(欢迎补充、持续更新…)论文合集基于时间图卷积网络(T-GCN)交通流预测（A Temporal Graph Convolutional Network for Trafﬁc Prediction） 2019IEEE一种基于神经网络的交通预测方法，该模型结合了图卷积网络(GCN)和门控递归单元(GRU)。GCN用于学习复杂的拓扑结构来捕获空间依赖关系，GRU用于学习交通数据的动态变化来捕获时间依赖关系。论文下载链接实现链接tf基于注意力机制的时空图卷积网络

2020-11-09 14:26:26 3320 3

原创 GIT实用技巧

Git 是目前最流行的源代码管理工具。为规范开发，保持代码提交记录以及 git 分支结构清晰，方便后续维护，现规范git的相关操作。GIT基本语法分支命名master 分支master 为主分支，也是用于部署生产环境的分支，确保 master 分支稳定性， master 分支一般由 develop 以及 hotfix 分支合并，任何时间都不能直接修改代码develop 分支develop 为开发分支，始终保持最新完成以及 bug 修复后的代码，一般开发的新功能时，fea.

2020-11-04 16:26:07 126

原创通过有向边关系得到每个图包含的节点信息

实现将多个有序的关系对聚合层多个类，实质为由多个有向边的关系对得到图的个数。示例：如现有如下有向关系对：(A,B),(B,C),(D,C),(E,F),(G,F),(H,E),(I-G),(J-B)其中，（A,B）表示A属于B，即为有向关系对。通过关系合并，则最终可以得到的两个图(类)。图1的节点有（A,B,C,D,J）、图2的节点有（E,F,G,I）。代码实现：def _find_parent(parent, u): idx = [] # parent is

2020-10-24 15:20:59 534

原创图像、文本、机器学习顶会

1.CVPR国际计算机视觉与模式识别会议（CVPR）是IEEE一年一度的学术性会议，会议的主要内容是计算机视觉与模式识别技术。CVPR是世界顶级的计算机视觉会议（三大顶会之一，另外两个是ICCV和ECCV），近年来每年有约1500名参加者，收录的论文数量一般300篇左右。本会议每年都会有固定的研讨主题，而每一年都会有公司赞助该会议并获得在会场展示的机会。2.ECCVECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ，两年一次.

2020-10-24 15:02:30 835

转载 LightGBM操作指南

转自：https://mp.weixin.qq.com/s/9gEfkiZyZkoIgwRCYISQgQLightGBM是基于XGBoost的一款可以快速并行的树模型框架，内部集成了多种集成学习思路，在代码实现上对XGBoost的节点划分进行了改进，内存占用更低训练速度更快。LightGBM官网：https://lightgbm.readthedocs.io/en/latest/参数介绍：https://lightgbm.readthedocs.io/en/latest/Parameters.h

2020-10-20 10:15:57 1140

转载深度学习调参 tricks 总结

寻找合适的学习率学习率是一个非常非常重要的超参数，这个参数呢，面对不同规模、不同batch-size、不同优化方式、不同数据集，其最合适的值都是不确定的，我们无法光凭经验来准确地确定lr的值，我们唯一可以做的，就是在训练中不断寻找最合适当前状态的学习率。比如下图利用fastai中的lr_find()函数寻找合适的学习率，根据下方的学习率-损失曲线得到此时合适的学习率为1e-2。推荐一篇fastai首席设计师「Sylvain Gugger」的一篇博客：How Do You Find A Good

2020-10-20 09:44:23 363

原创实体识别实战一些tricks

1、基线方法：领域字典+规则模板：优先考虑此方案是否达到预期效果，减少监督训练标注成本 BiLstm+crf：推断效率相对较高 Bert(家族)+crf：精度可能较高，但速度更慢，一般crf层学习率设置为Bert的5~10倍，加速crf层的学习(因为一般Bert微调时达到收敛轮次较少)2、样本少问题(是用绝大多数文本任务)： 1、无条件文本增强：词汇短语替换：词典、词向量、Masked LM、TF-IDF 随机噪声注入:随机插入、交换、删除...

2020-10-14 13:55:19 1371

转载两年来预训练模型的技术进展(2018-2020)

转自：https://zhuanlan.zhihu.com/p/254821426Bert模型自18年10月推出，到目前为止快两年了。它卜一问世即引起轰动，之后，各种改进版本的预训练模型（Pre-Training Model, PTM）与应用如过江之鲫，层出不穷。Bert及它的继任者们，确实也不负众望，在NLP各个领域攻城略地，所向披靡，多种NLP数据集竞赛榜单，连续多年被各种新出现的预训练模型霸榜，有些榜单，个别模型已经把指标刷到超过人类。那么，在近两年的时间里，诸多改进模型中，有哪些令人印象深刻

2020-09-29 14:43:08 1123

原创 Python速查表(神经网络、机器学习、可视化等）

看见几个不错的速查表，分享出来：Python基础速查Numpy速查Pandas速查Scipy速查Matplotlib速查Sickit-learn速查Spark速查Keras速查TensorFlow速查数据结构线性代数

2020-09-16 09:27:21 255

原创深度学习Docker镜像大全

先上链接：github:https://github.com/ufoym/deepodockerhub:https://hub.docker.com/r/ufoym/deepo可以说是非常全面了，各种框架的都有，这里主要列了包含cuda10.1与cuda10的，其他cuda版本的可以去该dockerhub中去找，或者按照github上其他版本的Dockerfile稍微修改自己构建即可。一些常用的可用镜像列表：. CUDA 10.1 / Python 3.6 CPU-only /.

2020-07-25 15:27:48 1467

转载常用Matplotlib图的Python代码

分享给大家25个Matplotlib图的汇总，在数据分析和可视化中非常有用，文章较长，可以马起来慢慢练手。#!pipinstallbrewer2mplimportnumpyasnpimportpandasaspdimportmatplotlibasmplimportmatplotlib.pyplotaspltimportseabornassnsimportwarnings;warnings.filterwarnings(action='once')...

2020-05-29 17:17:46 308

转载 Embedding入门必读的十篇论文

第一部分 Word2vec基础1.[Word2Vec] Efficient Estimation of Word Representations in Vector Space (Google 2013)Google的Tomas Mikolov提出word2vec的两篇文章之一，这篇文章更具有综述性质，列举了NNLM、RNNLM等诸多词向量模型，但最重要的还是提出了CBOW和Skip-gram两种word2vec的模型结构。虽然词向量的研究早已有之，但不得不说还是Google的word2vec的提.

2020-05-29 17:04:47 728

原创 NLP论文多个领域经典、顶会、必读整理分享及相关解读博客分享

持续更新收集***1、Bert系列BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - NAACL 2019) ERNIE 2.0: A Continual Pre-training Framework for Language Understanding - arXiv 2019) StructBERT: Incorporating Language Structures into

2020-05-29 15:13:14 2835 1

转载 ACL2020信息抽取相关论文汇总

一、 Entity 相关（NER & Entity Typing & Entity Linking）主要涉及词汇增强、低资源、跨领域、跨语言、多模态、表示学习。 A Unified MRC Framework for Named Entity RecognitionXiaoya Li, Jingrong Feng, Yuxian Meng, Qinghong Han, Fei Wu and Jiwei Li https://arxiv.org/pdf/1910.11476.p.

2020-05-29 14:14:46 2272 1

转载知识蒸馏在推荐系统的应用

随着深度学习的快速发展，优秀的模型层出不穷，比如图像领域的ResNet、自然语言处理领域的Bert，这些革命性的新技术使得应用效果快速提升。但是，好的模型性能并非无代价的，你会发现，深度学习模型正在变得越来越复杂，网络深度越来越深，模型参数量也在变得越来越多。而这会带来一个现实应用的问题：将这种复杂模型推上线，模型响应速度太慢，当流量大的时候撑不住。知识蒸馏就是目前一种比较流行的解决此类问题的技术方向。一般知识蒸馏采取Teacher-Student模式：将复杂模型作为Teacher，Student模型结

2020-05-29 13:56:47 291

空空如也

空空如也