谁怕平生太急-CSDN博客

原创 NLP模型评价

原文：https://homes.cs.washington.edu/~marcotcr/acl20_checklist.pdf译文：https://blog.csdn.net/qq_37236745/article/details/107251063评论：https://zhuanlan.zhihu.com/p/159035275评论：https://zhuanlan.zhihu.com/p/158500675Github：https://github.com/marcotcr/CheckList

2021-05-07 16:52:41 657

原创 NLP基本任务

NLP基本任务智能问答多跳问答(1) https://www.cnblogs.com/conghuang/p/11827142.htmlgithub：https://github.com/THUDM/CogQA论文：https://zhuanlan.zhihu.com/p/72981392Q：谁是某部在2003年取景于洛杉矶quality cafe的电影的导演？系统一：在文中抽取与问题相关的实体名称并扩展节点和汇总语义向量快速将注意力定位到相关实体 BERT系统二：利用图神经网络在认知图

2021-05-07 16:50:29 397

原创 Kmeans和DBSCAN

Kmeans1.类别是人为给定的如何确定最佳的类别数目，可以通过基于簇内误差平方和，使用肘方法确定簇的最佳数量，肘方法的基本理念就是找出聚类偏差骤增是的k值，通过画出不同k值对应的聚类偏差图。DBSCAN基于密度聚类。密度：样本的紧密程度。使用半径和最小样本量进行评估，如果在指定的半径领域内，实际样本量超过给定的最小期望样本量。K-means和DBSCAN对比：优点：DBSCAN不需要事先要形成的簇类的数量；DBSCAN可以发现任意形状的簇类；DBSCAN能够识别出噪声点；DBSC

2021-03-05 15:08:30 1267

原创 Vue的学习笔记

1 Vue是什么？一套用于构建用户界面的渐进式JS框架，Vue被设计为自底向上逐层应用，核心库只关注视图层，方便与第三方库或既有项目整合。JS：具有函数优先的轻量级，解释型或即时编译型的编程语言。web项目的三层结构：视图层、业务逻辑层、持久层视图层：网页的界面，可以用html，jsp，swing来实现业务逻辑层：业务层用来实现整体的业务逻辑，如前台获得了数据，逻辑层去解析，数据校验等操作持久层：持久层用来固化数据，如常用的DAO层，操作数据库将数据入库1.1 需要了解的知识HTMLCSS

2021-02-23 11:06:08 294

原创产业AI公司的简单调研

公司名业务范围代表产品员工人数融资情况/创立时间地点ACTICO金融、信贷ACTICO平台51-200人-芝加哥，新加坡，德国Beyond Limits能源、医疗保健、金融物流解决方案51-200人B轮 2千万美元（2017.6）加州Blackswan Technologies顾客洞察，金融欺诈ELEMENT（企业AI操作系统）51-200人2016年加州Cognite旅游业、教育和法律市场解决方案11-50人-伦敦...

2021-02-23 11:04:33 284

原创百度UNIT和Rasa相关的一些资料

最新综述：对话系统之用户模拟器Rasa任务导向型对话系统——对话管理模型研究最新进展UNIT对话系统的名词解释Query：用户的话Intent：用户意图Slot：说话内容包含的关键信息机器人：在完整对话环境下的对话理解与交互能力技能：在特定对话环境下的对话理解与交互能力，比如天气技能，火车票技能意图：对话中用户想要表达的目的，比如火车票中的订票词槽：影响理解，且会影响结果的关键信息，比如订票中的出发地特征词：影响理解，但不影响结果的关键信息，比如我问问请一天假的流程中的“问问”词典：

2021-02-23 10:34:34 277

原创几个适用NLP的python包

1 jieba分词2 pyltp段落分句，3 transformers分词抽取文本中token的嵌入表示，隐藏特征，平均得到句向量等4 re邮箱抽取，规则5 collections词频统计，文本纠错6 sklearnmetrics.pairwise.cosine_similarity ：文本的余弦相似度，feature_extraction.text.CountVectorizer：向量化表示feature_extraction.text.TfidfVectorizer : T

2021-01-25 17:22:22 405

原创几种预训练模型：bert-wwm,RoBERTa,RoBERTa-wwm

bert-large：24层，330M参数bert-base：12层，110M参数1.bert-wwmwwm即whole word masking（对全词进行mask），谷歌2019年5月31日发布，对bert的升级，主要更改了原预训练阶段的训练样本生成策略。改进：用mask标签替换一个完整的词而不是字。2.bert-wwm-extbert-wwm的升级版，改进：增加了训练数据集同时也增加了训练步数。3.RoBERTa相对于Bert的改进：更多的数据、更多的训练步数、更大的批次(8000)，用

2020-12-23 14:21:04 8149 2

原创 EM算法-理解

最大似然估计与EM算法如何感性地理解EM算法思想精髓：先随机初始化一个P1和P2，用它来估计z，然后基于z，还是按照最大似然概率法则去估计新的P1和P2，如果新的P1和P2和我们初始化的P1和P2一样，请问这说明了什么？（此处思考1分钟）这说明我们初始化的P1和P2是一个相当靠谱的估计！换句话说：我们初始化的P1和P2，按照最大似然概率就可以估计出z，然后基于z，按照最大似然概率可以反过来估计出P1和P2，当与我们初始化的P1和P2一样时，说明是P1和P2很有可能就是真实的值。这里面包含了两个交互

2020-12-23 14:17:18 109

原创模型评估之评估指标的局限性

门捷列夫说过：没有测量，就没有科学。模型评估分为离线评估和在线评估两个阶段。针对不同问题（分类、排序、回归、序列预测、NLP任务、CV任务等等），评估指标选择不同。评估指标的灵魂是选择和根据反馈的模型调整。问1：准确率的局限性。当不同类别的样本比例非常不均衡时，占比大的类别往往成为影响准确率的最主要因素。解决思路之一：每个类别下的样本准确率的算术平均作为模型评估的指标。问2：精确率与召回率的权衡。精确率：指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。召回率：指分类正确的正样本个数占

2020-12-23 13:56:24 724

原创那些显而易见被写出来的bug

对字符串做替换操作，导致原始的索引不能用bert原生的tokenizer改变了数字的位数，比如’1551033’—tokenizer—>‘155’,’##10’,’##33’

2020-12-10 10:35:07 103

原创特征工程的QA

来源《百面机器学习》第1章特征工程简单的说，数据和特征决定了结果的上限，模型、算法的选择及优化则是在逐步接近这个上限。（除了少数推理任务，大部分模型基于独立同分布假设）从本质上说，特征工程是一个表示和展现数据的过程。在实际工作中，特征工程旨在去除原始数据中的杂质和冗余，设计更高效的特征以刻画求解的问题与预测模型之间的关系。比如用tfidf作为文本分类的一个特征。特征归一化问1：为什么需要对数值类型的特征做归一化？特征归一化常用的方法有两种：1.线性函数归一化：对原始数据进行线性变换，映射

2020-12-08 14:37:44 145

原创 pytorch的一条条

1.model.train()和model.eval()pytorch中的model.train（）和model.eval（）model.train() #使用BatchNormalization()和Dropout()，此举会修改网络中的参数model.eval() #不使用BatchNormalization()和Dropout()，即用于验证和测试阶段网络的固化2.torch.nn.BCELoss()和torch.nn.CrossEntropyLoss()Pytorch详解BCELoss和

2020-12-07 19:33:23 131

原创人工智能的热门应用

来源《百面机器学习》第14章计算广告1. 最赚钱的部门2. 计算广告学：信息科学、统计学、计算机科学、微观经济学等交叉融合，实现语境、广告和受众三者的最佳匹配3. 主要产品：合约广告、竞价广告、程序化交易广告等类型3.1 合约广告：客户多为品牌类广告主，结算方式多为CPM（cost per mille）千次曝光成本，每完成一千次曝光流量平台向广告主收取固定的成本。3.2 竞价广告：最重要的形式是搜索广告。标的物是关键词。3.3 程序化交易广告：让广告主更加灵活地选择自己的受众群体和曝光时机。

2020-12-07 14:35:51 171

原创 RNN问题集

来源《百面机器学习》第10章RNN建模序列化数据的一种主流DL模型。传统前馈NN一般的输入都是一个定长的向量，无法处理变长的序列信息，即使通过一些方法把序列处理成定长的向量，模型也很难捕捉序列中的长距离依赖关系。RNN通过串行，累积了序列前面的信息并不断传递，最后浓缩成抽象的表示。RNN和CNN问：处理文本数据时，RNN与前馈NN相比有什么特点？以TF-IDF向量作为特征输入，丢失了输入文本序列中每个单词的顺序。CNN能够捕捉到原文本中的一些局部特征，但是两个单词之间的长距离依赖关系很难被

2020-12-07 14:30:16 776

原创 Milvus的学习

milvus基本介绍和推荐资料一款开源的、针对海量特征向量的相似性搜索引擎。支持各种常用的相似度计算指标，包括欧氏距离、内积、汉明距离和杰卡德距离等。基于高度优化的approximate nearest neighbor search(ANNS)索引库构建，包括faiss,annoy和hnswlib等。使用手册：https://www.milvus.io/cn/docs/v0.10.3/overview.md不得不说，使用手册写的是真全面！存储相关建立集合时，Milvus根据参数 se

2020-11-26 16:58:03 1319

原创前向神经网络问题集

来源《百面机器学习》第9章1 多层感知机与布尔函数问：多层感知机表示异或逻辑时最少需要几个隐含层（仅考虑二元输入）？答：1个隐层2个节点，加上全连接层的一个节点。注意：而且不带隐藏层的感知机无法精确学习出一个输出为异或的模型表示，因为sigmoid函数是单调的。2 深度神经网络中的激活函数问1：写出常用激活函数及其导数。答：sigmiod函数-值域为(0,1),输入为0时输出为0.5，其导数=f(z)(1-f(z))。tanh函数-值域为(-1,1)，输入为0时输出为0，其导数=1-(f

2020-11-25 20:11:39 591 1

原创 AliCoCo的粗浅理解（一）

近来阅读了一篇阿里电商知识图谱核心技术揭秘，深感大厂的技术先进性，阅读后有如下粗浅总结。阿里电商知识图谱AliCoCo首先，AliCoCo提出了自己的本体体系，或者说构建思路。分为四层：电商概念层，原子概念层，分类体系，和商品层。由下到上的解释是：商品层就是包罗万千的商品。分类体系就是指对这些商品和非商品的多级树形结构的分类，其中一级分类有20个，包括我们经常接触到的 “时间”，“地点”，“动作”，“IP”，也有很少接触到的“品类”，“图案”，“功能”，“口味”等。你或许会疑问，为啥一级分类既有商

2020-10-14 11:33:53 1033

原创序列求和的6种实现方式

my_list = [[1,2,3], [40,50,60], [9,8,7]]## 1.import functoolsfunctools.reduce(lambda a,b:a+b, [sub[1] for sub in my_list])## 2.functools.reduce(lambda a,b:a+b[1], my_list, 0)## 3.import numpy as npmy_array = np.array(my_list)np.sum(my_array[:,1

2020-09-07 15:48:51 686

原创汽车参数理解和QA

参数理解以奥迪Q5L,宝马X3（中型SUV）和特斯拉Model 3为实例描述。从几大块汽车参数配置来讲：车身、发动机、变速箱、底盘、车轮、安全、舒适性、辅助配置。口碑的评价维度：油耗、空间、动力、操控、油耗、舒适性、外观、内饰、性价比、购车目的。首先是车身。几大方面主要参数简单说明奥迪Q5L宝马x3特斯拉model 3车身长宽高4.7m * 1.89m * 1.659m4.7m * 1.89m * 1.68m4.69m * 1.85m * 1.44m

2020-07-16 14:19:05 443

原创 excel文件转json

import xlrdfrom collections import OrderedDictimport jsonimport codecsconvert_list = []sh = wd.sheet_by_index(0)title = sh.row_values(0)num = 1for rownum in range(1, sh.nrows): rowvalue = sh.row_values(rownum) single = OrderedDict()

2020-05-22 11:34:26 271

原创斯坦福NLP库python版：Stanza

项目地址官方教程能够使用的中文模型相关新闻

2020-03-30 16:15:45 1143

原创 huggingface/transformers之Usage

这个板块给出一些已经微调完全的模型示例，主要有两种方式：pipelines和tokenizer。如果你要针对性的进行微调，可以参考示例中的run_$TASK.py首先是 pipelines 方式。以文本分类为例，代码如下import timefrom transformers import pipelinenlp = pipeline("sentiment-analysis")s...

2020-03-30 12:02:12 1235

原创 pytorch bert 快速开始

huggingface-transformers快速开始import torch from transformers import BertTokenizer,BertForMaskedLMtokenizer = BertTokenizer.from_pretrained('bert-base-uncased')text = "[CLS] Who was Jack Ma ? [SEP] J...

2020-03-25 16:39:31 391

原创事件抽取与金融事件图谱构建陈玉博 2018. 分享记录

学习视频来源####其他学习笔记介绍信息抽取技术：实体抽取、消歧、关系抽取、事件抽取事件抽取：现有kg主要以实体为核心，缺少事件知识事件和事物是n对n关系，人们以事件为单位来认知世界事件抽取与事件图谱的意义：丰富现有的知识图谱，支撑其他信息获取引擎语义搜索、事件监控、检测相关事件（孟晚舟、华为5G、外交部发言相关）、预警风险事件（关联交易、黑铁事件）、梳理历史事件（事件长链条）代表...

2020-03-17 11:12:26 1701

原创事件抽取---2020.3 收集

Exploring pre-trained language models for event extraction and generationACL2019解决在事件抽取任务训练数据的不足。论文阅读笔记Document-level Framework for Chinese Financial Event ExtractEMNLP2019 金融领域文档级别事件抽取将文档级别的事件表...

2020-03-16 15:42:36 802

原创搜索技术相关的技术框架（部分）

1 特定站点搜索和通用搜索的对比搜索用户天生的“懒惰”、表达含糊以及对搜索结果智能的期待从未改变过。用户对于全网通用搜索和站内搜索的期望差别仅在于搜索范围从全网变为特定站点。而由于用户对他所喜爱的站点的了解、熟悉程度远远超出其对全网的了解，所以用户对搜索服务所存在的各种问题更为敏感，从而有更高的要求。1.1 搜索引擎和全文检索的区别搜索引擎的门槛主要是技术门槛，包括网页数据的快速采集、海...

2020-03-12 17:20:39 868

原创条件关系和因果关系，原因和理由的区别

条件关系和因果关系的对比：条件关系：分句之间的关系是条件和结果的关系。偏句提出一种真实或假设的条件，正句说明在这种条件下所产生的结果。因果关系：正句和偏句之间是原因和结果的关系的句子。偏句说明原因，正句说明结果。一般是偏句在前，正句在后。因果复句分为说明因果句和推论因果句两类。条件关系属于思想中命题的某种逻辑关系，因果关系属于对客观事实的某种认识。条件关系是关于命题的，而因果关系是关于事实...

2020-03-05 01:02:05 9662

原创推荐系统和搜索引擎的比较

比较推荐系统搜索引擎获取信息的方式不同被动；模糊主动；明确个性化程度高低服务特性持续服务（“好”的推荐系统往往让用户停留更多的时间，带来的增量点击，推荐成功数，成交转化提升量等）快速满足*（“好”的搜索算法是需要让用户获取信息的效率更高、停留时间更短。）*特点（用户存在大量的需求是比较难用精炼的文字组织的：一方面用户不愿意，另一方面搜索对语义...

2020-03-04 11:49:58 1672

原创 pymongo的一些操作记录

记录菜鸟教程中不包含的部分操作：获得collection中documents总数mycol.count_documents({})用python操作MongoDB查询collection中最新的一个documentmycol.find_one(sort=[(’_id’, -1)])pymongo的比较排序查询性能比较，sort参数和sort函数， find和find_one...

2020-03-02 11:18:49 212

原创查询关键字理解的难度

简单说明查询关键字，即通过搜索引擎，填入到搜索框中的内容，不限于百度，微信搜一搜，美团，微博等站内搜索。也可以称之为query。用户意图识别方面：爱情公寓资源 – 重点是资源医生表情包 – 重点是表情包怎么恢复聊天记录 – 和健康无关华侨城集团招聘 – 和旅游无关烧烤店爆炸 – 重点是爆炸面朝大海、春暖花开 – 和旅游无关“宝宝”的query 大概率被分成母婴类q...

2020-03-01 13:26:59 175

原创倒排索引

由来正向索引：文档–>单词如果使用正向索引，当用户搜索关键词 A 时，需要扫描索引库中的所有文档，找出所有包含 A 的文档，然后根据打分模型进行打分，排出名次后呈现给用户。这样做，无法满足实时返回结果给用户的需求。倒排索引： “关键词” --> 带有此关键词的文档ID列表详细实现 “单词–文档矩阵”的一种具体存储形式。示例参数解释：单词ID：...

2020-02-27 15:52:48 139

原创搜索系统评测的指标

“二元相关”原理从根本上不支持排序的评测。基于多程度相关原理的评测折扣化的累积获得，简称DCG（discounted cumulative gain）。1）首先，一个排序的整体相关度，是这个排序的各个位置的相关度的某种加权2）其次，每个位置上面的“获得”是和这个文档原本定义的相关度相关的，但是，根据不同的位置，要打不同的“折扣”即位置越低，折扣越大。原始的DCG定义：“折扣”是文档的相...

2020-02-27 11:06:50 424

原创查询关键字的分类、解析、扩展

搜索的第一步：对query的理解

2020-02-26 16:44:57 581

原创简单判断两个字符串的相似程度

可直接使用difflib.SequenceMatcherdef ratio(self): """Return a measure of the sequences' similarity (float in [0,1]). Where T is the total number of elements in both sequences, and ...

2020-02-25 15:17:33 2168

原创代码质量管理

2020-02-18 18:31:18 376

原创 SemEval初识（一）

SemEval2020 日程安排SemEval2020 TaskSemEval2020-Task4-常识-验证和解释SemEval2020-Task5-基线SemEval2020-Task6-deft_corpus

2020-02-17 15:48:49 1120

原创了解搜索引擎爬虫（一）

搜索引擎爬虫magi.com 的网页抓取工具

2020-02-17 11:23:08 273

原创 git和docker部分命令

Gitgit config --global user.name " "git config --global user.email " "git remote add origin git@ :git statusgit add README.mdgit commit -m “修改readme.md”git push -u origin masterDockerdocker b...

2020-02-07 18:54:24 191

原创 AI2的mosaic和Aristo项目简介

Mosaic项目common sense for AIthe mosaic team seeks to define,develop,and improve common sense for ai-an important, fundamental skill required to go beyond the narrow and brittle ai applications we hav...

2020-01-21 14:24:31 673

空空如也

空空如也