自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 推荐系统(业务侧)小结

本文分别从一个业务人员、一个技术人员、一个普通用户的角度来聊聊推荐系统/场景,本文分为三部分来阐述一、业务人员如果看待推荐场景?如果更好地使用推荐来反哺业务?二、推荐系统的基本框架是什么?技术人员在构建推荐系统的过程中,常用的推荐算法有哪些?...

2022-07-29 10:30:25 366

原创 ANTLR实践

“除草帖。翻到了几年前做的一个语言解析的小项目,感觉笔记躺在自己笔记本里挺浪费,放在博客上或许还能体现点价值”。

2022-04-20 13:05:27 523

原创 策略产品函数方法论——评估

在机器学习常用性能指标及sklearn中的模型评估一文中已对相对宏观的模型评价指标进行了描述,并给出了在sklearn中具体的实现方法,主要包括准确率、精确率、召回率,ROC曲线,那在策略产品工作中,如何进行业务函数的评估?1. 评估前的样本切分...

2021-03-22 21:46:05 282

原创 策略产品函数方法论——特征

题记:本文是结合个人学习工作经历对《策略产品经理——模型与方法论》一书的消化笔记,仅做记录,无其他用途,侵删。在应用机器学习算法模型解决业务问题的场景下,相较于算法工程师关注的特征处理及特征工程,策略产品工作更侧重于对有效特征的选择,以下正文内容分为两个主要部分:一是特征选择的原则,二是特征选择的方法。1. 特征选择的原则1.1 注意特征的时效性,不使用未来信息作为模型预测的特征举个栗子,对于内容风控问题,用户对于内容的投诉动作能否作为输入特征?当然不能,原因有二:一,这类特征是在业务当前场

2021-03-14 19:53:13 323

原创 人物关系抽取——基于特征工程

本文代码,不得转载。# -*- coding: utf-8 -*-# Author: lx# extract features from the textimport pandas as pdimport numpy as npfrom text1 import CountVectorizerfrom sklearn.feature_extraction.text import...

2019-07-15 10:41:36 743

原创 爬虫概念及框架梳理

爬虫概念及框架梳理

2019-04-30 18:32:18 246

原创 使用NLTK+StanfordNLP进行文本特征提取

文章为自己的实践记录及总结,多有疏忽,恐有错误......文本特征提取是基于特征向量的自然语言处理方法的基本技术,常用的提取自文本的特征主要包括词汇特征、位置特征、句法特征、语义特征。其中,词汇特征包括词性、上下文词汇、命名实体等;位置特征如命名实体之间的间隔距离;句法特征提取主要包括句法分析及依存句法分析。常用的特征获取工具有StanfordNLP和LTP(哈工大社会计算与信息检索研究中心研...

2019-01-10 22:42:52 2516

原创 用sklearn进行特征提取及数值转换

对自己目前常用的几种特征提取方法做个简要总结。1,将文本数据转化为特征向量(其中CountVectorizer只考虑词汇在文本中出现的频率)from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfTransformerwor...

2019-01-10 22:40:27 2390

原创 Neo4j(二):节点和关系文件导入

首先,在Neo4j中打开Database所在的目录文件夹,在目录下的import文件夹下存放需要载入的csv文件(因为Neo4j默认是从打开地址目录下的import中读出,所以需要在此目录下创建csv文件,否则在Neo4j中执行载入命令会出现找不到文件的情况。)csv节点文件的载入下面是结点文件中的内容,主要字段包括id,name,position在Neo4j的命令行输入并执行以下...

2018-11-26 19:47:03 9146 3

原创 TensorFlow学习(三):CNN-Relation-Extraction

cnn_relation_extraction部分记录import tensorflow as tfimport numpy as npimport osimport datetimeimport timefrom cnn_relation_extraction_master.text_cnn import TextCNNfrom cnn_relation_extraction_...

2018-11-18 18:07:59 842

原创 sklearn: OneVsRestClassifier实现多分类 + Grid_Search获取模型的最佳参数

一,sklearn分类器单一分类器 & 集成分类器 https://www.cnblogs.com/hhh5460/p/5132203.html使用sklearn https://www.jianshu.com/p/516f009c0875sklearn通过OneVsRestClassifier实现svm.SVC的多分类 https://blog.csdn.net/xiaodo...

2018-09-26 11:27:18 12868

转载 损失函数 loss function 总结(转)

目标函数,或称损失函数,是网络中的性能函数,也是编译一个模型必须的两个参数之一。由于损失函数种类众多,下面以keras官网手册的为例。在官方keras.io里面,有如下资料: mean_squared_error或mse mean_absolute_error或mae mean_absolute_percentage_error或mape mean_squa...

2018-09-26 11:06:14 4223 1

转载 机器学习常用性能指标及sklearn中的模型评估

一,机器学习常用性能指标总结(转载并稍作修改和补充)在机器学习中,性能指标(Metrics)是衡量一个模型好坏的关键,通过衡量模型输出y_predict 和 y_true之间的某种"距离"得出的。性能指标往往是我们做模型时的最终目标,如准确率,召回率,敏感度等等,但是性能指标常常因为不可微分,无法作为优化的loss函数,因此采用如cross-entropy, rmse等“距离”可微函数...

2018-09-17 12:08:00 17469 3

转载 【转载】RSS原理、创建及使用

最近需要接触RSS Feed,知其然还要知其所以然。https://www.xul.fr/en-xml-rss.html#spec本文转自RSS原理、创建及使用——Denis Sureau很郁闷的是Google Reader倒了才开始使用RSS阅读,InoReader是一个不错的替代。对于RSS的原理想要有个了解,但是网上的资料说得不是很清晰。有一篇CSDN的RSS原理和实现博文也不错...

2018-08-06 17:20:52 2425

原创 分类前之数据预处理

之前在情感分析方法之nltk情感分析器和SVM分类器(二)一文中的第二部分,仅仅记录了最后一步分类器的处理,现在想要把前四步也记录下来。1. 原始语料的规整# -*- coding: utf-8 -*-# 获取正负向语料库与停用词词典# 将原始数据规整到一个txt文件中import os# 文件夹及结果文件的存储路径path = r"D:/file_download/Bai...

2018-08-05 20:13:09 2192 1

原创 知识图谱之知识表示

先上两个狠全面的综述或者叫总结:《知识表示学习研究进展》 基于翻译模型(Trans系列)的知识表示学习然后是清华大学开源OpenKE:知识表示学习平台“表示学习旨在将研究对象的语义信息表示为稠密低维实值向量,知识表示学习主要是面向知识图谱中的实体和关系进行表示学习。使用建模方法将实体和向量表示在低维稠密向量空间中,然后进行计算和推理。”知识表示的几个代表模型:距离模型、单层神经网络...

2018-08-05 19:54:14 12144

原创 知识图谱入门2

对知识图谱的知识体系做一下简单的概括,很粗略,就当大纲用好了。补充知识图谱的概述性文章:知识图谱研究进展 知识图谱中的关系推理 其他博客 语义网络,语义网,链接数据和知识图谱...

2018-08-03 20:37:07 667

转载 知识图谱入门

本文转自刘知远新浪博客2.1  什么是知识图谱在互联网时代,搜索引擎是人们在线获取信息和知识的重要工具。当用户输入一个查询词,搜索引擎会返回它认为与这个关键词最相关的网页。从诞生之日起,搜索引擎就是这样的模式。直到2012年5月,搜索引擎巨头谷歌在它的搜索页面中首次引入“知识图谱”:用户除了得到搜索网页链接外,还将看到与查询词有关的更加智能化的答案。如图2.1所示,当用户输入“Marie Curi...

2018-06-27 17:34:50 3658 1

原创 Tensorflow学习(二):文本分类

点击打开链接一点击打开链接二TensorFlow如何工作?什么是机器学习模型,什么是神经网络?,神经网络如何学习,如何处理数据并将其传递给神经网络输入,如何运行模型并获得预测结果?用神经网络和TensorFlow进行文本分类# -*- coding:utf-8 -*-# 用神经网络和TensorFlow分类文本import numpy as npimport tensorflow as t...

2018-05-10 16:44:08 629

原创 Tensorflow学习(一)

一,了解Tensorflow安装:支持python2和3,直接pip install tensorflow即可(win10)http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/word2vec.html中文文档:http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030...

2018-05-10 16:26:13 239

转载 关系抽取(分类)总结【转载】

366 次阅读关系抽取(分类)总结文章目录基本介绍Fully Supervised Learning相关文献总结1Distant Supervised Learning相关文献总结2附2018.04.04更新:z增加对NYT+Freebase数据集的两个版本的说明对近几年(到2017)一些关系抽取/分类(Relation Extraction)的部分文献的一个简单总结。基本介绍基本定义关系抽取: ...

2018-05-10 14:00:38 34737 6

原创 数据呈现之“王者荣耀”

2018-05-06 21:02:38 339

原创 配色+图片+设计网址收藏

在这里记录常用设计相关网址:图标下载,ICON(PNG/ICO/ICNS)图标搜索下载 | EASYICON.NET Lato Font Free by tyPoland Lukasz Dziedzic | Font Squirrel PowerPoint | Download Categories | PPTMind 全景网_中国最大的图片库和图片素材网站 Free Stock Photos, ...

2018-05-04 15:12:23 299

原创 Neo4j(一)

Neo4j是世界排名第一的图数据库,在社交、零售、金融、征信、IT管理等各个领域有着广泛的应用前景。领英用Neo4j实现了社交关系管理及朋友推荐,沃尔玛用Neo4j实现了零售商品实施推荐。介绍来自这里,对其中内容稍作修改和补充:Neo4j安装官网可直接下载https://neo4j.com/download/安装结束后先登录,创建Database,然后在浏览器中访问http://localhost...

2018-04-25 18:28:03 547

原创 情感分析方法之基于深度学习(四)

人间四月芳菲尽,方飞尽@_@为了更完整地认识情感分析方法,接上篇“情感分析系列”,本篇主要分两个部分:一、斯坦福大学自然语言处理第七课“情感分析”点击打开链接二、最新情感分析相关论文:深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合点击打开链接------------------------------------------------------------------...

2018-04-25 13:10:38 9796 1

原创 页面记录

自己手写的界面和利用框架的界面比较:框架高效,风格统一,样式单一手写费时但灵活所以说前端最大的工程不在于此,附点击打开链接另,Echarts最近更的3D图值得一试~...

2018-04-24 15:36:54 182

原创 数据呈现之“文化产品比较”

2018-04-20 12:15:16 206

原创 常用文本相似度计算方法

在此记录两种常见的文本相似度计算方式:基于VSM论文和基于LDA论文;这两种方式的不同在于文本表示的不同,LDA与VSM相比,增加了概率的信息,更侧重对语义的挖掘。在进行文本建模之后,计算相似度的常用距离有:余弦距离,欧式距离,曼哈顿距离,切比雪夫距离,simhash+汉明距离...详见...

2018-04-08 22:01:38 2617

原创 关系抽取小论文小结

传统的关系抽取主要为pipeline model.深度学习方法在pipeline model 基础上,joint models 成为可能。

2018-04-02 15:42:21 1520

原创 补充关键词抽取:RAKE,LDA等

之前的《关键词抽取——结巴分词》一文仅仅利用了jiaba中的tfidf 与 textrank 进行关键词抽取,最近对以英文为主的新闻评论进行关键词提取时,这两种方法各有各的差:tfidf因为算法的限制,提取到的关键词不是很让人满意;jieba里面的textrank输出的是只针对中文语料的结果,对纯英文输入返回空值,根据源码猜测原因,可能是在处理时加入分词,将英文过滤掉了?(有待考究)。因此重新对“...

2018-03-29 23:16:24 3577 1

原创 利用Python将文本中的中英文分离

在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。下面对中英文文本进行分离做一下总结:1、超短文本,ASCII识别。s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's pr...

2018-03-29 18:31:28 14098

转载 Python常见字符编码及其之间的转换

参考:Python常见字符编码 + Python常见字符编码间的转换一、Python常见字符编码字符编码的常用种类介绍第一种:ASCII码ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/...

2018-03-29 17:28:36 18925 1

原创 数据新闻进度安排

“仰之弥高,钻之弥坚”。第一周:写一段新闻故事的大意,简明扼要,不超过150字。解释为什么这个故事有新闻价值。(问自己以下问题:现在是否有什么正在发生的事件可以让报道有新闻由头?它是否揭示了人们不知道的东西?有没有一个议题的新角度还没被写过?读者为什么要关心这个故事?)做一下新闻检索,列出围绕该议题已经被写过的点,以及你将如何推进故事。收集资料,了解你需要什么数据,可能会在什么地方获得这些数据,以...

2018-03-23 22:05:18 218

原创 情感分析方法之snownlp和贝叶斯分类器(三)

《情感分析方法之nltk情感分析器和SVM分类器(二)》主要使用nltk处理英文语料,使用SVM分类器处理中文语料。实际的新闻评论中既包含英文,又包含中文和阿拉伯文。本次主要使用snownlp处理中文语料。一、snownlp使用from snownlp import SnowNLPview = ["谁把战争带给你们,你们就要把战争带到他们家", "这么牛叉?强", ...

2018-03-23 16:58:28 3068 1

原创 Python3操作数据库

参考:https://www.cnblogs.com/woider/p/5926744.htmlhttps://www.cnblogs.com/mooba/p/6484357.htmlhttp://www.runoob.com/python3/python3-mysql.htmlPyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqld...

2018-03-22 18:22:41 1529 3

转载 情感分析语料

因为项目要求,主要先收集英文的语料库来进行模型的训练。一、英文1.(可下载) 康奈尔大学(Cornell)提供的影评数据集 - http://www.cs.cornell.edu/people/pabo/movie-review-data/由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5,331 句,标注了主客观标签的句子各5,000 句.目前影评库被广泛应...

2018-03-22 17:36:27 3484 1

原创 中英文维基百科语料上的Word2Vec实验

这篇作为完整的词向量模型训练过程记录~~~一、数据获取wiki中文:wiki中文wiki英文:wiki英文中文文件大小约1.3G,英文文件大小约13.8G。二、将xml文件转换为text格式,使用gensim.corpora中的WikiCorpus函数来处理维基百科的数据,具体方法是get_texts().#!/usr/bin/env python# -*- coding: utf-8 -*-...

2018-03-21 17:50:46 3881 4

原创 情感分析方法之nltk情感分析器和SVM分类器(二)

一、使用NLTK Vader SentimentAnalyser分析NLTK附带了一个内置的情感分析器模块——nltk.sentiment.vader,参考1,参考2。它可以分析一段文字或句子下情绪的正面、负面和中性极性分类。其中,compound表示复杂程度,neu表示中性,neg表示负面情绪,pos表示正面情绪。import nltkfrom nltk.sentiment.vader imp...

2018-03-20 16:29:11 24247 3

转载 情感分析概述(一)

作者:国双商业市场链接:https://www.zhihu.com/question/31471793/answer/139282423来源:知乎著作权归作者所有,转载请联系作者获得授权。情感分析是学术领域研究多年的课题,用google学术搜索可以找到很多paper,基本的方法上有基于词典规则的方法、语言文法的方法,此外还有分类器以及近几年比较火的深度学习的方法(稍后有详细介绍)。 各类paper...

2018-03-20 16:27:45 9695

原创 Python 3 中文文档编码问题

在做中文文本情感分类预处理时,编码问题着实浪费我不少时间,总结如下:1.  文件是中文,内容是酒店评论,首先是打开文件和写入新文件。因为pickle存储默认为是二进制形式,在Python中为bytes类型,打开和写入方式需用二进制方式:# 读取文件内容def getContent(filename): with open(filename, 'rb') as f: # 打开该中文文...

2018-03-16 18:58:04 282

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除