涵星同学-CSDN博客

原创推荐系统（业务侧）小结

本文分别从一个业务人员、一个技术人员、一个普通用户的角度来聊聊推荐系统/场景，本文分为三部分来阐述一、业务人员如果看待推荐场景？如果更好地使用推荐来反哺业务？二、推荐系统的基本框架是什么？技术人员在构建推荐系统的过程中，常用的推荐算法有哪些？...

2022-07-29 10:30:25 366

原创 ANTLR实践

“除草帖。翻到了几年前做的一个语言解析的小项目，感觉笔记躺在自己笔记本里挺浪费，放在博客上或许还能体现点价值”。

2022-04-20 13:05:27 523

原创策略产品函数方法论——评估

在机器学习常用性能指标及sklearn中的模型评估一文中已对相对宏观的模型评价指标进行了描述，并给出了在sklearn中具体的实现方法，主要包括准确率、精确率、召回率，ROC曲线，那在策略产品工作中，如何进行业务函数的评估？1. 评估前的样本切分...

2021-03-22 21:46:05 282

题记：本文是结合个人学习工作经历对《策略产品经理——模型与方法论》一书的消化笔记，仅做记录，无其他用途，侵删。在应用机器学习算法模型解决业务问题的场景下，相较于算法工程师关注的特征处理及特征工程，策略产品工作更侧重于对有效特征的选择，以下正文内容分为两个主要部分：一是特征选择的原则，二是特征选择的方法。1. 特征选择的原则1.1 注意特征的时效性，不使用未来信息作为模型预测的特征举个栗子，对于内容风控问题，用户对于内容的投诉动作能否作为输入特征？当然不能，原因有二：一，这类特征是在业务当前场

2021-03-14 19:53:13 323

原创人物关系抽取——基于特征工程

本文代码，不得转载。# -*- coding: utf-8 -*-# Author: lx# extract features from the textimport pandas as pdimport numpy as npfrom text1 import CountVectorizerfrom sklearn.feature_extraction.text import...

2019-07-15 10:41:36 743

原创爬虫概念及框架梳理

爬虫概念及框架梳理

2019-04-30 18:32:18 246

原创使用NLTK+StanfordNLP进行文本特征提取

文章为自己的实践记录及总结，多有疏忽，恐有错误......文本特征提取是基于特征向量的自然语言处理方法的基本技术，常用的提取自文本的特征主要包括词汇特征、位置特征、句法特征、语义特征。其中，词汇特征包括词性、上下文词汇、命名实体等；位置特征如命名实体之间的间隔距离；句法特征提取主要包括句法分析及依存句法分析。常用的特征获取工具有StanfordNLP和LTP（哈工大社会计算与信息检索研究中心研...

2019-01-10 22:42:52 2516

原创用sklearn进行特征提取及数值转换

对自己目前常用的几种特征提取方法做个简要总结。1，将文本数据转化为特征向量（其中CountVectorizer只考虑词汇在文本中出现的频率）from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfTransformerwor...

2019-01-10 22:40:27 2390

原创 Neo4j（二）：节点和关系文件导入

首先，在Neo4j中打开Database所在的目录文件夹，在目录下的import文件夹下存放需要载入的csv文件（因为Neo4j默认是从打开地址目录下的import中读出，所以需要在此目录下创建csv文件，否则在Neo4j中执行载入命令会出现找不到文件的情况。）csv节点文件的载入下面是结点文件中的内容，主要字段包括id,name,position在Neo4j的命令行输入并执行以下...

2018-11-26 19:47:03 9146 3

原创 TensorFlow学习（三）：CNN-Relation-Extraction

cnn_relation_extraction部分记录import tensorflow as tfimport numpy as npimport osimport datetimeimport timefrom cnn_relation_extraction_master.text_cnn import TextCNNfrom cnn_relation_extraction_...

2018-11-18 18:07:59 842

原创 sklearn: OneVsRestClassifier实现多分类 + Grid_Search获取模型的最佳参数

一，sklearn分类器单一分类器 & 集成分类器 https://www.cnblogs.com/hhh5460/p/5132203.html使用sklearn https://www.jianshu.com/p/516f009c0875sklearn通过OneVsRestClassifier实现svm.SVC的多分类 https://blog.csdn.net/xiaodo...

2018-09-26 11:27:18 12868

转载损失函数 loss function 总结（转）

目标函数，或称损失函数，是网络中的性能函数，也是编译一个模型必须的两个参数之一。由于损失函数种类众多，下面以keras官网手册的为例。在官方keras.io里面，有如下资料： mean_squared_error或mse mean_absolute_error或mae mean_absolute_percentage_error或mape mean_squa...

2018-09-26 11:06:14 4223 1

转载机器学习常用性能指标及sklearn中的模型评估

一，机器学习常用性能指标总结（转载并稍作修改和补充）在机器学习中，性能指标(Metrics)是衡量一个模型好坏的关键，通过衡量模型输出y_predict 和 y_true之间的某种"距离"得出的。性能指标往往是我们做模型时的最终目标，如准确率，召回率，敏感度等等，但是性能指标常常因为不可微分，无法作为优化的loss函数，因此采用如cross-entropy, rmse等“距离”可微函数...

2018-09-17 12:08:00 17469 3

转载【转载】RSS原理、创建及使用

最近需要接触RSS Feed，知其然还要知其所以然。https://www.xul.fr/en-xml-rss.html#spec本文转自RSS原理、创建及使用——Denis Sureau很郁闷的是Google Reader倒了才开始使用RSS阅读，InoReader是一个不错的替代。对于RSS的原理想要有个了解，但是网上的资料说得不是很清晰。有一篇CSDN的RSS原理和实现博文也不错...

2018-08-06 17:20:52 2425

原创分类前之数据预处理

之前在情感分析方法之nltk情感分析器和SVM分类器（二）一文中的第二部分，仅仅记录了最后一步分类器的处理，现在想要把前四步也记录下来。1. 原始语料的规整# -*- coding: utf-8 -*-# 获取正负向语料库与停用词词典# 将原始数据规整到一个txt文件中import os# 文件夹及结果文件的存储路径path = r"D:/file_download/Bai...

2018-08-05 20:13:09 2192 1

原创知识图谱之知识表示

先上两个狠全面的综述或者叫总结：《知识表示学习研究进展》基于翻译模型（Trans系列）的知识表示学习然后是清华大学开源OpenKE：知识表示学习平台“表示学习旨在将研究对象的语义信息表示为稠密低维实值向量，知识表示学习主要是面向知识图谱中的实体和关系进行表示学习。使用建模方法将实体和向量表示在低维稠密向量空间中，然后进行计算和推理。”知识表示的几个代表模型：距离模型、单层神经网络...

2018-08-05 19:54:14 12144

原创知识图谱入门2

对知识图谱的知识体系做一下简单的概括，很粗略，就当大纲用好了。补充知识图谱的概述性文章：知识图谱研究进展知识图谱中的关系推理其他博客语义网络，语义网，链接数据和知识图谱...

2018-08-03 20:37:07 667

转载知识图谱入门

本文转自刘知远新浪博客2.1 什么是知识图谱在互联网时代，搜索引擎是人们在线获取信息和知识的重要工具。当用户输入一个查询词，搜索引擎会返回它认为与这个关键词最相关的网页。从诞生之日起，搜索引擎就是这样的模式。直到2012年5月，搜索引擎巨头谷歌在它的搜索页面中首次引入“知识图谱”：用户除了得到搜索网页链接外，还将看到与查询词有关的更加智能化的答案。如图2.1所示，当用户输入“Marie Curi...

2018-06-27 17:34:50 3658 1

原创 Tensorflow学习（二）：文本分类

点击打开链接一点击打开链接二TensorFlow如何工作？什么是机器学习模型，什么是神经网络？，神经网络如何学习，如何处理数据并将其传递给神经网络输入，如何运行模型并获得预测结果？用神经网络和TensorFlow进行文本分类# -*- coding:utf-8 -*-# 用神经网络和TensorFlow分类文本import numpy as npimport tensorflow as t...

2018-05-10 16:44:08 629

原创 Tensorflow学习（一）

一，了解Tensorflow安装：支持python2和3，直接pip install tensorflow即可（win10）http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/word2vec.html中文文档：http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030...

2018-05-10 16:26:13 239

转载关系抽取（分类）总结【转载】

366 次阅读关系抽取(分类)总结文章目录基本介绍Fully Supervised Learning相关文献总结1Distant Supervised Learning相关文献总结2附2018.04.04更新：z增加对NYT+Freebase数据集的两个版本的说明对近几年(到2017)一些关系抽取/分类(Relation Extraction)的部分文献的一个简单总结。基本介绍基本定义关系抽取: ...

2018-05-10 14:00:38 34737 6

原创数据呈现之“王者荣耀”

2018-05-06 21:02:38 339

原创配色+图片+设计网址收藏

在这里记录常用设计相关网址：图标下载，ICON(PNG/ICO/ICNS)图标搜索下载 | EASYICON.NET Lato Font Free by tyPoland Lukasz Dziedzic | Font Squirrel PowerPoint | Download Categories | PPTMind 全景网_中国最大的图片库和图片素材网站 Free Stock Photos, ...

2018-05-04 15:12:23 299

原创 Neo4j（一）

Neo4j是世界排名第一的图数据库，在社交、零售、金融、征信、IT管理等各个领域有着广泛的应用前景。领英用Neo4j实现了社交关系管理及朋友推荐，沃尔玛用Neo4j实现了零售商品实施推荐。介绍来自这里，对其中内容稍作修改和补充：Neo4j安装官网可直接下载https://neo4j.com/download/安装结束后先登录，创建Database，然后在浏览器中访问http://localhost...

2018-04-25 18:28:03 547

原创情感分析方法之基于深度学习（四）

人间四月芳菲尽，方飞尽@_@为了更完整地认识情感分析方法，接上篇“情感分析系列”，本篇主要分两个部分：一、斯坦福大学自然语言处理第七课“情感分析”点击打开链接二、最新情感分析相关论文：深度上下文、支持向量机、两级LSTM、多模态情感分析、软件工程、代码混合点击打开链接------------------------------------------------------------------...

2018-04-25 13:10:38 9796 1

原创页面记录

自己手写的界面和利用框架的界面比较：框架高效，风格统一，样式单一手写费时但灵活所以说前端最大的工程不在于此，附点击打开链接另，Echarts最近更的3D图值得一试~...

2018-04-24 15:36:54 182

原创数据呈现之“文化产品比较”

2018-04-20 12:15:16 206

原创常用文本相似度计算方法

在此记录两种常见的文本相似度计算方式：基于VSM论文和基于LDA论文；这两种方式的不同在于文本表示的不同，LDA与VSM相比，增加了概率的信息，更侧重对语义的挖掘。在进行文本建模之后，计算相似度的常用距离有：余弦距离，欧式距离，曼哈顿距离，切比雪夫距离，simhash+汉明距离...详见...

2018-04-08 22:01:38 2617

原创关系抽取小论文小结

传统的关系抽取主要为pipeline model.深度学习方法在pipeline model 基础上，joint models 成为可能。

2018-04-02 15:42:21 1520

原创补充关键词抽取：RAKE，LDA等

之前的《关键词抽取——结巴分词》一文仅仅利用了jiaba中的tfidf 与 textrank 进行关键词抽取，最近对以英文为主的新闻评论进行关键词提取时，这两种方法各有各的差：tfidf因为算法的限制，提取到的关键词不是很让人满意；jieba里面的textrank输出的是只针对中文语料的结果，对纯英文输入返回空值，根据源码猜测原因，可能是在处理时加入分词，将英文过滤掉了？（有待考究）。因此重新对“...

2018-03-29 23:16:24 3577 1

原创利用Python将文本中的中英文分离

在进行文本分析、提取关键词时，新闻评论等文本通常是中英文及其他语言的混杂，若不加处理直接分析，结果往往差强人意。下面对中英文文本进行分离做一下总结：1、超短文本，ASCII识别。s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's pr...

2018-03-29 18:31:28 14098

转载 Python常见字符编码及其之间的转换

参考：Python常见字符编码 + Python常见字符编码间的转换一、Python常见字符编码字符编码的常用种类介绍第一种：ASCII码ASCII（American Standard Code for Information Interchange，美国信息交换标准代码）是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统，并等同于国际标准ISO/...

2018-03-29 17:28:36 18925 1

原创数据新闻进度安排

“仰之弥高，钻之弥坚”。第一周：写一段新闻故事的大意，简明扼要，不超过150字。解释为什么这个故事有新闻价值。（问自己以下问题：现在是否有什么正在发生的事件可以让报道有新闻由头？它是否揭示了人们不知道的东西？有没有一个议题的新角度还没被写过？读者为什么要关心这个故事？）做一下新闻检索，列出围绕该议题已经被写过的点，以及你将如何推进故事。收集资料，了解你需要什么数据，可能会在什么地方获得这些数据，以...

2018-03-23 22:05:18 218

原创情感分析方法之snownlp和贝叶斯分类器（三）

《情感分析方法之nltk情感分析器和SVM分类器（二）》主要使用nltk处理英文语料，使用SVM分类器处理中文语料。实际的新闻评论中既包含英文，又包含中文和阿拉伯文。本次主要使用snownlp处理中文语料。一、snownlp使用from snownlp import SnowNLPview = ["谁把战争带给你们，你们就要把战争带到他们家", "这么牛叉？强", ...

2018-03-23 16:58:28 3068 1

原创 Python3操作数据库

参考：https://www.cnblogs.com/woider/p/5926744.htmlhttps://www.cnblogs.com/mooba/p/6484357.htmlhttp://www.runoob.com/python3/python3-mysql.htmlPyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库，Python2中则使用mysqld...

2018-03-22 18:22:41 1529 3

转载情感分析语料

因为项目要求，主要先收集英文的语料库来进行模型的训练。一、英文1.（可下载）康奈尔大学(Cornell)提供的影评数据集 - http://www.cs.cornell.edu/people/pabo/movie-review-data/由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5,331 句,标注了主客观标签的句子各5,000 句.目前影评库被广泛应...

2018-03-22 17:36:27 3484 1

原创中英文维基百科语料上的Word2Vec实验

这篇作为完整的词向量模型训练过程记录~~~一、数据获取wiki中文：wiki中文wiki英文：wiki英文中文文件大小约1.3G，英文文件大小约13.8G。二、将xml文件转换为text格式，使用gensim.corpora中的WikiCorpus函数来处理维基百科的数据，具体方法是get_texts().#!/usr/bin/env python# -*- coding: utf-8 -*-...

2018-03-21 17:50:46 3881 4

原创情感分析方法之nltk情感分析器和SVM分类器（二）

一、使用NLTK Vader SentimentAnalyser分析NLTK附带了一个内置的情感分析器模块——nltk.sentiment.vader，参考1，参考2。它可以分析一段文字或句子下情绪的正面、负面和中性极性分类。其中，compound表示复杂程度，neu表示中性，neg表示负面情绪，pos表示正面情绪。import nltkfrom nltk.sentiment.vader imp...

2018-03-20 16:29:11 24247 3

转载情感分析概述（一）

作者：国双商业市场链接：https://www.zhihu.com/question/31471793/answer/139282423来源：知乎著作权归作者所有，转载请联系作者获得授权。情感分析是学术领域研究多年的课题，用google学术搜索可以找到很多paper，基本的方法上有基于词典规则的方法、语言文法的方法，此外还有分类器以及近几年比较火的深度学习的方法(稍后有详细介绍)。各类paper...

2018-03-20 16:27:45 9695

原创 Python 3 中文文档编码问题

在做中文文本情感分类预处理时，编码问题着实浪费我不少时间，总结如下：1. 文件是中文，内容是酒店评论，首先是打开文件和写入新文件。因为pickle存储默认为是二进制形式，在Python中为bytes类型，打开和写入方式需用二进制方式：# 读取文件内容def getContent(filename): with open(filename, 'rb') as f: # 打开该中文文...

2018-03-16 18:58:04 282

空空如也

空空如也