飞鸟2010-CSDN博客

原创命名实体识别（1）——CRF

本文主要介绍一些命名实体识别（Name Entity Recognition，NER）相关的基本概念、发展历程和最新的研究进展，并着重介绍基于CRF的命名实体识别原理及实现。后续也会以BiLSTM-CRF、BERT-BiLSTM-CRF为例进行展开。1.命名实体识别介绍命名实体识别（Name Entity Recognition，NER），又称"专名识别"，是指识别文本中含有特定意义的实体...

2019-06-09 22:38:44 1639 1

最近因为在研究知识图谱，所以对目前比较流行的图数据库也进行了一番详细的研究，最终选定了JanusGraph（开源，适合集群化部署）和neo4j(只有社区版免费，适合数据规模不大的场景)。本文主要是尝试在单机环境下安装JanusGraph，并基于单机版JanusGraph对Gremlin（一种基于Apache TinkerPop框架的图遍历语言）的操作做初步了解。1. JanusGraph安装...

2019-04-15 18:59:23 815

原创 Python爬虫（13）——根据地址获取经纬度并进行Geohash编码

本文主要介绍一下通过高德地图API接口，将指定的标准化地址转换成对应的经纬度，并进行Geohash编码。首先，在高德开放平台（https://lbs.amap.com/api/webservice/guide/api/georegeo）申请key然后，可以根据(https://lbs.amap.com/api/webservice/guide/api/georegeo)里的格式调用高德地图...

2018-12-04 18:50:21 4903

原创 Python异常处理机制

在构建一个鲁棒性较强的python项目时，合适的异常处理机制，是相当重要的。本文主要介绍python异常处理机制的基本概念和常用的异常处理方法。1.Python中常见的异常类在python中使用异常对象来表示异常状态，并在遇到错误时引发异常。异常对象未被处理（或捕获）时，程序将终止并显示一条错误消息（traceback）。常见的内置异常类：类名说明...

2018-09-18 18:13:21 733

原创 sql常见函数

本文主要归纳整理一些在实际的取数过程中所用到的函数，以供以后参考。1.字符串提取函数(1)字符串截取select substring("2018-08-14 13:14:00",1,4) as year,substring("2018-08-14 13:14:00",1,7) as month,substring("2018-08-14 13:14:00",1,10) as da...

2018-08-14 19:18:21 420

原创 PySpark学习笔记（7）——数据清洗

在正式建模之前，数据清洗和特征工程是必不可少的准备工作。其中，数据清洗是将杂乱的原始数据规整化的过程，本文主要介绍数据清洗中的一些小技巧：1.正则表达式概述正则表达式是对字符串操作的一种逻辑公式，是事先定义好的一些特定字符及这些特定字符的组合，这个组合可以用来表达对字符串的一种过滤逻辑。在实际数据清洗过程中，如果遇到特别杂乱的脏数据，可以通过多次使用正则表达式来实现无关信息的过滤和有用信息...

2018-07-27 16:29:46 3254

原创 Python机器学习（1）——异常点检测

本文主要介绍4种异常点检测方法，One-Class SVM（一分类向量机，非高斯分布）、EllipticEnvelope（基于高斯概率密度的异常点检测）、Isolation Forest（基于集成学习方法异常点检测）、LocalOutlierFactor（基于密度的局部异常因子），并基于同一数据集，对比不同检测方法的效果。实现代码如下所示：'''目标：比较One-Class SVM、Ellipt...

2018-05-31 17:06:48 7753 2

原创 Python邮件发送

本文主要介绍Python代码发送邮件的各种方式。

2018-05-21 19:04:55 543

原创 PySpark机器学习（4）——KMeans和GMM

本文主要在PySpark环境下实现经典的聚类算法KMeans（K均值）和GMM（高斯混合模型），实现代码如下所示：1.KMeans实现代码：%pysparkfrom pyspark.ml.clustering import KMeansfrom pyspark.ml.feature import StringIndexerfrom pyspark.ml.linalg import Vect...

2018-05-07 15:30:27 4059 2

原创 PySpark机器学习（3）——LR和SVM

本文主要在PySpark环境下实现LR和SVM算法，实现代码如下所示：1.LR实现代码：%pysparkfrom pyspark.sql import Rowfrom pyspark.ml.linalg import Vectorsfrom pyspark.ml.classification import LogisticRegression#1.训练#1.1 读取数据trainD...

2018-05-03 16:52:46 4941 3

原创 PySpark机器学习（2）——GBDT

本文主要在PySpark环境中实现GBDT算法，实现代码如下所示：%pysparkfrom pyspark.ml.linalg import Vectorsfrom pyspark.ml.classification import GBTClassifierfrom pyspark.ml.feature import StringIndexerfrom numpy import allc...

2018-04-25 16:01:49 3935

原创 PySpark机器学习（1）——随机森林

本文主要在PySpark环境中实现随机森林算法：%pysparkfrom pyspark.ml.linalg import Vectorsfrom pyspark.ml.feature import StringIndexerfrom pyspark.ml.classification import RandomForestClassifierfrom pyspark.sql impor...

2018-04-23 18:37:36 2348

原创 PySpark学习笔记（6）——数据处理

在正式建模之前，需要非常了解建模所要用到的数据，本文主要介绍一些常见的数据观测和处理方法。1.数据观测（1）统计数据表中每一列数据的缺失率%pyspark#构造原始数据样例df = spark.createDataFrame([ (1,175,72,28,'M',10000), (2,171,70,45,'M',None), (3,172,None,No...

2018-04-11 16:14:11 4674

原创 PySpark学习笔记（5）——文本特征处理

今天有处理文本特征数据，刚开始因为不太熟悉pyspark环境下处理文本数据的流程，导致踩了不少的坑。在这里记录一下，以供以后参考。先写下整个处理的流程：（1）从数据库中提取数据（2）将提取的数据转换成DataFrame格式（3）使用tokenizer分词（4）将文本向量转换成稀疏表示的数值向量（字符频率向量）（5）将tokenizer得到的分词结果转换数字向量实现代码如下所示：%pyspark...

2018-03-30 18:24:23 2670

原创 PySpark学习笔记（4）——MLlib和ML介绍

Spark MLlib是Spark中专门用于处理机器学习任务的库，但在最新的Spark 2.0中，大部分机器学习相关的任务已经转移到Spark ML包中。两者的区别在于MLlib是基于RDD源数据的，而ML是基于DataFrame的更抽象的概念，可以创建包含从数据清洗到特征工程再到模型训练等一系列机器学习工作。所以，未来在用Spark处理机器学习任务时，将以Spark ML为主。Spark ML主...

2018-03-23 18:23:16 4515

原创 PySpark学习笔记（3）——DataFrame基本操作

DataFrame是一种分布在集群节点中的不可变的分布式数据集，这种数据集是以RDD为基础的，其被组织成指定的列，类似于关系数据库的二维表格和Python中的Pandas.DataFrame。DataFrame本身带有Schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。DataFrame的一个主要优点是：Spark引擎一开始就构建了一个逻辑执行计划，而且执行生成的...

2018-03-15 16:36:32 4915 3

原创 PySpark学习笔记（2）——RDD基本操作

RDD（弹性分布式数据集）是一组不可变的JVM对象的分布集，这些对象允许作业非常快速地执行计算，是Apache Spark的核心。本文主要结合简单的例子介绍下RDD的基本操作。1.创建一个简单的RDD在PySpark中，有两种方式可以创建RDD，一种是用.parallelize()集合（元素list或array）创建RDD，另一种是通过引用位于本地或外部的某个文件（支持.txt、.csv、parq...

2018-03-14 16:38:20 2165

原创 PySpark学习笔记（1）

最近工作有需要用到PySpark，而自己对这方面还不太熟悉。有鉴于此，很有必要系统性的梳理下PySpark的基本语法和特性，以供以后参考。1.Spark简介Apache Spark是一个开源、强大的的分布式查询和处理引擎，最初由Matei Zaharia在UC Berkeley读博期间开发的[1]。最早的Spark版本于2012年发布，后来被捐赠给Apache SoftwareFoundation...

2018-03-09 10:48:58 3641

原创自然语言处理入门（8）——TextRank

TextRank是自然语言处理领域一种比较常见的关键词提取算法，可用于提取关键词、短语和自动生成文本摘要。TextRank是由PageRank算法改进过来的，所以有大量借鉴PageRank的思想，其处理文本数据的过程主要包括以下几个步骤：（1）首先，将原文本拆分为句子，在每个句子中过滤掉停用词（可以不选），并只保留指定词性的单词，由此可以得到句子和单词的集合。（2）每个单词作为PageRank中的...

2018-02-09 16:27:16 8132 2

转载机器学习实践中应避免的七种常见错误

转载链接：http://blog.csdn.net/mmc2015/article/details/47322121在机器学习领域，每个给定的建模问题都存在几十种解法，每个模型又有难以简单判定是否合理的不同假设。在这种情况下，大多数从业人员倾向于挑选他们熟悉的建模算法，本文作者则认为，模型算法的假设并不一定适用于手头的数据；在追求模型最佳性能时，重要的是选择适合数据集（尤其是“大

2018-01-31 11:34:08 396

原创机器学习实践之特征工程

特征工程是机器学习任务中非常核心的部分，特征工程质量的好坏直接影响着模型训练结果的好坏。常见的特征工程可以分为特征抽象、特征重要性评估、特征衍生和特征降维等几个方面。1.特征抽象特征抽象是指将原始数据抽象成算法（或模型）可以理解的数据。针对不同的数据类型，主要有如下特征抽象方法：（1）时间戳。主要是针对具有鲜明时间序列的特征数据，将源数据中的年月日格式（或其他格式）

2018-01-29 16:21:25 484

原创机器学习的数学基础（2）——矩阵与线性代数

机器学习的各种算法除了和概率相关之外，还有以矩阵分解为基础的SVD、FM、LFM等。此外，在进行数据预处理时，特征工程对于模型的最终效果有很大影响，而特征的基础就是线性代数中的特征矩阵。本文就分享一些相关的要点。QR分解可以用于求解矩阵的特征值。

2017-12-25 22:00:38 481

原创机器学习的数学基础（1）——常见的函数与分布

最近有在系统的补数学基础，接下来会分享一些机器学习中最常见的数学函数与分布的Python实现。1.对数函数一般地，函数y=logax（a>0，且a≠1）叫做对数函数，也就是说以幂（真数）为自变量，指数为因变量，底数为常量的函数，叫对数函数。1.1 简单的对数函数实现代码如下所示：import mathimport matplotlib.pyplot as pltif __name__ =="__m

2017-11-26 13:22:20 1015

原创数据处理之数据不平衡问题

最近有被频繁的问到数据不平衡（样本比例失衡）问题，而这一部分在日常数据处理中也算是比较重要的一部分了，处理的好坏对后续的模型训练结果还是会有很大的影响的，今天就专门归纳总结一下，以供以后参考。1.数据不平衡概述1.1 数据不平衡介绍数据不平衡，又称样本比例失衡。对于二分类问题，在正常情况下，正负样本的比例应该是较为接近的，很多现有的分类模型也正是基于这一假设。但是在某些特定的场景下，正负样本的比例却

2017-10-28 21:11:41 6116

转载 Machine Learning Yearning读书笔记（转载）

原文链接：http://blog.csdn.net/qq_24818761/article/details/53465940首先，非常感谢Andrew NG贡献的新书，本书总共大概50多章，昨天收到了1-12章（1-2页/章，总共23页）的手稿，让各位读者一睹为快。附上书的下载地址：1-12章：https://gallery.mailchimp.com/dc3a7ef4d750c0abfc192

2017-09-29 15:32:46 568

原创推荐系统（1）——推荐系统概述

本文主要介绍常见的商品推荐方法和推荐系统的评价指标。1.推荐系统简介推荐系统是主动从大量信息中找到用户可能感兴趣的信息的工具。推荐系统的核心问题是如何实现推荐个性化、如何向用户推荐匹配度高的产品（商品）或项目,本质是通过一定的方式将用户和项目联系起来。自从Xerox Palo Alto研究中心于1992年研发出了基于协同过滤的实验系统Tapestry以来（主要功能：利用用户的显式反馈（评分和注释），

2017-09-05 21:46:25 1844

原创自然语言处理入门（7）——基于TF-IDF的文本自动打标

1. TF-IDF简介TF-IDF（Term Frequency-Inverse Document Frequency）是一种统计方法，用以评估某一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF倾向于过滤掉常见的词语，保留重要的词语。TF-IDF加权的各种形式常被搜寻引擎应用，作为文

2017-08-31 21:22:21 1857

原创自然语言处理入门（6）——基于LDA的文章主题生成

1. LDA概述LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。LDA是一种非监督机器学习技术，可以用来识别大规模文

2017-08-27 21:56:06 5936

原创 python数据分析（1）——获取微信好友的统计信息

本文主要是尝试下一个比较有意思的python模块：wxpy，导入此模块之后，可以很方便的来创建一个微信机器人和做一些和微信相关的有意思的分析。1. wxpy 安装首先，通过pip方式进行安装，在命令行模式下输入：pip install -U wxpy如下图所示：2. 登录微信（1）先导入wxpy模块，然后设置登录模式。如下所示：#导入模块from wxpy import *'''微信机器人登录有

2017-08-20 14:47:45 6053

原创自然语言处理入门（5）——基于WordArt的AGM手机评论词频分析

本文首先从速卖通（Aliexpress）获取到AGM X1手机（战狼2中吴京用的手机）的评论数据，然后利用一个很好的公开词频分析工具WordArt(https://wordart.com/create)来对评论数据进行分析。1. 获取评论数据(1) 评论数据获取python代码如下所示：# -*- coding: utf-8 -*-"""Created on Tue Aug 15 16:44:1

2017-08-15 17:32:51 1906 1

原创 pyhton微博爬虫（3）——获取微博评论数据

本文的主要目标是获取微博评论数据，具体包括微博评论链接、总评论数、用户ID、用户昵称、评论时间、评论内容、用户详情链接等。实现代码如下所示：# -*- coding: utf-8 -*-"""Created on Tue Aug 8 16:39:07 2017@author: Administrator"""import requestsfrom bs4 import Beautiful

2017-08-08 18:08:48 11290 5

原创 pyhton爬虫（12）——抓取携程酒店评论数据

本文主要目标是抓取携程酒店基本信息和用户评论数据。具体来说，酒店基本信息包括：酒店名、酒店星级、酒店最低房价、用户推荐比、酒店总评分等；用户评论数据包括：用户评论时间，用户评分，评论内容等。实现代码如下所示：# -*- coding: utf-8 -*-"""Created on Mon Aug 7 21:05:03 2017@author: Administrator"""import u

2017-08-07 22:24:58 18899 13

原创 pyhton微博爬虫（2）——获取微博用户关注列表

本文的主要目标是获取微博用户关注列表以及关注列表中各微博用户的ID、昵称、详情链接、粉丝数、关注数等关键信息。实现代码如下所示：# -*- coding: utf-8 -*-"""Created on Thu Aug 3 20:59:53 2017@author: Administrator"""import requestsimport jsonimport timeimport r

2017-08-04 00:54:33 9529 12

原创 pyhton微博爬虫（1）——获取知乎官方账号的微博数据

本文主要目标是获取新浪微博上知乎官方账号所发的微博内容信息。1. 分析网页通过仔细分析知乎官方账号页面信息（https://m.weibo.cn/u/1904769205），发现可以通过JSON方式获取微博数据。如下图所示：知乎官方账号的JSON链接为:https://m.weibo.cn/api/container/getIndex?type=uid&value=19047692

2017-08-01 22:03:49 2095

原创 pyhton爬虫（11）——抓取亚马逊商品类别信息

本文主要提取亚马逊23个大类、254个小类的类别名称和链接，后面会在此基础之上进一步提取各个类别下的商品详情信息。实现代码如下所示：# -*- coding: utf-8 -*-"""Created on Mon Jul 31 15:48:24 2017@author: Administrator"""import urllib.requestfrom bs4 import Beautifu

2017-07-31 17:58:50 12239 2

原创 TensorFlow系列（4）——基于MNIST数据集的CNN实现

本文主要是尝试搭建一个简单的卷积神经网络（CNN）模型，并用它来训练MNIST数据集。1. CNN简介卷积神经网络（Convolutional neural network）属于人工神经网络的一种，它的权值共享的网络结构显著降低了模型的复杂度，减少了权值的数量，是目前语音分析和图像识别领域研究的热点。和传统神经网络相比，卷积神经网络的特点在于隐藏层分为卷积层和池化层（pooling layer,又叫

2017-07-24 23:36:37 6211

原创 pyhton爬虫（10）——通过亚马逊商品评论时间分析商品销量分布情况

本文以亚马逊rope bag商品为例，共采集到1989条商品评论时间数据，并选取15年1月——17年7月的1809条数据来绘制分月销量图。采集数据的python代码如下所示：# -*- coding: utf-8 -*-"""Created on Mon Jul 24 15:06:01 2017@author: Administrator"""import urllib.requestfro

2017-07-24 17:15:46 6784 3

原创 TensorFlow系列（3）——基于MNIST数据集的RNN实现

本文主要是尝试搭建一个简单的循环神经网络（RNN）模型，并用它来训练MNIST数据集。1. RNN简介RNN是深度学习的重要分支之一，在自然语言处理领域（NLP）得到了广泛的应用，如：（1）机器翻译（2）语言识别（3）图像描述生成（4）语言模型与文本生成2. 基于MNIST数据集的RNN实现

2017-07-18 21:42:45 655

原创 pyhton爬虫（9）——使用XPath提取网页信息

1. XPath基础1.1 什么是XPath？XPath 是一门在 XML 文档中查找信息(节点)的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。1.2 节点节点是XML文档中最小构成单位，一共有7种：（1）元素节点（element）（2）属性节点（attribute）（3）文本节点（text）（4）名称命名节点（namespace）（5）处理命令节点（processing-ins

2017-07-18 12:11:17 3273

原创 pyhton爬虫（8）——获取网易新闻内容

本文主要目的是获取网易新闻标题和正文内容。实现代码如下所示：# -*- coding: utf-8 -*-"""Created on Mon Jul 17 15:46:30 2017@author: Administrator"""from bs4 import BeautifulSoupimport urllib.requestimport http.cookiejar#url = '

2017-07-17 17:44:30 2216

seo视频网站

空空如也