8 飞鸟2010

尚未进行身份认证

暂无相关描述

等级
TA的排名 2w+

命名实体识别(1)——CRF

本文主要介绍一些命名实体识别(NameEntityRecognition,NER)相关的基本概念、发展历程和最新的研究进展,并着重介绍基于CRF的命名实体识别原理及实现。后续也会以BiLSTM-CRF、BERT-BiLSTM-CRF为例进行展开。1.命名实体识别介绍命名实体识别(NameEntityRecognition,NER),又称"专名识别",是指识别文本中含有特定意义的实体...

2019-06-09 22:38:44

图数据库入门(1)——JanusGraph安装

最近因为在研究知识图谱,所以对目前比较流行的图数据库也进行了一番详细的研究,最终选定了JanusGraph(开源,适合集群化部署)和neo4j(只有社区版免费,适合数据规模不大的场景)。本文主要是尝试在单机环境下安装JanusGraph,并基于单机版JanusGraph对Gremlin(一种基于ApacheTinkerPop框架的图遍历语言)的操作做初步了解。1.JanusGraph安装...

2019-04-15 18:59:23

Python爬虫(13)——根据地址获取经纬度并进行Geohash编码

本文主要介绍一下通过高德地图API接口,将指定的标准化地址转换成对应的经纬度,并进行Geohash编码。首先,在高德开放平台(https://lbs.amap.com/api/webservice/guide/api/georegeo)申请key然后,可以根据(https://lbs.amap.com/api/webservice/guide/api/georegeo)里的格式调用高德地图...

2018-12-04 18:50:21

Python异常处理机制

在构建一个鲁棒性较强的python项目时,合适的异常处理机制,是相当重要的。本文主要介绍python异常处理机制的基本概念和常用的异常处理方法。1.Python中常见的异常类在python中使用异常对象来表示异常状态,并在遇到错误时引发异常。异常对象未被处理(或捕获)时,程序将终止并显示一条错误消息(traceback)。常见的内置异常类: 类名 说明...

2018-09-18 18:13:21

sql常见函数

本文主要归纳整理一些在实际的取数过程中所用到的函数,以供以后参考。1.字符串提取函数(1)字符串截取selectsubstring("2018-08-1413:14:00",1,4)asyear,substring("2018-08-1413:14:00",1,7)asmonth,substring("2018-08-1413:14:00",1,10)asda...

2018-08-14 19:18:21

PySpark学习笔记(7)——数据清洗

在正式建模之前,数据清洗和特征工程是必不可少的准备工作。其中,数据清洗是将杂乱的原始数据规整化的过程,本文主要介绍数据清洗中的一些小技巧:1.正则表达式概述正则表达式是对字符串操作的一种逻辑公式,是事先定义好的一些特定字符及这些特定字符的组合,这个组合可以用来表达对字符串的一种过滤逻辑。在实际数据清洗过程中,如果遇到特别杂乱的脏数据,可以通过多次使用正则表达式来实现无关信息的过滤和有用信息...

2018-07-27 16:29:46

Python机器学习(1)——异常点检测

本文主要介绍4种异常点检测方法,One-ClassSVM(一分类向量机,非高斯分布)、EllipticEnvelope(基于高斯概率密度的异常点检测)、IsolationForest(基于集成学习方法异常点检测)、LocalOutlierFactor(基于密度的局部异常因子),并基于同一数据集,对比不同检测方法的效果。实现代码如下所示:'''目标:比较One-ClassSVM、Ellipt...

2018-05-31 17:06:48

Python邮件发送

本文主要介绍Python代码发送邮件的各种方式。

2018-05-21 19:04:55

PySpark机器学习(4)——KMeans和GMM

本文主要在PySpark环境下实现经典的聚类算法KMeans(K均值)和GMM(高斯混合模型),实现代码如下所示:1.KMeans实现代码:%pysparkfrompyspark.ml.clusteringimportKMeansfrompyspark.ml.featureimportStringIndexerfrompyspark.ml.linalgimportVect...

2018-05-07 15:30:27

PySpark机器学习(3)——LR和SVM

本文主要在PySpark环境下实现LR和SVM算法,实现代码如下所示:1.LR实现代码:%pysparkfrompyspark.sqlimportRowfrompyspark.ml.linalgimportVectorsfrompyspark.ml.classificationimportLogisticRegression#1.训练#1.1读取数据trainD...

2018-05-03 16:52:46

PySpark机器学习(2)——GBDT

本文主要在PySpark环境中实现GBDT算法,实现代码如下所示:%pysparkfrompyspark.ml.linalgimportVectorsfrompyspark.ml.classificationimportGBTClassifierfrompyspark.ml.featureimportStringIndexerfromnumpyimportallc...

2018-04-25 16:01:49

PySpark机器学习(1)——随机森林

本文主要在PySpark环境中实现随机森林算法:%pysparkfrompyspark.ml.linalgimportVectorsfrompyspark.ml.featureimportStringIndexerfrompyspark.ml.classificationimportRandomForestClassifierfrompyspark.sqlimpor...

2018-04-23 18:37:36

PySpark学习笔记(6)——数据处理

在正式建模之前,需要非常了解建模所要用到的数据,本文主要介绍一些常见的数据观测和处理方法。1.数据观测(1)统计数据表中每一列数据的缺失率%pyspark#构造原始数据样例df=spark.createDataFrame([(1,175,72,28,'M',10000),(2,171,70,45,'M',None),(3,172,None,No...

2018-04-11 16:14:11

PySpark学习笔记(5)——文本特征处理

今天有处理文本特征数据,刚开始因为不太熟悉pyspark环境下处理文本数据的流程,导致踩了不少的坑。在这里记录一下,以供以后参考。先写下整个处理的流程:(1)从数据库中提取数据(2)将提取的数据转换成DataFrame格式(3)使用tokenizer分词(4)将文本向量转换成稀疏表示的数值向量(字符频率向量)(5)将tokenizer得到的分词结果转换数字向量实现代码如下所示:%pyspark...

2018-03-30 18:24:23

PySpark学习笔记(4)——MLlib和ML介绍

SparkMLlib是Spark中专门用于处理机器学习任务的库,但在最新的Spark2.0中,大部分机器学习相关的任务已经转移到SparkML包中。两者的区别在于MLlib是基于RDD源数据的,而ML是基于DataFrame的更抽象的概念,可以创建包含从数据清洗到特征工程再到模型训练等一系列机器学习工作。所以,未来在用Spark处理机器学习任务时,将以SparkML为主。SparkML主...

2018-03-23 18:23:16

PySpark学习笔记(3)——DataFrame基本操作

DataFrame是一种分布在集群节点中的不可变的分布式数据集,这种数据集是以RDD为基础的,其被组织成指定的列,类似于关系数据库的二维表格和Python中的Pandas.DataFrame。DataFrame本身带有Schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。DataFrame的一个主要优点是:Spark引擎一开始就构建了一个逻辑执行计划,而且执行生成的...

2018-03-15 16:36:32

PySpark学习笔记(2)——RDD基本操作

RDD(弹性分布式数据集)是一组不可变的JVM对象的分布集,这些对象允许作业非常快速地执行计算,是ApacheSpark的核心。本文主要结合简单的例子介绍下RDD的基本操作。1.创建一个简单的RDD在PySpark中,有两种方式可以创建RDD,一种是用.parallelize()集合(元素list或array)创建RDD,另一种是通过引用位于本地或外部的某个文件(支持.txt、.csv、parq...

2018-03-14 16:38:20

PySpark学习笔记(1)

最近工作有需要用到PySpark,而自己对这方面还不太熟悉。有鉴于此,很有必要系统性的梳理下PySpark的基本语法和特性,以供以后参考。1.Spark简介ApacheSpark是一个开源、强大的的分布式查询和处理引擎,最初由MateiZaharia在UCBerkeley读博期间开发的[1]。最早的Spark版本于2012年发布,后来被捐赠给ApacheSoftwareFoundation...

2018-03-09 10:48:58

自然语言处理入门(8)——TextRank

TextRank是自然语言处理领域一种比较常见的关键词提取算法,可用于提取关键词、短语和自动生成文本摘要。TextRank是由PageRank算法改进过来的,所以有大量借鉴PageRank的思想,其处理文本数据的过程主要包括以下几个步骤:(1)首先,将原文本拆分为句子,在每个句子中过滤掉停用词(可以不选),并只保留指定词性的单词,由此可以得到句子和单词的集合。(2)每个单词作为PageRank中的...

2018-02-09 16:27:16

机器学习实践中应避免的七种常见错误

转载链接:http://blog.csdn.net/mmc2015/article/details/47322121在机器学习领域,每个给定的建模问题都存在几十种解法,每个模型又有难以简单判定是否合理的不同假设。在这种情况下,大多数从业人员倾向于挑选他们熟悉的建模算法,本文作者则认为,模型算法的假设并不一定适用于手头的数据;在追求模型最佳性能时,重要的是选择适合数据集(尤其是“大

2018-01-31 11:34:08

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。