自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

转载 BILSTM+CRF中文命名实体识别

https://www.jianshu.com/p/09af2dc2b65dhttps://blog.csdn.net/ARPOSPF/article/details/81106212https://github.com/Determined22/zh-NER-TF

2019-03-19 13:36:56 1939

翻译 机器学习面试题

https://blog.csdn.net/a2524289/article/details/788884801.支持向量机(SVM)的优缺点:VM的优缺点优点:(1)非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射;(2)对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心;(3)支持向量是SVM的训练结果,在S...

2019-02-20 19:57:57 16685 1

转载 java面试总结

    https://www.cnblogs.com/aishangJava/p/9865925.html一、Set集合。其主要实现类有HashSet、TreeSet。存放对象的引用,不允许有重复对象。 代码:  public class SetTest {    public static void main(String[] args) {      Set set=n...

2019-02-20 19:57:41 217

转载 hbase(图片)

 

2018-12-28 12:03:22 237

转载 中文分词技术及应用

中文分词技术及应用中文分词算法有5大类:1、 基于词典的方法2、基于统计的方法3、基于规则的方法4、基于字标注的方法5、基于人工智能的技术(基于理解)的方法中文分词目前有4个瓶颈:1、 分词歧义2、未登陆词识别3、分词粒度问题4、错别字与谐音字规范化中文分词有5大评价标准:1、分词正确率2、切分速度3、功能完备性4、易扩展性与可维护性中文信息处理包括3个层...

2018-12-08 17:52:00 3675

转载 Flume和Kafka

Flume+Kafka+Storm+Redis实时分析系统基本架构1)    整个实时分析系统的架构是2)    先由电商系统的订单服务器产生订单日志,3)    然后使用Flume去监听订单日志,4)    并实时把每一条日志信息抓取下来并存进Kafka消息系统中,5)    接着由Storm系统消费Kafka中的消息,6)    同时消费记录由Zookeeper集群管理...

2018-11-02 18:25:10 207

转载 Hive学习之路 (一)Hive初识

Hive 简介什么是Hive1、Hive 由 Facebook 实现并开源2、是基于 Hadoop 的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供 HQL(Hive SQL)查询功能5、底层数据是存储在 HDFS 上6、Hive的本质是将 SQL 语句转换为 MapReduce 任务运行7、使不熟悉 MapReduce 的用户很方便地利用 ...

2018-09-10 20:11:33 115

原创 数据结构做题笔记

1. 斐波那契数列:指的是这样一个数列:1、1、2、3、5、8、13、21、34、……在数学上,斐波纳契数列以如下被以递归的方法定义:F(1)=1,F(2)=1, F(n)=F(n-1)+F(n-2)(n>=2,n∈N*)2、字典中找最值dogdistance = {'dog-dog': 33, 'dog-cat': 36, 'dog-car': 41, 'dog-bird': 42...

2018-09-06 16:49:08 378

转载 Python之Matplotlib库常用函数大全(含注释)

plt.savefig(‘test’, dpi = 600) :将绘制的图画保存成png格式,命名为 testplt.ylabel(‘Grade’) :  y轴的名称plt.axis([-1, 10, 0, 6]) :  x轴起始于-1,终止于10 ,y轴起始于0,终止于6plt.subplot(3,2,4) :  分成3行2列,共6个绘图区域,在第4个区域绘图。排序为行优先。也可 p...

2018-07-29 16:34:43 290

转载 Python之Numpy库常用函数大全(含注释)

前言:最近学习Python,才发现原来python里的各种库才是大头! 于是乎找了学习资料对Numpy库常用的函数进行总结,并带了注释。在这里分享给大家,对于库的学习,还是用到时候再查,没必要死记硬背。 PS:本博文摘抄自中国慕课大学上的课程《Python数据分析与展示》,推荐刚入门的同学去学习,这是非常好的入门视频。Numpy是科学计算库,是一个强大的N维数组对象ndarray,是广播功能...

2018-07-29 16:33:17 209

转载 Python 面向对象编程 继承与多态

在前面一篇文章中谈到了类的基本定义和使用方法,这只体现了面向对象编程的三大特点之一:封装。下面就来了解一下另外两大特征:继承和多态。在Python中,可以让一个类去继承一个类,被继承的类称为父类或者超类、也可以称作基类,继承的类称为子类。并且Python支持多继承,能够让一个子类有多个父类。一.继承和多继承class superclass(): ........ class su...

2018-07-15 14:33:06 207

转载 Python 面向对象编程 内置类方法

 内置方法 说明 __init__(self,...) 初始化对象,在创建新对象时调用 __del__(self) 释放对象,在对象被删除之前调用 __new__(cls,*args,**kwd) 实例的生成操作 __str__(self) 在使用print语句时被调用 __getitem__(self,key) 获取序列的索引key对应的值,等价于seq[key] __len__(self) 在...

2018-07-15 12:24:42 236

转载 SQL 函数

SQL Aggregate 函数SQL Aggregate 函数计算从列中取得的值,返回一个单一的值。有用的 Aggregate 函数:AVG() - 返回平均值COUNT() - 返回行数FIRST() - 返回第一个记录的值LAST() - 返回最后一个记录的值MAX() - 返回最大值MIN() - 返回最小值SUM() - 返回总和SQL Scalar 函数SQL Scalar 函数基...

2018-07-05 14:16:07 262

转载 SQL 高级教程(四)

CREATE INDEX 语句用于在表中创建索引。在不读取整个表的情况下,索引使数据库应用程序可以更快地查找数据。索引您可以在表中创建索引,以便更加快速高效地查询数据。用户无法看到索引,它们只能被用来加速搜索/查询。注释:更新一个包含索引的表需要比更新一个没有索引的表花费更多的时间,这是由于索引本身也需要更新。因此,理想的做法是仅仅在常常被搜索的列(以及表)上面创建索引。SQL CREATE ...

2018-07-04 12:00:06 1047

转载 SQL 高级教程(三)

SQL SELECT INTO 语句SELECT INTO 语句从一个表复制数据,然后把数据插入到另一个新表中。MySQL 数据库不支持 SELECT ... INTO 语句,但支持 INSERT INTO ... SELECT 。当然你可以使用以下语句来拷贝表结构及数据:CREATE TABLE 新表 SELECT * FROM 旧表 SQL INSERT INTO SELECT 语句INSER...

2018-07-04 10:33:02 417

转载 机器学习 —— 基础整理(八)循环神经网络的BPTT算法步骤整理;梯度消失与梯度爆炸

https://www.cnblogs.com/Determined22/p/6562555.html

2018-07-01 22:51:15 381

转载 产生消失的梯度问题的原因

产生消失的梯度问题的原因先看一个极简单的深度神经网络:每一层都只有一个单一的神经元。如下图:代价函数C对偏置b1的偏导数的结果计算如下:先看一下sigmoid 函数导数的图像:该导数在σ′(0) = 1/4时达到最高。现在,如果我们使用标准方法来初始化网络中的权重,那么会使用一个均值为0 标准差为1 的高斯分布。因此所有的权重通常会满足|wj|<1。从而有wjσ′(zj) < 1/4。...

2018-07-01 22:18:47 5803

转载 SQL 高级教程(二)

SQL JOINSQL JOIN 子句用于把来自两个或多个表的行结合起来,基于这些表之间的共同字段。最常见的 JOIN 类型:SQL INNER JOIN(简单的 JOIN)。 SQL INNER JOIN 从多个表中返回满足 JOIN 条件的所有行。演示数据库在本教程中,我们将使用 RUNOOB 样本数据库。下面是选自 "Websites" 表的数据:+----+--------------+-...

2018-06-26 08:46:32 197

转载 SQL 高级教程

演示数据库在本教程中,我们将使用 RUNOOB 样本数据库。下面是选自 "Websites" 表的数据:mysql> SELECT * FROM Websites;+----+---------------+---------------------------+-------+---------+| id | name | url ...

2018-06-25 14:32:55 2704

转载 SQL 基础教程

演示数据库在本教程中,我们将使用 RUNOOB 样本数据库。下面是选自 "Websites" 表的数据:+----+--------------+---------------------------+-------+---------+| id | name | url | alexa | country |+----+------...

2018-06-25 13:37:28 248

转载 基于 Gensim 的 Word2Vec 实践

Word2Vec基于 Gensim 的 Word2Vec 实践,从属于笔者的程序猿的数据科学与机器学习实战手册,代码参考gensim.ipynb。推荐前置阅读Python语法速览与机器学习开发环境搭建,Scikit-Learn 备忘录。Word2Vec TutorialGetting Started with Word2Vec and GloVe in Python模型创建Gensim中 Word...

2018-06-23 21:06:50 856

转载 测试代码的执行时间:%time和%timeit

对于规模更大、运行时间更长的数据分析应用程序,你可能会希望测试一下各个部分或函数调用或语句的执行时间。你可能会希望了解某个复杂计算过程中到底是哪些函数占用的时间最多。幸运的是,在开发和测试代码的过程中,IPython能够让你轻松得到这些信息。使用内置的time模块及其time.clock和time.time函数手工测试代码执行时间是一件令人烦闷的事情,因为你必须编写许多一模一样的了无生趣的公式化代...

2018-06-21 23:10:27 796

原创 tensorflow (3)

'''第七章:图像数据处理'''# 将 MNIST 输入数据转化为 TFRecord 的格式import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_dataimport numpy as np#生成整数型的属性def _int64_feature(value): return t...

2018-06-15 09:12:46 432

原创 tensorflow (2)

import tensorflow as tfa = tf.constant([1.0,2.0],name='a')b = tf.constant([2.0,3.0],name='b')result = a + bsess = tf.Session()print(sess.run(result))with sess.as_default(): print(result.eval...

2018-06-15 09:12:00 3877

原创 tensorflow (1)

'''简单小例子'''import tensorflow as tfimport numpy as np#create datax_data = np.random.rand(100).astype(np.float32)y_data = 0.1*x_data + 0.3###create tensorflow structure start###Weights = tf.Vari...

2018-06-15 09:11:23 349

原创 多线程

为什么使用多线程?1.耗时的操作使用线程,提高应用程序响应2.并行操作时使用线程,如C/S架构的服务器端并发线程响应用户的请求。3.多CPU系统中,使用线程提高CPU利用率4.改善程序结构。一个既长又复杂的进程可以考虑分为多个线程,成为几个独立或半独立的运行部分,这样的程序会利于理解和修改。           使用多线程的理由之一是和进程相比,它是一种非常花销小,切换快,更"节俭"的多任务操作方...

2018-06-01 13:25:34 187

原创 二叉树

一、基本概念每个结点最多有两棵子树,左子树和右子树,次序不可以颠倒。性质:1、非空二叉树的第n层上至多有2^(n-1)个元素。2、深度为h的二叉树至多有2^h-1个结点。满二叉树:所有终端都在同一层次,且非终端结点的度数为2。在满二叉树中若其深度为h,则其所包含的结点数必为2^h-1。完全二叉树:除了最大的层次即成为一颗满二叉树且层次最大那层所有的结点均向左靠齐,即集中在左面的位置上,不能有空位置...

2018-05-29 13:13:44 121

原创 冒泡,选择,插入,快速,归并排序

'''冒泡排序'''def bubble_sort(alist): n = len(alist) for j in range(n - 2): count = 0 for i in range(n - 1 - j): if alist[i] > alist[i+1]: alist[i],...

2018-05-28 11:03:24 424

转载 线性回归与逻辑回归

      回归算法是一种通过最小化预测值与实际结果值之间的差距,而得到输入特征之间的最佳组合方式的一类算法。对于连续值预测有线性回归等,而对于离散值/类别预测,我们也可以把逻辑回归等也视作回归算法的一种。线性回归主要用来解决连续值预测的问题,逻辑回归用来解决分类的问题,输出的属于某个类别的概率,工业界经常会用逻辑回归来做排序。在SVM、GBDT、AdaBoost算法中都有涉及逻辑回归,回归中的损...

2018-05-25 14:43:45 619

原创 k-fold cross validation(k-折叠交叉验证),python pandas (ix & iloc &loc) 的区别

交叉验证的目的:在实际训练中,模型通常对训练数据好,但是对训练数据之外的数据拟合程度差。用于评价模型的泛化能力,从而进行模型选择。交叉验证的基本思想:把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对模型进行训练,再利用验证集来测试模型的泛化误差。另外,现实中数据总是...

2018-05-25 09:55:12 6742 3

转载 浅谈循环神经网络(RNN)

1.RNN怎么来的?循环神经网络的应用场景比较多,比如暂时能写论文,写程序,写诗,但是,(总是会有但是的),但是他们现在还不能正常使用,学习出来的东西没有逻辑,所以要想真正让它更有用,路还很远。这是一般的神经网络应该有的结构: 既然我们已经有了人工神经网络和卷积神经网络,为什么还要循环神经网络? 原因很简单,无论是卷积神经网络,还是人工神经网络,他们的前提假设都是:元素之间是相互独立的,输入与输出...

2018-05-22 15:49:08 2325

原创 jieba中文处理

jieba中文处理by 寒小阳([email protected])和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。1.基本分词函数与用法jieba.cut 以及...

2018-05-21 21:02:34 591

原创 python正则表达式(2)

Python正则表达式by 寒小阳([email protected])正则表达式是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。我们在大文本中匹配字符串时,有些情况用str自带的函数(比如find, in)可能可以完成,有些情况会稍稍复杂一些(比如说找出所有“像邮箱”的字符串,所有和julyedu相关的句子),这个时候我们需要一个某种模式的工具,这个时候正则表达式就派上用场...

2018-05-21 19:29:45 1434

转载 朴素贝叶斯法

 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。简单来说,朴素贝叶斯分类器假设样本每个特征与其他特征都不相关。思想1)输入空间:X∈RnX∈Rn 为nn 维向量空间的集合。输出空间为分类标记空间 Y=c1,c2...ckY=c1,c2...ck。 训练集T=(x1,y1),(x2,y2)...(xN,yN)T=(x1,y1),(x2,y2)...(xN,yN)是由独立同分布的概率函数p...

2018-05-21 09:20:57 321

翻译 决策树、Bagging、随机森林、Boosting、AdaBoost、GBDT、XGBoost

1、决策树  一、决策树的优点和缺点    优点:决策树算法中学习简单的决策规则建立决策树模型的过程非常容易理解, 决策树模型可以可视化,非常直观 应用范围广,可用于分类和回归,而且非常容易做多类别的分类 能够处理数值型和连续的样本特征    缺点:很容易在训练数据中生成复杂的树结构,造成过拟合(overfitting)。剪枝可以缓解过拟合的负作用,常用方法是限制树的高...

2018-05-20 22:39:27 5067

转载 机器学习之k-近邻

1. K近邻定义k近邻算法,也成为KNN算法,是一种基本分类与回归算法。它在基本实现上,使用的是多数表决的惰性学习过程。也就是它实际上是基于记忆的学习方法。它并没有学出一个什么判别模型,其实也没有像贝叶斯那样算出一个新东西,而是简单的统计距离目标点最近的K个节点里数目最多的标签赋予目标点。就是这么一个简单的算法。我们这里给出一个最朴素的K近邻算法: K近邻算法 输入:训练数据集T=(x1,y1),...

2018-04-16 15:58:11 648

翻译 机器学习之感知机

感知机模型是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。感知机学习算法,具有简单而易于实现的优点,分为原始形式与对偶形式。感知机预测是用学习得到...

2018-04-15 21:01:38 422

转载 使用tensorflow来解决MNIST手写体数字识别问题

import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_dataINPUT_NODE = 784 # 输入层的节点数。对于MNIST 数据集,这个就等于图片的像素。OUTPUT_NODE = 10 # 输出层的节点数。这个等于类别的数目。因为在MNIST数据集中需要区分的是0~...

2018-04-10 21:41:08 260

转载 kaggle比赛

Titanic Data Science SolutionsI have released a new Python package Speedml which codifies the techniques used in this notebook into an intuitive, powerful, and productive API.Speedml helps me jump fro...

2018-04-04 23:39:04 907

转载 Pandas语法大全

Pandas语法大全简介pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。 Pandas 是python的一个数据分析包,最初由AQR Cap...

2018-04-04 18:57:20 4122 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除