自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

daisy的博客

Focus,Follow,and Forward.

  • 博客(84)
  • 资源 (1)
  • 收藏
  • 关注

原创 tensorflow中一维卷积conv1d处理语言序列举例

tf.nn.conv1d:函数形式: tf.nn.conv1d(value, filters, stride, padding, use_cudnn_on_gpu=None, data_format=None, name=None):程序举例:import tensorflow as tfimport numpy as npsess = tf.InteractiveSession...

2018-12-05 19:30:54 7844

转载 用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践

最近在做毕设 马一篇写的很好的综述 --------------------------------------------------------------------------------------------------------------------------------------------近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时...

2018-11-27 15:19:54 1138 1

转载 tf.nn.embedding_lookup()用法

embedding_lookup( )的用法 关于tensorflow中embedding_lookup( )的用法,在Udacity的word2vec会涉及到,本文将通俗的进行解释。首先看一段网上的简单代码:#!/usr/bin/env/python# coding=utf-8import tensorflow as tfimport numpy as npinput_id...

2018-11-12 10:23:00 2430

转载 TensorFlow图变量tf.Variable的用法解析

TensorFlow中的图变量,跟我们平时所接触的一般变量在用法上有很大的差异。尤其对于那些初次接触此类深度学习库的编程人员来说,会显得十分难上手。本文将按照如下篇幅深入剖析tf.Variable这个核心概念:图变量的初始化方法两种定义图变量的方法scope如何划分命名空间图变量的复用图变量的种类1.图变量的初始化方法对于一般的Python代码,变量的初始化就是变量的定义,...

2018-11-01 20:29:33 946

转载 鞍点

长期以来,人们普遍认为,神经网络优化问题困难是因为较大的神经网络中包含很多局部极小值(local minima),使得算法容易陷入到其中某些点。到2014年,一篇论文《Identifying and attacking the saddle point problem in high-dimensional non-convex optimization》,提出高维非凸优化问题之所以困难,是因为存...

2018-09-13 16:11:04 6683

原创 剑指offer:树的子结构(Python)

题目描述输入两棵二叉树A,B,判断B是不是A的子结构。(ps:我们约定空树不是任意一个树的子结构)# -*- coding:utf-8 -*-# class TreeNode:# def __init__(self, x):# self.val = x# self.left = None# self.right = Non...

2018-08-16 10:43:59 271

转载 机器学习算法——评价指标汇总

准确率,精确率,召回率和F1准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-MeasureROC-AUCROC曲线需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有precision,recall,F-score,以及我们今天要讨论的ROC和AUC。下图是一个ROC曲线的示例。ROC更好的参考正如我们...

2018-08-13 17:48:05 7162 1

转载 处理非平衡数据集——SMOTE算法

SMOTE全称是Synthetic Minority Oversampling Technique即合成少数类过采样技术,它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(Specific)而不够泛化(General),SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本...

2018-08-06 20:12:19 2719

转载 随机森林和GBDT的区别

一,随机森林随机森林是一个用随机方式建立的,包含多个决策树的集成分类器。其输出的类别由各个树投票而定(如果是回归树则取平均)。假设样本总数为n,每个样本的特征数为a,则随机森林的生成过程如下:从原始样本中采用有放回抽样的方法选取n个样本; 对n个样本选取a个特征中的随机k个,用建立决策树的方法获得最佳分割点; 重复m次,获得m个决策树; 对输入样例进行预测时,每个子树都产生一个结果,...

2018-08-06 19:52:25 421

转载 hive基本概念原理与底层架构

Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。术语“大数据”是大型数据集,其中包括体积庞大,高速,以及各种由与日俱增的数据的集合。使用传统的数据管理系统,它是难以加工大型数据。因此,Apache软件基金会推出了一款名为Hadoop的解...

2018-08-06 14:22:57 8860 1

原创 PySpark tutorial 学习笔记6——Serializers

SerializersSerializers用于Apache Spark的性能调优。 通过网络发送或写入磁盘或持久存储在内存中的所有数据都应该序列化.PySpark支持用于性能调优的自定义序列化程序。 PySpark支持以下两个序列化程序 - MarshalSerializer使用Python的Marshal Serializer序列化对象。 此序列化程序比PickleSeriali...

2018-07-25 11:09:58 476

原创 剑指offer:顺时针打印矩阵(Python)

题目描述输入一个矩阵,按照从外向里以顺时针的顺序依次打印出每一个数字,例如,如果输入如下4 X 4矩阵: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 则依次打印出数字1,2,3,4,8,12,16,15,14,13,9,5,6,7,11,10.思路解法一:可以模拟魔方逆时针旋转的方法,一直做取出第一行的操作例如 1 2 34 5 6...

2018-07-24 20:08:25 2825

原创 PySpark tutorial 学习笔记5——MLlib及在协同过滤中的应用

Apache Spark提供了一个名为MLlib的机器学习API。 PySpark也在Python中使用这个机器学习API。它支持不同类型的算法,如下所述 - mllib.classification - spark.mllib包支持二分类,多分类和回归分析的各种方法。包含分类中一些最流行的算法如随机森林,朴素贝叶斯,决策树等。mllib.clustering - 聚类是一种无监督的学习问...

2018-07-24 10:39:40 908

原创 PySpark tutorial 学习笔记4——SparkConf,SparkFiles,StorageLevel

SparkConf要在本地/集群上运行Spark应用程序,需要设置一些配置和参数,这是由SparkConf提供的。 它提供运行Spark应用程序的配置。 以下代码块包含PySpark的SparkConf类的详细信息。class pyspark.SparkConf ( loadDefaults = True, _jvm = None, _jconf = None)...

2018-07-24 10:22:53 4547

原创 PySpark tutorial 学习笔记3——Broadcast&Accumulator

4 PySpark——Broadcast&Accumulator对于并行处理,Apache Spark使用共享变量。 当驱动程序将任务发送到集群上的执行程序时,共享变量的副本将在集群的每个节点上运行,以便可以将其用于执行任务。Apache Spark支持两种类型的共享变量 - Broadcast 和 AccumulatorBroadcast广播变量用于跨所有节点保存数据副本...

2018-07-23 10:30:14 860

原创 PySpark tutorial 学习笔记2——RDD

3 PySpark RDD    Resilient Distributed Datasets(RDD) 弹性分布式数据集。它们是在多个节点上运行和操作并且在集群上进行并行处理的元素。 RDD是不可变元素,这意味着一旦创建了RDD,就无法对其进行更改。 RDD也具有容错能力,因此在发生任何故障时,它们会自动恢复。 可以在这些RDD上应用多个操作来完成某项任务。对开发者而言,RDD可以看作是Sp...

2018-07-20 10:42:39 379

原创 PySpark tutorial 学习笔记1——概述,SparkContext

Spark:https://spark.apache.org/PySpark官方文档:http://spark.apache.org/docs/latest/api/python/pyspark.html1.PySpark简介1.1 Spark - 概述       Apache Spark是一个闪电般快速的实时处理框架。它可以使用内存计算以实时分析数据。由于Apache Hado...

2018-07-19 10:17:23 1830

原创 剑指offer:二维数组的查找(Python)

题目描述在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。思路:从左下角元素往上查找,右边元素是比这个元素大,上边是的元素比这个元素小。于是,target比这个元素小就往上找,比这个元素大就往右找。如果出了边界,则说明二维数组中不存在target...

2018-07-17 17:48:52 2867

原创 剑指offer:二叉搜索树的第k个结点(Python)

题目描述给定一颗二叉搜索树,请找出其中的第k大的结点。例如, 5 / \ 3 7 /\ /\ 2 4 6 8 中 按结点数值大小顺序第三个结点的值为4分析二叉搜索树的中序遍历正好是一个递增的序列, 因此中序遍历的第K个结点就是二叉搜索树的第K个节点。递归代码# -*- coding:utf-8 -*-# class TreeNode:# def __init__(self, x):#...

2018-07-11 19:43:51 1112

转载 pyspark系列--pyspark读写dataframe

pyspark读写dataframe1. 连接spark2. 创建dataframe2.1. 从变量创建2.2. 从变量创建2.3. 读取json2.4. 读取csv2.5. 读取MySQL2.6. 从pandas.dataframe创建2.7. 从列式存储的parquet读取2.8. 从hive读取3. 保存数据3.1. 写到csv3.2. 保存到parquet3.3. 写到hive3.4. 写...

2018-07-05 16:04:06 5287 1

转载 Loss优化方法:SGD,Momentum,AdaGrad,RMSProp,Adam

1. SGDBatch Gradient Descent在每一轮的训练过程中,Batch Gradient Descent算法用整个训练集的数据计算cost fuction的梯度,并用该梯度对模型参数进行更新:Θ=Θ−α⋅▽ΘJ(Θ)Θ=Θ−α⋅▽ΘJ(Θ)优点:cost fuction若为凸函数,能够保证收敛到全局最优值;若为非凸函数,能够收敛到局部最优值缺点:由于每轮迭代都需要在整个数据集上计...

2018-07-05 14:51:35 1598

原创 基于随机森林算法的贷款违约预测模型研究(Give me some credit)

本文实验代码github:https://github.com/dengsiying/give-me-some-credit/tree/master参考链接:从决策树到随机森林                 http://www.cnblogs.com/maybe2030/p/4585705.html 基于随机森林算法的贷款违约预测模型研究 摘要:如何在发放贷款前有效的评价和识别...

2018-06-19 14:55:05 25473 8

原创 剑指offer:重建二叉树(Python)

题目描述输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6},则重建二叉树并返回。思路:算法设计思想  前序遍历序列的第一个元素为根结点的值,然后在中序遍历序列中寻找根节点的值的位置(索引)。  从中序遍历序列的起始位置到根结点的值的位置...

2018-06-06 10:02:43 2209 1

原创 解决failed to push some refs to git

遇到过好几次百度解决:https://jingyan.baidu.com/article/f3e34a12a25bc8f5ea65354a.html

2018-06-05 10:54:42 141

原创 剑指offer:链表中倒数第k个结点(Python)

题目描述输入一个链表,输出该链表中倒数第k个结点。# -*- coding:utf-8 -*-# class ListNode:# def __init__(self, x):# self.val = x# self.next = Noneclass Solution: def FindKthToTail(self, head, k):...

2018-05-18 15:12:34 413

原创 剑指offer:替换空格(Python)

题目描述请实现一个函数,将一个字符串中的空格替换成“%20”。例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy。# -*- coding:utf-8 -*-class Solution: # s 源字符串 def replaceSpace(self, s): # write code here s ...

2018-05-17 13:39:06 237

原创 剑指offer:从上往下打印二叉树(Python)

题目描述从上往下打印出二叉树的每个节点,同层节点从左至右打印。# -*- coding:utf-8 -*-# class TreeNode:# def __init__(self, x):# self.val = x# self.left = None# self.right = Noneclass Solution: #...

2018-05-16 16:15:55 457

原创 剑指offer:二叉树中和为某一值的路径(Python)

题目描述输入一颗二叉树和一个整数,打印出二叉树中结点值的和为输入整数的所有路径。路径定义为从树的根结点开始往下一直到叶结点所经过的结点形成一条路径。# -*- coding:utf-8 -*-# class TreeNode:# def __init__(self, x):# self.val = x# self.left = None# ...

2018-05-15 12:52:06 1036

原创 剑指offer:合并两个排序的链表(Python)

题目描述输入两个单调递增的链表,输出两个链表合成后的链表,当然我们需要合成后的链表满足单调不减规则。# -*- coding:utf-8 -*-# class ListNode:# def __init__(self, x):# self.val = x# self.next = Noneclass Solution: # 返回合并后列表...

2018-05-14 13:05:02 108

原创 剑指offer:从尾到头打印链表(Python)

题目描述输入一个链表,从尾到头打印链表每个节点的值。# -*- coding:utf-8 -*-# class ListNode:# def __init__(self, x):# self.val = x# self.next = Noneclass Solution: # 返回从尾部到头部的列表值序列,例如[1,2,3] de...

2018-05-08 20:45:04 232

原创 剑指offer:数据流中的中位数(Python)

题目描述如何得到一个数据流中的中位数?如果从数据流中读出奇数个数值,那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值,那么中位数就是所有数值排序之后中间两个数的平均值。# -*- coding:utf-8 -*-class Solution: def __init__(self): self.data=[] def Insert(self...

2018-05-07 10:43:05 766

原创 剑指offer:数组中出现次数超过一半的数字(Python)

题目描述数组中有一个数字出现的次数超过数组长度的一半,请找出这个数字。例如输入一个长度为9的数组{1,2,3,2,2,2,5,4,2}。由于数字2在数组中出现了5次,超过数组长度的一半,因此输出2。如果不存在则输出0。class Solution: def MoreThanHalfNum_Solution(self, numbers): # write code here...

2018-05-06 18:58:31 217

原创 剑指offer:二叉树的下一个结点(python)

题目描述给定一个二叉树和其中的一个结点,请找出中序遍历顺序的下一个结点并且返回。注意,树中的结点不仅包含左右子结点,同时包含指向父结点的指针。# -*- coding:utf-8 -*-# class TreeLinkNode:# def __init__(self, x):# self.val = x# self.left = None# ...

2018-05-05 13:17:51 177

原创 剑指offer:数字在排序数组中出现的次数(python)

题目描述统计一个数字在排序数组中出现的次数。# -*- coding:utf-8 -*-class Solution: def GetNumberOfK(self, data, k): # write code here return data.count(k)

2018-05-04 09:44:48 379

原创 剑指offer:左旋转字符串(python)

题目描述汇编语言中有一种移位指令叫做循环左移(ROL),现在有个简单的任务,就是用字符串模拟这个指令的运算结果。对于一个给定的字符序列S,请你把其循环左移K位后的序列输出。例如,字符序列S=”abcXYZdef”,要求输出循环左移3位后的结果,即“XYZdefabc”。是不是很简单?OK,搞定它!# -*- coding:utf-8 -*-class Solution: def Left...

2018-05-03 14:41:14 217

原创 剑指offer:把数组排成最小的数(python)

题目描述输入一个正整数数组,把数组里所有数字拼接起来排成一个数,打印能拼接出的所有数字中最小的一个。例如输入数组{3,32,321},则打印出这三个数字能排成的最小数字为321323。思路:https://blog.csdn.net/qq_33431368/article/details/79325475# -*- coding:utf-8 -*-class Solution: def ...

2018-04-26 09:44:53 1288

原创 剑指offer:栈的压入、弹出序列(python)

题目描述输入两个整数序列,第一个序列表示栈的压入顺序,请判断第二个序列是否为该栈的弹出顺序。假设压入栈的所有数字均不相等。例如序列1,2,3,4,5是某栈的压入顺序,序列4,5,3,2,1是该压栈序列对应的一个弹出序列,但4,3,5,1,2就不可能是该压栈序列的弹出序列。(注意:这两个序列的长度是相等的)思路:python判断栈的弹出序列是否合法# -*- coding:utf-8 -*-cla...

2018-04-25 11:11:29 730

原创 剑指offer:数组中的重复数字(python)

题目描述在一个长度为n的数组里的所有数字都在0到n-1的范围内。 数组中某些数字是重复的,但不知道有几个数字是重复的。也不知道每个数字重复几次。请找出数组中任意一个重复的数字。 例如,如果输入长度为7的数组{2,3,1,0,2,5,3},那么对应的输出是第一个重复的数字2。# -*- coding:utf-8 -*-import collectionsclass Solution: #...

2018-04-24 13:45:33 925

原创 K-Means聚类算法的研究与改进

代码:https://github.com/dengsiying/K-Means-improvement.gitK-Means聚类算法的研究与改进*1(华中师范大学 计算机学院,湖北武汉430079)摘 要:K-Means算法是基于划分的聚类算法中的一个典型算法,该算法有操作简单、采用误差平方和准则函数、对大数据集的处理上有较高的伸缩性和可压缩性的优点.但是该算法还存在着一些随机初始聚类中心......

2018-04-24 13:02:21 37062 8

原创 剑指offer:数组中只出现一次的数字(python)

题目描述一个整型数组里除了两个数字之外,其他的数字都出现了两次。请写程序找出这两个只出现一次的数字。# -*- coding:utf-8 -*-class Solution: # 返回[a,b] 其中ab是出现一次的两个数字 def FindNumsAppearOnce(self, array): # write code here temp = ...

2018-04-22 09:44:54 418

深度学习DeepLearning(最新中文版)

英文版:http://www.deeplearningbook.org/ 深度学习DeepLearning(最新中文版)pdf

2018-05-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除