诗蕊-CSDN博客

原创 python进程（一）

文章目录多任务编程进程进程的优先级父子进程进程相关的函数os.getpid()os.getppid()os._exit(status)sys.exit([status])僵尸进程处理僵尸进程的方法os.wait()os.waitpid(pid, option)创建二级子进程处理在父进程中使用信号处理的方法，忽略子进程发来的信号孤儿进程多任务编程可以有效的利用计算机资源，同时执行多个任务进程...

2019-07-10 17:53:12 615

文章目录循环神经网络与前馈神经网络的异同点RNN的展开模型基于时间的反向传播算法调整$W_y$所需的梯度计算：调整$W_s$所需的梯度计算：调整$W_x$所需的梯度计算循环神经网络与前馈神经网络的异同点循环神经网络的原则与前馈神经网络相同，但是也有以下两个主要区别，循环神经网络使用：1. 序列作为训练阶段的输入。2. 记忆要素存储是隐藏层神经与的输出，在接下来训练步骤中将作为网络的额外输入。...

2019-03-04 16:53:14 2780

原创 tensorflow卷积层&池化层

文章目录卷积层池化层tensorflow 最大池化卷积层tensorflow提供了tf.nn.conv2d()和tf.nn.bias_add()函数来创建卷积层下面示例用tf.nn.conv2d()函数来创建一个卷积层# Output depthk_output = 64# Image Propertiesimage_width = 10image_height = 10col...

2019-01-31 14:13:28 1469

原创 CIFAR-10数据集下载及转换

keras中提供的cifar10数据集可能因为网速等问题无法直接下载读取，可以进入官网下载到本地，网址：http://www.cs.toronto.edu/~kriz/cifar.html，这里我们下载python版本的。将下载的tar.gz形式的文件解压，放到想要存放数据文件的文件夹中，这里我的文件存放位置为"/Users/shiruihuo/Documents/study/深度学习/da...

2019-01-21 16:36:37 6293

原创 keras中的卷积层&池化层

文章目录卷积层创建卷积层卷积层的格式及参数：卷积层中的参数数量卷积层的形状池化层keras中的最大池化层参数卷积层创建卷积层首先导入keras中的模块from keras.layers import Conv2D卷积层的格式及参数：Conv2D(filters, kernel_size, strides, padding, activation='relu', input_shape...

2019-01-21 09:19:32 6717

原创 MySQL学习笔记二

文章目录数据导入数据导出数据导入作用：将文件系统的内容导入到数据库中语法格式：load data infile “文件名”into table 表名fields terminated by “分隔符”lines terminated by “分隔符”把/etc/passwd导入到mysql数据库中操作步骤：(1) 在数据库中创建对应的表(2) 查看数据库的默认搜索路径s...

2019-01-20 11:40:06 221

原创 MySQL学习笔记一

文章目录MySQL概述MySQL概述什么是数据库：数据库就是一个存储数据的仓库MySQL特点：(1) 关系型数据库关系型数据库特点：数据是以行和列的形式存储的；这一系列的行和列称为表；表中的每一行叫作一条记录；表中的每一列叫作一个字段；表和表之间的逻辑关联叫作关系；关系型数据库的核心内容是关系，即二维表示例：(1) 关系型数据库存储表1 学生信息表姓名年龄班级小猫猫 ...

2018-12-16 16:19:18 363 3

原创资源管理与调度系统YARN(YARN基本架构及原理)

文章目录why YARNMRv1 局限性YARN设计动机YARN 设计思想YARN 基本架构hadoop 2.0引入了数据操作系统YARN，YARN能够将资源按需分配给各个应用程序，大大提高了资源利用率，其次，YARN将短作业和长作业混合部署到一个集群中，并提供了容错、自愿隔离及负载均衡等方面的支持，大大简化了作业和服务的部署和管理成本。why YARNMRv1 局限性可靠性差：MRv1...

2018-12-16 15:18:33 1702

原创分布式协调服务ZooKeeper

文章目录分布式协调服务的存在意义leader 选举负载均衡ZooKeeper 数据模型层级命名空间WatcherSessionZooKeeper 基本架构ZooKeeper 应用leader 选举分布式队列负载均衡在分布式系统中，服务之间的协调是非常重要的，分布式系统中的leader选举、分布式锁、分布式队列等都需要通过协调服务实现。Hadoop生态系统提供了ZooKeeper。ZooKeepe...

2018-12-14 08:08:07 398

原创 Xgboost存储为pmml以及在java中调用

首先，我们构建一个xgboost模型并存储为PMML形式，使用到的包是sklearn2pmml，可以将sklearn中的模型保存为PMML的形式import pandas as pdfrom xgboost.sklearn import XGBClassifierfrom sklearn2pmml import PMMLPipelinefrom sklearn_pandas import ...

2018-12-11 11:02:33 3884

原创 Python学习笔记九

文章目录迭代器函数的重写异常(with)环境管理器对象的属性管理函数运算符重载反向算术运算符的重载迭代器函数的重写迭代器：可以用next(it)函数取值的对象就是迭代器迭代器协议：迭代器协议是指对象能够使用next函数获取下一项数据，在没有下一项数据触发一个StopIterator来终止迭代的约定实现方法：类内需要有__next__(self)方法来实现迭代器协议语法形式：class...

2018-12-02 22:11:44 378

原创 Python学习笔记八

面向对象(object)编程对象是指现实中的物体或实体面向对象：把一切看成对象(实例)，让对象和对象之间建立关联关系对象的特征：对象有很多的属性(名词: 姓名，性别，年龄)；对象有很多行为(动词: 学习，吃饭，睡觉，看书)类：类是拥有相同属性和行为的对象分为一组，即为一个类，类是用来描述对象的工具，用类可以创建同类对象。...

2018-11-29 08:43:50 359 2

原创 Python学习笔记七

字节串bytes和字节数组bytearray字节串bytes作用：存储以字节为单位的数据说明：字节串是不可变的字节序列，字节是0-255之间的整数创建空字节串的字面值：b’’b&amp;amp;amp;quot;&amp;amp;amp;quot;b’’’’’’b&amp;amp;amp;quot;&amp;amp;amp;quot;&amp;amp;amp;quot;&amp;amp;amp;q

2018-11-15 12:45:14 350

原创 Python学习笔记六

文章目录异常(exception)try语句的两种用法异常(exception)什么是错误：错误是指由于逻辑或语句等导致一个程序无法正常秩序的问题特点：有些错误是无法预知的什么是异常：异常是程序出错时标识的一种状态，当异常发生时，程序不会再向下执行，而转去调用此函数的地方待处理此错误并恢复为正常状态。异常的作用：(1) 通知上层调用者有错误产生需要处理(2) 用作信号try语句的两...

2018-11-08 09:37:17 362

原创 Python学习笔记五

系统模块 sys系统模块全都是运行时系统相关的信息import syssys.path # 模块搜索路径 path[0] 是当前脚本程序的路径sys.modules # 已加载模块的字典sys.version # 版本信息sys.version_info # 版本信息的命名元组sys.platform # 操作系统平台名称信息sys.a...

2018-11-04 18:19:39 461

原创 python 学习笔记四

文章目录装饰器 decorators装饰器 decorators函数装饰器是指装饰的一个函数，传入的是一个函数，返回的也是一个函数的函数函数装饰器的语法：def 装饰器函数名(参数):语句块return 函数对象被装饰函数的语法：@装饰器函数名def 函数名(形参列表)：语句块示例：# 定义一个装饰器函数def mydeco(fn): def fx(): ...

2018-10-31 18:31:44 352

原创 Pyhton学习笔记三

函数

2018-10-28 09:38:04 1731

原创 python学习笔记二

列表的字符串文本解析方法split和joins.split(sep=None)将字符串使用sep作为分隔符分割s字符串，返回分割后的字符串的列表，当不给定参数时，用空白字符作为分隔符进行分割。s.join(iterable)用可迭代对象中的字符串，返回一个中间用s进行分割的字符串示例：s = 'beijing is capital'l = s.split(' ') ...

2018-10-10 16:34:30 372

原创 Python 学习笔记一

python 的运行：python 的执行与C或C++不同，C和C++可以直接编译成机器能够识别二进制的机器指令，运行效率会非常高。而Python是依赖解释执行器的，没有真正的生成计算机的机器指令，所以运行效率不高。 python的解释执行器： CPython(python3) ：是由C语言写的 Jython：是由java写的 IronPython：是由.net写的...

2018-10-06 10:28:38 843 2

原创 linux 常用命令(二)

sublime text3启动命令：subl subl 文件名 subl 文件夹名例如我们要打开一个文件，可以在终端输入subl 文件名，如图：同样我们可以使用subl 文件夹名来打开文件夹，如图： sublime的快捷键： (1) 打开和隐藏侧边栏：View -&amp;gt; Side Bar -&amp;gt; Sh...

2018-09-13 20:33:35 480

原创 Linux 常用命令(一)

linux的基本结构：(1)应用程序 (2)应用程序标准库 (3)Linux操作系统内核，操作系统内核负责和硬件交互。 (4)硬件这四层一定是上层依赖下层的关系。Linux/Unix 常用命令退出终端： (1). $ exit (2). ctrl + dls # 显示当前文件夹下的所有文件，也可以使用ls .ls -s # 列表显示所有文件pw...

2018-09-11 21:02:18 463

原创 Python-多态

面向对象的三大特性： 1. 封装：封装是根据职责将属性和方法封装到一个抽象类中，是定义类的准则，在python面向对象基础语法和面向对象封装案例中详细介绍过。 2. 继承：继承实现了代码的重用，相同的代码不需要重复的表现，同时当父类不能满足子类的需求时，可以在子类中对父类进行重新。在 Python-继承单继承&多继承中介绍过。 3. 多态：多态实现了不同的子类对象调用相同的父类方法...

2018-09-08 09:52:22 450

原创 Python-继承(单继承&多继承)

面向对象有三大特性：封装、继承和多态封装：根据职责将属性和方法封装到一个类中继承：可以实现代码重用，相同的代码不需要重复编写多态：不同的对象调用相同的方法，产生不同的执行结果，增加代码的灵活度为什么需要继承首先我们看以下的一个例子我们有以下几个类：Animal:其中封装了drink, eat, run 和sleep四个方法, Dog：其中也封装了eat, drink, ...

2018-09-07 20:26:56 3275

原创标签传播算法(Label Propagation Algorithm)

半监督学习(Semi-supervised Learning SSL)半监督学习是一种有监督学习和无监督学习想结合的一种方法，其主要思想是基于数据分布上的模型假设，利用少量的已标注数据进行指导并预测未标记数据的标记，并合并到标记数据集中去。标签传播算法的基本思路标签传播算法是基于图的半监督学习方法，基本思路是从已标记的节点的标签信息来预测未标记的节点的标签信息，利用样本间的关系，建...

2018-09-03 19:55:33 29655 10

原创面向对象封装案例

封装是面向对象编程的一大特点，面向对象编程的第一步就是将属性和方法封装到一个抽象的类中。外界使用类创建对象，然后让对象调用方法，而对象方法的细节都被封装在类的内部。在对象的方法内部是可以直接访问对象的属性的。1. 例如我们有如下需求：（1）. 小明体重75.0公斤（2）. 小明每次跑步会减肥0.5公斤（3）. 小明每次吃东西体重增加1公斤首先我们对需求进行分析，要完成以上需...

2018-09-02 12:38:28 1217

原创 python面向对象基础语法

定义简单的类定义只包含方法的类class 类名： def 方法1(self, 参数列表): pass def 方法2(self, 参数列表): pass方法的定义格式几乎和函数一样，但是第一个参数必须是self, 类名的命名规则要符合大驼峰命名法并且类名第一个字母要大写 2. 创建对象对象变量 = 类名()简单的面向对象例...

2018-08-31 12:01:22 521

原创 h2o-genmodel.jar加载模型编译运行

h2o生成模型import h2ofrom h2o.automl import H2OAutoMLh2o.init()path = '/Users/huoshirui/Desktop/xyworking/pythonData/dataClean/tengxun_final.csv'tengxun_df = h2o.import_file(path)df = tengxun_df...

2018-08-25 22:59:42 924 1

原创 TVM: End-to-End Optimization Stack for Deep Learning

Optimizing Computational GraphsComputational Graph：计算图，计算图用于描绘一个整体的计算任务，会根据图中的计算任务提前分配内存，所以在计算图中做优化，即将原来的计算图转换为相同效果的计算图。例如有些计算可以提前进行然后存储在内存中在需要用的时候直接调用，这样就可以节省一部分执行的时间。下图描述了一些计算图优化的例子： Operator F...

2018-08-22 15:58:33 3203 1

原创 softmax函数和交叉熵损失函数

在CNN中，全连接层后会加上softmax函数，并且一般用交叉熵函数作为损失函数。这篇文章主要记录softmax把CNN的输出变成概率的过程以及交叉熵如何为优化过程提供度量，并且用python实现。softmax函数softmax函数将一个N维向量的输入的每一维都转换成区间维（0，1）之间的一个实数，公式如下： pi=eai∑Nk=1eakpi=eai∑k=1Nekap_i=\frac{...

2018-08-11 16:27:26 6580

原创对深度学习卷积操作的理解

本文介绍对了对卷积核、滤波器、通道等概念的理解。二维卷积二维卷积就是卷积核（指的是一个小的权值矩阵）在二维输入数据上滑动遍历整张图片，对当前输入的部分元素进行矩阵乘法，将一个二维矩阵转换为另一个二维矩阵，然后将结果输出，输出特征实际上是在输入数据相同位置上的加权和。下图是一个标准的卷积：从上面的描述可知，卷积核的尺寸直接决定了生成新的特征是汇合了多少个输入特征，在上图中，我们输入的...

2018-07-22 09:00:12 1538

原创 pyspark特征工程常用方法（一）

本文记录特征工程中常用的五种方法：MinMaxScaler，Normalization，OneHotEncoding，PCA以及QuantileDiscretizer 用于分箱原有数据集如下图： 1. MinMaxScalerfrom pyspark.ml.feature import MinMaxScaler# 首先将c2列转换为vector的形式vecAssembler ...

2018-07-11 19:28:04 11244 2

原创 pyspark构建简单模型(RandomForest&LogisticRegression)

本文记录了用pyspark构建一个简单的模型的过程。1. 读取数据集from pyspark.sql import SparkSessionfrom pyspark.ml.feature import StringIndexerfrom pyspark.ml.classification import LogisticRegressionfrom pyspark.ml impor...

2018-07-11 05:29:24 4225

原创图像篡改痕迹检测：Adobe双流Faster R-CNN网络

为了检测图像是否被篡改，Adobe在最近的论文中提出了一种双流Faster R-CNN网络，对图像进行端对端的训练，检测经过处理图像中被篡改的区域。双流中的一个流是RGB流，用于从RGB图像输入中提取特征，通过对比度差异、不自然边界等找出篡改的痕迹。另一个流是噪声流，利用SRM(steganalysis rich model）模型的过滤层中提取噪声的特征，找出图像中真实区域和被篡改区域的噪声间...

2018-07-08 13:54:54 8378 1

原创 linux虚拟机中执行写好的pyspark程序

上一篇文章中已提到如何在linux中搭建pyspark环境，如果需要的同学请查看linux虚拟机搭建pyspark环境文章，本次主要讲解如何直接在环境中能够直接使用已写好的py文件直接运行。文件共享虚拟机和主机需要配置文件共享，首先将virtualbox安装增强工具，安装之前需要执行以下命令，提前安装好需要的程序yum updateyum install gccyum inst...

2018-07-01 23:54:38 2379

原创 linux虚拟机搭建pyspark环境

搭建linux虚拟机下载virtualbox，下载地址：https://www.virtualbox.org/wiki/Downloads，然后安装。下载centos操作系统，http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1804.iso，然后在virtualbox中新建虚拟机。创建名字...

2018-06-30 23:37:36 6159

原创 spark SQL and DataFrame(一)

1. SparkSession需要使用spark SQL之前需要SparkSession类，可以通过 SparkSession.builder来创建一个SparkSession。如果SparkContext已经存在，SparkSession就会重用它；如果不存在，Spark就会创建一个新的SparkContext。在每一个JVM中只能有一个SparkContext，但是在一个Spark程序中可...

2018-06-29 21:27:02 373

原创 Spark RDD （二）

在Spark RDD（一）https://blog.csdn.net/katherine_hsr/article/details/80743626中，介绍了RDD的原理，创建RDD和全局作用域和局部作用域，这里我们介绍一下RDD的操作（Operations）。我们可以通过转换来调整数据集，包括映射、筛选、连接、转换数据集中的值。 RDD支持两种类型的操作：转换：是从一个已有的数据集中建立一个...

2018-06-22 11:52:27 321

原创 Spark RDD （一）

1. RDD基本原理弹性式分布数据集RDD是Apache Spark的核心，它是一组不可变的JVM（java virtual machine）对象的分布集，可以执行高速运算。该数据集是分布式的，基于某种关键字该数据集被划分成若干块，并且分发到执行器节点，这样使得数据集能够高速执行运算。并且RDD对于每个块所做的所有转换都跟踪记录到日志中，在发生错误或者部分数据丢失时可以回退并重新进行计算，所以...

2018-06-20 11:40:40 333

原创对贝叶斯(Bayes)线性回归的理解（一）

线性回归假设:Y=β1X+β0+ϵY=β1X+β0+ϵY=\beta_1X+\beta_0+\epsilon我们假设数据具有以下形式： y=β1x+β0+ϵy=β1x+β0+ϵy=\beta_1x+\beta_0+\epsilon where ϵϵ\epsilon~N(μ,σμϵ)N(μ,σϵμ)N(\mu, \sigma_{\epsilon}^{\mu}) 这样的模型可以生产如下的数据：...

2018-05-31 17:37:04 7830 9

原创目标检测模型二：Fast-R-CNN，ROI池化

1. Fast R-CNNR-CNN需要很多候选区域以提高准确度，但是很多候选区域其实是彼此重叠的，如果我们有2000个候选区域，每一个候选区域都需要独立的送到CNN中，对于不同的ROI，我们需要提取2000次特征，效率很低。CNN的特征图是以一种密集的方式表征空间特征，我们可以直接使用特征图来代替原图来检测目标。不同于R-CNN多次对每个图像提取特征，Fast R-CNN使用特征...

2018-05-24 12:47:33 8425 3

空空如也

空空如也