Shadow_mi-CSDN博客

原创 scala 多线程

实例1.通过扩展Thread类以下示例扩展了Thread类并覆盖了run方法，start()方法用于启动线程。class Person(name:String, age:Int){ def showName ={ println(this.name) }}object Person{ def apply(name: String, age :I...

2020-04-01 22:18:53 382

原创 python 画图、简单报表制作

代码部分# -*- coding:utf-8 -*- #统计#运行环境python2.7#需要安装python,numpy,pandas,matplotlib等import sysreload(sys)sys.setdefaultencoding('gb18030')#sys.setdefaultencoding('utf8')import numpy

2018-01-25 16:52:47 1122

原创决策树的python实现

from math import logimport operatorclass ClassTree: def __init__(self): pass def calcShanonEnt(self,dataSet): lenDataSet = len(dataSet) labelCounts = {} for feat

2016-11-24 20:17:56 683

原创数据挖掘、机器学习领域有哪些知名的期刊或会议？

机器学习常见会议和期刊如下:机器学习领域会议：COLT、NIPS、ICML、AISTATS、UAI机器学习领域期刊：JMLR、PAMI、ML机器学习的工作也常常发表在人工智能相关会议上，比如：人工智能会议：IJCAI、AAAI人工智能期刊：AI除了机器学习和人工智能的会议，CV和NLP方面也有大量机器学习相关的工作，因此不少与机器学习相关的工作也会发在CV和

2016-11-23 14:26:43 5030

原创常用的几个误差参数

SSE(和方差、误差平方和)：The sum of squares due to error MSE(均方差、方差)：Mean squared error RMSE(均方根、标准差)：Root mean squared error R-square(确定系数)：Coefficient of determination Adjusted R-square：Degree-of-freedom a

2016-11-19 20:43:52 2736

原创神经网络中常用的激活函数

1.非线性：当激活函数是线性的时候，一个两层的神经网络就可以逼近基本上所有的函数了。但是，如果激活函数是恒等激活函数的时候（即f(x)=x），就不满足这个性质了，而且如果MLP使用的是恒等激活函数，那么其实整个网络跟单层神经网络是等价的。 2.可微性：当优化方法是基于梯度的时候，这个性质是必须的。 3.单调性：当激活函数是单调的时候，单层网络能够保证是凸函数。 f(x)≈x：当激活函数

2016-11-19 20:31:39 1083

转载 tensorflow 学习笔记1

1、tf.ones(shape,type=tf.float32,name=None) tf.ones([2, 3], int32) ==> [[1, 1, 1], [1, 1, 1]]2、tf.zeros(shape,type=tf.float32,name=None) tf.zeros([2, 3], int32) ==> [[0, 0, 0], [0, 0,

2016-11-19 20:13:03 706

转载聚类分析中几种算法的比较

将数据库中的对象进行聚类是聚类分析的基本操作，其准则是使属于同一类的个体间距离尽可能小，而不同类个体间距离尽可能大，为了找到效率高、通用性强的聚类方法人们从不同角度提出了近百种聚类方法，典型的有K-means方法、K-medoids方法、CLARANS方法,BIRCH方法等，这些算法适用于特定的问题及用户。本文综合提出了评价聚类算法好坏的5个标准，基于这5个标准，对数据挖掘中常用聚类方

2016-11-03 16:48:48 6299

原创工程师的五个等级--《硅谷之谜》读书笔记

工程师的五个等级第五等工程师：能够独立设计和实现一项功能的人。第四等工程师：具备产品头脑，具备产品设计方面的基本知识，具备一定的领导才能，能够在整个产品的生命周期从头到尾将一个产品负责到底。第三等工程师：可以做出行业里最好的产品。对客户心理了解，组织能力突出，悟性好。需要潜心五到八年才能达到。第二等工程师：能够给世界带来惊喜的人。例如第一台使用化个人电脑的沃兹尼亚克。第一等

2016-10-27 16:05:35 874

原创特征工程分析

1 特征工程是什么？　　有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。　　　　特征处理是特征工程的核心部分，sklearn提供了较为完整的特征处理方法，包括数据预处理，特征选择，降维等。首次接触到sklearn，通常会被其丰富且方

2016-10-27 11:20:50 950

转载训练神经网络的五大算法

神经网络模型的每一类学习过程通常被归纳为一种训练算法。训练的算法有很多，它们的特点和性能各不相同。问题的抽象人们把神经网络的学习过程转化为求损失函数f的最小值问题。一般来说，损失函数包括误差项和正则项两部分。误差项衡量神经网络模型在训练数据集上的拟合程度，而正则项则是控制模型的复杂程度，防止出现过拟合现象。损失函数的函数值由模型的参数（权重值和偏置值）所决定。我们可

2016-10-27 11:10:09 911

转载 HIVE 中内连接(JOIN ON) 与 LEFT SEMI JOIN 分析

由于HIVE中都是等值连接，在JOIN使用的时候，有两种写法在理论上是可以达到相同的效果的。由于HIVE中都是等值连接，在JOIN使用的时候，有两种写法在理论上是可以达到相同的效果的，但是由于实际情况的不一样，子表中数据的差异导致结果也不太一样。写法一： select a.bucket_id, a.search

2016-10-09 08:47:13 3089

Scala 访问修饰符基本和Java的一样，分别有：private，protected，public。如果没有指定访问修饰符符，默认情况下，Scala对象的访问级别都是 public。Scala 中的 private 限定符，比 Java 更严格，在嵌套类情况下，外层类甚至不能访问被嵌套类的私有成员。用private关键字修饰，带有此标记的成员仅在包含了成员定义的类或对象内部可见，同样的规则还适用内

2016-09-21 18:30:27 850

转载 Xms Xmx PermSize MaxPermSize 区别

1.参数的含义 -vmargs -Xms128M -Xmx512M -XX:PermSize=64M -XX:MaxPermSize=128M -vmargs 说明后面是VM的参数，所以后面的其实都是JVM的参数了 -Xms128m JVM初始分配的堆内存 -Xmx512m JVM最大允许分配的堆内存，按需分配 -XX:PermSize=64M JVM初始分配的非堆内存 -XX:MaxP

2016-09-18 17:00:07 507

原创 scala控制抽象

Scala程序员可以构建控制抽象：看上去像是编程语言关键字的函数。 object test{ def until(condition: => Boolean)(block: =>Unit){ if(!condition){ block until(condition)(block) } }def main(args: Array[Stri

2016-09-14 14:20:45 691

原创 scala高阶函数

1.scala中，接受函数参数，或者是返回函数的函数，被称为高阶函数。 1.1接受函数作为参数的示例：object test{ def main(args: Array[String]){ def valueAtOneQuarter(f:(Double)=>Double)=f(0.25) //该函数类型为:(Double=>Double)=>Dobule def f

2016-09-13 19:08:49 468

转载 Scala 异常处理

异常捕捉的机制与其他语言中一样，如果有异常发生，catch字句是按次序捕捉的。因此，在catch字句中，越具体的异常越要靠前，越普遍的异常越靠后。如果抛出的异常不在catch字句中，该异常则无法处理，会被升级到调用者处。捕捉异常的catch子句，语法与其他语言中不太一样。在Scala里，借用了模式匹配的思想来做异常的匹配，因此，在catch的代码里，是一系列case字句，如下例所示：impor

2016-09-07 14:13:57 2074

原创 scala 函数闭包

闭包是一个函数，返回值依赖于声明在函数外部的一个或多个变量。

2016-09-06 15:31:17 392

原创白话scala系列五匿名函数分析

匿名函数在函数式编程中经常用到，语法轻量，使用灵活。不带参数的匿名函数var noparam = () => { println("hello world unit") println("hello unit")}var func0 = new Function0[Unit]{ def apply():Unit={ println("hello world

2016-09-06 14:25:28 586

转载 Spark 算子分析

RDD提供了两种类型的操作：transformation和action1，transformation是得到一个新的RDD，方式很多，比如从数据源生成一个新的RDD，从RDD生成一个新的RDD2，action是得到一个值，或者一个结果（直接将RDD cache到内存中）所有的transformation都是采用的懒策略，就是如果只是将transformation提交是不会执行计算的，计

2016-09-02 16:14:13 602

转载 hive bucket 分析

hive bucket

2016-08-23 13:37:22 692

转载 SQL注入攻击分析

SQL注入攻击

2016-08-22 15:26:02 3116

转载 Linux查看物理CPU个数、核数、逻辑CPU个数

Linux查看物理CPU个数、核数、逻辑CPU个数

2016-08-22 15:19:08 370

转载机器学习中几种常见优化方法总结

1、梯度下降法假设f(x)是具有一阶连续偏导数的函数。要求解的无约束最优化问题是:梯度下降法是一种迭代算法，选取适当的初值x(0)，不断迭代更新x的值，进行目标函数的极小化，直到收敛。由于负梯度方向是使得函数值下降最快的方向，所以在迭代的每一步，以负梯度方向更新x的值，从而达到减少函数值的目的。f(x)具有一阶连续偏导数，若第k次迭代值为x(k),则可将f(x)在x(k)附近进行一阶泰

2016-07-12 17:22:33 3375

转载 Kaggle 手写识别题

原文链接：http://blog.csdn.net/wiking__acm/article/details/43491611 手写体数字的识别，一个比较简单的问题。主要是特征太多，所以用PCA降维处理，然后用knn就可以得到一个准确率相当不错的结果了。ipython notebook 下根据测试数据生成数字图案的代码：%pylab import pandas as pd img = pd.r

2016-07-08 11:32:36 450

转载机器学习的学习路径

一、为什么是列出一堆可以探索的书，而不是要去寻找一条路机器学习的研究和应用已经有很长的时间了。随着人类的发展，数据和计算能力都在不断的增加，因此机器学习这几年变得异常火热，很多公司开始部署相关的部门。常常在各种途径看到和多人问问题，有没有什么好的入门书籍或者资料；也看到一旦有前辈推荐一些好的学习材料的时候，很多人都在积极的下载和学习；机器学习相关的讲座也非常的火热。从2013年年初，我也开始

2016-07-05 15:58:05 4033

原创 spark 的相关配置

export HADOOP_HOME= /home/hadoop/hadoop-2.0.0-cdh4.5.0export HADOOP_CONF_DIR= $HADOOP_HOME/etc/hadoopSPARK_EXECUTOR_INSTANCES=2SPARK_EXECUTOR_CORES=1SPARK_EXECUTOR_MEMORY=400MSPARK_DRIVER_MEMORY=400MSP

2016-07-05 15:54:17 464

转载 quartz 时间配置规则

格式: [秒] [分] [小时] [日] [月] [周] [年]序号说明是否必填允许填写的值允许的通配符 1 秒是 0-59 , - * / 2 分是 0-59, - * / 3 小时是 0-23 , - * / 4 日是 1-31 , - * ? / L W 5 月是 1-

2016-07-05 15:51:47 300

转载 Linux 查看CPU信息的命令

㈠概念 ① 物理CPU 实际Server中插槽上的CPU个数物理cpu数量，可以数不重复的 physical id 有几个 ② 逻辑CPU Linux用户对 /proc/cpuinfo 这个文件肯定不陌生. 它是用来存储cpu硬件信息的

2016-07-05 15:47:39 507

转载如何成为一名数据科学家

摘自知乎一位大牛的推荐作者：谢科链接：https://www.zhihu.com/question/21592677/answer/24663656 来源：知乎“Data Science = statistics who uses python and lives in San Francisco”恰好我马上启程到Twitter的data science team，而且恰巧懂一点点统计和住

2016-07-05 10:55:50 1235

原创机器学习最佳入门学习资源

原文链接：http://suanfazu.com/t/ji-qi-xue-xi-zui-jia-ru-men-xue-xi-zi-yuan/210 如果你是一个真正的初学者，并且乐意于开始了解机器学习领域的相关知识，你可以在我的文章中找到有用的资料。我的建议是，从中挑出一件来，一本书或者是一个库，反复阅读或者认真学习所有的相关教程。挑出一个并且坚持学习，直到你完全掌握，再重新选择一个，重复这个学习

2016-07-05 10:31:30 2508

转载 Spark Shuffle实现 (转载)

原文链接：http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/ 对于大数据计算框架而言，Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Spark的shuffle实现，并将之与MapReduce进行简单对比。本文的介绍顺序是：shuffle基本概念，MapReduce Shuffle发展

2016-07-05 09:44:56 375

原创感知器的scala实现

其实感知器学习算法，就是利用第一节介绍的单层感知器。首先利用给的正确数据，计算得到输出值，将输出值和正确的值相比，由此来调整每一个输出端上的权值。公式便是用来调整权值，首先是一个“学习参数”，一般我将它设置成小于1的正数。T便是训练数据中的正确结果，便是第i个输入端的输入值，便是第i个输入端上面的权值。关于感知器的scala代码实现如下：object Perceptron{ va

2016-07-04 20:41:40 476

原创感知器的scala实现

其实感知器学习算法，就是利用第一节介绍的单层感知器。首先利用给的正确数据，计算得到输出值，将输出值和正确的值相比，由此来调整每一个输出端上的权值。公式便是用来调整权值，首先是一个“学习参数”，一般我将它设置成小于1的正数。T便是训练数据中的正确结果，便是第i个输入端的输入值，便是第i个输入端上面的权值。关于感知器的scala代码实现如下：object Perceptron{ va

2016-07-04 20:41:31 457

原创梯度下降算法、随机梯度下降算法scala实现

梯度下降和随机梯度下降是机器学习中最常用的算法之一。关于其具体的原理这里不多做介绍，网络上可以很方便的找到。例如可以参考博客：http://blog.csdn.net/woxincd/article/details/7040944 scala代码实现如下：object SGD{ /*X:输入变量 y:输入结果 learnRate:学习步长

2016-07-04 20:33:14 795

原创雅克比矩阵的scala实现

在向量分析中, 雅可比矩阵是一阶偏导数以一定方式排列成的矩阵, 其行列式称为雅可比行列式. 还有, 在代数几何中, 代数曲线的雅可比量表示雅可比簇：伴随该曲线的一个代数群, 曲线可以嵌入其中。矩阵的特征值和特征向量是线性代数以及矩阵论中非常重要的一个概念。在遥感领域也是经常用到，比如多光谱以及高光谱图像的主成分分析要求解波段间协方差矩阵或者相关系数矩阵的特征值和特征向量。根据普通线性代数中的

2016-07-04 20:25:27 856

原创白话scala系列四 scala矩阵运算和操作

在做数据挖掘和机器学习项目的时候发现矩阵运算需要经常用到，虽然Java中提供了Jama包能实现大部分需求，但是无法满足定制化需求。我们写spark程序的时候一般使用scala,所以用scala实现了一些矩阵的类。代码实现了矩阵加、乘、转置、求协方差、求平均等。后续会继续扩充，用以实现特许矩阵操作需求。class Matrix(private val data:Array[Double],privat

2016-07-04 17:34:49 8581 1

原创 spark 中如何划分stage？

1.从hdfs中读取文件后，创建 RDD 对象 2.DAGScheduler模块介入运算，计算RDD之间的依赖关系。RDD之间的依赖关系就形成了DAG 3.每一个JOB被分为多个Stage，划分Stage的一个主要依据是当前计算因子的输入是否是确定的，如果是则将其分在同一个Stage，避免多个Stage之间的消息传递开销。以下面一个按 A-Z 首字母分类，查找相同首字母下不同姓名总个数的例子来看

2016-07-04 16:06:39 12696

原创白话scala系列三 Scala编程难点解析

一直想找一篇关于scala和其他语言相比难点分析的文章，今天终于找到一篇，虽然有点啰嗦，但仔细阅读后还是会有所体会。原文链接：http://www.blogjava.net/hechi158/archive/2012/02/28/370902.html Scala难在哪里?下面是我能想出的最主要的几条： ◆ Scala想要的东西太多。你可以拿Scala像Java那样编程。这是一种福气，也是

2016-07-04 10:01:58 1320

原创白话scala系列二 scala入门的几个基本知识

上一回，大概介绍了一下为什么要学scala和要在哪里去写代码，这一回，我们来了解一下scala入门的几个基本知识。从变量定义说起。scala有两种变量，val和var。val就像Java的final,一旦初始化了就不能再改变它的值了。var则可以在变量声明周期内多次赋值。基本的类型包括哪些呢，总体来说包括Byte、Short、Int、Long和Char这些整数类型，加上Float、Double，

2016-07-02 15:48:05 661

空空如也

空空如也