汪本成-CSDN博客

原创淘淘商城---8.11

1、前台页面的搭建

2016-08-11 21:35:35 1826 3

原创淘淘商城---8.10

希望大家能尽量跟上。自己动手去实现，说实话我觉得我写的还是比较详细的，每步都写到了，有问题可以赶快给我留言，到后面没时间帮你去整理前面稀碎的知识点了。昨天最后我记得是完成了图片上传吧，那今天继续开始。1、富文本编辑器1.1、位置1.2、使用方法第一步：在jsp中加入富文本编辑器js的引用第二步：在富文本编辑器出现的位置添加一个input 类型为textarea

2016-08-11 00:23:38 3843 5

原创淘淘商城---8.9

昨天忘记给大家说了个事，昨天添加FTP服务器依赖那部分我在搭建项目开始时就已经在taotao-common的pom文件下写好了，大家可以回去看看里面添加Apache组件那部分里面就有。1、Nginx+FTP出现403错误还有就是访问nginx下的ftp图片会有我遇到的这个问题，如图：我不知道大家有没有遇到，假如遇到也不知道大家是怎么去解决的，我把我的解决可以具体点写出来

2016-08-10 01:36:07 2702 5

原创淘淘商城---8.8

今天首先要实现的是后台的商品添加功能。1、类目选择1.1、需求点击类目选择按钮弹出类目选择窗口，窗口中是一个树形视图。分级展示商品分类。当选择商品分类的叶子节点后，关闭窗口并将选中的商品分类的名称显示到网页上。1、初始化tree的url：/item/cat/list2、请求的参数Id（当前节点的id，根据此id查询子节点）3、返回数据的格式json数据：[{

2016-08-09 00:54:14 3405 6

原创安装ftp服务器

Linux安装ftp组件1 安装vsftpd组件安装完后，有/etc/vsftpd/vsftpd.conf文件，是vsftp的配置文件。[root@bogon ~]# yum -y install vsftpd2 添加一个ftp用户此用户就是用来登录ftp服务器用的。[root@bogon ~]# useradd ftpuser这样一个用户建完，可以用这个登录，

2016-08-08 23:54:32 994 2

原创淘淘商城---8.7

昨天将框架整合完成，现在我主要实现昨天的需求，实现商品的列表查询，这时要涉及到jsp和serveilet知识，不清楚的朋友可以赶紧去补充下知识。

2016-08-07 22:58:28 6062 10

原创 SparkMLlib---LinearRegression(线性回归)、LogisticRegression(逻辑回归)

1、随机梯度下降首先介绍一下随机梯度下降算法：1.1、代码一：package mllibimport org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkContext, SparkConf}import scala.collection.mutable.HashMap/**

2016-08-07 18:38:13 4557 5

原创淘淘商城---8.6

继续八月五号写的，今天努力开发这个项目。1、测试Maven工程1.1、创建欢迎页在webapp下创建一个index.jsp的欢迎页index.jsp:<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%>欢迎管理taotao-manager

2016-08-06 23:15:16 5858 21

原创 scala编程实践---类

今天实践一下scala里面类的使用，首先看下目录工程1、创建一个Person类代码一：package Demo/** * Created by 汪本成 on 2016/8/6. */class Person { var name: String = _ var age: Int = 27}object OOPInScala

2016-08-06 16:20:05 659

原创淘淘商城项目---8.5

近期复习一下多年前学习的web，现在就网上的项目来实现一个具体的商城项目，每天会持续更新，希望大家关注。1、父工程的搭建首先考虑实现时候要创建一个父工程，来统一版本，为Maven的pom工程，在父工程中定义依赖jar包的版本和Maven插件的版本信息。1.1创建工程（pom）点击完finish之后工程如下：1.2、修改pom.xml<proj

2016-08-06 00:35:19 9936 4

原创 Storm集群搭建

准备jdk1.8.0_77zeromq-4.1.4python-2.7.6libsodium-1.0.11jzmqstorm-0.9.1zookeeper-3.4.6我用的是三台ubutun系统的机器，分别是 hostname Ip

2016-08-05 19:38:33 1973

原创 SparkMLlib---SGD随机梯度下降算法

代码：package mllibimport org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkContext, SparkConf}import scala.collection.mutable.HashMap/** * 随机梯度下降算法 * Created by 汪本成 o

2016-08-05 00:52:54 2732

原创 SparkMLlib----数理统计的基本概念

基本统计量数理统计中，基本统计量包括数据的平均值、方差，这是一组求数据统计量的基本内容。在MLlib中，统计量的计算主要用到Statistics类库，如下表：类型名称释义colStats以列为基础计算统计量的基本数据chiSqTest对数据集内的数据进行皮尔逊距离计算，根据参量的不同，返回值格式有差异corr对两个数据集进

2016-08-04 23:57:09 2645

原创 SparkMLlib---基于余弦相似度的用户相似计算

package mllibimport org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkContext, SparkConf}import scala.collection.mutable.Map/** * Created by 汪本成 on 2016/8/4. */object UserSimilar

2016-08-04 21:11:55 9060

原创 SparkMLlib---Vectors、Matrix

介绍关于矩阵是我们Spark机器学习里面最重要的一部分知识之一了，今天就介绍下矩阵的使用与实战代码矩阵首先分为密集矩阵和稀疏矩阵，这个参考我之前一篇博客里面写的，还是介绍的比较详细的，不清楚的也可以去看看Spark源码里面对他们两个的定义，我主要是讲讲运用的部分，这个请直接看下面代码部分就行；然后就是本地矩阵，这个适合单机部署，很方便，运用部分也请看实战部分；最

2016-08-03 21:51:28 4401

转载 Hadoop3.0的新特性

1. Hadoop3.0简介Hadoop 2.0是基于JDK 1.7开发的，而JDK 1.7在2015年4月已停止更新，这直接迫使Hadoop社区基于JDK1.8重新发布一个新的Hadoop版本，而这正是hadoop 3.0。Hadoop 3.0的alpha版预计今年夏天发布，GA版本11月或12月发布。Hadoop 3.0中引入了一些重要的功能和优化，包括HDFS

2016-08-03 14:24:01 3154

原创进行SparkRDD各类操作----SparkMllib操作基础

就问大家什么最重要，那就是基础，这次分享的是平常我们易忽略的基础知识，RDD的各种灵活变换和操作，为了方便大家理解，我这里就写的很简单，但是大家可以从中领会他的灵活之处，就算我们以后做流式计算还是机器学习都会和肯定大部分需要的是他，这里大概我就直接代码实践给大家看，我们毕竟是追究程序的package rddimport org.apache.log4j.{Level,

2016-08-02 19:35:46 1342

原创用CnetOs7编译hadoop2.7.2

首先配置好java的环境变量，这里必须要用1.7版本，不能用1.8，我这里用的是jdk1.7.0_79,配置好环境变量后成功如图所示接着去官网分别下载maven和ant，配置好HOME和PATH，成功后如图所示接着安装protobuf-2.5.0，将下载好的protobuf-2.5.0的压缩包解压，进入解压后的问价目录执行以下命令cd protobuf-2.

2016-08-02 19:18:12 514

原创 redis配置参数说明

redis.conf 配置项说明如下：1. Redis默认不是以守护进程的方式运行，可以通过该配置项修改，使用yes启用守护进程 daemonize no2. 当Redis以守护进程方式运行时，Redis默认会把pid写入/var/run/redis.pid文件，可以通过pidfile指定 pidfile /var/run/redis.pid3. 指定Redis监听

2016-07-30 11:48:10 294

转载 Twitter发布新的大数据实时分析系统Heron

Twitter发布了新开发的数据实时分析平台Heron，以下为官方文档摘译：我们每天在Twitter上处理着数十亿的事件。正如你猜测的那样，实时分析这些事件是一个巨大的挑战。目前，我们主要的分析平台是开源的分布式流计算系统Storm。但是随着Twitter数据规模变大和多样化，我们的需求已经发生了改变。因此，我们设计了一个新系统Heron——实时分析平台，它可完全兼容Storm的API。我们在

2016-07-29 21:02:48 787

原创 python开发技巧---基于python3实现

1、列表推导式你有一个list：bag = [1, 2, 3, 4, 5]现在你想让所有元素翻倍，让它看起来是这个样子：[2, 4, 6, 8, 10]大多初学者，根据之前语言的经验会大概这样来做bag = [1, 2, 3, 4, 5] for i in range(len(bag)): bag[i] = bag[i] * 2但是有更好的方法：bag = [e

2016-07-27 22:05:25 346

原创 Android下logcat用法详解

Android日志系统提供了记录和查看系统调试信息的功能。日志都是从各种软件和一些系统的缓冲区中记录下来的，缓冲区可以通过 logcat 命令来查看和使用. 一、使用logcat命令的目的： 1、你可以用 logcat 命令来查看系统日志缓冲区的内容: [adb] logcat [] ... [] ... 详细内容，请查看Li

2016-07-25 19:38:32 1462

原创 CentOS7使用NTP进行时间同步

1. NTP时钟同步方式说明NTP在linux下有两种时钟同步方式，分别为直接同步和平滑同步：直接同步使用ntpdate命令进行同步，直接进行时间变更。如果服务器上存在一个12点运行的任务，当前服务器时间是13点，但标准时间时11点，使用此命令可能会造成任务重复执行。因此使用ntpdate同步可能会引发风险，因此该命令也多用于配置时钟同步服务时第一次同步时间时使用。平滑同

2016-07-25 13:19:18 7140

原创 spark高级数据分析---网络流量异常检测(升级实战)

在我的上一篇里我写的那个只是个人对KMeans聚类在这个项目中的一部分，今天花了很长时间写完和完整的运行测试完这个代码，篇幅很长，都是结合我前面写的加上自己完善的异常检测部分，废话不多说，直接代码实战：package internetimport org.apache.spark.mllib.clustering.{KMeansModel, KMeans}import

2016-07-24 22:14:10 8893 5

转载 Spark中使用Java编程的常用方法

原博客的链接地址为：http://blog.sina.com.cn/s/blog_628cc2b70102w9up.html ==> 点击打开链接一、初始化SparkContextSystem.setProperty("hadoop.home.dir","D:\\spark-1.6.1-bin-hadoop2.6\\spark-1.6.1-bin-hadoop2.6");Sp

2016-07-23 16:33:39 2528

原创 spark源码分析[Spark-Vectors]---Mllib.linalg.Vectors

这几天写代码一直用到这玩意就感兴趣去复习下它的源码，就想写篇博客总结一下经验，话不多说。先给大家上源码，我截取的Object Vectors的源码的一部分，如下/** * Factory methods for [[org.apache.spark.mllib.linalg.Vector]]. * We don't use the name `Vector` becau

2016-07-23 10:07:07 2377 1

原创 spark高级数据分析实战--网络流量异常检测1

项目结构图项目结构如下图所示CountClass.scalapackage internetimport org.apache.spark.mllib.clustering.{KMeans, KMeansModel}import org.apache.spark.mllib.linalg.Vectorimport org.apache.spark.r

2016-07-22 23:58:18 5533

原创 CentOS6.5下安装mysql5.5

首先是我们应该卸载掉系统自带的mysql，命令不同我说大家应该都会，照顾下新手就简单写下，我之前应为已经卸载旧不截图了root>rpm -qa|grep mysqlroot>rpm -e --nodeps 这样操之后就添加repo,不然系统默认安装还是5.1，没有什么改变root>rpm -Uvh http://mirror.steadfast.net/epel/6/i386/epe

2016-07-22 00:31:35 835

原创 nginx的安装

1 nginx安装环境 nginx是C语言开发，建议在linux上运行，本教程使用Centos6.5作为安装环境。n gcc 安装nginx需要先将官网下载的源码进行编译，编译依赖gcc环境，如果没有gcc环境，需要安装gcc：yum install gcc-c++n PCRE PCRE(PerlCompatible Re

2016-07-20 22:39:29 1042

原创 CentOS7下的mysql的安装

今天由于要安装cloudera-manager，必须得搭建好自己的数据库，我就选择了mysql，但是CentOS7我玩的少，与之前用的CentOS6.5有很大区别，就网上查了下能够正确的安装方法，一下是我总结的步骤：CentOS 7的yum源中貌似没有正常安装mysql时的mysql-sever文件，我们需要去官网上下载，在要下载的目录里依次输入下面的命令# wget http

2016-07-19 14:00:51 1488

原创 spark高级数据分析实战---随机森林实现

补充决策树那块没写完的，废话不多说，直接上代码，详解可以看注释内容package mllib.treeimport org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.evaluation.MulticlassMetricsimport org.apache.spark.mllib.linalg

2016-07-18 23:34:13 4862 7

原创 spark高级数据分析实战---用决策树预测森林植被

这是我写的这本书的第二个程序，第一个推荐系统由于时间我没及时发回头会补充给大家。

2016-07-18 22:37:22 2092

原创 IBM scala(一)-----面对对象的函数编程

一种可伸缩语言 Scala 是一种函数对象混合的语言，具有一些强大的优点：首先，Scala 可编译为 Java 字节码，这意味着它在 JVM 上运行。除了允许继续利用丰富的 Java 开源生态系统之外，Scala 还可以集成到现有的 IT 环境中，无需进行迁移。其次，Scala 基于 Haskell 和 ML 的函数原则，大量借鉴了 Java 程序员钟爱的面向对象概念。因此，它可

2016-07-13 22:50:47 369

原创常用的几种算法总结

用图结构的形式总结知识,每次都小小的总结了一下，这里集中记录一下：1、线性回归2、广义线性回归（Logistic和泊松回归）3、主成分分析4、方差分析5、决策树6、相关规则1、线性回归2、广义线性回归（Logistic和泊松回归）3、主成分分析4、方差分析5、决策树

2016-07-06 20:31:40 768

原创推荐系统实践2---修改后的电影推荐系统（基于MLlib、SparkSQL、MYSQL、HDFS）

之前写的太简单，这次加点存储和修改点代码来做次比较完善的推荐流程，但是只是基于离线，没有写实时模块，大家可以关注，接下来有时间会写到代码如下：package mllibimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.log4j.{Level, Logger}i

2016-07-06 11:41:01 1481

原创 scala集合API使用

Scala的集合框架类比Java提供了更多的一些方便的api，使得使用scala编程时代码变得非常精简，尤其是在Spark中，很多功能都是由scala的这些api构成的，所以，了解这些方法的使用，将更加有助于我们学习Scala和Spark：List,Map,Set的一些api的用法如下：package Demo/** * Created by Administrator on 20

2016-07-06 02:24:38 1165

原创 Linux上创建和更改硬链接和符号链接

概述在本篇中，学习创建和管理硬链接和符号链接。学习：创建硬或软链接识别链接并知道它们的类型理解复制与链接文件之间的区别使用链接执行系统管理任务链接简介在存储设备上，文件或目录包含在一些数据块中。有关某个文件的信息包含在一个 inode 中，它记录了所有者、最后访问该文件的时间、文件的大小、它是否是目录，以及谁可以读取或写入它等信息。inode 编号也称为文件

2016-07-06 02:05:24 18261

原创 Linux上查找和放置系统文件

概述在篇中，学习文件系统层级标准 (FHS)。学习：确定将文件放在 FHS 下的位置查找 Linux 系统上的文件和命令查找 FHS 中定义的其他重要文件和目录，并理解它们的用途文件系统层级标准通过在所有 Linux 发行版中都将文件放在同一个一般位置，FHS 简化了与发行版独立的软件开发。FHS 还可以用在 Linux Standard Base 中（参见

2016-07-06 01:43:25 3123

原创 HDFS中的关键概念（一）

简介HDFS是作为hadoop的文件系统组件，是一个高度容错性的系统。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。数据块（block）HDFS中的文件被分割

2016-07-05 23:26:21 771

原创 SparkSQL------SQL，DataFrame，DataSet

简介DataFrames在Spark-1.3.0中引入，主要解决使用Spark RDD API使用的门槛，使熟悉R语言等的数据分析师能够快速上手Spark下的数据分析工作，极大地扩大了Spark使用者的数量，由于DataFrames脱胎自SchemaRDD，因此它天然适用于分布式大数据场景。相信在不久的将来，Spark将是大数据分析的终极归宿。在Spark中，DataFrame

2016-07-05 17:03:41 1121

空空如也

空空如也