lzxyzq-CSDN博客

转载 SQL学习资料01

1、用一条SQL 语句查询出每门课都大于80 分的学生姓名。（表结构如下图）这里写图片描述答案可以有如下两种： select distinct student_name from table_test_one where student_name not in (select distinct student_name from table_test_one where score<=

2016-09-23 13:47:22 414

转载 SQl--学习资料

1、用一条SQL 语句查询出每门课都大于80 分的学生姓名。（表结构如下图）答案可以有如下两种：select distinct student_name from table_test_one where student_name not in (select distinct student_name from table_test_one where score或者

2016-09-23 11:29:57 356

转载深入对比数据科学工具箱：Python和R 非结构化数据的结构化

概述在现实场景中，由于数据来源的异构，数据源的格式往往是难以统一的，这就导致大量具有价值的数据通常是以非结构化的形式聚合在一起的。对于这些非结构化数据，最常见的数据结构就是JSON，而对应的数据库就是MongoDB。利用MongoDB这样的NoSQL数据库，我们可以把异构的数据源整合到若干个collection中，通过key-value的形式对数据进行增删改查。虽然MongoDB在数据聚合上有天然的

2016-08-08 10:52:58 1700

转载 Java中的IO流系统详解

Java中的IO流系统详解Java 流在处理上分为字符流和字节流。字符流处理的单元为 2 个字节的 Unicode 字符，分为操作字符、字符数组或字符串，而字节流处理单元为 1 个字节，操作字节和字节数组。Java 内用 Unicode 编码存储字符，字符流处理类负责将外部的其他编码的字符流和 java 内 Unicode 字符流之间的转换。类 InputStreamReader 和 OutputS

2016-05-13 17:21:04 699

原创 equals和hashCode方法详解

Java中的equals和hashCode方法详解Java中的equals方法和hashCode方法是Object中的，所以每个对象都是有这两个方法的，有时候我们需要实现特定需求，可能要重写这两个方法。equals()和hashCode()方法是用来在同一类中做比较用的，尤其是在容器里如set存放同一类对象时用来判断放入的对象是否重复。equals()相等的两个对象，hashcode()一定相等，e

2016-05-13 14:42:46 368

转载常用集合ArrayList,LinkedList,HashMap,HashSet源码分析

常用集合ArrayList,LinkedList,HashMap,HashSet源码分析（一）ArrayList，可自动扩充容量的动态数组public class ArrayList<E> extends AbstractList<E> implements List<E>, RandomAccess, Cloneable, java.io.Serializable { pr

2016-05-13 13:55:19 431

转载深入学习集合之HashMap实现原理

深入学习集合之HashMap实现原理1. HashMap概述：HashMap是基于哈希表的Map接口的非同步实现。此实现提供所有可选的映射操作，并允许使用null值和null键。此类不保证映射的顺序，特别是它不保证该顺序恒久不变。2. HashMap的数据结构：在Java编程语言中，最基本的结构就是两种，一个是数组，另外一个是模拟指针（引用），所有的数据结构都可以用这两个基本结构来构造的

2016-05-13 11:35:45 1057

原创 Hadoop 提取KPI 进行海量Web日志分析

Hadoop 提取KPI 进行海量Web日志分析Web日志包含着网站最重要的信息，通过日志分析，我们可以知道网站的访问量，哪个网页访问人数最多，哪个网页最有价值等。一般中型的网站(10W的PV以上)，每天会产生1G以上Web日志文件。大型或超大型的网站，可能每小时就会产生10G的数据量。Web日志分析概述需求分析：KPI指标设计算法模型：Hadoop并行算法架构设计：日志KPI系统架构程序

2016-05-12 23:59:32 12347 5

原创 Hadoop集群WordCount详解（二）

Hadoop WorkCount详解（二）源代码程序WorkCount处理过程1、源代码程序package org.apache.hadoop.examples;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.ap

2016-05-07 20:58:35 1457 1

原创 Hadoop集群WordCount详解

Hadoop集群WorkCount详解MapReduce理论介绍MapReduce处理过程MapReduce代码1.MapReduce 理论介绍1.1 MapReduce编程模型 MapReduce采用”分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是”任务的分解与结果的汇

2016-05-07 17:13:34 3622

原创 Hadoop HDFS Tools

Hadoop HDFS Toolspackage cn.buaa;import java.io.ByteArrayOutputStream;import java.io.IOException;import java.io.InputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FS

2016-05-06 20:34:10 2714

原创堆排序

堆排序package com.buaa.algorithm.sort;public class d3HeapSorted { //节点k进行筛选 //a:堆数据，n:堆中有效数据个数，k待筛选节点 static void heapOne(int[]a,int n,int k){ int k1 = 2*k + 1; int k2 = 2*k +

2016-05-06 20:20:23 313

原创归并排序

归并排序package com.buaa.algorithm.sort;/** * 归并排序 * @author lzxyzq * */public class d2mergesorted { static int[]merge(int[]a,int[]b){ int[]x = new int[a.length+b.length]; int ai=0

2016-05-06 19:22:58 244

原创二叉树的创建与三种形式的遍历

二叉树的创建与三种形式的遍历创建二叉树前序遍历中序遍历后序遍历> package btree; //创建二叉树并遍历 public class BinaryTree { private Node root; /** * 内部节点类 * @author lzxyzq */ private class Node{

2016-05-06 19:10:42 303

转载 Hadoop小文件合并

1、背景　　在实际项目中，输入数据往往是由许多小文件组成，这里的小文件是指小于HDFS系统Block大小的文件（默认128M），然而每一个存储在HDFS中的文件、目录和块都映射为一个对象，存储在NameNode服务器内存中，通常占用150个字节。如果有1千万个文件，就需要消耗大约3G的内存空间。如果是10亿个文件呢，简直不可想象。所以在项目开始前，我们选择一种适合的方案来解决本项目的

2016-05-04 20:17:05 14382 2

原创 HDFS 基本文件操作API

HDFS 基本文件操作API：按照“创建、打开、获取文件信息、获取目录信息、读取、写入、关闭、删除”的顺序讲解Hadoop 提供的文件操作的API。1.创建文件FileSystem.create 方法有很多种定义形式，是参数最多的一个：public abstract FSDataOutputStream create(Path f, FsPermission permiss

2016-05-04 19:39:31 4792 1

原创 HDFS高级操作命令和工具

HDFS高级操作命令和工具本文讲解HDFS 的一些高级操作功能，以及通过web 方式查看HDFS 信息的方法。1. archive在本地文件系统中，如果文件很少用，但又占用很大空间，可以将其压缩起来，以减少空间使用。在HDFS 中同样也会面临这种问题，一些小文件可能只有几KB 到几十KB，但是在DataNode 中也要单独为其分配一个几十MB 的数

2016-05-04 17:41:27 3702

原创 HDFS 文件操作命令格式与注意事项

一、HDFS 文件操作命令格式与注意事项HDFS 文件系统提供了相当多的shell 操作命令，大大方便了程序员和系统管理人员查看、修改HDFS 上的文件。进一步，HDFS 的操作命令和Unix/Linux 的命令名称和格式相当一致，因而学习HDFS 命令的成本也大为缩小。HDFS 的基本命令格式如下：bin/hadoop dfs–cmd 这里cmd 就是具体的命令，记住cmd

2016-05-04 16:42:49 2600

原创 HDFS 启动与关闭

一.HDFS 启动与关闭HDFS 和普通的硬盘上的文件系统不一样，是通过Java 虚拟机运行在整个集群当中的，所以当Hadoop 程序写好之后，需要启动HDFS 文件系统，才能运行。HDFS 启动过程如下：1）进入到NameNode 对应节点的Hadoop 安装目录下。2）执行启动脚本： bin/start-dfs.sh 这一脚本会启动NameNode，

2016-05-04 16:35:14 13934

原创 HDFS 可靠性的设计实现

1. 安全模式HDFS 刚刚启动时，NameNode 会进入安全模式（safe mode）。处于安全模式的NameNode不能做任何的文件操作，甚至内部的副本创建也是不允许的。NameNode 此时需要和各个DataNode 通信，获得DataNode 保存的数据块信息，并对数据块信息进行检查。只有通过了NameNode 的检查，一个数据块才被认为是安全的。当认为安全的数据块所占的比例达到

2016-05-04 16:00:42 841

原创 HDFS 文件操作基础命令

bin/hadoop dfs–cmd 1. cat格式：hadoop dfs-cat URI [URI …]作用：将参数所指示的文件的内容输出到stdout。示例：hadoop dfs -cat hdfs:// nn1.example.com/file1 hdfs:// nn2.example.com/file2hadoop dfs -cat file:/// file3

2016-05-04 15:10:37 569

原创信息检索的评价指标(Precision, Recall, F-score, MAP、ROC、AUC）

一：Precision, Recall, F-score 信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate------注意统计学习方法中precesion称为精确率，而准确率为accuracy 是分类正确的样本除以总样本的个数)，召回率也叫查全率，准确率也叫查准率，概念公式:

2016-05-04 11:33:27 5495

转载 Numpy中矩阵对象（matrix）

>>> a = np.matrix('1 2 7; 3 4 8; 5 6 9')>>> a #矩阵的换行必须是用分号(;)隔开，内部数据必须为字符串形式(‘ ’)，矩matrix([[1, 2, 7], #阵的元素之间必须以空格隔开。[3, 4, 8],[5, 6, 9]])>>> b=np.array([[1,5],[3,2]])>>> x=np

2016-04-20 21:46:04 474

原创百度2014笔试算法题

给定一个如下格式的字符串(1,(2,3),(4,(5,6),7))括号内的元素可以是数字，也可以是另一个括号，请实现一个算法消除嵌套的括号，比如把上面的表达式变成：(1,2,3,4,5,6,7)，如果表达式有误请报错。public class test { static String zhuanhua(String s){ Pattern pt = Pattern.co

2016-02-29 21:47:15 543

转载 Hibernate 的三种状态

学过hibernate的人都可能都知道hibernate有三种状态，transient(瞬时状态)，persistent(持久化状态)以及detached(离线状态)，大家伙也许也知道这三者之间的区别，比如瞬时状态就是刚new出来一个对象，还没有被保存到数据库中，持久化状态就是已经被保存到数据库中，离线状态就是数据库中有，但是session中不存在该对象。但是大家又是否对hibernate的ses

2015-12-30 11:13:21 317

原创 Ubuntu 14.04 安装搜狗输入法

今天安装Linux 搜狗输入法先添加以下源sudo add-apt-repository ppa:fcitx-team/nightly添加源之后需要更新一下系统sudo apt-get update然后就可以开始安装fcitx了( Free Chinese Input Toy for X )sudo apt-get install fcitx接着

2015-11-30 22:10:22 377

原创在Ubuntu下搭建Python以及相关组件

在Ubuntu上安装Python软件包点击左上角的搜索按钮，在输入框里输入“Terminal”，弹出命令行界面。双击终端图标启动终端：*Ubuntu中的终端界面所有后续的命令都在此终端输入。任何崭新的Ubuntu Linux系统上做的第一件事就是更新和升级软件包。前者告诉Ubuntu可用的新软件包有哪些，后者用新版的软件包替换旧版的。运行下列命令（你

2015-11-28 21:01:05 515

转载 JAVA中Properties类的操作

java中的properties文件是一种配置文件，主要用于表达配置信息，文件类型为*.properties，格式为文本文件，文件的内容是格式是"键=值"的格式，在properties文件中，可以用"#"来作注释，properties文件在Java编程中用到的地方很多，操作很方便。java.util.Properties是对properties这类配置文件的映射。支持key-value

2015-11-05 10:25:28 244

lzxyzq的博客