twscust-CSDN博客

原创 MapReduce Hello World

import ....../**单词计数Mapper类：**/public class TokenizerMapper extends Mapper<LongWritable,Text,Text,IntWritable>{ //Mapper类的四个泛型分别表示map函数输入键值对的键的类、值的类、输出键值对的键的类、值的类 private final stat...

2018-07-31 09:34:54 315

HBase是一个在HDFS上开发的面向列的分布式数据库，适合实时地随机访问超大规模数据集。HBase自底向上进行构建，能够简单地通过增加节点来达到线性扩展。HBase不是关系型数据库，不支持SQL。概念：应用把数据存放在带标签的表中，表由行和列组合成能单元格数据的插入时间戳为数据的版本。行的键和单元格内容是字节数组（字符串）。表中的行根据行的键值进行排序，所有对表的访问都要通过表的主键。行中的列被...

2018-07-07 21:22:23 299

原创 Hadoop学习系列笔记（六）：关于Hive

Hive是构建在Hadoop上的数据仓库框架。Hive设计的目的是让精通SQL技能（但Java编程技能相对较弱）的分析师能够对Facebook存放在HDFS中的大规模数据集执行查询，是一个通用的、可伸缩的数据处理平台。Hive一般在工作站上运行，它把SQL查询转换为一系列在Hadoop集群上运行的MapReduce作业。Hive把数据组织为表，元数据（如表模式）存储在metastore数据库中。H...

2018-07-07 14:07:28 382

原创 Hadoop学习系列笔记（五）：关于Pig

Pig为大型数据集的处理提供了更好层次的抽象。Pig为MapReduce提供了更丰富的数据结构，这些数据结构往往都是多值和嵌套的，Pig还提供了一套更强大的数据变换操作。Pig包括两部分：（1）用于描述数据流的语言，Pig Latin。（2）用于运行Pig Latin程序的执行环境。当前有两个环境：单JVM中的本地执行环境和Hadoop集群上的分布式执行环境。Pig Latin程序由一系列“操作”...

2018-07-06 15:09:43 435

原创 Hadoop学习系列笔记（四）：MapReduce应用开发与MapReduce的工作机制

MapReduce应用开发MapReduce编程流程：首先写map函数和reduce函数，使用单元测试确保函数的运行符合预期，然后写一个驱动程序来运行作业（可在本地IDE中用一个小数据集进行测试），最后将通过测试的程序放到集群上运行。资源文件：configuration.xml、core-default.xml、core-site.xmlMapReduce的工作流：JobControl的实例表示一...

2018-07-05 22:12:11 1668

原创 Hadoop学习系列笔记（三）：Hadoop的I/O操作

1、HDFS的数据完整性：Hadoop会对写入的所有数据计算校验和，并在读取数据时验证校验和。datanode负责在收到数据后存储该数据及其验证校验和。客户端从datanode读取数据时，也会验证校验和，将它们与datanode中存储的校验和进行比较。Datanode也会在后台线程中运行一个DataBlockScanner定期验证存储在这个datanode上的所有数据块。HDFS存储这每个数据块的...

2018-07-05 09:42:14 708

原创 Hadoop学习系列笔记（一）：Hadoop概述及MapReduce程序工作原理

Hadoop系列学习笔记基于《Hadoop权威指南》点击下载Hadoop提供了用于构建分布式系统工具（数据存储、数据分析、协调处理），是一个大数据存储和分析平台。面对大数据，人们所要做的就是数据的存储与分析工作。Hadoop提供了一个具有可靠的共享存储（HDFS）和分析系统（MapReduce）平台。HDFS实现数据的存储，MapReduce实现数据的分析和处理。HDFS和MapReduce是Ha...

2018-07-04 10:16:50 494

原创 Python-Matplotlib画图常用参数设置

作图需要，对于新手来说，网络信息多而不精，现将本人这一段作图需要的参数设置记录一下，作为注释说明。结合实现两幅子图共享x轴分析说明：font = FontProperties(fname=r"/usr/share/fonts/truetype/arphic/ukai.ttc",size=15) #设置图中字体 fig = plt.figure(facecolor='white') ...

2018-06-05 22:25:43 13811 1

转载 ML神器：sklearn的快速使用

学习，转自：https://www.cnblogs.com/lianyingteng/p/7811126.html传统的机器学习任务从开始到建模的一般流程是：获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测，分类。本文我们将依据传统机器学习的流程，看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样的。希望你看完这篇文章可以最为快速的开始你的学习...

2018-05-25 21:19:16 316

原创 windows10上使用Eclipse配置Hadoop开发环境详细步骤+WordCount示例

说明：Hadoop集群已经搭建完毕，集群上使用的Hadoop-2.5.0。目的：在window10系统上利用Eclipse配置Hadoop开发环境，编写MapReduce关联Hadoop集群。准备：JDK环境变量配置、Eclipse、hadoop-2.7.5.tar、hadoop-eclipse-plugin-2.7.3.jar、hadoop-common-2.7.3-bin-master

2018-01-18 16:00:44 14301 1

原创利用Sqoop把Oracle数据迁移到HDFS、Hive

提示：以下操作是在Xshell终端进行的，导入数据后若在Xshell终端上查看导入的数据，数据中的中文会出现乱码。要在Linux系统（最好是在可视化的Linux系统端）中去查看数据不会出现乱码。本人刚开始一直都是在Xshell上进行数据的导入、查看测试，花了一天时间解决“乱码”情况都没解决，最后才知是Xshell终端的问题，这里提示一下。一、利用Sqoop，从Oracle到HDFS第一步：把Ora

2018-01-17 15:33:07 26890 3

原创 Sqoop将Oracle数据导入HDFS时出现权限问题: Permission denied: user=root, access=WRITE,

利用Sqoop将Oracle数据导入HDFS时出现权限问题。执行列表操作能正常列出数据库中的表：sqoop list-tables --connect jdbc:oracle:thin:@IP地址:端口号:数据库 --username 用户名 --password 密码但是执行import操作则提示权限问题：sqoop import --connect jdbc:oracle

2018-01-13 17:15:01 2363

原创 KNN算法代码详细解释

K-近邻算法采用测量不同特征值之间的距离方法进行分类。适用数据范围：数值型和标称型。工作原理：存在一个样本数据集（训练样本集），且样本集中每个数据都存在标签，即知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新数据每个特征与样本集中数据对应的特征进行比较，然后提取样本集中特征最相似（最近邻）的分类标签。一般，只选择样本数据集中前K个最相似的数据，这就是K-近邻算法中的

2017-07-28 16:40:47 2544

转载 Python的模块引用和查找路径

模块间相互独立相互引用是任何一种编程语言的基础能力，运行Python应用或引用Python模块，Python解释器要有一个查找的过程。

2017-07-17 15:16:05 375

原创 oracle 利用数据泵导入导出数据

目的：使用利用数据泵，将一台电脑上的数据库导出，导入到另一台电脑上的数据库。A电脑上的操作。expdp数据导出1、运行cmd；2、登录数据库，输入命令：sqlplus system/密码；3、创建目录路径：create directory backup_path as "E:\app\tws\oradata\orcldv"; (backup_path为路径名称，可自命名，

2016-11-30 09:26:49 9059

原创 OWB创建工作区时ORA-00904:无效标识符 ORA-01919角色不存在等错误解决办法

之前一直用的是服务器上的OWB工作区，想在自己电脑上创建一个工作区，创建自己的用户，以免修改内容对服务器上的数据造成影响。捣鼓了两天，各种问题，各种查，解决了一个问题又来了一个，虐心。昨天晚上解决了一个问题，今天早上来继续捣鼓，又出现了一个问题ORA-00904:OWBSYS.WB_WORKSPACE_MANAGEMENT无效标识符，上网继续查，和OWBSYS的创建有关。于是清除owbsys，重建

2016-11-20 10:47:11 1541

原创使用Oracle创建数据库,SQL developer连接数据库简要步骤

SQL Developer 不能用于创建Oracle数据库，只能用来连接已经创建的数据库，数据库的建立要通过Database Configuration Assistant（DBCA）来完成。找到开始菜单中Oracle-OraDb11g_home1下的DBCA,打开，可依次点击“下一步”，直到第3步数据库标识，创建数据库名称和SID。（最好在创建过程中形成文档，截图自己的创建过程，包括

2016-11-09 22:05:48 29148

转载深度好文丨读完此文，就知道Hadoop了！

“昔我十年前，与君始相识。”　　一瞬间Hadoop也到了要初中择校的年龄了。　　十年前还没有Hadoop，几年前国内IT圈里还不知道什么是Hadoop，而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务。　　2006年项目成立的一开始，“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头，这个单词代表

2016-10-25 20:57:21 997

原创 Java—隐藏封装、继承

封装是面向对象三大特征之一（另外两个是继承和多态），指的是将对象的状态信息隐藏在对象内部，不允许外部程序直接访问对象内部信息，而是通过类所提供的方法实现对内部信息的操作和访问。封装，两个方面的含义：把该隐藏（属性）的隐藏起来，把该暴漏（方法）的暴漏出来。这两个方面是通过Java提供的访问控制符来实现的。Java提供了三个访问控制符：private、protect和public，分别代表三个

2015-01-12 11:43:56 998

原创 Java—成员变量和局部变量

成员变量：在类范围里定义的变量。成员变量又分为实例属性（不用static修饰）和类属性（用static修饰）。类属性和实例属性统称为成员变量。类属性在类的准备阶段开始存在，直到系统销毁这个类，类属性与类的生存范围相同。实例属性从类的实例被创建开始存在，直到系统销毁这个实例，实例属性与对应实例生存范围相同。成员变量无须显式初始化，只要定义了类属性和实例属性，则系统会在这个类的准备阶段或创建类

2015-01-11 22:38:31 512

原创 Java中的方法

Java里的方法不能独立存在，所有方法必须定义在类里。方法在逻辑上要么属于类，要么属于对象。Java中方法的定义和功能都和传统的函数相似，但二者又有着显著的不同：在结构化编程中，函数是一等公民，整个软件由一个个函数组成；在面向对象的编程中，整个系统是由一个个类组成。所以在java中方法必须属于类或对象，不能单独存在。所以方法不能像函数那样被独立执行，执行方法时必须使用类或对象来作为调用者。

2015-01-11 16:22:27 561

原创 Java——对象的生成和使用

创建对象根本途径：构造器。通过new 关键字调用类的构造器创建类的实例（对象）new 构造器；返回的是一个对象、实例、实体。对象和类定义的变量不同，类定义的变量是对象的引用，存放的是对象的地址，指向对象。用一个统一的标示符是为了方便处理对象的属性、行为。类名变量名 = new 构造器; //new 构造器：返回一个对象；变量名：对象的引用。变量名.info();

2015-01-11 15:01:26 603

转载为什么静态成员不能访问非静态成员

首先static的成员是在类加载的时候初始化的，JVM的CLASSLOADER的加载，首次主动使用加载，而非static的成员是在创建对象的时候，即new 操作的时候才初始化的；先后顺序是先加载，才能初始化，那么加载的时候初始化static的成员，此时非static的成员还没有被加载必然不能使用，而非static的成员是在类加载之后，通过new操作符创建对象的时候初始化，此时s

2015-01-10 23:17:49 666

原创 Android多线程笔记

Android多线程在Java中开发自己的线程主要有两种方式，一是继承自Thread类，另一种是实现Runnable接口。1、继承Thread类如果一个类直接继承Thread类，则该类就是一个线程类，继承这个Thread类需要重写run()方法，然后再run()方法内写需要做的事情，通过Thread类的start()方法启动这个线程。继承Thread类的基本语法如下：class

2013-09-24 20:08:51 765

HADOOP权威指南中文版第3版-带目录标签

介绍了Hadoop框架及其生态系统，包括Avro、MapReduce、HDFS、Pig、Hive、HBase、ZooKeeper、Sqoop、Oozie等。较为系统全面，是学习Hadoop的好资料。

2018-07-04

《神经网络与深度学习》【吴岸城】PDF下载

【更多关于《神经网络、深度学习》资料，加qq群:851916415领取！】神经网络，机器学习入门级教程，浅显易懂。《神经网络与深度学习》，吴岸城，著。

2018-04-23

Spark机器学习(Machine Learning with Spark)作者[南非]Nick Pentreath

下载后解压。作者[南非]Nick Pentreath 。蔡立宇、黄章帅、周济民译。本书每章都设计了案例研究，以机器学习算法为主线，结合实例探讨了Spark 的实际应用。书中没有让人抓狂的数据公式，而是从准备和正确认识数据开始讲起，全面涵盖了推荐系统、回归、聚类、降维等经典的机器学习算法及其实际应用。本书适合互联网公司从事数据分析的人员，以及高校数据挖掘相关专业的师生阅读参考。第1章：spark的环境搭建与运行；第2章：设计机器学习系统；第3章spark上数据的获取、处理与准备；第4章构建基于spark的推荐引擎；......

2018-01-22

TA关注的人

HADOOP权威指南中文版 第3版-带目录标签

《神经网络与深度学习》 【吴岸城】PDF下载

Spark机器学习(Machine Learning with Spark)作者[南非]Nick Pentreath

hadoop-common-2.7.3-bin-master包含hadoop.dll、winutils.exe

Android 开发实战经典 李兴华 课件

SQlite数据库笔记总结详解

5种音乐播放器代码

60个android开发经典案例源码

安卓开发字体、背景颜色大全

Android开发提高十六技

一个Demo让你学会掌握Android所有控件

把apk安装到安卓模拟器上的方法

Android EditText属性描述

Android Toast 大全

有关android进度条上文件大小的单位的问题

昨天整整弄了一天还是没解决这个问题，非常困惑（有关SQLite的问题）

HADOOP权威指南中文版第3版-带目录标签

《神经网络与深度学习》【吴岸城】PDF下载

Android 开发实战经典李兴华课件