自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

百年一梦

要是有来生,做一颗树可好。

  • 博客(99)
  • 资源 (1)
  • 收藏
  • 关注

原创 LDA文档主题发现R

1.# 加载rJava、Rwordseg、tm、lda库 library(rJava); library(Rwordseg); library("lda", lib.loc="~/R/win-library/3.3")library("tm", lib.loc="~/R/win-library/3.3")2.# == 读入数据 lecture=read.csv("E:\\worldcup

2017-05-09 11:28:00 1716 5

原创 ARIMA时间序列

一:基础我们可以使用sacn()函数的”skip”参数指定文件中从顶部开始有多少行需要忽略。为了将数据读入到R,并且忽略掉文件中的前三行, 我们输入以下代码: kings <- scan(“D:\test\timeseries\king.txt”,skip=3) Read 42 items kings [1] 60 43 67 50 56 42 50 65 68 43 65

2017-04-10 20:38:17 2419

原创 出现Permission denied的解决办法

得到一个以.run结尾的安装文件,赋予它可执行权限。如果开启了SElinux模块,请先禁用!如:# chmod +x NVIDIA-Linux-x86_64-295.59.run向一个目录(myResources)粘贴文件的时候,出现这样一个提示Permission denied是权限没设好,只是拷贝粘贴一个文件,怎么会这样?解决的办法:$ sudo c

2016-10-04 18:04:34 322179 4

原创 扩大R控制台的显示行数及DBSCAN包

扩大R控制台的显示行数:ptions(max.print=1000000) R语言的DBSCAN包,找到了。http://rss.acs.unt.edu/Rdoc/library/fpc/html/dbscan.html需要安装fpc包install.packages(fpc)假设使用鸢尾花数据集iris.datads 感觉R半径和最

2016-09-11 14:32:55 1370

原创 R语言三种聚类

一、距离和相似系数二、层次聚类法三、动态聚类 kmeans四、DBSCAN一、距离和相似系数r语言中使用dist(x, method = "euclidean",diag = FALSE, upper = FALSE, p = 2) 来计算距离。其中x是样本矩阵或者数据框。method表示计算哪种距离。method的取值有:euclidean

2016-09-11 11:17:42 4275

原创 聚类算法评价指标

一、Not Given Label:1、Compactness(紧密性)(CP)      CP计算 每一个类  各点到聚类中心的平均距离      CP越低意味着类内聚类距离越近      缺点:没有考虑类间效果2、Separation(间隔性)(SP)      SP计算 各聚类中心两两之间平均距离      SP

2016-09-10 17:28:31 75692

转载 linux terminator多窗口

对Linux系统进行管理时,我们经常需要通过终端窗口输入各种操作命令。在GNOME集成桌面环境下,GNOME终端(gnome-terminal)是我们经常使用的终端程序,每次运行该程序都将打开一个单独的终端窗口。当我们进行命令行操作时,有时需要打开多个终端窗口,并且希望这些窗口能同时平铺显示,那该怎么办呢?其实,借助一款小巧而实用的软件——Terminator就可以轻松实现这一功能。  使用T

2016-05-29 10:09:58 3683

转载 VMware Workstation环境下的Linux网络设置

首先介绍一下VMware的网络连接方式。我们的主机通常经过物理网卡与局域网和Internet相连接,而虚拟机既已被称之为虚拟计算机,那虚拟网卡也必然存在,而如果我们想让虚拟计算机能连接到局域网或者Internet,那就必须让虚拟网卡和主机的真实物理网卡协同起来。VMware提供了三种将虚拟网卡和物理网卡捆绑起来的方式,即桥接(Bridge)模式,网络地址转换(Network Address T

2016-05-06 18:15:56 5717

原创 解决Ubuntu 安装vim 的Package vim has no installation candidate问题,100%有效

当输入sudo apt-get install vim-gtk时出现了下面问题:nigel@yq-ubuntu:~/worksp$ sudo apt-get install vim-gtkReading package lists... DoneBuilding dependency tree      Reading state information... DonePa

2016-04-29 21:24:39 29567 3

原创 Linux 安装VMwareTools ,root登陆,权限问题

Linux 分层结构a).裸机:即硬件设备,基于裸机的开发要特别了解硬件本身,开发门槛高,开发复杂,程序不可移植,有大量的重复性工作,当然优点就是最有效的使用硬件。b).linux kemel :基于一切皆文件的理念极大的标准化和简化了基于硬件 的开发工作,同时在内核加入了任务地调度、Memory、CPU等管理极大的方便了程序的开发c).Shell:基于linux内核提供的System

2016-04-28 09:58:27 13522

转载 怎样学习大数据

·那大数据处理技术怎么学习呢?首先我们要学习Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。Java:大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢? 只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struct、Spring、Hibernate,Mybites都是JavaEE

2017-07-07 09:01:03 973

原创 5.Flume实时监控读取日志数据,存储hdfs文件系统

实时监控读取日志数据,存储hdfs文件系统,Hive 日志

2017-05-03 16:12:43 3099

原创 4.Flume三大组件Source、channel、Sink常用

参考:http://flume.apache.org/FlumeUserGuide.html#flume-sources1.Flume SourceSource类型 说明Avro Source 支持Avro协议(实际上是Avro RPC),内置支持 Thrift Source 支持Thrift协议,内置支持 Exec Source 基于Unix的command在标准输出上生产数据 J

2017-05-02 11:34:35 3530

原创 3.Flume简单应用-netcat

1.安装netcat rpm -ivh ./*.rpm重启xineted./etc/rc.d/init.d/xineted restart2.使用flume命令$ bin/flume-ng Usage: bin/flume-ng <command> [options]...commands: agent run a Flume agentglobal

2017-05-02 11:09:06 1430

原创 2.Flume安装配置

1.解压到目录tar -zxf flume-ng-1.5.0-cdh5.3.6.tar.gz -C /opt/modules/ 2.配置 (1)配置conf目录下的flume.sh,添加jdk路径 echo "$JAVA_HOME" export JAVA_HOME=/opt/modules/jdk1.7.0_67(2)Flume默认没有HDFS的Jar包,所以要把HDFSjar包导入到Flum

2017-05-02 10:18:33 401

原创 1.Flume概念,功能,架构

1.Flume概念和功能 Flume是一种分布式,可靠和可用的服务,用于高效收集,聚合和移动大量日志数据。 它具有基于流数据流的简单灵活的架构。 它具有可靠的可靠性机制和许多故障转移和恢复机制的强大和容错能力。 它使用一个简单的可扩展数据模型,允许在线分析应用程序。 Flume是Cloudera公司开发的用于实时收集服务器(apache/ngnix等)日志数据的框架,Flume很

2017-05-01 13:06:51 3782

原创 5.sqoop --options-file

For example, the following Sqoop invocation for import can be specified alternatively as shown below:$ sqoop import –connect jdbc:mysql://localhost/db –username foo –table TEST$ sqoop –options-file /us

2017-04-29 16:56:19 2107 1

原创 4.sqoop RDBMS与Hive数据互导

1.从RDBMS导入到Hive 其实是先将RDBMS数据导入到HDFS,然后在load到Hive表中。 对于parquet格式数据在sqoop1.4.6版本以后可以导入Hivebin/sqoop import \--connect jdbc:mysql://hadoop-CDH:3306/test \--username root \--password 123456 \--table

2017-04-29 16:35:13 553

原创 3.sqoop 导入到HDFS,导出到RDBMS

1.普通导入数据 bin/sqoop list-databases \ –connect jdbc:mysql://hostname:3306 \ –username root \ –password 123456 —————————————— mysql中创建表:CREATE TABLE my_user ( id tinyint(4) NOT NULL AUTO_INCREMEN

2017-04-29 11:26:18 2029

原创 2.sqoop安装配置与基本使用

1.配置 mkdir /opt/cdh-5.3.6 chown -R username:username /opt/cdh-5.3.6/ sqoop 的配置很简单,只需要配置sqoop安装目录下:sqoop_home/conf/sqoop.sh 2.基本使用 对于RDBMS中数据进行操作,少不了类似JDBC等的驱动, rdbms/mysql * jbdcurl\username

2017-04-29 11:06:12 666

原创 1.sqoop概念,功能,架构,版本

1.sqoop概念 sqoop(SQL TO HADOOP),是hadoop的协作框架之一 2.功能 对于hadoop进行大数据处理的数据来源主要有两部分 (1)关系数据库,RDBMS(Oracle,MySQL,DB2…) (2)文件(apache,nginx日志数据) hadoop 对于大数据的处理,是将数据存储在HDFS上,sqoop的功能就是将R

2017-04-29 10:37:46 6091

转载 修改hostname

Linux操作系统的hostname是一个kernel变量,可以通过hostname命令来查看本机的hostname。也可以直接cat /proc/sys/kernel/hostname查看。  #hostname  #cat /proc/sys/kernel/hostname  上面两种输出结果相同。  修改运行时Linux系统的hostname,即不需要重启系统  hostname命令可以设置系

2017-04-27 16:39:20 485

原创 Hive 创建数据库报错

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: java.net.ConnectException Call From hadoop-senior01/192.168.88.134 to hadoop-sen

2017-04-19 11:06:29 2873

原创 关闭Hadoop时no namenode to stop异常

今天遇到了在关闭hadoop集群的时候,总会跳出说no XXnode to stop,但是使用jps命令任然可以看见进程还在运行的问题。通过查看hadoop安装目录下的sbin下的脚本文件:hadoop-daemon.sh查到,输出这种错误提示的原因是找不到相关进程的pid值,仔细查看该脚本,可以发现相关pid文件是默认保存在根目录下面的/tmp目录中。可以在使用kill命令杀死hadoop相关进

2017-04-15 15:24:08 3848

原创 hadoop datanode启动不起来解决办法

当多次对namenode进行格式化不成功,并且启动不了datanode。logs里记录如下: 当我们执行文件系统格式化时,会在namenode数据文件夹(即配置文件中dfs.name.dir在本地系统的路径)中保存一个current/VERSION文件,记录namespaceID,标识了所格式化的 namenode的版本。如果我们频繁的格式化namenode,那么datanode中保存

2017-04-08 08:55:57 4439 1

原创 Hadoop安装与搭建

1首先检查系统里是否自带JDK 2.删除原jdk,安装JDK并配置环境 3.安装hadoop与HDFS 4.配置YARN

2017-04-06 10:42:39 382

原创 初识Hadoop(会飞的大象)

SQL on Hadoop 1)Hive 2)Prestore 3)Impala 基于内存 4)Phoneix(基于HBase) 5)Spark SQL 1.Hadoop是什么? 从Hadoop权威指南可以看出,Hadoop是用于对可扩展的网络数据的存储和分析。 Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大

2017-04-05 10:32:37 1015

原创 RPM与yum软件管理

rpm -qa 列出系统安装了的rpm包 rpm -qa | grep httpd 查看httpd 是否安装好 安装 : rpm -ivh 包名 卸载:rpm -e 包名 查看文件属于那个包:rpm -qf /etc/ntp.conf yum list 列出所有可以安装的包(包括已安装) yum list | grep httpd-tools 查看httpd-tools有没有装

2017-04-03 11:20:14 633

原创 Linux磁盘分区

linux中所有的设备文件都在/dev下面。 df -h 查看分区情况 fdisk -l 查看磁盘的分区情况。(系统有几个硬盘,每个硬盘的分区情况) /dev/sda —-硬盘1 sda1 —代表第一个分区 sda2—第二个分区 sda3—第三个分区 /dev/sdb —-硬盘2 sdb1 —代表第一个分区 sdb2—第二个分区 sdb3—第三个分区 /dev/sdc —-

2017-04-03 10:17:39 464

原创 Linux 基本命令

常用指令ls   显示文件或目录 所在路径:/bin/ls -l 列出文件详细信息l(list) -d 查看目录属性 -a 列出当前目录下所有文件及目录,包括隐藏的a(all)mkdir 创建目录 所在路径:/bin/mkdir -p 创建目录,若无父目录,则创建p(parent)

2017-03-28 17:31:58 517

原创 VMware虚拟机内部错误以及NAT联网问题

今天,打开Vmvare虚拟机出现内部错误,如下: 其解决办法:在宿主系统的计算机管理中找到服务和应用程序,将Vmvare相关服务启动并改为自动: 当虚拟机不能联网时检查虚拟机设置 已连接和启动时连接一定要勾选上, 如果还是不能上网,要检查宿主系统VMnet8的IP地址 IP地址一般最末一位是1,前面3位可以在虚拟网络编辑器中查看: 确定是NAT模式,前面3位就是网段 然

2017-03-28 11:42:57 460

原创 输入输出技术

输入输出技术

2016-12-19 21:26:52 1280

原创 指令系统

指令系统

2016-12-19 10:46:45 1091

原创 存储系统三

存储系统三,虚拟存储器,磁盘阵列技术

2016-12-18 11:47:21 586

原创 存储系统二

存储系统,相联存储器,高速缓存cache

2016-12-18 11:05:50 676

原创 存储系统一

存储系统、主存、磁盘存储器

2016-12-16 14:13:12 2055

原创 计算机体系结构

计算机体系结构,Flynn分类,冯式分类

2016-12-15 11:34:17 8151 1

原创 计算机系统组成与基本工作原理

计算机的组成、基本工作原理

2016-12-14 21:32:10 34802 1

原创 数据库设计原理

设计

2016-12-06 22:09:22 7746

原创 维护表

CREATE TABLE,DROP TABLE,CREATE INDEX,DROP INDEX

2016-12-06 15:13:38 463

DBSCAN-JAVA

DBSCAN-JAVA

2017-07-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除