nma_123456-CSDN博客

原创 python获取时间字典

def cal(start_year, start_month, end_year, end_month): dict_year_month = {} if end_year == start_year: m = [] for i in range(start_month, end_month,1): m.append(i) dict_year_month[start_year] = m else: .

2021-09-30 11:29:30 582

原创增加隐式反馈的svd 推荐

基于svd++的java代码实现，实现了评分矩阵分解的参数计算，使用随机梯度下降，计算参数。参考：https://www.cnblogs.com/Xnice/p/4522671.htmlhttps://blog.csdn.net/zhongkejingwang/article/details/43083603推荐系统-技术、评估及高效算法import java.io.Buff...

2019-10-24 14:35:37 518

原创增加偏置项的svd推荐

本文使用基于偏置项的svd，对评分矩阵进行矩阵分解，实现用户内容推荐的评分计算。如有错误的地方，希望大家指正。package com.rec.SVDModel;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileNotFoundExcep...

2019-10-24 14:31:01 432

原创 hdfs文件系统中相互复制的java操作

引用包：importcom.dewmobile.offline.config.Configuration;importcom.dewmobile.offline.connection.HdfsConnection;importorg.apache.commons.math3.analysis.function.Abs;importorg.apache.hadoop.

2018-01-16 15:17:15 3570 1

原创 Spark升级到2.0后测试stream-kafka测试报java.lang.NoClassDefFoundError: org/apache/spark/Logging错误

在使用spark读取kafka数据时，当spark升级到2.0之后，出现如上问题：之前遇到了，当时在工程里面添加了org.apache.spark.Logging类，能够运行。但是在后期使用过程中，又遇到了相同的问题，为了一劳永逸，今天彻底把问题解决。开发环境：Idea intelligent14 + spark-2.1.0 + kafka在Idea中安装scala

2017-08-11 16:14:51 7199 6

原创读取job的历史记录

1、java类import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Iterator;import java.util.Map;import java.util.Map.Entry;import java.util.NavigableMap;import java.uti

2016-09-12 14:49:02 535

转载 Hive函数

1、Array创建数据库表，以array作为数据类型create table person(name string,work_locations array)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'COLLECTION ITEMS TERMINATED BY ',';2、Map创建数据库表create table score(

2016-09-05 14:12:15 402

原创 case when用法

1、划分时间段select deviceid,case when server_time >=20160825000000 and server_time when server_time >=20160825010000 and server_time when server_time >=20160825020000 and server_time when server_

2016-08-31 16:30:54 551

原创实践rank,dense_rank,row_number区别

1、新建表create table score(name string,subject string,score string);2、插入数据insert into score values('1','En','80'),('2','En','80'),('3','En','90'),('4','En','60'),('5','En','70'),('6','En','81'),('8

2016-08-30 11:02:59 433

原创 mapreduce的理解

1、map和reduce有时会启动两个task，这两个task完成的是同一个任务，如绿框中的红框所示，为读取的block块的索引，红色大框中的任务为任务名称，蓝色框为运行任务的主机。2、两个任务同时运行是为了提高map、reduce的运行速度，哪一个运行的快，就会将另一个任务kill掉，如图红色边框内，第二个任务被杀掉，在右侧的备注说明中，记录了被杀掉的原因，由于第一个任务已经运行完毕。

2016-08-18 16:25:29 416

原创 Thread Join学习

对于join了解，非常浅薄，今天又看到相似的代码，因此动手实践Thread.Join的真正作用。通过三个类加深对Join的了解。Thread1.javapackage com.port.test;public class Thread1 extends Thread{ public Thread1(){ super("Thread1"); } public void r

2016-07-25 17:47:01 461

原创 hive去重操作

1、建表create table lintest(id string,name string,size int);2、插入数据create table inform(id string,name string,size int);3、去重查询select ad ,sum(plus),count(distinct name,id)from (select di

2016-07-22 14:02:29 19773 2

原创 hive插入数据

新建表create table lintest(name string,id string)添加新列alter table lintest add columns(plus int)向表中插入数据insert overwrite table lintestselect uuid,deviceid,'1',count(deviceid) as num from kuaiya.

2016-07-08 15:35:31 2218

原创提交spark程序

在hadoop环境下执行spark程序，使用spark-submit提交jarpackage com.spark.classfication;import scala.Tuple2;import org.apache.spark.api.java.*;import org.apache.spark.api.java.function.Function;import org.apac

2016-07-06 18:06:19 716

原创获取类的路径

由于上篇博客写了关于在hadoop下发送mail的文章，但是在没有将第三方jar包打入到jar包的情况下，yarn jar Mail.jar仍然可以发送出来邮件。所以跟踪查找，在Mail的类MimeMessage中获取资源路径：Object obj = mimeMsg.getClass().getResource("");System.out.println("classpath:

2016-07-01 14:40:33 409

原创 eclipse创建maven工程读取hdfs文件发送邮件

1、在maven下新建maven工程2、编写代码package WorkFlow.Mail;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import org.apache.hadoop.conf.Configuration;import or

2016-07-01 11:57:35 1418

原创 Java动态web--jsp页面调用servlet(doPost)

环境：eclipse Mars1、新建Dynamic web2、新建jsp页面，编码：<%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="UTF-8"%>hive查询语句查询语句:3、新建servletpackage com.kua

2016-06-17 18:54:09 13498 1

原创 Hive java编程提交查询语句和配置

java编程配置hive参数和执行查询//设置优先级和reduce数量public static final String MR_TASKS_NUM="set mapred.reduce.tasks=40";public static final String MR_PRIORITY="set mapred.job.priority=VERY_HIGH";//将配置应用于

2016-06-16 18:05:35 871 1

原创 yarn编码获取application列表

1、新建maven工程2、编写代码package Yarn.Yarn;import java.io.IOException;import java.io.OutputStreamWriter;import java.io.PrintStream;import java.io.PrintWriter;import java.nio.charset.Charset;impor

2016-06-16 16:21:38 9193 2

原创 Hive动态分区与建表、插入数据操作

1、定义动态分区指不需要为不同的分区添加不同的插入语句，分区不确定，需要从数据中获取。set hive.exec.dynamic.partition=true;//使用动态分区(可通过这个语句查看：set hive.exec.dynamic.partition;) set hive.exec.dynamic.partition.mode=nonstrict;//无限制模式如果

2016-06-14 16:57:20 20486

原创 wordcount

1·、新建maven工程pom.xml文件内容如下： junit junit 3.8.1 test org.apache.hadoop hadoop-mapreduce-client-core 2.3.0 org.apache.hadoop hadoop-hdfs 2.3.0 org.apache.hadoop had

2016-06-07 16:19:30 354

转载 DSP需求平台

DSP广告投放是基于大数据的全网覆盖，并从海量人群中精准定向出目标客群进行广告的投放。只要是被定向的客群，当他浏览任何页面时，广告内容都有几率（取决与RTB竞价成功率）向该潜在客群展示。展现的形式有富媒体弹窗，视频，图片等，只要是该页面的公共广告位，DSP都会自动参与竞价。另外需要着重指出的是DSP是针对目标客群的广告投放，而不是面向媒体的渠道购买。CTR（Click-Through-Rate

2016-06-02 18:32:58 797

原创 relief算法研究

最近由于工作需要，对数据进行降维处理，通过对各种算法的研究，想寻找一种比较理想的算法，处理数据维度，达到降维的目的，对PCA进行研究，但是PCA是对当前多维数据的空间变换，无法达到物理降维的目的，因此想选择物理降维的算法，因此对卡方算法和relief算法进行相关研究，这两种算法是对数据的物理降维，是特征选择的操作算法。通过几天的查找资料，整理和总结一下内容：个人总结：relief算法是

2016-05-24 17:51:51 14430 2

原创 hive设置reduce的最大值

hive.exec.reducers.max（默认为999）计算reducer数的公式很简单： N=min(参数2，总输入数据量/参数1) 通常情况下，有必要手动指定reducer个数。考虑到map阶段的输出数据量通常会比输入有大幅减少，因此即使不设定reducer个数，重设参数2还是必要的。依据Hadoop的经验，可以将参数2设定为0.95*(集群中TaskTracker个数)。正确的r

2016-05-10 16:14:45 2426

原创 window客户端访问HDFS

通过widows客户端访问Hadoop集群，读取HDFS文件使用平台为eclipse，CDH5.1.0，hdf2.3.01、新建java project2、在集群中找到core-site.xml和hdfs-site文件拷贝到java project的工程下，放置到bin文件夹下在src右键，新建source folder即可，如下2、编程代码如下：package c

2016-04-21 17:11:33 4882

原创 windows内网路由器设置

cmd启动dos界面：输入：route print显示结果：2、添加路由地址： 3、查看添加成功

2016-02-29 11:37:04 536

原创 impala实现HBase数据查询

由于工作需要，现在需要使用Cloudera Manager的Impala实现大批量数据的查询统计功能。于是，在前面使用Hbase和solr搭建的平台完成最高院的全文检索平台，继续在clouderaManager原有的hadoop平台基础上继续进行更深层次的研究和应用。基于某些地方法院对于数据的要求不一致，有的客户针对于法律文书的全文检索，有的客户针对于当前某种类型案件的统计，因此原有的

2016-01-19 18:15:16 7889

原创 Sqoop将SQLServer数据导入HBase

首先在Cloudera Manager中添加Sqoop服务，然后进行如下操作：jdbc的server驱动和SQLServer-hadoop connector包下载位置：http://download.csdn.net/detail/nma_123456/94053431、 Sqoop安装包中并不包含jdbc的SqlServer驱动，所以想在HDFS和SqlServer数据库之间导入导

2016-01-15 16:50:11 4734

原创 zookeeper崩溃后修复

参考：http://www.myexception.cn/database/1973833.html可能出现该问题的情况：强制关机，数据量过大，集群意外关闭。使用cloudera搭建hadoop集群，由于使用ubuntu系统，根目录空间分配不足，导致数据录入一部分，集群崩溃，后来对ubuntu系统的根目录进行设置，扩大了根目录的空间，但是zookeeper中一台机器的节点一

2015-12-30 16:11:12 9443

原创 Ubuntu系统安装完后修改目录空间大小

参考：http://blog.csdn.net/yuxuepiaoguo/article/details/6883239Ubuntu系统LVM扩大根目录容量lvreduce –L 200g /dev/mapper/master1-vg-swap_1(调整交换空间的大小为200g）lvextend –L 200g /dev/mapper/master1-vg-root（调整根

2015-12-30 13:48:20 1230

原创 Solr索引建立

solr在传统数据库上建立索引的机制：与mysql，oracle数据库联合使用的方式：网上很多资料，可以在网上参考相关资料进行学习。主要有实时索引，全量索引，增量索引，定时索引方法：修改solrconfig.xml，data-config.xml等，在solr的web页面进行操作建立索引。solr与HBase建立索引的方式有以下三种：1、协处理器模式建立索引2、

2015-10-13 21:22:41 1777

原创 solr查询返回JSON格式

SolrDocumentList docs = response.getResults();1、JSONObject返回类似{"SolrDocument"：{“1”：{}，“2”：{}}Map mapDoc = new HashMap();int count = 1;for(SolrDocument doc : docs）{mapDoc.put(count, doc);co

2015-09-11 15:20:17 5624

原创离线安装CM时遇到的问题

CM4.8.5离线安装：不好意思，最后没有安装成功，还是在线安装的最新版本，一下问题可能对大家查找原因有帮助。无法接收到agent检测信号有几种可能：1、Python文件不匹配；参考http://www.cnblogs.com/lion.net/archive/2014/09/02/3950619.html中_io的设置2、日志文件不存在，在config.ini中把log_file放开

2015-08-21 12:05:07 958

原创 cloudera manager安装和solrcloud搭建

我安装cloudera manager 是在线安装的，参考：http://www.cnblogs.com/lion.net/archive/2014/09/02/3950619.html，在线安装遇到的主要问题是：1、 mysql数据库设置，添加cmf账户，分配权限设置权限：Grant all on *.* to ‘root’@’%” identified by ‘123(密

2015-08-21 11:46:26 4807

转载 Cloudera在Ubuntu的安装部署

1. 安装前的准备 准备好Ubuntu离线source，配置/etc/apt/source.list 准备好Cloudera Hadoop离线source，配置/etc/apt/source.list.d/cloudera.list 同步集群的/etc/hosts ssh免密码登录，cloudera-scm-server所在机器能够免密码登录其他cloudera-scm

2015-08-08 13:29:05 3357

原创 java编写webservice接口net无法加载

使用java编写了webservice接口，插件使用的axis2，然后对一个java类发布webservice现在对原函数进行修改和删除，并且又新建了几个其他的类对新增的java类发布，并且在.net中进行调用，无法添加web引用并且java调试跟踪报错为could't find a matching java operation for wsdd operation.net报错o

2015-07-22 17:18:40 1750

原创 C# 获取xml属性名称

工作需要，读取一个超大量的xml文件，从xml文件中，读取节点，以及节点下的属性名称，用属性名称进行建表操作。在网上查找资料未果，于是自己寻找办法。在XmlElement类下有一个属性是Attributes，返回值为XmlAttributeCollection，节点element的属性存储在XmlAttributeCollection下。代码如下：XMLDocument doc=

2015-06-18 09:55:03 8893

原创 java json字符串解析--遇到的问题

参照网上的json字符串解析实例，进行开发编码，遇到了问题：java.lang.classnotfoundexception:net.sf.json.JSONObjectjava.lang.classnotfoundexception:net.sf.json.JSONArray在网上搜索解决方案：在eclispe中添加json的jar包后，代码运行出现上述问题，需要在tom

2015-06-09 17:12:28 1006

转载 C#与java中对抽象类、接口的继承和重写区别

C#：一、继承什么是继承：继承是允许重用现有类去创建新类的过程。分类的原则是一个类派生出来的子类具有这个类的所有非私有的属性。1、继承C#中的类：C#不支持多重继承，C#类始终继承自一个基类（如果未在声明中指定一个基类，则继承自System.Object）。派生类继承基类的语法如下：using System;public class Person{//这是基

2015-06-02 11:39:33 2370

原创 Eclipse配置Axis2总结

配置环境Eclipse4.3 kepler server release2 + tomcat6.0 + jdk1.7 + axis2-1.6.21、 Axis2：http://axis.apache.org/axis2/java/core/download.cgiAxis2 Eclipse插件：http://axis.apache.org/axis2/java/core/tools/i

2015-06-01 16:45:43 11021

java反编译工具免安装

2019-01-29

spark升级后无logging类

在使用spark读取kafka数据时，当spark升级到2.0之后，出现如上问题：之前遇到了，当时在工程里面添加了org.apache.spark.Logging类，能够运行。

2017-08-11

coordinator设置定时任务

使用oozie配置workflow，在coordinator上设置定时任务。

2016-09-07

Hue-workflow配置流程

使用hue平台配置workflow流程，在workflow中添加hql脚本文件和jar包，设置定时执行。

2016-06-30

Yarn编程ApplicationList

yarn编码，实现Application列表查询，Application的kill操作。以及Job的查询，map和reduce个数查询

2016-06-16

Yarn获取Application列表编码

Yarn编码获取Application列表，编程实现application的信息，kill application操作，获取job信息，maven打包操作。

2016-06-16

Yarn编码获取Application列表

使用yarn开发获取正在执行的application列表，返回application信息，kill application操作，以及在maven打包是遇到的问题。

2016-06-16

Maven包和遇到的问题总结

在压缩包中，包含eclipse安装maven所需的maven包和在maven使用过程中遇到的一些问题总结。

2016-06-15

Hive sql优化

从数据倾斜，jvm重用，语句编写等方面对hive查询进行优化。

2016-06-13

relief-java实现

2016-05-24

PCA算法工程

使用java eclipse开发的maven工程，实现pca主成分分析算法，并且应用对实际数据进行降维处理。实现降维和特征提取。

2016-05-20

spark-mllib

翻译spark mllib的相关官网资料，便于阅读，有些不准确的地方，为阅读提供方便。

2016-05-03

eclipse连通git

使用eclipse自带的git连通工具，利用http协议将工程同步到git仓库，实现工程的备份和同步。

2016-03-30

Sqoop将SQLServer数据表导入HDFS

sqoop将关系型数据库，导入到hadoop集群中，供大家参考，一起学习。

2016-01-15

sqoop-hadoop的jar包

jdbc的SqlServer驱动包sqljdbc_2.0.1803.100_chs.exe和sqoop-sqlserver-1.0.tar.gz，使用sqljdbc时双击sqljdbc_2.0.1803.100_chs.exe即可解压得到相应的jar包，全部免积分下载，共同学习

2016-01-15

apache-tomcat-7.0.64

apache-tomcat-7.0.64绿色版，便于安装部署，使用方便，易于操作。

2015-11-06

Ubuntu14.04在线安装Cloudera Manager集群部署

Ubuntu14.04在线安装Cloudera Manager集群部署，涉及ssh免密码登陆，ntp时间同步，集群安装

2015-09-25

cloudera search官网参考资料

solr创建索引时，搭建solrcloud，然后添加collection，修改schemad.xml文件，建立索引。

2015-08-21

cloudera-Manager安装

cloudera Manager在线安装，遇到问题的总结，solr的安装配置，solrcloud的搭建，hbase和solr的字段索引建立

2015-08-21

oracle-j2sdk1.6_1.6.0+update31_amd64.deb

在离线安装cloudera manager4.8.5的过程中，安装失败，需要j2sdk1.6,费了好大劲才找到，希望对大家能够有帮助。

2015-08-08

HBase多表关联查找资料

HBase建表关联关系，通过hive和其他的组件，关联数据表查询，将关系型数据库的数据表在分布式集群下的重建。

2015-06-11

java--json解析包

运行这个类需要加载jar包：ezmorph-1.0.6.jar、json-lib-2.4-jdk15.jar、jsoup-1.6.1.jar、commons-beanutils-1.8.0.jar、commons-collections.jar、commons-lang-2.4.jar、commons-logging-1.1.1.jar。 commons-beanutils-1.8.0.jar不加这个包 java.lang.NoClassDefFoundError: org/apache/commons/beanutils/DynaBean commons-collections.jar 不加这个包 java.lang.NoClassDefFoundError: org/apache/commons/collections/map/ListOrderedMap commons-lang-2.4.jar不加这个包 java.lang.NoClassDefFoundError: org/apache/commons/lang/exception/NestableRuntimeException commons-logging-1.1.1.jar不加这个包 java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory ezmorph-1.0.6.jar不加这个包 java.lang.NoClassDefFoundError: net/sf/ezmorph/Morpher json-lib-2.4-jdk15.jar不加这个包 java.lang.NoClassDefFoundError: net/sf/json/JSONObject

2015-06-09

Axis2+eclipse开发webservice总结

本文档从在eclipse下配置axis2开发环境，到编写服务器接口，使用axis2的server wizard发布aar文件的方式，及编写客户端代码访问arr接口的方式；另一种是在要发布的类上使用右键-->webservice-->创建webservice，发布生成wsdl文件，编写客户端调用的方法的一些总结，希望能对大家有帮助。

2015-06-05

Eclipse配置Axis2总结

对Eclipse4.3(Kepler server release2)版本配置Axis2-1.6.2，开发webservice服务接口，里面是自己配置过程中的总结和一些相关的插件压缩包，还有一份word文档是我操作的一些总结，希望对大家有所帮助。

2015-06-01

HBase编码过程中性能优化

本人现在由于工作需要，开始学习HBase的编码工作，由于接触较浅，借鉴各方大神的经验，编辑成文档，以飨读者。

2015-05-19

Javaweb开发JSP+servelet实现多按钮功能

Javaweb项目实现三层架构，由于没有连接数据库，只是为了实现jsp页面的多个按钮在servlet中相应不同的事件，开发的小demo，希望能够对大家有所帮助，只有view层和control层，没有添加model层。工程步骤可以参考本人博客，与资源同名。

2015-05-17

hadoop-common-2.2.0-bin-master(windows开发Hadoop2.2需要的winutils.exe)

hadoop-common-2.2.0-bin-master(包含windows端开发Hadoop2.2需要的winutils.exe),Hadoop 2.2 Windows下eclipse开发hadoop程序会报错，原因是因为hadoop2.2没有发布winutils.exe造成的，现编译发布出来；把此文件放到hadoop/bin下，在环境变量中配置 HADOOP_HOME 即可。 ERROR [main] util.Shell (Shell.java:getWinUtilsPath(303)) - Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

2015-05-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

java反编译工具免安装

spark升级后无logging类

coordinator设置定时任务

Hue-workflow配置流程

Yarn编程ApplicationList

Yarn获取Application列表编码

Yarn编码获取Application列表

Maven包和遇到的问题总结

Hive sql优化

relief-java实现

PCA算法工程

spark-mllib

eclipse连通git

Sqoop将SQLServer数据表导入HDFS

sqoop-hadoop的jar包

apache-tomcat-7.0.64

Ubuntu14.04在线安装Cloudera Manager集群部署

cloudera search官网参考资料

cloudera-Manager安装

oracle-j2sdk1.6_1.6.0+update31_amd64.deb

HBase多表关联查找资料

java--json解析包

Axis2+eclipse开发webservice总结

Eclipse配置Axis2总结

HBase编码过程中性能优化

Javaweb开发JSP+servelet实现多按钮功能

hadoop-common-2.2.0-bin-master(windows开发Hadoop2.2需要的winutils.exe)

面向对象葵花宝典

C#增加配置

C#发布流程

C#创建线程

C#本质和调试

ZedGraph控件详解

java快捷键

计算机专业笔试题

计算机笔试题

VisualAssistX_10.7.1916

C++笔试题总结

2000-2012历年英语六级听力原文

数据挖掘-网页数据集

空空如也