5 Ichimaru_Gin_

尚未进行身份认证

不能总做自己会的东西!

等级
TA的排名 10w+

阿里云E-mapreduce 如何提交自己的jar包并运行

源起租用了E-mapreduce服务器,如何运行自己的spark程序。参考官方文档:点spark作业配置,我只是更详细的描述一下操作步骤。操作步骤一、创建作业1.作业2.创建作业3.输入你平常在虚拟机提交任务时的指令,并做以下修改: 1)只保留“spark-submit”之后的内容(因为在后台提交时,它会自动加上这句话) 2)jar包的路径是存在oss的buket中的,选择“选择O...

2018-06-22 16:01:54

阿里云E-MapReduce SSH集群登录及本地查看Hadoop等系统的webUI

源起:终于到了租用云服务器的时候了,想想还有点小激动呢。EMR的官方文档上关于ssh集群登录的操作步骤已经很详细了,而且还有视频,但是实际操作的时候总会遇到一些意想不到的问题,于是我就把我配置的过程记录下来,以供参考。配置步骤:配置过程基本参照EMR的官方文档:SSH集群登录一、SSH登陆集群master节点1.下载安装 PuTTY,Puttygen2.打开puutygen,点击gene...

2018-06-21 11:22:06

spark 在集群运行时遇到的一些问题

人工导航:1,Exceptioninthread"main"org.apache.hadoop.ipc.RemoteException(java.io.IOException):File/user/pangying/.sparkStaging/application_1522735609126_0001/__spark_libs__4275647205298765018.zipcouldo...

2018-04-03 17:11:07

python form scapy.all import * 报错

源起:我需要使用scapy包对一些流量文件做处理,但是代码importscapy执行没有问题,代码formscapyimport*就会出现问题。错误提示是:Traceback(mostrecentcalllast):File"F:/Python_code/getForderName/get_features2.py",line12,in<module>...

2018-03-12 16:28:02

KEEL 的一般操作步骤详细说明

源起实验室一个一位师姐着急赶毕业论文,时间紧张,我就帮她KEEL做了一些小实验。虽然去年用KEEL做过一些实验,但是猛地拿起来还是有些生疏,就在做实验的过程中整理了一下基本的操作过程,以防今后再突然要用的时候浪费时间。正文以做modules里的Imbalanced实验为例。1,双击打开KEEL的执行jar包2,导入数据:选择DataManagement2,选择Import Data3,选择...

2018-03-08 19:45:04

Python sklearn KFold 生成交叉验证数据集

源起:1.我要做交叉验证,需要每个训练集和测试集都保持相同的样本分布比例,直接用sklearn提供的KFold并不能满足这个需求。2.将生成的交叉验证数据集保存成CSV文件,而不是直接用sklearn训练分类模型。3.在编码过程中有一的误区需要注意:这个sklearn官方给出的文档>>>importnumpyasnp>>>fromsklearn.m...

2018-03-06 11:23:40

Mahout random forest 随机森林小案例

写在前面菜鸟真的需要耗费大量的时间各种试才能解决问题啊。。。~~o(>_首先介绍一下我尝试的过程,大家可以参考着排排错。1.我最初用的是mahout最新的0.13版本,想要按照官方给出的案例(Classifyingwithrandomforests)测试并学习一下随机森林的用法,但是发现根本没办法按照这个官方文档去做。虽然官方给出的0.13版本API的文档,但是它的测试用例还是

2018-01-24 20:52:16

Mahout 用朴素贝叶斯对20 Newsgroups 数据分类的案例

源起《MahoutinAction(Mahout实战)》这本书的第14.6节有一个用朴素贝叶斯对20Newsgroups进行数据分类的案例,但是由于该出出版使用的是mahout0.6版本进行的实验,我用目前最新的0.13版本已经不能再重复这个实验了(mahout做了很多改动)。ERRORMahoutDriver::Trythenewvectorbackednaiv

2018-01-22 21:50:33

Hadoop学习过程遇到的问题总结

问题一问题描述:8/01/2216:52:16WARNClient:Failedtoconnecttoserver:master/192.168.217.128:10020:retriesgetfailedduetoexceededmaximumallowedretriesnumber:10java.net.ConnectException

2018-01-22 21:33:42

Github项目 hadoop-imbalanced-preprocessing 如何运行

源起:hadoop-imbalanced-preprocessing是基于MapReduce实现的随机过采样,随机欠采样和SMOTE算法的程序,它主要解决在大数据环境下类别不平衡问题的数据预处理的问题。该项目直接集成在Mahout项目的代码里面。如果对hadoop的MapReduce框架和Mahout了解很少的话,会对这个代码很难入手,不知道如何运行它。解决方案:我一开始没有去了解M

2018-01-17 16:40:18

Hadoop MapReduce案例word count本地环境运行时遇到的一些问题

问题一加载不到主类原因:我一开始创建的是Map/ReduceProject,它会直接去我本地安装的hadoop里面寻找相应的jar包。但是由于我一开始将hadoop放在D:\ProgramFiles文件夹下,应为该路径中间有个空格,所以没有找到相应的jar包。解决方案:将hadoop移出D:\ProgramFiles文件夹,直接放到D盘下,然后重新配置环境变量问题二lo

2018-01-08 17:13:04

Hadoop-Eclipse-Plugin 安装

写在前面每次遇到两三天解决不了的问题,我都会在心里说,这个问题要是解决了,我一定要整理出来写成博客。可是问题解决完成之后,就会觉得,原来这么容易就能解决,真不值得一写。其实这一次,我并没有解决所遇到的问题,只是绕过了问题。而且我知道,接下来还会有很多更难更复杂的问题等着我去解决。我不知道在这个过程中我会卡在哪个问题上以至于前功尽弃。我现在的状态几乎等于还有开始,我这样在心里上给自己打预防针

2018-01-07 21:06:32

Hadoop 2.8.2 和 Spark 2.1.0 分布式搭建及遇到的一些小问题

分布式搭建下载所需的安装包,建立相应的文件夹,将安装包发送到对应的安装包中去。安装JDK1.解压安装包2.cd进入解压后的文件夹,pwd获取JAVA_HOME路径/home/pangying/java/jdk1.8.0_1513.配置环境变量4.使配置生效5.检查是否配置成功安装Hadoop1.解压安

2018-01-05 10:44:08

Hadoop集群活跃节点为0解决方案

Hadoop集群活跃节点为0解决方案问题描述我按照教程修改了Hadoop下的配置文件,然后使用start-all.sh启动整个集群。jps查看每个节点该启动的进程都启动了,可以访问master:50070页面,但是其中的LiveNodes项显示为0,可是我明明有两个datanode服务器。解决思路造成这样结果的原因有很多,如多单纯的copy这样的问题去问度娘,很难快速得到满意的答案。但是也可以

2017-11-14 10:53:17

作者年份 soft computing参考文献格式要求,LaTeX实现

如果你所投的期刊要求使用作者年份作为索引引用参考文献(如softcomputing等),参考文献列表不需要序号,且按作者姓氏首字母排序,如图。你可以参考本文的方法实现。Step1.BibTex首先你需要使用BibTex去存放参考文献,bibliographystyl使用spbasic,‘bibfile’是我的.bib文件的文件名,需要根据自己实际的文件名进行替换。\usepackage[ro

2017-08-16 17:15:20

Python 删除连续出现的指定字符

Python删除连续出现的指定字符

2017-03-27 17:00:50

机器学习 Logistic回归 原理Python实现

基本思想回归:假设有一些数据点,我们用一条直线对这些数据点进行拟合(该线成为最佳拟合直线),这个拟合过程就称为回归。Logistic回归主要思想:根据现有数据对分类边界线建立回归公式,以此进行分类,使用最优化算法寻找最佳拟合参数。Logistic回归优缺点优点:计算代价不高,易于理解和实现缺点:容易欠拟合,分类精度可能不高使用数据类型:数值型和标称型Sigmoid函数为了对数据进行预测分类,

2016-11-28 16:40:14

朴素贝叶斯原理及Python实现

朴素贝叶斯分类器优缺点优点:在数据较少的情况下依然有效,可以处理多分类问题缺点:对输入数据的准备方式较为敏感使用数据类型:标称型数据算法原理朴素贝叶斯分类器是基于贝叶斯概率理论构建的,即我们希望通过一个已知事务的先验概率(条件概率)去推测该事物的后验概率。首先我们来回顾一下贝叶斯概率理论原理:贝叶斯公式说明:1,事件A在事件B发生的条件下的概率,与事件B在事件A发生的条件下的概率

2016-11-22 11:09:41

ID3 决策树 Python实现

算法原理根据信息增益的评判准则,选择一个当前最优的特征对数据集进行分割,递归此操作,直到最后被分割的子数据集只含有一种类型的样本或者用完所有的特征,最后选择该子集中多数的类别最为该子集的最终类别(当然也可以有)。信息增益熵(Entropy):指信息的期望值熵是一个很玄的概念,人类的成长过程其实就是一个降低熵的过程,就像人刚出生事,大脑内的每一个神经元都是互相连接的,然后随着年龄的增长不断的断掉一

2016-11-17 09:41:34

机器学习----K-近邻算法(Python代码详解)

本博文的内容主要是我在自学《MachineLearninginAction》的中文版《机器学习实战》的总结。K-近邻算法一、算法概述K-近邻算法就是采用测量不同特征值之间的距离进行分类。距离采用欧式距离计算公式,计算两个向量点xA和xB之间的距离:d=(xA0−xB0)2+(xA1−xB1)2−−−−−−−−−−−−−−−−−−−−−−−√d=\sqrt{(xA_0-

2016-10-10 19:56:13

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!