2 BigEpicure

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 15w+

Spark GraphX图形数据分析

为什么需要图计算许多大数据以大规模图或网络的形式呈现许多非图结构的大数据,常会被转换为图模型进行分析图数据结构很好地表达了数据之间的关联性图(Graph)的基本概念图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构。通常表示为二元组:Gragh=(V,E),可以对事物之间的关系建模。一般应用于在地图应用中寻找最短路径、社交网络关系、网页间超链接关系。图的术语顶点和边Graph=(V,E)集合V={v1,v2,v3}集合E={(v1,v2),(v1

2020-10-14 09:29:14

Spark练习

数据:班级ID 姓名 年龄 性别 科目 成绩12 张三 25 男 chinese 5012 张三 25 男 math 6012 张三 25 男 english 7012 李四 20 男 chinese 5012 李四 20 男 math 5012 李四 20 男 english 5012 王芳 19 女 chinese 7012 王芳 19 女 math 7012 王芳 19 女 english 7012 赵敏 19 女 chinese 7012 赵敏 19 女 math 9012

2020-09-26 14:23:24

Spark入门基础

Spark CoreSpark SQLMLlibGraphxspark和mapreduce的区别、spark运行框架Application:用户编写的Spark应用程序。Driver:Spark中的Driver即运行上述Application的main函数并创建SparkContext,创建SparkContext的目的是为了准备Spark应用程序的运行环境,在Spark中有SparkContext负责与ClusterManager通信,进行资源申请、任务的分配和监控等,当Executor部分

2020-09-22 19:18:21

scalaOOP编程

Scala面向对象类(class)抽象类(abstract class)单例对象(object)特质(trait)内部类样例类(case class)泛型类类(class)1、类通过class关键字定义2、类通过new关键字创建实例3、类拥有成员变量和方法4、类的成员默认为public,也支持private、protected5、类中无法定义静态成员变量和方法6、类无需明确定义构造方法,通过构造参数列表声明为类的一部分类成员访问修饰符JAVAModifierClassPack

2020-09-16 15:54:28

Scala函数

scala函数函数是scala的核心函数定义def 函数名([参数列表]):[返回值]={ 函数体 [表达式]}例如def square(x: Int): Int = { println(x) x * x //不用写return,直接返回x*x}def sayHello(x:String):Unit={//Unit表示无返回值 println("Hello ! "+x)}传值调用传值调用时,参数只在调用时计算一次,后续重复使用计算的结果def

2020-09-14 21:34:57

scala数组方法

2020-09-14 15:14:31

Scala数组方法大全详情+解析

列表Array[T]++++:+::+/::\addStringaggregateapplyapplyOrElsecanEqualcharAtclonecollectcollectFirstcombinationscontainscontainsSlicecopyToArraycopyToBuffercorrespondscountdiffdistinctdropdropRightdropWhileendsWithexistsfilterfilterNotfindflatMapflattenfoldfold

2020-09-11 20:10:37

用scala的for循环打印三角形,菱形,99乘法表

scala的for循环:基本语法:var num1=start_value;var num2=end_value;for(i -> num1 to num2 by step_num [j -> num1 to num2 by step_num] [;condition1;condition2]){ //代码1}step_num:步长condition1:循环守卫(条件,如果有,用;号隔开)<- num1 to num2:范围给定(左右均为闭合)<- num1 u

2020-09-07 20:09:39

hive练习题(商店市场调查)

表数据:https://pan.baidu.com/s/1giOajxNUaU_Lc4jzTL2UnA提取码:cba4hive练习题建表:1、找出顾客最常用的信用卡2、找出客户资料中排名前五的的职位名称3、在美国女性最常用的信用卡4、按性别和国家进行客户统计/国家/工作/邮箱/语言/信用卡5、计算每月总收入6、计算每个季度的总收入7、按年计算总收入8、按工作日计算总收入9、按时间段计算总收入10、按时间段计算平均消费11、按工作日计算平均消费12、计算年、月、日的交易总数13、找出交易量最大的10个客户

2020-09-03 18:43:12

HBase环境搭建

hbase安装包:https://pan.baidu.com/s/1jLQlOz2VgrwzWSY4hVvOaQ提取码:do01HBase环境搭建1、将压缩包拖入/opt/install/hadoop/目录下2、解压至/opt/bigdata/hadoop/,改名为hbase1203、配置文件vi hbase-env.sh4、配置文件vi hbase-site.xml5、配置文件vi regionservers6、软连接hadoop core-site.xml hdfs-site.xml 到hbase的

2020-09-03 08:09:37

HBase数据库原理入门操作

HBase简介

2020-09-02 19:06:15

大数据计算,hive出现数据倾斜的问题

hive数据倾斜描述hive 中产生数据倾斜的原因数据倾斜解决办法大小表joingroup bycount(distinct ...)参数调节描述数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行 Hivez 语句或者运行MapReducejob时候,如果遇到一直卡在map100%,reduce99%一般就 是遇到了数据倾斜。在进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,所有很快执行完成,某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致其他节点的 re

2020-08-31 17:21:14

入门级,Hadoop详情教程(二)(hive)

hive概念基于Hadoop得数据仓库解决方案hive的特点和优势1、将结构化的数据库文件映射为数据库表2、提供类sql得查询语言HQL(sql代替mapreduce)3、让更多的人更容易使用hadoop4、可以整合更多的计算框架mapreduce(基于磁盘中间结果存于磁盘)spark(基于内存,减少IO,DAG计算模减少SHUFFLE)tez(也有DAG和container重用,但是部署繁琐)链的概念安全,可追溯,不可篡改全网公开:无用户授权机制的区块链成为共有链信息共享:共有链

2020-08-30 21:07:05

hive函数大全+详情

hive函数分类运算符运算符含义实例结果!非,类似notselect !trueFALSE!=不等于,类似<>select 1!=2TRUE%取余,返回a除以b的余数select 40%31&位与操作,返回a和b按位进行与操作的结果select 3&502*乘法select 2*36+加法select 2+46-减法select 2-5-3/除,返回a除以b的结果,

2020-08-29 18:34:09

分享MySQL的一个小练习,基础简单题,回顾SQL语句

CREATE DATABASE homework1DROP TABLE IF EXISTS emp;CREATE TABLE IF NOT EXISTS emp(empno INT PRIMARY KEY AUTO_INCREMENT,ename VARCHAR(10) NOT NULL,job VARCHAR(20),salary DOUBLE(8,2),mgr INT(10),bonus DOUBLE(6,2),hiredate DATE,deptno INT(10));INSE

2020-08-25 23:45:46

hadoop学习之hive练习题+答案

所用数据:https://pan.baidu.com/s/1XJBCKCMG727XQ6KA1E5Pow提取码:dsdzhadoop学习之hive练习题+答案第一题第二题第三题第四题第一题建表create table visit(user_id STRING,shop STRING)row format delimitedfields terminated by ' ';load data local inpath '/root/kb08/hive/1/jd.txt' into tab

2020-08-25 22:14:48

入门级,hadoop ha 安装

在搭建普通的hadoop集群的基础上在hadoop260目录下新建data文件夹,在data文件夹中新建journalnode pids tmp 三个文件夹[root@vwmaster hadoop]# cd /opt/bigdata/hadoop/hadoop260/[root@vwmaster hadoop]# mkdir data[root@vwmaster hadoop]# cd data/[root@vwmaster hadoop]# mkdir journalnode pids tmp

2020-08-24 20:05:31

Hadoop集群下的ZooKeeper配置

ZooKeeper安装zookeeper环境“一键”启动zookeeper脚本zookeeper的主从机选取机制安装zookeeper环境zookeeper安装包:https://pan.baidu.com/s/1fpdBs8kbjPj5rlrwusv1iw提取码:h1wv需要准备号jdk环境:参考:https://blog.csdn.net/weixin_44147632/article/details/107796624解压:tar -zxf zookeeper-3.4.5-cdh5.14.2

2020-08-21 12:50:25

入门级,Hadoop详情教程(一)

Hadoop入门一大数据简介HadoopHadoop框架(1)hdfs dfs命令HDFS分布式文件系统YARN资源管理系统关于主机和从机的相关问题读写数据MapReduce大数据简介(1)概念①无法在一定的时间内通过常规软件进行抓取,管理和处理的数据②解决海量数据的存储和计算问题(2)特性数量大Volume,增长快Velocity,种类多Variety,价密低Value(3)固有特性时效性,不可变性(4)分布式计算:①传统分布式:1)多数据节点-copy data->单计算节

2020-08-20 10:08:45

入门级,Linux下的Hadoop集群的搭建

hadoop安装包:https://pan.baidu.com/s/1ma4AywSvK4sYHJZ_J40amQ提取码:k91hlinux虚拟机安装及配置参考:Hadoop集群搭建解压文件修改hadoop-env.sh配置文件配置hadoop fs系统文件hadoop replicas 备份hadoop mapreduce 计算框架hadoop yarn 管理调度修改hadoop slaves 主机名环境变量配置hadoop 格式化 HDFShadoop-native库启动 hadoop查看hadoo

2020-08-17 18:50:47

查看更多

勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv2
    勤写标兵Lv2
    授予每个自然周发布4篇到6篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。