UserOrz-CSDN博客

本篇教程是在Windows上配置完成1、环境准备在连接前需要安装远程Git仓库和本地的Git客户端远程Git仓库可以在GitHub中创建，配置可以自行选择本地GIt自行在官网下载，下载链接：https://git-scm.com/ ，安装可以直接next安装默认即可安装完成后需要在IDEA配置Git插件，打开IDEA，左上角FIle -> Settings ，搜索git2、配置GitHub的API令牌2.1、打开IDEA，左上角FIle -> Settings

2022-05-09 16:57:39 9443 1

原创 Java中break retry，continue retry的使用

在阅读Java的线程池ThreadPoolExecutor源码的时候发现了有使用retryretry就是起到标识作用，可以认为是给retry下一行的循环起个名字若直接使用break那跳出的就是本次循环，使用break retry就是跳出retry标识下的循环当然retry只是一个名字，可以取其他名字retry不仅可以给for循环起名，while也可以public class Retry { public static void main(String[] args) {

2022-04-17 18:44:41 978

原创实验四 Spark程序设计进阶

Spark影评实战，使用Spark各种RDD算子处理实际问题

2022-04-04 23:53:18 2027 3

原创 [2021] 阿里巴巴 [编程题]知识竞赛

最近准备面试刷题，写到一题发现了非常巧妙的解法，在这里记录一下。题目思路我们可以对员工的能力值AAA和能力值BBB的绝对值非递减排序，这样，排序在后面的员工就决定了较差的能力是AAA还是BBB举个例子假设我们选出了两名员工iii和jjj，有i<ji < ji<j假设 Ai<BiA_i < B_iAi<Bi那么员工jjj就有两种情况，Aj<=BjA_j <= B_jAj<=Bj 或者 Aj>BjA_j > B_jAj&

2022-03-24 16:50:07 1179 4

原创实验三初步掌握Spark程序设计

1. 统计文本中性别为“男”的用户数。文件格式如图package com.spark.homework.initSparkimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject count_male { def main(args: Array[String]): Unit = { // TODO 建立和Spark框架的连接 val

2022-03-22 16:04:06 3250 1

原创 MapReduce读取Hbase中的数据

Hbase提供了TableMapReduceUtil工具类，可以直接使用需要提供的包括，表名、Scan对象、mapper的class对象、输入，输出类型的class对象和job对象TableMapReduceUtil.initTableMapperJob( Names.TABLE.getValue(),//表明 scan,//Scan类 AnalysisBeanMapper.class,//关联mapper方法 AnalysisKey.class,//

2022-03-15 22:34:54 2149

原创 Hbase2.x协处理器的使用问题

最近在看尚硅谷的电信客服项目，视频里用的是hbase1.x版本，而我用的是hbase2.4，在向hbase添加协处理器时出现了问题。hbase2.x弃用了BaseRegionObserver，在百度后我使用了RegionObserver，但是把项目打包运行后发现协处理器并没有成功运行，也没有报错。在查阅文档后发现还需要重写RegionCoprocessor下的getRegionObserver方法，重新打包后运行成功package com.ct.comsumer.corprocessor;impo

2022-03-11 15:32:27 2893 3

原创 Windows下PyCharm远程连接Spark

我这里的spark部署在虚拟机内，使用的版本为： python3.8 hadoop3.3 spark3.2 java8为了防止报错，在windows环境我也安装了python3.8和虚拟机同步此时linux集群已经部署好了spark环境1、配置Hadoop DLL在编写spark时可能会用到hadoop的一些功能，所以需要配置hadoop的运行环境文件可以在github上下载，https://github.com/cdarlint/winutils因为没有对应的hadoop版本，我用的

2022-03-03 19:38:36 3647 1

原创实验二 Scala程序设计进阶

1、构造Person类。包括姓名(name)，性别(sex)和年龄(age)。提供所有属性的set和get函数，提供print函数打印其信息；构造Student类继承Person类，并增加学校(school)，学号(studentID)。并对其进行测试。package com.spark.core.wcobject Test { def main(args: Array[String]): Unit = { //测试Person类 val person = ne

2022-03-02 10:30:53 383

原创 Exception in thread “main“ java.lang.NoSuchMethodError: scala.Predef$.refArrayOps

使用IDEA工具运行SparkStreaming的WordCount时，运行报错，报错信息如下:Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection/mutable/ArrayOps; at org.apache.spark.util.Utils$.getCallSite(Utils.scala:1406) at or

2022-02-23 23:04:11 2205

原创实验一初步掌握Scala程序设计

可否定义一个sum函数呢？返回指定区间的值的和？例如，区间[1,4]的和为1+2+3+4=10返回指定区间值的平方的和呢？立方呢？package com.spark.core.wcimport scala.io.Sourceobject temp { def main(args: Array[String]): Unit = { val x,y = readInt(); print(sum((i:Int)=>i,x,y)); //若要平方则改为sum((i:I.

2022-02-23 22:09:57 1006

原创 com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: 1 字节的 UTF-8 序列的字节 1 无效

解决办法：在prom文件里加上这个<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> </properties>

2022-01-15 17:22:55 123

原创机器学习期末复习

一些知识点1、机器学习方法包括***模型、学习准则、优化算法***三大基本要素2、损失函数用于量化模型预测和真实标签之间的差异，常用的损失函数包括交叉熵损失函数、平方损失函数、绝对值损失函数3、常用的神经网络结构有前馈神经网络、卷积神经网络、循环神经网络4、在神经网络的训练中常采用反向传播来高效计算梯度5、卷积神经网络是一种具有局部连接、权值共享特性的深层前馈神经网络6、一般卷积网络一般由卷积层、池化层/汇聚层、全连接层交叉堆叠而成的前馈神经网络7、卷积神经网络三大结构特性局部连接、权值共享、

2022-01-12 19:35:53 1761 1

原创 phoenix-5.1.2-hbase-2.4安装及使用详细步骤

1 、简介Phoenix最早是saleforce的一个开源项目，后来成为Apache基金的顶级项目。Phoenix是构建在HBase上的一个SQL层，能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表，插入数据和对HBase数据进行查询。put the SQL back in NoSQLPhoenix完全使用Java编写，作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描，并编排执行以生成标准的JDBC结果集。直接使用HBa

2021-11-02 11:20:28 3003

原创实验四：MapReduce中级编程实践

一、实验目的L通过实验掌握基本的MapReduce编程方法；掌握用MapReduce解决一些常见的数据处理问题，包括数据去重计数、数据排序。二、实验平台操作系统：LinuxHadoop版本：3.3.1三、实验步骤实验所使用的文件链接：链接：https://pan.baidu.com/s/16zyA_DZwu9anxjwdHnbMOw提取码：57ky（一）对访问同一个网站的用户去重计数。注：文件userurl_20150911中，数据以”\t”隔开，用户手机号为第三列，网站主域

2021-10-26 11:56:04 698

原创 HBase-2.4.6安装教程附常见错误解决

我这里采用了jdk1.8.0_301+hadoop-3.3.1+zookeeper-3.6.3+hbase-2.4.6的版本不同版本可能不能兼容，兼容性问题可以去官网查看http://hbase.apache.org/book.html#_preface我这里有三台虚拟机，hadoop102,hadoop103,hadoop1041、zookeeper正常部署首先保证三台机器的zookeeper正常启动[user@hadoop102 zookeeper-3.6.3]$ bin/zkServer.s

2021-10-09 12:04:31 750

原创 Zookeeper-3.6.3安装教程

1、介绍ZooKeeper是用Java编写的，运行在Java环境上，因此，在部署zookeeper的机器上需要安装Java运行环境。为了正常运行zk，我们需要JRE1.6或者以上的版本。对于集群模式下的ZooKeeper部署，3个ZooKeeper服务进程是建议的最小进程数量，而且不同的服务进程建议部署在不同的物理机器上面，以减少机器宕机带来的风险，以实现ZooKeeper集群的高可用。2、下载解压1、在官网下载需要的zookeeper版本，我这里下载的是zookeeper-3.6.32、将下载后

2021-10-08 22:30:07 2035

原创 hadoop常用端口号与配置文件

常用端口号hadoop3.xHDFS NameNode 内部通常端口：8020/9000/9820HDFS NameNode 对用户的查询端口：9870Yarn 查看任务运行情况：8088历史服务器：19888hadoop2.xHDFS NameNode 内部通常端口：8020/9000HDFS NameNode 对用户的查询端口：50070Yarn 查看任务运行情况：8088历史服务器：19888常用配置文件hadoop3.xcore−site.xmlhdfs−site.xm

2021-09-27 09:53:10 539

原创 CentOS 6虚拟机Hadoop安装教程

本人初学hadoop，在安装配置环境时发现网上大部分博客的教程都不太完善，所以我结合了这些博客内容和老师的讲解写了下面这一份教程，这些操作都是本人经过尝试确认过没有问题的操作（~~如果有问题的话希望大家能够指出~~ ）在安装中有什么注意点我都会提，希望能够对各位有帮助

2021-09-08 18:06:53 1121

原创 Codeforces Round #741 D1&D2. Two Hundred Twenty One

题意你有一个长度为nnn，且仅包含111和−1-1−1的序列aaa，即a[i]∈{−1,1}a[i] \in \{-1,1\}a[i]∈{−1,1}给你一个数QQQ，表示QQQ次询问每次询问给定两个数l,rl,rl,r，要找到[l,r][l,r][l,r]内最少删除多少个数，使得其余数拼接后满足∑i=1n(−1)i−1∗a[i]=0\sum_{i=1}^n(-1)^{i-1}*a[i]=0∑i=1n(−1)i−1∗a[i]=0 或者∑i=1n(−1)i∗a[i]=0\sum_{i=1}^n(-1)

2021-08-27 17:23:48 90

原创 Codeforces Round #741 C. Rings （构造）

题意你有一个长度为n(2≤n≤2∗104)n(2 \le n \le 2*10^4)n(2≤n≤2∗104)的二进制01串01串01串你需要找到不相交的两个长度至少为⌊n2⌋⌊\frac{n}{2}⌋⌊2n⌋的二进制串使得它们互为倍数关系（也可以相等）思路若能在[n/2+1,n][n/2+1,n][n/2+1,n]内找到一个000，那答案即为[1,pos],[1,pos−1][1,pos],[1,pos-1][1,pos],[1,pos−1]（222倍），pospospos为000所在的位置否则

2021-08-27 15:37:56 72

原创 Codeforces Round #741 B. Scenes From a Memory

题意给你一个整数kkk，和kkk位的十进制整数nnn问最多删除几位数字剩下的数字拼凑起来是合数（非素数），题目保证一定有解输出保留的数的位数和该数思路首先考虑只保留一位数，即当该数存在合数位时直接输出即可保留两位数时可以枚举所有数字，存在合数直接输出即可可以知道最多保留三位数，在考虑保留三位数时该101010进制数所有位数都是质数，即2,3,5,72,3,5,72,3,5,7中的一个若存在两个相同的质数可以凑成22,33,55,7722,33,55,7722,33,55,77必然不是素数，所

2021-08-27 15:14:53 104

原创牛客练习赛85 数学家的迷题（bitset + 线段树）

题意有n(1≤n≤5∗104)n(1 \le n \le 5*10^4)n(1≤n≤5∗104)个数a[i](1≤a[i]≤105)a[i](1 \le a[i] \le 10^5)a[i](1≤a[i]≤105)有两种操作将a[id]a[id]a[id]的值改为xxx给定区间[l,r][l,r][l,r]，求出a[l]∗a[l+1]∗⋯∗a[r−1]∗a[r]a[l] * a[l+1] * \dots * a[r-1] * a[r]a[l]∗a[l+1]∗⋯∗a[r−1]∗a[r]的不同的素数

2021-08-26 19:28:23 76

原创 Codeforces Round #740 D1. Up the Strip (整数分块 + 前缀和)

题目链接题意你有两个个整数n（2≤n≤2∗105）,m(108<m<109)n（2 \le n \le 2*10^5）,m(10^8<m<10^9)n（2≤n≤2∗105）,m(108<m<109)，mmm为素数可以进行两种操作选择一个数y(1≤y<x)y (1 \le y < x)y(1≤y<x)，将xxx 变为x−yx-yx−y选择一个数z(2≤z≤x)z(2 \le z \le x)z(2≤z≤x)，将xxx变为x/zx/zx/z问

2021-08-26 14:21:03 104

原创 Codeforces Round #740 C. Deep Down Below

题意有nnn个洞穴，每个洞穴有kik_iki个怪物，每个怪物都有一个防御力ai,ja_{i,j}ai,j英雄有一个初始攻击力SSS，当英雄的攻击力严格大于怪物的防御力时英雄可以击杀怪物，英雄击杀怪物时攻击力会加111英雄可以选择一个洞穴从头到尾击杀这个洞穴的所有怪物，如果不能击杀则游戏结束问英雄的初始攻击力最小值是多少时英雄可以杀掉所有怪物思路设英雄进入洞穴时攻击力为SSS，当打到第jjj个怪物时攻击力为S+j(j>=0)S+j(j >= 0)S+j(j>=0) 所以只需要

2021-08-25 20:34:32 170

原创基于R的概率论上机考

1、tim = 0for(i in 1:10000){ a = sample(c(1,0),1000, replace=TRUE , prob = c( 0.6 , 0.4 ) ) if(sum(a) <= 600) tim <- tim + 1}print(tim/10000)2、num = 0for(i in 1 : 10000){ a= 4 b= 8 one = sample(c(0,1),1,replace=FALSE,prob=c

2021-07-06 12:24:31 134

原创点估计

什么是点估计问题总体XXX的分布函数形式已知，它的一个或多个参数未知，借助于总体XXX的一个样本来估计总体未知参数的值的问题称为点估计问题矩估计和极大似然估计法矩估计原理：矩估计法的理论依据是大数定理。矩估计是基于一种简单的“替换”思想，即用样本矩估计总体矩步骤极大似然估计法原理极大似然估计是在总体分布类型已知的条件下，所使用的一种参数估计方法极大似然估计法的理论基础是极大似然原理：概率大的事件在一次观测中更容易发生由上述可知，极大似然估计法所选取的位置参数θ\theta

2021-05-24 19:36:48 313

原创抽样分布()

什么是统计量？设X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn是来自总体XXX的一个样本，g(X1,X2,⋯ ,Xn)g(X_1,X_2,\cdots,X_n)g(X1,X2,⋯,Xn)是X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn的函数，若ggg中不含未知参数，则称g(X1,X2,⋯ ,Xn)g(X_1,X_2,\cdots,X_n)g(X1,X2,⋯,Xn)是一个统计量常见统计量统计量定义R代码

2021-05-24 19:24:03 192 1

原创期望

什么是随机变量的数学期望离散型设离散型随机遍历XXX的分布率为$P{X=x_i} = p_i ，，，k=1,2,\cdots$若指数∑k−1∞xkpk\sum^{\infty}_{k-1}x_kp_k∑k−1∞xkpk绝对收敛，则称级数∑k−1∞xkpk\sum^{\infty}_{k-1}x_kp_k∑k−1∞xkpk为随机变量XXX的数学期望，记为E(X)E(X)E(X)E(X)=∑k−1∞=xkpkE(X) = \sum^{\infty}_{k-1} = x_kp_kE(X

2021-05-07 14:51:21 101

原创方差

什么是随机变量的方差？方差反映随机变量取值的什么性质？方差是一个常用来体现随机变量的取值分散程度的量设XXX是一个随机变量，若E{[X−E(X)]2}E\{[X-E(X)]^2\}E{[X−E(X)]2}存在，则称E{[X−E(X)]2}E\{[X-E(X)]^2\}E{[X−E(X)]2}为XXX的方差，记为D(X)D(X)D(X)或Var(X)Var(X)Var(X)D(X)=Var(X)=E{[X−E(X)]2}D(X) = Var(X) = E\{[X-E(X)]^2\}D(X)=Var(

2021-05-07 14:50:26 279

原创两个随机变量的函数分布

总结多维随机变量的函数的分布计算方法（离散型、连续型）离散型若联合分布率为P{X=xi,Y=yi}=pijP\{X=x_i,Y=y_i\} = p_{ij}P{X=xi,Y=yi}=pij，$ i,j=1,2,\cdots$则随机变量函数Z=g(X,Y)Z=g(X,Y)Z=g(X,Y)的分布率为P{Z=zi}=P{g(X,Y)=zk}=∑zk=g(xi,yi)pijP\{Z=z_i\}=P\{g(X,Y)=z_k\} = \sum_{z_k=g(x_i,y_i)}p_{ij}P{Z=zi

2021-04-18 22:38:12 1893

原创相互独立的随机变量

由事件的独立性推导随机变量判定独立的条件设F(x,y)F(x,y)F(x,y)及FX(x),FY(y)F_X(x),F_Y(y)FX(x),FY(y)分别是二维随机变量(X,Y)(X,Y)(X,Y)的分布函数及边缘分布函数若对于所有x,yx,yx,y，有P{X≤x,Y≤y}=P{X≤x}P{Y≤y}P\{X \le x,Y \le y\} = P\{X \le x\}P\{Y \le y\}P{X≤x,Y≤y}=P{X≤x}P{Y≤y}即F(x,y)=FX(x)FY(y)F(x,y) = F_X(

2021-04-18 15:40:20 1019 1

原创条件分布

多维离散型随机变量的条件分布律设(X,Y)(X,Y)(X,Y)是二维离散型随机变量，对于固定的jjj，若P{Y=yj}>0P\{Y=y_j\} > 0P{Y=yj}>0则称 P{X=xi∣Y=yi}=P{X=xi,Y=yi}P{Y=yi}=PijP⋅jP\{X=x_i|Y=y_i\} = \frac{P\{X=x_i,Y=y_i\}}{P\{Y=y_i\}}=\frac{P_{ij}}{P_{·j}}P{X=xi∣Y=yi}=P{Y=yi}P{X=xi,Y=yi}=P

2021-04-04 15:14:50 915

原创边缘分布

什么是边缘分布函数，有那些性质设F(x,y)F(x,y)F(x,y)为随机变量(X,Y)(X,Y)(X,Y)的分布函数，则F(x,y)=P{X≤x,Y≤y}F(x,y)=P\{X \le x,Y \le y\}F(x,y)=P{X≤x,Y≤y}令 y→∞y \rightarrow \inftyy→∞，称P(X≤x)=P(X≤x,Y<∞)=F(x,∞)P(X \le x)=P(X\le x,Y < \infty) = F(x,\infty)P(X≤x)=P(X≤x,Y<∞)=F(x,∞)

2021-04-04 14:28:57 7961

原创二维随机变量

什么是二维随机变量？设EEE是一个随机试验，它的样本空间是S={e}S=\{e\}S={e}，设X=X(e)X=X(e)X=X(e)和Y=Y(e)Y=Y(e)Y=Y(e)是定义在SSS上的随机变量由他们构成的一个向量(X,Y)(X,Y)(X,Y)叫做二维随机向量或二维随机变量二维随机变量的分布函数的定义及性质定义设(X,Y)(X,Y)(X,Y)是二维随机变量，对于任意实数x,yx,yx,y，二元函数：${F(x,y)=P{(X \le x) \cap (Y \le y)}}\stackrel

2021-04-04 12:10:03 4930

原创连续型随机变量及其概率密度

什么是连续型随机变量的概率密度函数？如果对于随机变量XXX的分布函数F(x)F(x)F(x)，存在非负可积函数f(x)f(x)f(x)，使对任意实数xxx有：F(x)=∫−∞xf(t)dtF(x) = \int_{-\infty}^x f(t)dtF(x)=∫−∞xf(t)dt则称XXX为连续型随机变量\textbf{连续型随机变量}连续型随机变量，f(x)f(x)f(x)称为XXX的概率密度函数\textbf{概率密度函数}概率密度函数，简称概率密度\textbf{概率密度}概率密度连续型随机变量

2021-03-28 21:31:03 723 1

空空如也

空空如也