自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 企业spark案例 —— 出租车轨迹分析(2)

任务描述本关任务:使用SparkSQL完成数据分析。相关知识为了完成本关任务,你需要掌握:如何使用SparkSQL进行数据分析FastJson 简述JSON 协议使用方便,越来越流行,JSON 的处理器有很多,这里我介绍一下 FastJson,FastJson 是阿里的开源框架,被不少企业使用,是一个极其优秀的Json框架,Github地址:FastJson 。FastJson 优点FastJson 数度快,无论序列化和反序列化,都是当之无愧的fast功能强大(支持普通JDK类包括任意Ja

2021-10-22 16:43:55 1715

原创 企业spark案例 —— 出租车轨迹分析(1)

企业spark案例 —— 出租车轨迹分析仅供学习交流使用任务描述本关任务:将出租车轨迹数据规整化,清洗掉多余的字符串。相关知识为了完成本关任务,你需要掌握:1.如何使用 SparkSQL 读取 CSV 文件,2.如何使用正则表达式清洗掉多余字符串。SparkSQL 读取 CSVval spark = SparkSession.builder().appName("Step1").master("local").getOrCreate()spark.read.option("header",

2021-10-22 16:42:54 3351 1

原创 Spark算子 - Python (二)

仅供交流学习使用!第6关:Transformation - sortBy100任务要求参考答案评论4任务描述相关知识 sortBy sortBy 案例编程要求测试说明任务描述本关任务:使用 Spark 的 SortBy 算子按照相关需求完成相关操作。相关知识为了完成本关任务,你需要掌握:如何使用 sortBy 算子。sortBysortBy 函数是在 org.apache.spark.rdd.RDD 类中实现的,它的实现如下: def sortBy

2021-10-22 16:16:01 2660

原创 Spark算子 - Python (一)

一、理论基础Spark的算子可分为:Transformation变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation操作是延迟计算的,也就是说从一个RDD转换生成另一个RDD的操作不是马上执行,需要等到有Action操作的时候才会真正触发运算。Action行动算子:这类算子会触发SparkContext提交Job作业。Action算子会触发Spark提交作业(Job),并将数据输出Spark系统。第1关:Transformation - map任务描述

2021-10-22 16:11:17 6913

原创 spark RDD编程 第3关:求平均值

任务描述本关任务:编写Spark独立应用程序实现求平均值。相关知识为了完成本关任务,你需要掌握:RDD的创建;RDD的转换操作;RDD的行动操作。RDD的创建使用textFile()方法从本地文件系统中加载数据创建RDD,示例如下: val lines = sc.textFile("file:///home/hadoop/word.txt")执行sc.textFile()方法以后,Spark从本地文件word.txt中加载数据到内存,在内存中生成一个RDD对象lines,这个RDD里

2021-10-22 15:49:41 5958

原创 spark RDD编程 第2关:整合排序

任务描述本关任务:编写Spark独立应用程序实现整合排序。相关知识为了完成本关任务,你需要掌握:RDD的创建;RDD的转换操作;RDD的行动操作。RDD的创建使用textFile()方法从本地文件系统中加载数据创建RDD,示例如下: val lines = sc.textFile("file:///home/hadoop/word.txt")执行sc.textFile()方法以后,Spark从本地文件word.txt中加载数据到内存,在内存中生成一个RDD对象lines,这个RDD里

2021-10-22 15:45:33 3930

原创 spark RDD编程 第1关:数据去重

Spark RDD编程初级实践(一)任务描述本关任务:编写Spark独立应用程序实现数据去重。相关知识为了完成本关任务,你需要掌握:RDD的创建;RDD的转换操作;RDD的行动操作。RDD的创建使用textFile()方法从本地文件系统中加载数据创建RDD,示例如下: val lines = sc.textFile("file:///home/hadoop/word.txt")执行sc.textFile()方法以后,Spark从本地文件word.txt中加载数据到内存,在内存中生成

2021-10-22 15:43:12 4228

原创 存储器与CPU的连接

计算机组成原理(唐朔飞版)4.2.5 存储器与CPU的连接教材例题备注(1)CPU按字节访问的地址范围为0-1M,CPU按字访问的地址范围是0-512k ;或:CPU按字节访问的最大地址容量为1M,CPU按字访问的最大地址容量是512k 。解答说明不同容量的半导体存储芯片可组成不同容量的存储器。对于一定容量的存储器,按字节访问或按字访问的寻址范围是不同的。例如,一个容量为16 MB的存储器,按字节寻址的范围是16 M,正好对应24根地址线(2^24= 16 M)。若按字寻址,则寻址

2021-04-10 22:07:45 1917

原创 倒排索引和利用PageRank算法进行网页排序

第三章 倒排索引前面通过词频统计,已经可以找出高频率的“关键词”了,这些词汇出现的频率很高以至于很难直接对其所在的文档进行查找。必须借助一定的关系模型表示单词与文本的关系,然后才可以实现快速搜索查找。单词-文档矩阵是表达这种包含关系的最简洁的概念模型。每列代表文档包含了哪些单词,比如文档1包含了词汇1和词汇4,而不包含其它单词。每行代表了哪些文档包含了某个单词。比如对于词汇1来说,文档1和文档4中出现过单词1,而其它文档不包含词汇1。搜索引擎的索引其实就是实现“单词-文档矩阵”的具体数据结构。可以有

2020-12-23 09:16:39 1997

原创 HDFS文件读写

Hadoop分布式文件系统(HDFS)是hadoop上部署的存储架构。有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。为了熟练应用hadoop,必须对HDFS文件进行创建和读写等操作。本关任务利用HDFS文件系统开放的API对HDFS系统进行文件的创建和读写要求:在HDFS的路径/user/hadoop/下

2020-12-23 09:03:53 1942 1

原创 Python程序设计实验1

Python程序设计实验任务一:生成一定范围的随机小数#Python-生成一定范围的随机小数import randomA=0B=1#小数的范围A ~ Ba=random.uniform(A,B)C=2#随机数的精度round(数值,精度)print(round(a,C))#例如:a=(round(random.uniform(1,10),2))任务二生成随机整数im...

2020-12-23 08:55:35 2204

原创 WordCount词频统计

WordCount词频统计from educoder实训实训项目地址:https://www.educoder.net/shixuns/aekgf6pz/challenges本关任务词频统计是最能体现MapReduce思想的程序,结构简单,上手容易。词频统计的大致功能是:统计单个或者多个文本文件中每个单词出现的次数,并将每个单词及其出现频率按照<k,v>键值对的形式输出,其基本执行流程如下图所示:由图可知:输入文本(可以不只一个),按行提取文本文档的单词,形成行<k1,v

2020-12-23 08:53:43 11050

原创 算法设计与分析 | 回溯法

实验五、回溯法一 实验目的与要求1、 理解回溯法的概念。2、 掌握回溯法纠结问题基本步骤。3、 了解回溯算法效率的分析方法二 实验内容1、求解组合问题回溯求法2、0/1背包问题分支求法三、实验题1、编写一个实验程序,采用回溯法输出自然数1~n中任取r个数的所有组合实验报告使用/*找n个数中r个数的组合例如:当 n=5, r=3 时 , 所有组合为:1 2 31 2 41 2 51 3 41 3 51 4 52 3 42 3 52 4 53 4 5 total=1

2020-12-09 23:20:13 3200 1

原创 最优装载问题

最优装载问题Description有一批集装箱要装上一艘载重量为C的轮船。其中集装箱i的重量为wi。最优装载问题要求确定在装载体积不受限制的情况下,将尽可能多的集装箱装上轮船。Input输入的第一个为测试样例的个数T,接下来有T个测试样例。每个测试样例的第一行是一个非负整数n( n ≤ 1000 )和一个非负整数C( C ≤ 10000 ),分别表示集装箱的个数以及轮船的载重量。接下来有n行,每行一个非负数,表示每个集装箱的重量。Output对应每个测试样例输出一行,格式为"Case #: D

2020-12-07 08:56:55 4537

原创 贪心法出现次数最多元素问题

贪心法出现次数最多元素问题问题描述给定n个正整数,找出它们中出现次数最多的数。如果这样的数有多个,请输出其中最小的一个。输入格式  输入的第一行只有一个正整数n(1 ≤ n ≤ 1000),表示数字的个数。  输入的第二行有n个整数s 1, s 2, …, s n (1 ≤ s i ≤ 10000, 1 ≤ i ≤ n)。相邻的数用空格分隔。输出格式  输出这n个次数中出现次数最多的数。如果这样的数有多个,输出其中最小的一个。样例输入610 1 10 20 30 20样例输出10参

2020-12-07 08:52:54 2103 1

原创 动态规划 Buy Low, Buy Lower 逢低吸纳

“逢低吸纳”是炒股的一条成功秘诀。如果你想成为一个成功的投资者,就要遵守这条秘诀:"逢低吸纳,越低越买"这句话的意思是:每次你购买股票时的股价一定要比你上次购买时的股价低.按照这个规则购买股票的次数越多越好,看看你最多能按这个规则买几次。给定连续的N天中每天的股价。你可以在任何一天购买一次股票,但是购买时的股价一定要比你上次购买时的股价低。写一个程序,求出最多能买几次股票。以下面这个表为例, 某几天的股价是:天数 1 2 3 4 5 6 7 8 9 10 11 12股价 68

2020-12-03 10:58:15 658

原创 最大子序列和问题(动态规划)

最大子序列和问题(动态规划)1.问题详解 输入一组整数,求出这组数字子序列和中最大值。也就是只要求出最大子序列的和。例如: 序列:-2 11 -4 13 -5 -2,则最大子序列和为20。 序列:-6 2 4 -7 5 3 2 -1 6 -9 10 -2,则最大子序列和为16。2.解决办法 这一类题目我们通常采用动态规划来解决,即可以通过一次遍历完成对于最大子序列以及相应位置坐标的求解。 思路如下(假设存在正数): (1)我们需要理解,

2020-12-03 10:40:58 1540

转载 附加数据库失败,操作系统错误 5:"5(拒绝访问。)"的解决办法

附加数据库失败,操作系统错误 5:"5(拒绝访问。)"的解决办法无法打开物理文件 XXX.mdf"。操作系统错误 5:“5(拒绝访问。)”。 (Microsoft SQL Server,错误:5120)找到xxx.MDF与xxx_log.LDF文件,右键-属性-安全-在组或用户名处添加AuthenticatedUsers-更改该组权限为完全权限,再次附加成功。注:Windows 身份验证 附...

2020-04-24 12:27:51 195

原创 Python 函数定义与使用练习题

第一题:编写函数,判断一个数是否为素数?并求出所有四位数的素数import mathdef sushu(m): k = int(math.sqrt(m)) for i in range(2, k+2): if m % i == 0: break if i == k+1: return True else:...

2020-04-13 17:52:21 7429 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除