如是Rushy-CSDN博客

原创企业spark案例 —— 出租车轨迹分析(2)

任务描述本关任务：使用SparkSQL完成数据分析。相关知识为了完成本关任务，你需要掌握：如何使用SparkSQL进行数据分析FastJson 简述JSON 协议使用方便，越来越流行，JSON 的处理器有很多，这里我介绍一下 FastJson，FastJson 是阿里的开源框架，被不少企业使用，是一个极其优秀的Json框架，Github地址：FastJson 。FastJson 优点FastJson 数度快，无论序列化和反序列化，都是当之无愧的fast功能强大（支持普通JDK类包括任意Ja

2021-10-22 16:43:55 1715

原创企业spark案例 —— 出租车轨迹分析(1)

企业spark案例 —— 出租车轨迹分析仅供学习交流使用任务描述本关任务：将出租车轨迹数据规整化，清洗掉多余的字符串。相关知识为了完成本关任务，你需要掌握：1.如何使用 SparkSQL 读取 CSV 文件，2.如何使用正则表达式清洗掉多余字符串。SparkSQL 读取 CSVval spark = SparkSession.builder().appName("Step1").master("local").getOrCreate()spark.read.option("header",

2021-10-22 16:42:54 3351 1

原创 Spark算子 - Python （二）

仅供交流学习使用！第6关：Transformation - sortBy100任务要求参考答案评论4任务描述相关知识 sortBy sortBy 案例编程要求测试说明任务描述本关任务：使用 Spark 的 SortBy 算子按照相关需求完成相关操作。相关知识为了完成本关任务，你需要掌握：如何使用 sortBy 算子。sortBysortBy 函数是在 org.apache.spark.rdd.RDD 类中实现的，它的实现如下： def sortBy

2021-10-22 16:16:01 2660

原创 Spark算子 - Python （一）

一、理论基础Spark的算子可分为：Transformation变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。Transformation操作是延迟计算的，也就是说从一个RDD转换生成另一个RDD的操作不是马上执行，需要等到有Action操作的时候才会真正触发运算。Action行动算子：这类算子会触发SparkContext提交Job作业。Action算子会触发Spark提交作业（Job），并将数据输出Spark系统。第1关：Transformation - map任务描述

2021-10-22 16:11:17 6913

原创 spark RDD编程第3关：求平均值

任务描述本关任务：编写Spark独立应用程序实现求平均值。相关知识为了完成本关任务，你需要掌握：RDD的创建；RDD的转换操作；RDD的行动操作。RDD的创建使用textFile()方法从本地文件系统中加载数据创建RDD，示例如下： val lines = sc.textFile("file:///home/hadoop/word.txt")执行sc.textFile()方法以后，Spark从本地文件word.txt中加载数据到内存，在内存中生成一个RDD对象lines，这个RDD里

2021-10-22 15:49:41 5958

原创 spark RDD编程第2关：整合排序

任务描述本关任务：编写Spark独立应用程序实现整合排序。相关知识为了完成本关任务，你需要掌握：RDD的创建；RDD的转换操作；RDD的行动操作。RDD的创建使用textFile()方法从本地文件系统中加载数据创建RDD，示例如下： val lines = sc.textFile("file:///home/hadoop/word.txt")执行sc.textFile()方法以后，Spark从本地文件word.txt中加载数据到内存，在内存中生成一个RDD对象lines，这个RDD里

2021-10-22 15:45:33 3930

原创 spark RDD编程第1关：数据去重

Spark RDD编程初级实践(一）任务描述本关任务：编写Spark独立应用程序实现数据去重。相关知识为了完成本关任务，你需要掌握：RDD的创建；RDD的转换操作；RDD的行动操作。RDD的创建使用textFile()方法从本地文件系统中加载数据创建RDD，示例如下： val lines = sc.textFile("file:///home/hadoop/word.txt")执行sc.textFile()方法以后，Spark从本地文件word.txt中加载数据到内存，在内存中生成

2021-10-22 15:43:12 4228

原创存储器与CPU的连接

计算机组成原理（唐朔飞版）4.2.5 存储器与CPU的连接教材例题备注（1）CPU按字节访问的地址范围为0-1M，CPU按字访问的地址范围是0-512k ；或：CPU按字节访问的最大地址容量为1M，CPU按字访问的最大地址容量是512k 。解答说明不同容量的半导体存储芯片可组成不同容量的存储器。对于一定容量的存储器,按字节访问或按字访问的寻址范围是不同的。例如，一个容量为16 MB的存储器,按字节寻址的范围是16 M,正好对应24根地址线(2^24= 16 M)。若按字寻址,则寻址

2021-04-10 22:07:45 1917

原创倒排索引和利用PageRank算法进行网页排序

第三章倒排索引前面通过词频统计，已经可以找出高频率的“关键词”了，这些词汇出现的频率很高以至于很难直接对其所在的文档进行查找。必须借助一定的关系模型表示单词与文本的关系，然后才可以实现快速搜索查找。单词-文档矩阵是表达这种包含关系的最简洁的概念模型。每列代表文档包含了哪些单词，比如文档1包含了词汇1和词汇4，而不包含其它单词。每行代表了哪些文档包含了某个单词。比如对于词汇1来说，文档1和文档4中出现过单词1，而其它文档不包含词汇1。搜索引擎的索引其实就是实现“单词-文档矩阵”的具体数据结构。可以有

2020-12-23 09:16:39 1997

原创 HDFS文件读写

Hadoop分布式文件系统（HDFS）是hadoop上部署的存储架构。有着高容错性（fault-tolerant）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。为了熟练应用hadoop，必须对HDFS文件进行创建和读写等操作。本关任务利用HDFS文件系统开放的API对HDFS系统进行文件的创建和读写要求：在HDFS的路径/user/hadoop/下

2020-12-23 09:03:53 1942 1

原创 Python程序设计实验1

Python程序设计实验任务一：生成一定范围的随机小数#Python-生成一定范围的随机小数import randomA=0B=1#小数的范围A ~ Ba=random.uniform(A,B)C=2#随机数的精度round(数值，精度)print(round(a,C))#例如：a=(round(random.uniform(1,10),2))任务二生成随机整数im...

2020-12-23 08:55:35 2204

原创 WordCount词频统计

WordCount词频统计from educoder实训实训项目地址：https://www.educoder.net/shixuns/aekgf6pz/challenges本关任务词频统计是最能体现MapReduce思想的程序，结构简单，上手容易。词频统计的大致功能是：统计单个或者多个文本文件中每个单词出现的次数，并将每个单词及其出现频率按照<k，v>键值对的形式输出，其基本执行流程如下图所示：由图可知：输入文本（可以不只一个），按行提取文本文档的单词，形成行<k1，v

2020-12-23 08:53:43 11050

原创算法设计与分析 | 回溯法

实验五、回溯法一实验目的与要求1、理解回溯法的概念。2、掌握回溯法纠结问题基本步骤。3、了解回溯算法效率的分析方法二实验内容1、求解组合问题回溯求法2、0/1背包问题分支求法三、实验题1、编写一个实验程序，采用回溯法输出自然数1~n中任取r个数的所有组合实验报告使用/*找n个数中r个数的组合例如：当 n=5, r=3 时，所有组合为：1 2 31 2 41 2 51 3 41 3 51 4 52 3 42 3 52 4 53 4 5 total=1

2020-12-09 23:20:13 3200 1

原创最优装载问题

最优装载问题Description有一批集装箱要装上一艘载重量为C的轮船。其中集装箱i的重量为wi。最优装载问题要求确定在装载体积不受限制的情况下，将尽可能多的集装箱装上轮船。Input输入的第一个为测试样例的个数T，接下来有T个测试样例。每个测试样例的第一行是一个非负整数n（ n ≤ 1000 ）和一个非负整数C（ C ≤ 10000 ），分别表示集装箱的个数以及轮船的载重量。接下来有n行，每行一个非负数，表示每个集装箱的重量。Output对应每个测试样例输出一行，格式为"Case #: D

2020-12-07 08:56:55 4537

原创贪心法出现次数最多元素问题

贪心法出现次数最多元素问题问题描述给定n个正整数，找出它们中出现次数最多的数。如果这样的数有多个，请输出其中最小的一个。输入格式　　输入的第一行只有一个正整数n(1 ≤ n ≤ 1000)，表示数字的个数。　　输入的第二行有n个整数s 1, s 2, …, s n (1 ≤ s i ≤ 10000, 1 ≤ i ≤ n)。相邻的数用空格分隔。输出格式　　输出这n个次数中出现次数最多的数。如果这样的数有多个，输出其中最小的一个。样例输入610 1 10 20 30 20样例输出10参

2020-12-07 08:52:54 2103 1

原创动态规划 Buy Low, Buy Lower 逢低吸纳

“逢低吸纳”是炒股的一条成功秘诀。如果你想成为一个成功的投资者，就要遵守这条秘诀:"逢低吸纳,越低越买"这句话的意思是：每次你购买股票时的股价一定要比你上次购买时的股价低.按照这个规则购买股票的次数越多越好，看看你最多能按这个规则买几次。给定连续的N天中每天的股价。你可以在任何一天购买一次股票，但是购买时的股价一定要比你上次购买时的股价低。写一个程序，求出最多能买几次股票。以下面这个表为例, 某几天的股价是:天数 1 2 3 4 5 6 7 8 9 10 11 12股价 68

2020-12-03 10:58:15 658

原创最大子序列和问题（动态规划）

最大子序列和问题（动态规划）1.问题详解输入一组整数，求出这组数字子序列和中最大值。也就是只要求出最大子序列的和。例如：序列：-2 11 -4 13 -5 -2，则最大子序列和为20。序列：-6 2 4 -7 5 3 2 -1 6 -9 10 -2，则最大子序列和为16。2.解决办法这一类题目我们通常采用动态规划来解决，即可以通过一次遍历完成对于最大子序列以及相应位置坐标的求解。思路如下（假设存在正数）：（1）我们需要理解，

2020-12-03 10:40:58 1540

转载附加数据库失败，操作系统错误 5:"5(拒绝访问。)"的解决办法

附加数据库失败，操作系统错误 5:"5(拒绝访问。)"的解决办法无法打开物理文件 XXX.mdf"。操作系统错误 5:“5(拒绝访问。)”。 (Microsoft SQL Server，错误:5120)找到xxx.MDF与xxx_log.LDF文件，右键-属性-安全-在组或用户名处添加AuthenticatedUsers-更改该组权限为完全权限，再次附加成功。注：Windows 身份验证附...

2020-04-24 12:27:51 195

原创 Python 函数定义与使用练习题

第一题：编写函数,判断一个数是否为素数？并求出所有四位数的素数import mathdef sushu(m): k = int(math.sqrt(m)) for i in range(2, k+2): if m % i == 0: break if i == k+1: return True else:...

2020-04-13 17:52:21 7429 1

weixin_44686879的博客