自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(228)
  • 收藏
  • 关注

原创 2021-11-08-动画讲编程 算法训练营5步学习法

@R星校长下面给大家介绍算法训练营的五步学习法,分别是01. 先思考,后刷题02. 看动画,初学习03. 学习后,再尝试04. 细听课,克难点05. 勤复习,三遍过学习流程表我们先来看算法训练营的学习流程表,周课程名称类别第一步:先思考后刷题第二步:看动画,出学习…第1周1.1-链表的基础知识,单链表链表第1周1.2-链表逆序链表第1周1.3-链表求交点链表第1周1.4- 两个排序链表的合并链表第.

2021-11-08 14:46:03 2611

原创 2021-11-06 动画讲编程笔记-准备算法面试的经验分享

@R星校长面对算法面试有五点注意:1.明确目标与规划2.精选题目初步练3.每题三遍成习惯4.纸和白板刻意练5.善用教程与视频在刷题前一定要先明确目标并做好规划,我们的目标是为了找工作准备算法面试,还是为了巩固,学习算法知识,又或者是为了参加程序设计竞赛,目标的不同会直接影响规划与训练,如果是为了找工作,那么就要针对面试算法的考点精心准备,不能随意的选择题目,对于很多面试中几乎不会涉及的算法(扩展KMP)(计算几何)或者是比较偏冷门题目,做这些题会消耗很多时间和精力。对于新人,不常考的算法题.

2021-11-06 22:02:45 1117

原创 2021-11-05 Leetcood 160 每日一题

@R星校长已知两个单链表的头节点 headA 和 headB ,请你找出并返回两个单链表相交的起始节点。如果两个链表没有交点,返回 null 。杰哥我用白话翻译过来:链表A和链表B相交于C节点,我们返回C节点的地址,如果两个链表之间没有交点,程序返回null图示两个链表在节点 c1 开始相交:题目数据 保证 整个链式结构中不存在环。注意,函数返回结果后,链表必须 保持其原始结构 。杰哥我用白话翻译过来:不能删除节点、添加节点或是改变节点内的数据。本题当中有多种解法,实现算法的时候,我.

2021-11-05 21:48:48 1058

原创 sklearn数据预处理(三)归一化

@R星校长第3关:归一化任务描述本关任务:利用sklearn对数据进行归一化。相关知识为了完成本关任务,你需要掌握:1.为什么使用归一化,2.L1范式归一化,3.L2范式归一化。为什么使用归一化归一化是缩放单个样本以具有单位范数的过程。归一化实质是一种线性变换,线性变换有很多良好的性质,这些性质决定了对数据改变后不会造成“失效”,反而能提高数据的表现,这些性质是归一化的前提。归一化能够加快模型训练速度,统一特征量纲,避免数值太大。 值得注意的是,归一化是对每一个样本做转换,所以是对数据的每一.

2021-11-05 10:04:08 2398

原创 sklearn数据预处理(二)非线性转换

@R星校长第2关:非线性转换为什么要非线性转换。映射到均匀分布。映射到高斯分布。为什么要非线性转换在上一关中已经提到,对于大多数数据挖掘算法来说,如果特征不服从或者近似服从标准正态分布(即,零均值、单位标准差的正态分布)的话,算法的表现会大打折扣。非线性转换就是将我们的特征映射到均匀分布或者高斯分布(即正态分布)。映射到均匀分布相比线性缩放,该方法不受异常值影响,它将数据映射到了零到一的均匀分布上,将最大的数映射为1,最小的数映射为0。其它的数按从小到大的顺序均匀分布在0到1之间,如有.

2021-06-03 23:17:19 9818 1

原创 2021-03-19~20 大数据课程笔记 day58day59

@R星校长1 Scala1.1 【重点】Scala六大特性 1) 与java无缝整合 2) 类型自动推断 3) 并发和分布式 4) Trait特质特性 5) Match模式匹配 6) 高阶函数1.2 【重点】Scala & Java异同? 1) 类型定义声明不同,Scala :val/var Java强类型定义。 2) Scala中有类和对象,Java中有类。 3) Scala、java都是是基于Jvm,scala面向对象+面向函数编程,java面向对象编程。 4) .

2021-03-20 21:01:09 506 1

原创 2021-03-17~18 大数据课程笔记 day56day57

@R星校长1 基础概念和Kylin简介1.1 OLTP与OLAP  数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。1.1.1 OLTP  OLTP(On-Line Transaction Processing):联机事务处理,OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。主要用于业务类系统,主要供基层人员使.

2021-03-18 20:59:25 683

原创 2021-03-14~15~16 大数据课程笔记 day53day54day55

@R星校长1. 大数据集群搭建及管理问题提出问题:需要搭建1000台服务器的集群,其中集群包含Hive、Hbase、Flume、Kafka、Spark等集群,需要多长时间搭建好?思考:搭建四台集群与搭建1000台集群的区别?比较相似。解决问题:(以搭建HDFS为例) 1. 集群环境规划:  首先我们需要进行集群基础环境的规划:比如每台节点的网络ip规划,节点时间同步,每台节点的名称,每台节点安装jdk,节点之间配置免密等。  其次需要进行Hadoop的集群规划:比如搭建HDFS的版本.

2021-03-16 22:23:11 721

原创 2021-03-13 大数据课程笔记 day52

@R星校长基于Flink的城市交通监控平台1.1 项目整体介绍  近几年来,随着国内经济的快速发展,高速公路建设步伐不断加快,全国机动车辆、驾驶员数量迅速增长,交通管理工作日益繁重,压力与日俱增。为了提高公安交通管理工作的科学化、现代化水平,缓解警力不足,加强和保障道路交通的安全、有序和畅通,减少道路交通违法和事故的发生,全国各地建设和使用了大量的“电子警察”、“高清卡口”、“固定式测速”、“区间测速”、“便携式测速”、“视频监控”、“预警系统”、“能见度天气监测系统”、“LED信息发布系统”等交通.

2021-03-13 20:30:50 1295 3

原创 2021-03-08~09~10~11~12 大数据课程笔记 day47day48day49day50day51

@R星校长大数据技术之Flink第一章 初识Flink  在当前数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效的处理,成为当下大多数公司所面临的问题。目前比较流行的大数据处理引擎Apache Spark,基本上已经取代了MapReduce成为当前大数据处理的标准。但对实时数据处理来说,Apache Spark的Spark-Streaming还有性能改进的空间。对于Spark-Streaming的流计算本质上还是批(微批)计算,Apache Flink.

2021-03-12 23:26:36 1015 3

原创 2021-03-07 大数据课程笔记 day46

@R星校长机器学习06【机器学习】主要内容理解推荐系统处理数据流程。python 文件预处理 Hive 数据。dubbo 服务使用。学习目标第一节 推荐系统-数据处理流程推荐系统数据处理首先是将 Hive 中的用户 app 历史下载表与 app 浏览信息表按照设备 id 进行关联,然后将关联数据使用 python 文件进行处理,将数据预处理为 label 和 feature 两列的临时数据,后期经过处理转换成逻辑回归 模型的训练集,进而得到模型文件。数据处理流程图如下:第二节 H.

2021-03-07 12:49:33 257

原创 2021-03-06 大数据课程笔记 day45

@R星校长机器学习05【机器学习】主要内容模型评估方式理解协同过滤思想理解推荐系统架构理解推荐系统流程学习目标第一节 模型评估1. 混淆矩阵:对以上混淆矩阵的解释:P:样本数据中的正例数。N:样本数据中的负例数。Y:通过模型预测出来的正例数。N:通过模型预测出来的负例数。True Positives:真阳性,表示实际是正样本预测成正样本的样本数。Falese Positives:假阳性,表示实际是负样本预测成正样本的样本数。False Negatives:假阴性,表示.

2021-03-06 14:24:45 1568

原创 2021-03-05 大数据课程笔记 day44

@R星校长机器学习04【机器学习】主要内容道路拥堵预测梯度下降法逻辑回归优化模型评估学习目标第一节 道路拥堵情况预测1. 构建训练集:每条道路的拥堵情况不仅和当前道路前一个时间点拥堵情况有关系,还和与这条道路临近的其他道路的拥堵情况有关。甚至还和昨天当前时间点当前道路是否拥堵有关联。我们可以根据这个规律,构建训练集,预测一条道路拥堵情况。假设现在要训练一个模型:使用某条道路最近三分钟拥堵的情况,预测该条道路下一分钟的拥堵情况。如何构建训练集?构建的训练集有什么样的特点,依靠训练.

2021-03-05 22:17:41 249

原创 2021-03-04 大数据课程笔记 day43

@R星校长机器学习03【机器学习】主要内容数字聚类案例TF-IDF算法微博营销案例逻辑回归算法音乐分类案例学习目标第一节 数字聚类案例1. K-means 找中心点和数据点分类例子import numpy as np #将每行数据放入一个数组内列表,返回一个二维列表def loadDataSet(fileName): #建空列表 dataMat = [] fr = open(fileName) for li.

2021-03-04 10:35:18 295 1

原创 2021-03-03 大数据课程笔记 day42

@R星校长机器学习02【机器学习】主要内容朴素贝叶斯算法拉普拉斯估计KNN 最近邻算法Kmeans 聚类算法学习目标第一节 朴素贝叶斯算法朴素贝叶斯(Naive Bayes ,NB)算法是基于贝叶斯定理与特征条件独立假设的分类方法,该算法是有监督的学习算法,解决的是分类问题,是将一个未知样本分到几个预先已知类别的过程。朴素贝叶斯的思想就是根据某些个先验概率计算Y变量属于某个类别的后验概率,也就是根据先前事件的有关数据估计未来某个事件发生的概率。1. 举例: 一个学校内有60%.

2021-03-03 12:22:34 360

原创 开发 PySpark 的准备环境

@R星校长开发 PySpark 所需准备环境 1) 安装 python 环境  下载安装Anaconda。 详细见文档 “Anaconda安装及使用.docx”。  2) 安装 PyCharm  下载安装 PyCharm。 3) 官网下载 Spark 安装包  由于 PyCharm 开发 spark 需要本地 Spark 环境,所以要在官网中下载 Spark 安装包到本地(这里我们下载 Spark1.6 版本)。  A. 进入 Spark 官网,找到对应的 Spark 版本下载。  B..

2021-03-02 16:47:54 336

原创 2021-03-02 大数据课程笔记 day41

@R星校长机器学习01【机器学习】主要内容Anconda安装使用python开发spark线性回归算法原理线性回归算法案例学习目标第一节 pySpark环境准备1).window配置python环境变量window安装python,配置python环境变量。安装python后,在环境变量path中加入安装的路径,cmd中输入python,检验python是否安装成功。 注意:如果使用的是anaconda安装的python环境,建议安装python3.5.x版本,这个版本和spar.

2021-03-02 14:58:24 309

原创 2021-03-01 大数据课程笔记 day40

@R星校长Spark优化【Spark优化内容】主要内容Spark资源优化Spark并行度优化Spark代码优化内存调优Sparkshuffle优化堆外内存优化解决数据倾斜第一节 资源优化  1) .搭建Spark集群的时候要给Spark集群足够的资源(core,memory)  在spark安装包的conf下spark-env.sh   SPARK_WORKER_CORES   SPARK_WORKER_MEMORY   SPARK_WORKER_INSTANCE  2.

2021-03-01 13:21:37 266

原创 2021-02-26~27~28 大数据课程笔记 day37day38day39

@R星校长音乐数据中心平台1.1 数据库与ER建模1.1.1 数据库(DataBase)数据库是按照数据结构来组织、存储和管理数据的仓库,是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。数据库是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合,可视为电子化的文件柜,存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作,数据组织主要是面向事务处理任务。1.1.2 数据库三范式关系型数据库设计时,遵照一定的.

2021-02-28 23:45:16 3396 2

原创 2021-02-25 大数据课程笔记 day36

@R星校长Spark第八天【SparkStreaming内容】主要内容Kafka应用场景Kafka分布式消息系统原理Kafka集群搭建Kafka 操作命令Kafka Leader 均衡机制SparkStreaming与Kafka整合学习目标第一节 Kafka 介绍kafka是什么?使用场景?Kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式,先进先出(FIFO)保证顺序,自己不丢数据,默认每隔7天清理数据。消息列队常见场景:系统之间解耦合、峰值压力缓冲、异步.

2021-02-25 18:50:21 235

原创 2021-02-24 大数据课程笔记 day35

@R星校长Spark第七天【SparkSQL+SparkStreaming内容】主要内容SparkSQL开窗函数SparkSQL案例SparkStreaming&Strom区别SparkStreaming读取Socket数据SparkStreaming算子SparkStreaming Driver HA学习目标第一节 SparkSQL开窗函数开窗函数注意:row_number()开窗函数是按照某个字段分组,然后取另一字段的前几个的值,相当于 分组取topN,在MySq.

2021-02-24 18:42:07 133

原创 2021-02-23 大数据课程笔记 day34

@R星校长Spark第六天【SparkSQL内容】主要内容SparkSQL的演变过程Spark on Hive & Hive on SparkSparkSQL DataFrame创建DataFrame的方式Spark on Hive自定义函数UDF & UDAF开窗函数学习目标第一节 SparkSQL 介绍1. SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive.

2021-02-23 18:31:32 184

原创 2021-02-22 大数据课程笔记 day33

@R星校长Spark 第五天【SparkCore 内容】主要内容广播变量和累加器Spark webui 界面Spark 历史日志服务器配置Spark MasterHASpark ShuffleSpark Shuffle 文件寻址Spark 内存管理Spark Shuffle 优化第一节 Spark 广播变量和累加器广播变量广播变量理解图广播变量使用val conf = new SparkConf()conf.setMaster("local").setAppN.

2021-02-22 18:15:48 167 2

原创 2021-02-21 大数据课程笔记 day32

@R星校长Spark 第四天【SparkCore 内容】主要内容Spark Master 启动源码Spark Submit 任务提交源码Spark Driver 启动源码Spark Application 注册并分配资源Spark 资源调度结论Spark 任务调度Spark 二次排序问题Spark 分组取 topN 问题学习目标第一节 Spark Master 启动Spark 资源任务调度对象关系图集群启动过程Spark 集群启动之后,首先调用 $SPARK_HOME/.

2021-02-21 10:45:18 159

原创 2021-02-20 大数据课程笔记 day31

@R星校长Spark 第三天【SparkCore内容】主要内容Spark-Core中的术语RDD的宽窄依赖Spark Stage & Spark计算模式Spark资源调度和任务调度Spark补充算子Spark PV&UV 案例Spark-Submit提交参数学习目标第一节 术语与宽窄依赖术语解释窄依赖和宽依赖RDD 之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。窄依赖父 RDD 和子 RDD partition 之间的关系是一对一的。或者父 R.

2021-02-20 18:11:50 136 2

原创 2021-02-19 大数据课程笔记 day30

@R星校长Spark第二天【SparkCore内容】主要内容Spark集群搭建Spark Spark Pi任务提交Spark on Yarn 配置Spark基于Standalone任务提交两种模式Spark基于Yarn任务提交两种模式Spark部分Transformation算子Spark部分Action算子学习目标第一节 Spark 集群搭建Standalone 集群搭建与 Spark on Yarn 配置 StandaloneStandalone 集群是 Spark.

2021-02-19 18:46:20 125

原创 2021-02-18 大数据课程笔记 day29

@R星校长Spark 第一天【 SparkCore 内容】主要内容Spark 概念Spark 技术栈内容Spark 与 MapReduce 区别Spark 运行模式Spark Java-Scala 混编 Maven 项目创建Spark 核心 RDDSpark 代码流程Spark 部分算子Spark 持久化算子学习目标第一节 Spark 初始什么是 SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是UC Berkeley A.

2021-02-18 15:42:41 207

原创 2021-02-17 大数据课程笔记 day28

@R星校长Scala第二天【Scala内容】主要内容Scala 迭代器模式处理数据ScalaTrait 特质特性Scala 模式匹配Scala 偏函数Scala 样例类Scala 隐式转换Scala Actor 通信模型Spark WordCount学习目标第一节 Scala 迭代器模式 + Trait 特质特性Scala迭代器模式处理数据scala 中创建集合需要内存,集合与集合之间的转换时,每次转换生成新的集合时,新的集合也需要内存。如果有一个非常大的初始集合,需要经过.

2021-02-17 10:56:33 202

原创 2021-02-16 大数据课程笔记 day27

@R星校长Scala 第一天【Scala内容】主要内容Scala介绍Scala安装使用Scala数据对象Scala类和对象Scala流程控制Scala方法与函数Scala字符串Scala集合学习目标第一节 Scala介绍为什么学习Scala语言Scala 是基于JVM 的语言,与 java 语言类似,Java 语言是基于 JVM 的面向对象的语言。Scala 也是基于 JVM ,同时支持面向对象和面向函数的编程语言。这里学习 Scala 语言的原因是后期我们会学习一个优.

2021-02-16 22:48:07 167

原创 2021-02-15 大数据课程笔记 day26

@R星校长Python 教程 day02第七章 类和对象面向对象编程介绍  面向对象编程——Object Oriented Programming,简称 OOP,是一种程序设计思想。OOP 把对象作为程序的基本单元,一个对象包含了数据和操作数据的函数。面向对象是一种对现实世界理解和抽象的方法。  “面向过程” (Procedure Oriented) 是一种以过程为中心的编程思想。“面向过程”也可称之为“面向记录”编程思想,他们不支持丰富的“面向对象”特性(比如继承、多态、封装),并且它们不允许.

2021-02-15 22:12:33 557

原创 2021-02-14 大数据课程笔记 day25

@R星校长Python教程第一章Python的介绍python介绍一种面向对象,面向函数的解释型计算机程序设计语言,由荷兰人Guido van Rossum(龟叔)于1989年发明,第一个公开发行版发行于1991年。Python是纯粹的自由软件, 源代码和解释器 CPython 遵循 GPL(GNU General Public License) 协议[2]. Python 语法简洁清晰,特色之一是强制用空白符(white space)作为语句缩进。Python 具有丰富和强大的库。它常被昵称为胶.

2021-02-14 21:59:54 910 1

原创 2021-02-13 大数据课程笔记 day24

@R星校长Lucene 与 ElasticSearch 概述Lucene 全文检索Lucene 概述Lucene 是一个全文搜索框架,而不是应用产品。因此它并不像http://www.baidu.com/ 或者 google Desktop 那么拿来就能用,它只是提供了一种工具让你能实现这些产品。lucene 能做什么 :本质就是给搜索内容定位要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你.

2021-02-13 21:52:40 938

原创 2021-02-12 大数据课程笔记 day23

@R星校长redis 概述为什么使用 redis?什么是 Redis?Redis是用C语言开发的一个开源的高性能键值对(key-value)内存数据库。它提供六种数据类型来存储值:string 字符串类型、hash 散列类型、list 列表类型、set 集合类型、zset(SortedSet) 有序集合类型、stream 流类型。它是一种 NoSQL 数据库。Redis 历史发展2008 年,意大利的一家创业公司 Merzia 推出了一款基于 MySQL 的网站实时统计系统 LL.

2021-02-12 16:59:23 581

原创 2021-02-11 大数据课程笔记 day22

第3天 离线项目-3 新增用户数据处理时间维度浏览器维度平台维度KPI 一个工具维度通过以上四个维度的各种组合,计算它的新增用户指标课程大纲项目模块设计思路新增用户指标 mapper 开发新增用户指标 reducer 开发新增用户指标 Runner 开发MapReduce 结果存 MySQL新增用户指标运行结果hbaseuuid,servertime,browser,platform,kpi事件 lanuch 时间 浏览器 平台 kpi 模块 时间

2021-02-11 20:44:57 795 1

原创 2021-02-10 大数据课程笔记 day21

@R星校长离线项目第二天flume sinksHDFS Sink (使用较多)属性名称默认值说明channel-type-组件类型名称,必须是hdfshdfs.path-HDFS路径,如hdfs://mycluster/flume/mydatahdfs.filePrefixFlumeDataflume在hdfs目录中创建文件的前缀hdfs.fileSuffix-flume在hdfs目录中创建文件的后缀。hdfs.inUsePr.

2021-02-10 18:41:23 183

原创 2021-02-08/09 大数据课程笔记 day19day20 某大型网站日志分析离线系统

@R星校长某大型网站日志分析离线系统项目需求分析概述该部分的主要目标就是描述本次项目最终七个分析模块的界面展示。工作流  在我们的 demo 展示中,我们使用 jquery+echarts 的方式调用程序后台提供的 rest api 接口,获取 json 数据,然后通过 jquery+css 的方式进行数据展示。工作流程如下:分析总述在本次项目中我们分别从七个大的角度来进行分析,分别为:用户基本信息分析模块浏览器信息分析模块地域信息分析模块用户浏览深度分析模块外链数据分析模块.

2021-02-10 00:54:21 4086

原创 2021-02-07 大数据课程笔记 day18

@R星校长初识 HBasehbase 介绍概述Welcome to Apache HBase™Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project’s goal is the hosting of v.

2021-02-07 11:34:01 854

原创 2021-02-06 大数据课程笔记 day17

@R星校长Hive Lateral View、视图与索引Hive Lateral ViewLateral View 用于和 UDTF 函数(explode、split)结合来使用。首先通过 UDTF 函数拆分成多行,再将多行结果组合成一个支持别名的虚拟表。主要解决在 select 使用 UDTF 做查询过程中,查询只能包含单个 UDTF,不能包含其他字段、以及多个 UDTF 的问题语法:LATERAL VIEW udtf(expression) tableAlias AS columnA.

2021-02-06 19:42:42 467

原创 2021-02-05 大数据课程笔记 day16

@R星校长Hive SQLHive SerDeHive SerDe - Serializer and DeserializerSerDe 用于做序列化和反序列化。构建在数据存储和执行引擎之间,对两者实现解耦。Hive 通过 ROW FORMAT DELIMITED 以及 SERDE 进行内容的读写。row_format: DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLEC.

2021-02-05 20:28:16 904

原创 mount: 在 /dev/sr0 上找不到媒体 & mount: 挂载点 /mnt/cdrom 不存在

@R星校长遇到两个问题:mount: 在 /dev/sr0 上找不到媒体mount: 挂载点 /mnt/cdrom 不存在问题 1:灰色显示表示这个没有连接上 可移动设备勾选启动时连接,如果设备是启动状态就还要勾选已连接 ,并且连接处要选择好ISO映像文件,点击浏览,选择电脑对应位置的镜像文件。问题 2:挂在目录不存在,说明缺少文件目录,我们这个时候需要新建目录,mkdir -p 中的 - p 表示 可以在父目录中创建子目录mkdir -p /mnt/cdrom.

2021-02-04 21:16:05 25287 9

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除