自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 阿里一面—2021/8/20

1.hive sql发生数据倾斜解决方法2.TCP/IP,三次握手(为什么不是二次是三次)3.mr工作原理开放问题:给你一个项目怎么去做

2021-08-20 18:07:42 122

原创 MySQL复习自用

MySQL目录MySQL基础数据库相关概念一.数据库好处二.数据库的常见概念DB:数据库DBMS:数据库管理系统(管理DB中的数据)SQL:结构化查询语言(专门用来和数据库通信的语言)三.数据库存放数据的特点:MySQL的常见命令DQL查询命令基础查询语法特点示例条件查询语法筛选条件分类如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowch

2021-08-02 23:29:43 274

原创 2021-05-17

txt 文件的读写import pandas as pddata_txt = pd.read_table("data.txt", header=None, encoding="utf-8", sep=" ")# 参数解读: header 去除index 和 counum # encoding 编码# sep = "," 和print中sep道理一样print(data_txt)CSV文件的读取# -*- coding: UTF-8 -*-'''@Author :Jas.

2021-05-17 16:11:45 81

原创 大数据面试自用

一、HDFS写数据流程:客户端(Client)通过Distributed FileSystem向NameNode申请上传 …/xxx.txt 文件300 M; NameNod向Client响应是否可以上传文件:如果有就告诉客户端这个文件已存在;如果没有,告诉客户端可以上传; 客户端收到NameNod可以上传的消息后,将300M文件切分,将第一个block(128M)和副本数n(3),客户端请求第一个 Block向NameNode申请去哪几个DataNode服务器上; NameNode选择3个Dat

2021-04-27 16:19:28 86

原创 运行spark程序出现java.lang.exceptionininitializererror的问题

可能是版本冲突自用的是scala插件装2.12 可能装2.12.13都会有问题 (解决问题用了很久很久很久。。。哭泣)spark为3.1.1 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.1.1</version> &.

2021-03-23 10:05:54 1835 1

原创 安装IDEA并进行配置

1.官网下载JavaSE64位的安装包2.安装jdk,下载到D盘中3.安装IDEA官网社区版就够了4.配置jdk

2021-03-17 16:42:59 75

原创 spark在yarn集群上执行client模式代码 Container killed on request. Exit code is 143 Container exited with a no

spark在yarn集群上执行client模式代码启动历史服务bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode client \./examples/jars/spark-examples_2.12-3.0.0.jar \10出现问题:[2021-03-15 20:36:42.553]Container killed on request. Exit code

2021-03-15 21:22:52 822 1

原创 spark配置历史服务

修改spark-defaults.conf.template文件名 mv spark-defaults.conf.template spark-defaults.conf修改spark-default.conf文件,配置日志存储路径spark.eventLog.enabled truespark.eventLog.dir hdfs://Hadoop102:8020/directory注意:需要启动hadoop集群(hadoop102: start

2021-03-15 16:24:48 364

原创 Caused by: java.net.BindException: Problem binding to [hadoop103:8031] java.net.BindException: 无法指定被

启动yarn出现ResourceManager启动不起来的问题首先查看日志logs原因是要在ResourceManager上启动yarn!!!1

2021-03-15 15:17:34 393

原创 anconda中安装tensorflow

@anconda中安装tensorflow安装环境:anaconda3,python3.6(1) 建立一个 conda 计算环境名字叫tensorflow:conda create --name tensorflow python=3.6一定要指定python版本,否则安装失败。(2)激活新建的环境:activate tensorflow退出当前环境:deactivate环境名字没了,表示已退出。确认一下,新建环境已经添加进去:conda info --envs(3)验证一下ten

2020-06-05 14:40:49 300

原创 JavaScript

2020-04-08 16:09:48 77

原创 CS224n 斯坦福深度自然语言处理课笔记 Lecture03—高级词向量表示

bb

2020-02-20 18:39:55 278

原创 CS224n 斯坦福深度自然语言处理课笔记 Lecture02—词向量表示

1.词义2.Word2Vec介绍3.Word2Vec目标函数的梯度推导4.目标函数优化:梯度下降法

2020-02-18 15:23:44 288

原创 数据挖掘学习步骤

数据挖掘学习步骤:学习的目标(循序渐进):1、爬虫2、数据处理工具使用(numpy、scipy、pandas、scikit-Learn、gensim)3、数据预处理(清洗、集成、变换、规约)4、数据库使用(spark、hadoop、ES、SQL)5、机器学习了解6、挖掘建模(分类预测、聚类、关联规则等)7、自然语言处理推荐书籍:利用python进行数据分析(第二版)pytho...

2020-02-18 11:56:48 448

原创 PPT技能基础

引言PPT字要少:观众喜欢做判断题而不是阅读题PPT逻辑清晰:观众容易走神PPT设计的漂亮:观众有美学需求要在观众角度思考提高审美:要对美的积累网站:站酷、花瓣(每天十分钟)栏目:海报、视觉系统、画册、平面、演示文字很重要没有文字就是毫无意义的空白泛滥的特效使用:艺术字、阴影、渐变防止字体效果改变:(1)字体嵌入PPT文件:文件选项卡>选项>保存>将字体嵌入...

2020-02-16 02:05:21 232 1

原创 大数据技术及应用—Hadoop 基础 笔记

Hadoop采用分布式存储和并行执行机制,为整个数据群带来了非常高的宽带,因此能大大提高效率。Hadoop事实上是用大量的廉价机器组成的集群去执行大规模运算,这包括大规模的计算和大规模的存储。Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力,几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务。是具有可靠性和扩展性的一个开源分布式计算的...

2020-01-10 10:07:30 866

原创 linux 调节屏幕亮度

打开终端,输入:</xrandr --verbose></xrandr --output HDMI-1-2 --brightness x>HDMI-1-2 的部分根据所属内容变化x取0到1

2020-01-10 09:18:06 280

原创 python机器学习基础教程笔记02

书籍配套代码:https://github.com/amueller/introduction_to_ml_with_python/blob/master/02-supervised-learning.ipynb(liux系统)安装库输入:pythonhelp(“modules”)监督学习:分类与回归分类:预测类别标签。回归:预测一个连续值,编程术语叫做浮点数。如果一个模型能够对没见过...

2020-01-09 10:23:32 117

原创 数据挖掘导论01

数据挖掘和数据分析概述:数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。数据挖掘和数据分析的不同之处:1、在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言;而数据分析更多的是借助现有的分析工具进行。2、在行业知识方面,数据分析要求对所从事的行业有比较深的了解和理解,并且能够将数据与自身的业务紧密结合起来;而数据挖掘不需...

2020-01-08 16:07:47 115

原创 python机器学习基础教程笔记01

https://github.com/amueller/introduction_to_ml_with_python/blob/master/01-introduction.ipynb **NumPy**是Python科学计算的基础包之一,功能包括多维数组、高等数学函数(线性代数运算和傅立叶变换等),以及伪随机数生成器。 sk-learn中NumPy数组是基本数据结构。sk-l...

2020-01-08 15:58:08 210

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除