自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 资源 (1)
  • 收藏
  • 关注

原创 编程语言基础练习题

1.输出1~100之间能被6整除的数2.创建两个整型变量:x,y,通过代码求这两个变量的最大公约数和最小公倍数,并打印到控制台上。 例如:x = 12, y = 56 结果:最大公约数是4,最小公倍数是1683.给一个变量x赋值为整数,将整数中的数字进行反转。 例如: x = 123 输出: 3214.给一个变量x赋值为整数,判断这个整数是否是回文数。回文数是指正序(从左向右...

2018-06-04 22:27:34 3254

原创 Python数据分析

(一)异常值分析 箱型图分析plt.figure()plt.rc('font', size=13)p = plt.boxplot(words_series.head(10),whis=1.5)plt.show()结合describe()函数查看数据的基本情况words_series.head(10).describe()以上两条结合起来过滤数据集中的无效数据。 (...

2018-03-21 17:30:36 316

原创 Linux下matpoltlib中文的乱码问题

①从Windows的D:\Windows\Fonts文件夹下把msyh.ttf拷贝到matplotlib的ttf文件夹下,我的文件夹目录是:/home/hadoop/app/anaconda3/lib/python3.6/site-packages/matplotlib/mpl-data/fonts/ttf②编辑matplotlibrc文件,此文件可以通过以下代码获得impor...

2018-03-16 18:20:28 275

原创 Linux上配置Jupyter Notebook

①生成配置文件jupyter notebook --generate-config②生成秘钥 使用python3进入python开发环境from notebook.auth import passwd passwd()会生成sha1密文 ③修改配置文件 vim ~/.jupyter/jupyter_notebook_config.pyc.NotebookA...

2018-03-15 20:30:27 3282 1

原创 Windows下使用Python

1.不需要单独下载Python,直接安装anaconda就可以了(Win10的系统需要以管理员模式运行安装软件,否则会出现权限问题),通过anaconda可以下载安装全部的Python组件 2.在anaconda中下载组件 ①打开Anaconda Prompt(Win10的系统需要以管理员模式运行安装软件,否则会出现权限问题) ②下载scrapy:conda install scrapy ...

2018-03-02 18:35:36 388

原创 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(五)——购物篮分析

这个购物篮分析要先理解他在算什么,我的理解是通过购物小票上的购物信息,在指定规则下穷举全部的购物关联性。 1.模型解释 ①数据源 a、b、c、d分别代表一种商品,超市的购物小票数据如下(为了简单起见,取4条小票数据),每个小票中的商品必须按照一定的顺序进行排列,否则会出现重复计算的情况: a,b,c a,b,d b,c b,c ②定义模式长度为3,即最多只考虑3种商品的购买管理关系...

2018-02-05 18:42:00 1136

原创 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(四)——移动平均

移动平均:对时序序列按周期取其值的平均值,这种运算被称为移动平均。典型例子是求股票的n天内的平均值。 移动平均的关键是如何求这个平均值,可以使用Queue来实现。public class MovingAverageDriver { public static void main(String[] args){ SparkConf conf = new SparkC

2018-02-01 17:04:26 1677

原创 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(三)——Order Inverse

这章的名称叫反转排序,应该说让人非常的迷惑。 这里我觉得一篇Blog对Order Inverse的解释更合理一些(http://blog.csdn.net/hadoop_mapreduce/article/details/39802287),根据这篇文章实际上Order Inverse的实质是由开发者控制框架Partition的规则,来保证框架在Shuffle的时候能够按照期望将会被一起处理的数

2018-01-30 14:36:54 376

原创 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(二)——TopN列表

大数据计算力经常要面对TopN的问题,也就是一个大集合里取排序后的前N个数据。 1.Key值唯一 ①MapReduce: 在Map中使用SortedMap完成每个节点的TopN操作,然后所有节点将数据汇聚到Reduce节点,再次使用SortedMap完成TopN操作,其中setup()中做初始化工作,map()中构造SortedMap,在cleanup()中将生成的SortedMap输出给r

2018-01-29 14:33:15 529

原创 《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(一)——二次排序

写在前面: 在做直播的时候有同学问Spark不是用Scala语言作为开发语言么,的确是的,从网上查资料的话也会看到大把大把的用Scala编写的Spark程序,但是仔细看就会发现这些用Scala写的文章绝大部分是初级内容,最常见的就是某一个API是怎么用的,很多都是拷贝粘贴的重复内容,真正深入的内容并不多见。之前看美团团队写的Spark优化相关放出的代码是用Java写的,《数据算法-Hadoop/

2018-01-26 16:03:45 2401

原创 Spark学习阶段总结

学习Spark一段时间后,实际上是有些困惑的 如果说只针对数据操作的话,大部分算子都用过了,学习的成本并不高,因为之前是做Android开发的,所以感觉api方面好少,没有那么多东西需要掌握。但是实际上自己很清楚自己的水平,但是后续如何提升大概有几点想法。 1.相关的配置和使用,spark里面有大量的属性配置,好的配置可以提高运行效率。 2.spark里要完成同一件事,可以使用不同的算子组合

2018-01-25 15:26:23 279

原创 Spark开发中遇到的问题及解决方法

1.Windows下运行spark产生的Failed to locate the winutils binary in the hadoop binary path异常 解决方法: 1.下载winutils的windows版本   GitHub上,有人提供了winutils的windows的版本,项目地址是:https://github.com/srccodes/hadoop-co

2018-01-16 15:38:16 2041

原创 招聘网站技术类词频分析_第二版

目标: 大数据项目练习 需求: 从招聘网站上(暂定智联招聘)爬取招聘信息,通过词频统计,分析企业对IT人才需求 使用框架: 平台:阿里云 爬虫:scrapy https://docs.scrapy.org/en/latest/index.html 中文分词:HanLP中文分词 https://github.com/hankcs/HanLP 日志收集:Flume 数据计算平台:

2018-01-15 17:36:28 540

原创 大数据学习笔记(十八)-MRUnit

MapReduce是跑在集群上的,这就意味着MapReduce的作业很难被调试。当然可以采用Log输出的方式来查看,但是这样效率很低,也很难定位问题,因为要每次打包,上传,执行jar包。 所以本地Debug单步调试非常的重要,调试的方法是使用MRUnit 在maven中添加MRUnit的依赖dependency> groupId>org.apache.mrunitgroupId

2018-01-05 15:47:40 246

原创 大数据学习笔记(十七)-MapReduce

1.在MapReduce中被分成了两类,map操作和reduce操作,1个job是由若干次map操作和1次reduce操作组成的。 在MapReduce中,最重要的就是理解数据在处理时都是以Key/Value形式输入输出的(在数据初始读入时,也是以Key/Value形式读入的) 2.对map、reduce操作的理解 ①map是映射:简单理解的话可以理解成遍历原有数据集中的所有数据,针对每一条

2018-01-04 18:25:56 453

原创 招聘网站技术类词频分析_第一版

目标: 大数据项目练习 需求: 从招聘网站上(暂定智联招聘)爬取招聘信息,通过词频统计,分析企业对IT人才需求 使用框架: 平台:阿里云 爬虫:scrapy https://docs.scrapy.org/en/latest/index.html 中文分词:结巴中文分词 https://github.com/fxsjy/jieba 日志收集:Flume 数据计算平台:Hado

2017-12-28 17:42:13 553

原创 大数据学习笔记(十六)-Hue的安装部署和使用

1.安装Hue的依赖sudo yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel make mvn mysql mysql-devel openldap-devel python-devel sqlite-devel

2017-12-27 15:47:04 490

原创 大数据学习笔记(十五)-大数据调度框架

1.常用框架 crontab 存在的问题:单机的 Azkaban 开源的工作流框架,批处理 https://azkaban.github.io/ Oozie http://oozie.apache.org/

2017-12-27 14:11:48 1872

原创 需要用到的Linux命令

1.默认级别转换为3(文本模式) ln -sf /lib/systemd/system/multi-user.target /etc/systemd/system/default.target2.或者默认级别转换为5(图形模式) ln -sf /lib/systemd/system/graphical.target /etc/systemd/system/default.target3

2017-12-25 15:48:33 294

原创 我用到的vi命令

vi命令: 1. i 进入输入模式,光标停留在当前位置 2. o 进入输入模式,插入新一行,光标位于新行行首 3. a 进入输入模式,光标位置向后移一位 4. nyy 拷贝从光标开始的n行 5. p 将复制的内容粘贴到光标下一行的位置 6. 输入模式下,:x保存退出 7. 输入模式下,:q不保存退出 8. 输入模式下,!表示强制执行 9. 查找一个字符串 一个

2017-12-25 15:43:39 164

原创 大数据学习笔记(十四)-Sqoop

1.版本 sqoop1为1.4.6以前的版本(包括) sqoop2为1.4.6以后的版本(不包括) sqoop1与sqoop2的构架是不同的 2.sqoop配置 conf/sqoop-env.sh#Set path to where bin/hadoop is availableexport HADOOP_COMMON_HOME=/home/hadoop/app/hadoop-2.6.0

2017-12-25 15:26:56 194

原创 大数据学习笔记(十三)-Hive高级

1.Hive的元数据表 TBLS:TBL_ID、DB_ID、SD_ID、TBL_NAME、TBL_TYPE TABLE_PARAMS:存储表/视图的属性信息 TBL_PRIVS:存储表/视图的权限信息,一般不用HIVE的权限,而是用sentry来进行权限控制 SDS:保存文件存储的基本信息,比如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩 COLUMNS_V2:存储表对应

2017-12-20 17:25:49 197

原创 大数据学习笔记(十三)-SparkStreaming

1.概念 数据处理的基本单位:离散流(discretized stream或DStream) 支持容错 支持状态处理 支持窗口操作 2.DStream的基本操作 转化操作 窗口操作 输出操作 3.DStream特有API 参考:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.str

2017-12-19 16:51:11 170

原创 大数据学习笔记(十二)-SparkSQL

1.数据的分类 ①非结构化数据:文本、多媒体 ②结构化数据:数据库、格式化文本 ③半结构化数据:key-value、xml、tag 2.DataFrame和RDD的区别 DataFrame是带Schema的RDD 创建DataFrame的方法:scala>val ssc = new org.apache.spark.sql.SQLContext(sc)scala>val df = ss

2017-12-18 23:20:53 1705

原创 大数据学习笔记(十一)-Hive进阶

1.Hive的访问方式 ①Hive shell ②HiveServer&beeline ③HUE、Zepplin等WebUI的访问方式2.hiveserver2 ①启动: hiveserver2 ②使用beeline连接hive:beeline -u jdbc:hive2://hadoop000:10000/default -n hadoop 在运行的过程中我遇到了这样的问题,百度

2017-12-15 17:58:38 1032

原创 大数据学习笔记(十)-Hive中的Storage format

1.Storage format 行存储:SEQUENCEFILE、TEXTFILE 列存储:RCFILE、ORC、PARQUET、AVRO 2.行存储VS列存储 行式存储: ①一行数据一定在一个block里 ②一行数据类型混杂,不容易获得很好的压缩比 ③不能支持快速查询列式存储: ①一行数据不一定在一个block里 ②查询时能够避免读取不必要的列 ③每一列存储数据类型相同,可以

2017-12-13 21:29:03 1334

原创 大数据学习笔记(九)-大数据中的压缩

1.常见压缩格式: gzip,bizp2,LZO,Snappy 2.压缩技术使用原则: 缩小体积则需要更多的CPU计算量,存储数据倾向于大压缩比的压缩技术,根据实际情况选择合适的压缩技术。 3.压缩在大数据计算中的一个重要考量是压缩技术是否支持分割(split) bzip2支持,LZO创建索引后支持 4.要让Hadoop支持压缩,需要对Hadoop源码进行编译

2017-12-13 14:59:09 2299

原创 大数据学习笔记(八)-Hive(基础)

1.下载Hive: http://archive.cloudera.com/cdh5/cdh/5/ 2.安装MySQL 参考:https://www.cnblogs.com/starof/p/4680083.html 其中关于my.cnf的设置是错误的,应改成: character-set-server=utf8 3./conf/hive-site.xml<?xml version=

2017-12-11 17:56:36 238

原创 大数据学习笔记(七)-Spark的图形化工具的使用

启动Spark集群:start-all.sh 进入集群的spark-shell: spark-shell –master=spark://hadoop000:7077 进入集群的WebUI管理界面:hadoop000:8080 打开EventLog: conf下的spark-defaults.conf开启配置:spark.eventLog.enabled truespa

2017-12-01 10:18:01 1966

原创 大数据学习笔记(六)-Spark的RDD

创建 RDD是Spark中的数据集,是只读的 RDD可以从集合,普通文件系统,HDFS文件系统中创建 scala创建RDD的方法val lines1 = sc.parallelize(List("aa","bb"))val lines2 = sc.textFile("file:///opt/spark/README.md")val lines3 = sc.textFile("hd

2017-11-28 20:32:44 257

原创 大数据学习笔记(六)-Spark环境配置

Spark版本:1.6.3 for hadoop2.6 下载地址:https://spark.apache.org/downloads.htmlScala版本:2.11.8 下载地址:http://www.scala-lang.org/download/2.11.8.htmlSpark配置: spark-env配置:export SPARK_MASTER_IP=hadoop0

2017-11-27 17:28:54 409

原创 大数据学习笔记(五)-HBase

参考文档: http://hbase.apache.org/book.html#faq HBase下载地址: http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.7.0.tar.gz配置: 1.hbase-env.sh 配置JAVA_HOME export HBASE_MANAGES_ZK=false2.hbase-site.x

2017-11-21 09:54:29 207

原创 大数据学习笔记(四)-ZooKeeper

http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.7.0.tar.gz

2017-11-19 20:53:00 266

原创 大数据学习笔记(三)-Yarn

简单来说Yarn就是一个资源调度管理器配置Yarn 参考文档:http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/SingleCluster.html1.etc/hadoop/mapred-site.xml:cp mapred-site.xml.template mapred-site.xml<propert

2017-11-19 14:02:04 263

原创 大数据学习笔记-(二)启动集群&配置IDE环境

1.启动集群,格式化文件系统 bin/hdfsnamenode−format2.启动 bin/hdfs namenode -format 2.启动 sbin/start-dfs.sh 3.验证集群是否启动成功 1)jps 2)浏览器访问:hadoop000:50070hdfs shell 1.文件操作 hadoop fs搭建maven开发环境 下载maven3.3.9:h

2017-11-06 15:31:14 380

原创 大数据学习笔记-(一)准备

视频课程位置: http://www.kgc.cn/job/oe/24809.shtml 虚拟机VMware14: https://www.52pojie.cn/thread-648896-1-1.html CentOS版本选择CentOS7: http://mirrors.cn99.com/centos/7/isos/x86_64/CentOS-7-x86_64-Everything-1

2017-11-03 16:52:02 420

原创 Google官方刷题资源-基础题-第四题~第八题

这几道题都是一个编程测试网站(http://codingbat.com)上的题。这个网站不具备代码提示功能,编译后成功后,会给出测试数据。有点像ACM刷题网站,不过更适合Java Beginer。不过由于这网站是英文的,理解题意反而是个问题。 第四题(http://codingbat.com/prob/p117334): Given a non-empty string like “Code”

2017-09-08 22:33:51 610

翻译 Google官方刷题资源-基础题-第一题

题目:从字典中找出给给定字符串的最长子串 考察目的:测试优化代码的数据结构与算法能力 题干:有一个字符串S和单词集合D,从D中找出一个符合条件的单词,这个单词是字符串S的最长子串。单词是W是字符串S的子串的条件是,从字符串S中删除不定数量的字母(删除数可以为0)且不改变原有字母的顺序,能够将字符串S变成单词W。注意:集合D可是一任何形式的集合(list,hash table, prefix tr

2017-09-07 21:57:53 1044

原创 遇到Kotlin使用中的问题,及解决办法

1.使用Activity的this对象。 在Activity中经常要用到Context,在Java中这很容易,假如当前Activity是MainActivity。那么在这个Activity的任何地方,都可以使用MainActivity.this获得Activity的对象。 但是在使用Kotlin时,网上能够查到的代码都是这样获取Activity对象的MainActivity@this在一般情况下

2017-09-07 18:52:53 1546

原创 Google官方刷题资源

恩,Google也有官方刷题资源了,通过这个网站(https://techdevguide.withgoogle.com/)可以看看对于Google来说作为一个程序员你需要掌握哪些东西。 不过这个网站是英文的,昨晚看了一下,鉴于自己的英语水平和数据结构水平,第一题就没做出来。。。Google 针对不同受众还提供了三条学习路线:Foundations Path:面向比较喜欢基础内容的开发者。 Ad

2017-09-07 11:01:03 744

Google ARCore Sample APK

压缩包中包含两个APK,都是需要安装的,一个是ARCore的ServiceAPK,实际就是Tango。。。安装的时候连图标和名字都没有改,这个apk安装后是没有启动图标的,应该是一个提供AR服务的APK。另一个是Sample编译出的APK,直接运行,就可以了

2017-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除