14 狂暴棕熊

尚未进行身份认证

暂无相关简介

等级
TA的排名 8w+

编程语言基础练习题

1.输出1~100之间能被6整除的数2.创建两个整型变量:x,y,通过代码求这两个变量的最大公约数和最小公倍数,并打印到控制台上。例如:x=12,y=56结果:最大公约数是4,最小公倍数是1683.给一个变量x赋值为整数,将整数中的数字进行反转。例如:x=123输出:3214.给一个变量x赋值为整数,判断这个整数是否是回文数。回文数是指正序(从左向右...

2018-06-04 22:27:34

Python数据分析

(一)异常值分析箱型图分析plt.figure()plt.rc('font',size=13)p=plt.boxplot(words_series.head(10),whis=1.5)plt.show()结合describe()函数查看数据的基本情况words_series.head(10).describe()以上两条结合起来过滤数据集中的无效数据。(...

2018-03-21 17:30:36

Linux下matpoltlib中文的乱码问题

①从Windows的D:\Windows\Fonts文件夹下把msyh.ttf拷贝到matplotlib的ttf文件夹下,我的文件夹目录是:/home/hadoop/app/anaconda3/lib/python3.6/site-packages/matplotlib/mpl-data/fonts/ttf②编辑matplotlibrc文件,此文件可以通过以下代码获得impor...

2018-03-16 18:20:28

Linux上配置Jupyter Notebook

①生成配置文件jupyternotebook--generate-config②生成秘钥使用python3进入python开发环境fromnotebook.authimportpasswdpasswd()会生成sha1密文③修改配置文件vim~/.jupyter/jupyter_notebook_config.pyc.NotebookA...

2018-03-15 20:30:27

Windows下使用Python

1.不需要单独下载Python,直接安装anaconda就可以了(Win10的系统需要以管理员模式运行安装软件,否则会出现权限问题),通过anaconda可以下载安装全部的Python组件2.在anaconda中下载组件①打开AnacondaPrompt(Win10的系统需要以管理员模式运行安装软件,否则会出现权限问题)②下载scrapy:condainstallscrapy...

2018-03-02 18:35:36

《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(五)——购物篮分析

这个购物篮分析要先理解他在算什么,我的理解是通过购物小票上的购物信息,在指定规则下穷举全部的购物关联性。1.模型解释①数据源a、b、c、d分别代表一种商品,超市的购物小票数据如下(为了简单起见,取4条小票数据),每个小票中的商品必须按照一定的顺序进行排列,否则会出现重复计算的情况:a,b,ca,b,db,cb,c②定义模式长度为3,即最多只考虑3种商品的购买管理关系...

2018-02-05 18:42:00

《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(四)——移动平均

移动平均:对时序序列按周期取其值的平均值,这种运算被称为移动平均。典型例子是求股票的n天内的平均值。移动平均的关键是如何求这个平均值,可以使用Queue来实现。publicclassMovingAverageDriver{publicstaticvoidmain(String[]args){SparkConfconf=newSparkC

2018-02-01 17:04:26

《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(三)——Order Inverse

这章的名称叫反转排序,应该说让人非常的迷惑。这里我觉得一篇Blog对OrderInverse的解释更合理一些(http://blog.csdn.net/hadoop_mapreduce/article/details/39802287),根据这篇文章实际上OrderInverse的实质是由开发者控制框架Partition的规则,来保证框架在Shuffle的时候能够按照期望将会被一起处理的数

2018-01-30 14:36:54

《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(二)——TopN列表

大数据计算力经常要面对TopN的问题,也就是一个大集合里取排序后的前N个数据。1.Key值唯一①MapReduce:在Map中使用SortedMap完成每个节点的TopN操作,然后所有节点将数据汇聚到Reduce节点,再次使用SortedMap完成TopN操作,其中setup()中做初始化工作,map()中构造SortedMap,在cleanup()中将生成的SortedMap输出给r

2018-01-29 14:33:15

《数据算法-Hadoop/Spark大数据处理技巧》读书笔记(一)——二次排序

写在前面:在做直播的时候有同学问Spark不是用Scala语言作为开发语言么,的确是的,从网上查资料的话也会看到大把大把的用Scala编写的Spark程序,但是仔细看就会发现这些用Scala写的文章绝大部分是初级内容,最常见的就是某一个API是怎么用的,很多都是拷贝粘贴的重复内容,真正深入的内容并不多见。之前看美团团队写的Spark优化相关放出的代码是用Java写的,《数据算法-Hadoop/

2018-01-26 16:03:45

Spark学习阶段总结

学习Spark一段时间后,实际上是有些困惑的如果说只针对数据操作的话,大部分算子都用过了,学习的成本并不高,因为之前是做Android开发的,所以感觉api方面好少,没有那么多东西需要掌握。但是实际上自己很清楚自己的水平,但是后续如何提升大概有几点想法。1.相关的配置和使用,spark里面有大量的属性配置,好的配置可以提高运行效率。2.spark里要完成同一件事,可以使用不同的算子组合

2018-01-25 15:26:23

Spark开发中遇到的问题及解决方法

1.Windows下运行spark产生的Failedtolocatethewinutilsbinaryinthehadoopbinarypath异常解决方法:1.下载winutils的windows版本  GitHub上,有人提供了winutils的windows的版本,项目地址是:https://github.com/srccodes/hadoop-co

2018-01-16 15:38:16

招聘网站技术类词频分析_第二版

目标:大数据项目练习需求:从招聘网站上(暂定智联招聘)爬取招聘信息,通过词频统计,分析企业对IT人才需求使用框架:平台:阿里云爬虫:scrapyhttps://docs.scrapy.org/en/latest/index.html中文分词:HanLP中文分词https://github.com/hankcs/HanLP日志收集:Flume数据计算平台:

2018-01-15 17:36:28

大数据学习笔记(十八)-MRUnit

MapReduce是跑在集群上的,这就意味着MapReduce的作业很难被调试。当然可以采用Log输出的方式来查看,但是这样效率很低,也很难定位问题,因为要每次打包,上传,执行jar包。所以本地Debug单步调试非常的重要,调试的方法是使用MRUnit在maven中添加MRUnit的依赖dependency>groupId>org.apache.mrunitgroupId

2018-01-05 15:47:40

大数据学习笔记(十七)-MapReduce

1.在MapReduce中被分成了两类,map操作和reduce操作,1个job是由若干次map操作和1次reduce操作组成的。在MapReduce中,最重要的就是理解数据在处理时都是以Key/Value形式输入输出的(在数据初始读入时,也是以Key/Value形式读入的)2.对map、reduce操作的理解①map是映射:简单理解的话可以理解成遍历原有数据集中的所有数据,针对每一条

2018-01-04 18:25:56

招聘网站技术类词频分析_第一版

目标:大数据项目练习需求:从招聘网站上(暂定智联招聘)爬取招聘信息,通过词频统计,分析企业对IT人才需求使用框架:平台:阿里云爬虫:scrapyhttps://docs.scrapy.org/en/latest/index.html中文分词:结巴中文分词https://github.com/fxsjy/jieba日志收集:Flume数据计算平台:Hado

2017-12-28 17:42:13

大数据学习笔记(十六)-Hue的安装部署和使用

1.安装Hue的依赖sudoyuminstallantasciidoccyrus-sasl-develcyrus-sasl-gssapigccgcc-c++krb5-devellibtidylibxml2-devellibxslt-develmakemvnmysqlmysql-developenldap-develpython-develsqlite-devel

2017-12-27 15:47:04

大数据学习笔记(十五)-大数据调度框架

1.常用框架crontab存在的问题:单机的Azkaban开源的工作流框架,批处理https://azkaban.github.io/Ooziehttp://oozie.apache.org/

2017-12-27 14:11:48

需要用到的Linux命令

1.默认级别转换为3(文本模式)ln-sf/lib/systemd/system/multi-user.target/etc/systemd/system/default.target2.或者默认级别转换为5(图形模式)ln-sf/lib/systemd/system/graphical.target/etc/systemd/system/default.target3

2017-12-25 15:48:33

我用到的vi命令

vi命令:1.i进入输入模式,光标停留在当前位置2.o进入输入模式,插入新一行,光标位于新行行首3.a进入输入模式,光标位置向后移一位4.nyy拷贝从光标开始的n行5.p将复制的内容粘贴到光标下一行的位置6.输入模式下,:x保存退出7.输入模式下,:q不保存退出8.输入模式下,!表示强制执行9.查找一个字符串一个

2017-12-25 15:43:39

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!