自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 推荐系统(一):不了解推荐系统,基本在被out的队列,岌岌可危

互联网时代流量红利见顶,大厂们纷纷开始精耕流量,千人千面的推荐系统恰恰可以在流量粒度进行优化,从而提升用户与平台的交互频次,进而提升平台转化,营收。在互联网从事数据工作,不了解推荐系统,可以说基本在被out的队列,岌岌可危。这次,就和大家浅显的介绍下推荐系统,不讲高大上的技术,就讲推荐系统的逻辑。一个推荐系统的架构其实并不复杂, 基本上就是召回, 排序, 规则三个部分。召回模型目的...

2020-01-09 11:24:35 294

原创 分析师常用的分析模式及其可视化

刚踏入数据分析与挖掘领域的时候,整天只知道和数据打交道,按“教科书”上的流程进行输出。期间,业务对输出的晦涩提出各种质疑,自己也怀疑过岗位的价值与意义,想过退一步转底层开发,也想过进一步转业务产品。这几年,在和业务的磨合中,逐渐体会到,基于业务视角的数据分析/挖掘,对于流量赛道的企业来说是一个不可缺少的部分。自己转换思维后,分析与挖掘不再是对着数据的枯燥游戏,而是变成了以业务为核心,分析与挖掘为工...

2020-01-09 10:49:35 331

原创 linux目录

最近在linux上开发,文件系统和windows的太不一样了,所以了解了下,不是原理层面的,只供理解,起码知道自己在“地图”上的哪个地方。概述bin linux启动和恢复需要的最小功能的可执行文件boot 启动linux的核心文件dev 设备管理etc linux管理需要的配置文件home 使用用户的主目录lib 内核模块和系统最基本的动态链接共享库lost+f...

2020-01-02 10:53:54 220 1

原创 jupyter集成多个开发语言

目前正在linux上搞jupyter开发环境,已经完成了扩展功能的安装,详情移步本人的Jupyter Notebook安装jupyter_contrib_nbextension扩展功能,两大步搞定,本次主要讲在jupyter中集成python3,pyspark,java,scala等开发语言。概述本质是增加jupyter对应的kernel,而jupyter 是通过kernels文件夹下的子...

2019-12-31 11:40:31 697

转载 Git 初始化,仓库

目标: 把本地已经存在的项目,推送到github服务端,实现共享。 实现步骤: (1). 先从github创建一个空的仓库 先从github创建一个空的仓库,并复制链接地址创建仓库 复制链接这里写图片描述(2). 初始化本地仓库,并提交内容到本地需要先打开 命令行终端,然后通过 cd 命令切换到需要添加到github 的项目的目录下,然后依次执行如下...

2019-12-31 10:00:42 483

原创 Jupyter Notebook安装jupyter_contrib_nbextension扩展功能

步骤Step 1 :安装 jupyter_contrib_nbextensions 及其依赖包Step 2:安装 javascript and css filesjupyter contrib nbextension install [--user]QAQ:Python3在 linux 上安装扩展功能时 from tornado import stack_context ...

2019-12-31 09:45:48 523

转载 jupyter使用技巧

本文包括如下内容快捷键 魔法命令 扩展 主题设置 制作slides 小工具 其他技巧基于windows10操作系统。快捷键快捷键规律对文本进行操作的快捷键都是Ctrl Shift Alt等,比如Ctrl + C/V/X/Z/A 对Cell(即jupyter中的单元格)进行操作的快捷键都是Esc,比如Esc + C/V//X/Z。还有一个差别在于,用Ctrl必须和字...

2019-12-30 11:33:29 1399

转载 开发工具 | 你真的会用jupyter吗?

前言提起jupyter notebook,应该很多学习过Python的同学都不陌生。虽然用jupyter notebook的同学相对较少,但是提及这款开发工具,很多人都会赞不绝口,“jupyter很强大,交互式、富文本”,很多人都知道jupyter notebook的这几个优点,但是,试问一下,你真的会用jupyter吗?以Python开发为例,我们只需要在windows命令行或者li...

2019-12-30 11:00:37 430

转载 大数据计算引擎的发展已经到了第4代,知识你都掌握了吗?

Flink项目是大数据计算领域冉冉升起的一颗新星。大数据计算引擎的发展经历了几个过程,从第1代的MapReduce,到第2代基于有向无环图的Tez,第3代基于内存计算的Spark,再到第4代的Flink。因为Flink可以基于Hadoop进行开发和使用,所以Flink并不会取代Hadoop,而是和Hadoop紧密结合。Flink主要包括DataStream API、DataSet API、Ta...

2019-12-24 17:01:16 423

转载 大数据计算引擎分成了 4 代

新一代大数据处理引擎 Apache Flinkhttps://www.ibm.com/developerworks/cn/opensource/os-cn-apache-flink/大数据计算引擎的发展这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,...

2019-12-24 10:25:33 345

转载 Flume+Kafka+Spark Streaming实现大数据实时流式数据采集

近年来,随着企业信息化建设的飞速发展,大数据应用的问题越来越备受关注。很多企业投入大量的人力、物力和财力建设企业大数据平台,平台建设工作涵盖数据采集、数据处理、数据存储、数据服务、数据展示以及数据质量管理各个环节。而数据采集作为企业大数据平台建设的首要环节,是企业大数据平台建设的根本所在,如果数据采集环节技术体系架构可靠性不高、稳定性不强且不易扩展,企业大数据平台建设就失去了意义。尤其是面对数据量...

2019-12-24 10:22:27 1448

转载 Hive窗口函数进阶指南

作为一名数据小哥,在写SQL的漫漫路上,窗口函数犹如一把披荆斩棘的利剑,帮助作者解决了很多繁琐复杂的需求,在此对窗口函数表示感谢。本文在介绍了窗口函数的同时,着重介绍Hive窗口函数的使用,希望读者在看完本篇文章之后,对窗口函数的使用能够有所掌握。值得注意的是本文中的例子使用的是HQL(Hive SQL),本文需要一定的SQL基础,如果想了解基础SQL,请移步数据分析师之快速掌...

2019-12-20 09:30:37 463

转载 【Hive 进阶】窗口函数

作为一名数据小哥,在写SQL的漫漫路上,窗口函数犹如一把披荆斩棘的利剑,帮助作者解决了很多繁琐复杂的需求,在此对窗口函数表示感谢。本文在介绍了窗口函数的同时,着重介绍Hive窗口函数的使用,希望读者在看完本篇文章之后,对窗口函数的使用能够有所掌握。值得注意的是本文中的例子使用的是HQL(Hive SQL),本文需要一定的SQL基础,如果想了解基础SQL,请移步数据分...

2019-12-20 09:22:32 226

转载 pyspark dataframe列的合并与拆分

使用Spark SQL在对数据进行处理的过程中,可能会遇到对一列数据拆分为多列,或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。from pyspark.sql import SparkSessionspark = SparkSession.builder \ .master("local") \ .appName("datafr...

2019-12-18 09:37:10 1784

转载 pyspark异常经验总结

Q:NameError: name 'self' is not defined最近开发Python包,遇到一个“NameError: name ‘self’ is not defined”问题。在执行class Tasdfa: def __init__(self,prompt='asdfa',newline=False): self.newline=newl...

2019-12-17 10:49:48 1851

原创 python实现kmeans_学习笔记【总结用的,所以写的简单,小白勿入】

?mappingnp.genfromtxthttps://www.jianshu.com/p/2d423014da0e?异常值处理https://www.cnblogs.com/tecdat/p/9641444.html箱线图观察正常值范围去除异常值?变量分布可视化https://www.cnblogs.com/tecdat/p/9641444.html单变量分布:sns.d...

2019-12-15 21:44:59 105

转载 Hive修改表名,列名,列注释,表注释,增加列,调整列顺序,属性名等操作

Alter Table 语句Hive修改表名,列名,列注释,表注释,增加列,调整列顺序,属性名等操作它是在Hive中用来修改的表。语法声明接受任意属性,我们希望在一个表中修改以下语法。 ALTER TABLE name RENAME TO new_name ALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...]...

2019-12-09 14:49:28 188

原创 HDFS作为中间存储引擎:Linux批量导入csv文件到hive

1.合并csv文件cat *.csv > full.csv若需要删除表名:#删除该文件夹下所有csv文件的第一行sed -i "1d" *.csv#删除该文件夹下的所有txt文件第一行sed -i "1d" *.txt#删除前三行 sed -i "1,3d" *.csv方法一:2.将合并文件上传到hdfshdfs fs -put 文件路径 hdf...

2019-12-06 15:14:25 830

原创 HDFS常用命令

HDFS常用命令 在 hdfs 文件系统上创建一个 input 文件夹 bin/hdfs dfs -mkdir -p /user/anna/input 将测试文件内容上传到文件系统上 bin/hdfs dfs -put wc.input /user/anna/input 查看上传的文件是否正确 bin/hdfs dfs -cat /use...

2019-12-06 14:45:44 184 1

转载 Hive外部表和内部表区别以及相互转换

Hive建表语句 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name (col_name data_type [COMMENT 'col_comment'], ...) [PARTITIONED BY (col_name data_type [COMMENT 'col_comment'], ...)] [COM...

2019-12-06 14:19:51 156

转载 hive删除EXTERNAL外表

外表不能按一般步骤drop,否则你还得手动去hdfs rm -r xxx文件,并且还可能遇到因为文件太大而不能删除等问题;最好需要执行以下两个步骤:ALTER TABLE xxx SET TBLPROPERTIES('EXTERNAL'='False');drop table xxx;...

2019-12-06 14:08:45 361

转载 pyspark系列--pyspark读写dataframe【看了觉得总结的很好,所以分享给大家,希望加大此文被搜索到的概率】

pyspark读写dataframe1. 连接spark 2. 创建dataframe 2.1. 从变量创建 2.2. 从变量创建 2.3. 读取json 2.4. 读取csv 2.5. 读取MySQL 2.6. 从pandas.dataframe创建 2.7. 从列式存储的parquet读取 2.8. 从hive读取 3. 保存数据 3.1. 写到cs...

2019-12-02 10:51:37 429

转载 配置spark的jupyter notebook kernel -- spark magic

1、下载livy https://livy.incubator.apache.org/解压,进入livy文件夹,然后运行bin/livy-server2、安装sparkmagicpip install sparkmagicjupyter nbextension enable --py --sys-prefix widgetsnbextension下边是可选部分:pip show ...

2019-11-26 10:50:06 667

原创 jupyter notebook搭建pyspark

python3.6不支持pyspark, 好在用的是Anaconda这种神器,可以随意切换python版本。因为我的Spark是1.6的,所以python2.7应该是可以的。首先conda create -n py27 python=2.7 anacondasourceactivatepy27 conda install python=2.7就将当前的python环境切换到...

2019-11-26 10:48:18 338

原创 Spark 官方文档——Configuration配置

Spark可以通过三种方式配置系统:通过SparkConf对象, 或者Java系统属性配置Spark的应用参数 通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量 通过log4j.properties配置日志属性Spark属性Spark属性可以为每个应用分别进行配置,这些属性可以直接通过SparkConf设定,也可以通过set方法设定相关属性。下面展示了...

2019-11-25 15:12:09 329

转载 Linux下查看和添加PATH环境变量

转载自:https://blog.csdn.net/qingkongyeyue/article/details/527332031、先了解一下什么是PATH环境变量(1)环境变量环境变量相当于“快捷键”。一个“HOME=/home/ACCP286”的环境变量指明你在这个电脑上的个人主目录是“/home/ACCP286”,你每次要回到个人主目录时,不需要输入“cd /home/AC...

2019-11-25 14:31:26 202

转载 Linux 添加环境变量的五种方法

链接:https://blog.csdn.net/u011262253/article/details/86083351只对当前shell生效(shell脚本中常用)方法一:$PATH="$PATH":YOUR_PATH方法二:export PATH="$PATH:YOUR_PATH"对所有用户所有shell都生效, 需要root权限(管理员常用)方法一(修改environ...

2019-11-25 14:25:06 294

原创 Spark简介与安装

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark拥有Hadoop MapReduce所具有的优点;但不同MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好 适用于数...

2019-11-25 13:59:43 169

转载 【转】两种方法:将PySpark导入Python

原文链接:https://blog.csdn.net/sinat_26599509/article/details/51895999方法一使用findspark使用pip安装findspark:pip install findspark;在py文件中引入findspark:>>> import findspark;>>> findspark.ini...

2019-11-25 11:37:18 853

原创 【转】 五步完成pyspark:连接spark集群Windows环境搭建

原文链接:https://blog.csdn.net/qq_23860475/article/details/904761971.软件1、anaconda(python3.6)2、spark-2.4.3-bin-hadoop2.7(spark版本要和集群上的一样)3、JDK1.82.python环境配置pip install pyspark这里如果遇到安装超时的情况采用...

2019-11-25 10:00:22 2379 2

原创 sklearn 中tsne可视化之道

原理可以理解成“降维可视化”,具体操作参考如下链接https://www.deeplearn.me/2137.htmlhttps://blog.csdn.net/qq_27584277/article/details/80066657

2019-11-14 20:41:37 1297

转载 hive 卡在stage 99%【转】

往往是数据倾斜问题,解决方案如下https://blog.csdn.net/yisun123456/article/details/81743782

2019-11-14 20:37:04 905

原创 jupyter 集成python2,python3,pysaprk等开发环境

有两种情况一是有外网权限,直接①下载anaconda4.1.0(包含)以上版本,②创建虚拟环境,③虚拟环境中安装开发工具包二是没有外网权限,手动配置①增加对应工具的jupyter kernel;②添加环境变量,以pyspark为例:参考链接:https://blog.csdn.net/moledyzhang/article/details/78850820http...

2019-11-14 20:27:31 128

原创 Java “Unhandled exception type Exception”错误提示 (转)

原因:被强制异常处理的代码块,必须进行异常处理,否则编译器会提示“Unhandled exception type Exception”错误警告。Java中用于处理异常的方式自行处理:可能引发异常的语句封入在try内,而处理异常的相应语句则封入catch块内回避异常:在方法声明中包含throws子句,通知潜在调用者,如果发生了异常,必须由调用者处理。建议自行处理...

2018-11-22 12:03:53 22192

转载 Keras入门(二)模型的保存、读取及加载

本文使用的模型为解决IRIS数据集的多分类问题而设计的深度神经网络(DNN)模型,模型的结构示意图如下:具体的模型参数可以参考文章:Keras入门(一)搭建深度神经网络(DNN)解决多分类问题。模型保存  Keras使用HDF5文件系统来保存模型。模型保存的方法很容易,只需要使用save()方法即可。  以Keras入门(一)搭建深度神经网络(DNN)解决多分类问题中的DNN模型...

2018-11-20 10:58:01 714

转载 TensorFlow中对训练后的神经网络参数(权重、偏置)提取

 基于TensorFlow可以轻而易举搭建一个神经网络,而且很好地支持GPU加速训练。但基于TensorFlow的预测过程,往往需要在嵌入式设备上才能得以应用。对于我目前做的工作而言,用TF搭建神经网络以及用GPU加速训练过程的主要用处就是:获取训练后的参数(权重和偏置),将这些参数直接放到嵌入式板卡如FPGA中,以其低功耗、高性能、低延时等特点完成嵌入式AI工程。那么,提取出TF训练后的参数变成...

2018-11-20 10:45:15 6535

转载 keras 模型、结构、权重的保存

如何将训练好的网络进行保存,我们可以用pickle或cPickle来保存Keras模型,同时我们可以用下面的方法:一、保存整个模型model.save(filepath)将Keras模型和权重保存在一个HDF5文件中,该文件将包含:模型的结构模型的权重训练配置(损失函数,优化器,准确率等)优化器的状态,以便于从上次训练中断的地方       前提是已经安装python的h5py...

2018-11-20 10:28:43 3720

原创 保存并加载keras深度学习模型

Keras是一个用于深度学习的简单而强大的Python库。 鉴于深度学习模式可能需要数小时、数天甚至数周的时间来培训,了解如何保存并将其从磁盘中加载是很重要的。 在本文中,您将发现如何将Keras模型保存到文件中 keras是用于深度学习的简单而强大的 python 库,鉴于深度学习模式可能需要数小时、数天甚至数周的时间来训练,了解如何保存并将其从发磁盘中加载是很重要的。这里,重点讲下怎么...

2018-11-20 10:24:18 1685

原创 查看ckpt中节点信息

from tensorflow.python import pywrap_tensorflowimport oscheckpoint_path = MODEL_FILE_CKPTreader = pywrap_tensorflow.NewCheckpointReader(checkpoint_path)var_to_shape_map = reader.get_variable_to_s...

2018-11-19 11:57:01 1221 1

原创 Hive设置时间常量

set CURRENT_YEAR=2018;set CURRENT_MONTH=11;set CURRENT_DAY=9;select * from talenamewhere year >= '${hiveconf:CURRENT_YEAR}'and month>='${hiveconf:CURRENT_MONTH}'and day>='${hiveco...

2018-11-14 14:29:37 2726

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除