自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (1)
  • 收藏
  • 关注

原创 DolphiScheduler平台上运行spark程序时,外部参数设置

DolphiScheduler平台上运行spark程序时,外部参数设置近期使用DS平台执行spark程序,遇到了部分参数设置的问题,代码中需要外部传入一个参数procDate(处理日期),具体设置如下:1. scala代码中需要传入时间和路径两个参数# scalaval procDate = args(0)val path= args(1)2. DS作业中设置这两个参数的格式在主程序参数栏中传递这两个参数的值:$[yyyy-MM-dd-1] /user/home/test/参数$[yyy

2022-05-10 14:39:30 839 1

原创 java.io.IOException: (null) entry in command string: null ls -F E:\tmp\hive解决办法

### 问题:本地执行spark sql,生成数据是会出现java.io.IOException: (null) entry in command string: null ls -F E:\tmp\hive错误解决办法

2020-11-17 14:44:33 2454 4

原创 entry in command string: null chmod 0644 问题解决

问题:在WIndows操作系统中本地运行spark程序写文件操作时,报以下错误:....(null) entry in command string: null chmod 0644 ..(后面是目的目录)解决方法:下载hadoop.dll文件并拷贝到c:\windows\system32目录中然后重新运行代码程序即可hadoop.dll下载地址链接:https://pan.baidu.com/s/1Rb5ROUQMSqp7SeQINlLZkA 提取码:n8t6...

2020-11-11 17:12:13 2044 3

原创 Spark scala 一行转多行

Spark scala 一行转多行原始数据↓A a1,a2,a3B a4,a5C a3,a5D a1,a2,a3,a4E a1逻辑代码↓val data = source .map(s => { val tmp1 = arr(0) val tmp2 = arr(1).split(",") (tmp1, tmp2) }) .map(s => { s._2 .ma

2020-11-11 16:47:53 1498

原创 python连接sqlServer,报错:[IM002] [Microsoft][ODBC 驱动程序管理器] 未发现数据源名称并且未指定默认驱动程序

1. 在jupyter notebook连接sqlServer报错报错信息:InterfaceError: (‘IM002’, ‘[IM002] [Microsoft][ODBC 驱动程序管理器] 未发现数据源名称并且未指定默认驱动程序 (0) (SQLDriverConnect)’)2. 解决办法2.1 按win键搜索“设置ODBC数据源(64位)”2.2 在用户DSN中添加sqlServer ODBC驱动2.3 填写相关信息,server栏填写数据库服务器地址2.4 按照同样方法在系统

2020-05-14 09:22:46 5305

原创 windows安装pyltp

1、环境win10、python 3.6(这个很重要)2、安装vs 4.0++Visual C++ 2015 Build Tools3、下载pyltp的wheels文件pyltp-0.2.1-cp36-cp36m-win_amd64.whl4、在终端运行pyltp的wheels文件比如说文件在D盘的根目录,如下图5、测试from pyltp import ...

2019-06-11 15:29:58 1959

原创 windows手动安装pip

在终端使用pip安装文件时出现了上面的问题,解决方法如下:1、在终端输入 curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py ,出现如下进度条2、然后使用 python get-pip.py命令把下载下来的get-pip.py程序进行编译,3、输入pip list(展示pip下安装了哪些工...

2019-06-11 14:42:19 3601 1

原创 (自学大数据系列)第一章:初识Hadoop

1、数据现状2006年数字世界(digital universe)项目统计得出全球数据总量为0.18ZB,2011年将达到1.8ZB(1ZB = 1 000EB = 1 000 000PB = 1 000 000 000TB)数据增长速度也在加快。2、数据的存储数据读取速度慢:在硬盘容量不断提升的同时,数据的读取速度却没有与时俱进,目前数据的读取速度也仅为100MB/S。解决办法:可以把数据存放在...

2018-06-22 09:53:52 173

转载 第三篇:数据仓库系统的实现与使用(含OLAP重点讲解)

转载来源:http://www.cnblogs.com/muchen/p/5318808.html第三篇:数据仓库系统的实现与使用(含OLAP重点讲解)阅读目录前言创建数据仓库ETL:抽取、转换、加载OLAP/BI工具数据立方体(Data Cube)OLAP的架构模式小结回到顶部前言        上一篇重点讲解了数据仓库建模,它是数据仓库开发中最核心的部分。然而完整的数据仓库系统还会涉及其他一些...

2018-06-05 17:14:57 2187

转载 第二篇:数据仓库与数据集市建模

转载来源:https://www.cnblogs.com/muchen/p/5310732.html#_labelTop第二篇:数据仓库与数据集市建模阅读目录前言维度建模的基本概念维度建模的三种模式实例:零售公司销售主题的维度建模更多可能的事实属性经典星座模型缓慢变化维度问题数据仓库建模体系之规范化数据仓库数据仓库建模体系之维度建模数据仓库数据仓库建模体系之独立数据集市三种数据仓库建模体系对比小结...

2018-06-05 17:11:45 1191

转载 第一篇:数据库需求与ER建模

转载来源:http://www.cnblogs.com/muchen/p/5258197.html第一篇:数据库需求与ER建模阅读目录前言基本概念扩展概念高级话题其他说明小结回到顶部前言        在数据库建设过程中,哪一步最重要?绝大多数资料会告诉你,是需求分析阶段。这一步的好坏甚至直接决定数据库项目的成败。        需求分析阶段,也被称为ER建模(entity-relationshi...

2018-06-05 17:06:56 2578 2

原创 win7下安装XGBoost

前置环境:windows7,python3没有安装python3的可以下载anacoda进行安装(https://www.anaconda.com/download/),选择3.6版本1、https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost  下载mingW64的安装包,选择xgboost-0.6-cp36-cp36m-win_amd64.whl文...

2018-04-14 19:14:17 230

转载 【转载】用scikit-learn和pandas学习线性回归

点击打开链接

2018-02-28 14:47:39 354

转载 【转载】十分钟搞定pandas

点击打开链接

2018-02-26 11:57:44 198

转载 Python 视频教程地址

Python 视频教程地址

2018-01-25 14:56:42 895

转载 Kaggle入门,看这一篇就够了

Kaggle入门,看这一篇就够了点击打开链接

2018-01-25 14:54:30 1642

转载 1、机器学习简介

机器学习简介点击打开链接

2018-01-24 15:10:14 526

CCNA学习指南(第六版)

CCNA学习指南,比较适合于想通过CCNA考试的读者。其实要是单纯的想通过CCNA考试,只看这一本书就行了。

2011-10-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除