2 大数据AIRDE

尚未进行身份认证

我要认证

如果博客有任何形式的侵权行为,请立刻私信我删除。 博主学习测试用代码库: https://gitee.com/airdest/CodesBackups.git 我学习过程中的代码都放这里边了,持续更新中

等级
TA的排名 1w+

Oozie 安装

文章目录第一步:修改core-site.xml第二步:上传oozie的安装包并解压第三步:解压hadooplibs到与oozie平行的目录第四步:创建libext目录第五步:拷贝依赖包到libext第六步:添加ext-2.2.zip压缩包第七步:修改oozie-site.xml第八步:创建mysql数据库第十步:创建oozie的数据库表第十一步:打包项目,生成war包第十二步:配置oozie的环境变量第十三步:启动与关闭oozie服务第十四步:浏览器页面访问oozie第一步:修改core-site.xml

2020-06-22 18:20:34

Python 导入多个包时更漂亮的代码

本来是这样的:都挤在一行里了,浏览代码时看着不方便from sqlalchemy import create_engine,Integer,String,Column,Float,Boolean,DECIMAL,DateTime,DATE,Time,Text,Enum化妆后:from sqlalchemy import ( create_engine, Integer, String, Column, Float, Boolean, DECIM

2020-06-18 17:22:22

Python SQLAlchemy 简单的CRUD

大家好,我是练习时长两年半的大数据练习生,喜欢数学,AI,大数据。写博客是为了总结,分享,自娱自乐。希望写出的东西会对自己,对别人都有价值!废话不多说,现在是个终身学习的时代,开始学习了!奥力给!干了兄弟们!是时候展现真正的技术了:????????????????????????准备工作昨天写了SQLAlchemy用ORM描述表关系,今天就总结一下Alchemy的CRUD操作。CRUD就是增删改查。今天了解到MySQLdb一般是py2.x版本使用的老东西了,现在人们都用pymysql了。还

2020-06-18 16:59:46

Faker 新版本Faker类的用法

大家好,我是练习时长两年半的大数据练习生,喜欢数学,AI,大数据。写博客是为了总结,分享,自娱自乐。希望写出的东西会对自己,对别人都有价值!废话不多说,现在是个终身学习的时代,开始学习了!奥力给!干了兄弟们!是时候展现真正的技术了:????????????????????????本文是一篇学习笔记,外加百度上搜刮来的知识,外加自己总结的知识:原文链接:https://faker.readthedocs.io/en/master/fakerclass.html#proxy-class-implem

2020-06-18 10:01:52

Python Faker 入门大纲总结,建立对Faker的第一印象

大家好,我是练习时长两年半的大数据练习生,喜欢数学,AI,大数据。写博客是为了总结,分享,自娱自乐。希望写出的东西会对自己,对别人都有价值!废话不多说,现在是个终身学习的时代,开始学习了!奥力给!干了兄弟们!是时候展现真正的技术了:????????????????????????

2020-06-16 10:14:35

Python SQLAlchemy 表的ORM描述

准备工作先给你的python安装以下包sqlalchemypython-mysqldbORMORM全称 Object Relational Mapping 对象关系映射ORM 将数据库中的表与面向对象语言中的类建立了一种对应关系。这样操作数据库或者数据库中的表或者表中的一条记录就可以直接通过操作类或者类的实例来完成。SQLAlchemySQLAlchemy是一个常用的ORM工具...

2020-06-14 00:08:50

Python SQLAlchemy Alembic的使用

大家好,我是练习时长两年半的大数据练习生,喜欢数学,AI,大数据。写博客是为了总结,分享,自娱自乐。希望写出的东西会对自己,对别人都有价值!废话不多说,现在是个终身学习的时代,开始学习了!奥力给!干了兄弟们!是时候展现真正的技术了:????????????????????????本文是一篇翻译型学习笔记,原文如下链接。https://www.pythoncentral.io/migrate-sqlalchemy-databases-alembic/AlembicAlembic is a li

2020-06-13 15:05:09

Python 类的基础用法

文章目录类定义`__init__()`方法类的方法类定义语法格式如下,注意缩进:class ClassName: 语句1 语句2 ... ... 语句N举个例子class Apple: """这是一个苹果""" price = 5 def fun(self): return 'hello world,this is an apple'实例化类x = Apple()访问类的属性和方法print("Apple

2020-06-13 14:56:54

记人生第1次面试:爬虫工程师(实习生) [失败]

大家好,我是练习时长两年半的大数据练习生,喜欢数学,AI,大数据。写博客是为了总结,分享,自娱自乐。希望写出的东西会对自己,对别人都有价值!废话不多说,现在是个终身学习的时代,开始学习了!奥力给!干了兄弟们!是时候展现真正的技术了:????????????????????????面了一份爬虫工程师实习生岗位,我学的是大数据,很少使用python,只会python基础,这次面试下来感觉就四个字:不自量力。我学的是大数据专业,却跑去面试python的岗位了,关键还准备不充足,甚至在拿到笔试题后,我才发

2020-06-12 22:53:31

[入门Git]一文带你入门Git + Gitee码云 + IDEA整合!良心干货!

> 大家好,我是练习时长两年半的大数据练习生,喜欢数学,AI,大数据。> 写博客是为了`总结,分享,自娱自乐`。希望写出的东西会`对自己,对别人都有价值!`> ==废话不多说,现在是个终身学习的时代,开始学习了!奥力给!干了兄弟们!==> 是时候展现真正的技术了:????????????????????????

2020-06-10 08:39:57

还不知道SparkSQL中left semi join操作与left join操作的区别?进来一看便知!

leftJoin类似于SQL中的左外关联left outer join,返回结果以第一个RDD为主,关联不上的记录为空。部分场景下可以使用left semi join替代left join:因为 left semi join 是 in(keySet) 的关系,遇到右表重复记录,左表会跳过,性能更高,而 left join 则会一直遍历。但是left semi join 中最后 select 的结果中只许出现左表中的列名,因为右表只有 join key 参与关联计算了。...

2020-06-09 07:59:39

!?这都大数据时代了,你居然还不知道Oozie是什么?

Oozie 概念Oozie是运行在hadoop平台上的一种工作流调度引擎,它可以用来调度与管理hadoop任务,如,MapReduce、Pig等。oozie的组件介绍workFlow:工作流,定义工作流任务的执行,主要由一个个的action组成,每个action都是一个任务,在xml中进行配置即可Coordinator :协作器,可以理解为工作流的协调器,可以将多个工作流协调成一个工作流来进行处理。也是oozie当中的定时任务调度的模块,Bundle :捆,束。多个Coordinator 的抽象

2020-06-08 10:43:56

[BUG记录]idea创建子MAVEN模块再remove再delete,再次创建同名子MAVEN模块就会丢失资源文件夹和造成pom文件失效

1,先在项目下创建一个MAVEN模块2,3,命名为good00014,可以看到这里是正常的,另外pom文件也可以正常导包5,接下来remove并delete这个子模块6,按照上面的步骤创建一个同名的子模块可以发现,没有自动标记工作文件夹,并且这时候的pom里写啥东西都没用了。idea会显示import过程,但是这个模块里无法使用pom文件里导入的包了。目前还没有找到解决办法,如果有谁知道怎么解决的可以下方评论,谢谢了!所以创建子模块要谨慎!!!...

2020-06-07 21:12:09

HBase 用Spark导入MySQL数据到HBase

用Spark导入MySQL数据到HBase​企业中大规模数据存储于HBase背景:项目中有需求,要频繁地、快速地向一个表中初始化数据。因此如何加载数据,如何提高速度是需要解决的问题。一般来说,作为数据存储系统会分为检索和存储两部分。检索是对外暴露数据查询接口。存储一是要实现数据按固定规则存储到存储介质中(如磁盘、内存等),另一方面还需要向外暴露批量装载的工具。如DB2的 db2load 工具,在关闭掉日志的前提下,写入速度能有显著提高。HBase数据库提供批量导入数据到表功能:1、Hbase

2020-06-01 16:04:48

HBase 用MapReduce导入MySQL中的数据到HBase

用MapReduce导入MySQL中的数据到HBase将MySQL表的数据先导入到HDFS文件中(比如TSV格式),编写MapReduce将文本文件数据转换为HFile文件,加载到HBase表中。第一步、用Sqoop在Hive中创建表/export/servers/sqoop/bin/sqoop create-hive-table \--connect jdbc:mysql://bd001:3306/tags_dat2 \--table tbl_logs \--username root \

2020-06-01 15:41:49

HBase ImportTSV

TSV文件与CSV文件的区别TSV是Tab-separatedvalues的缩写,即制表符分隔值。相对来说CSV,Comma-separatedvalues(逗号分隔值)更常见一些。ImportTSV功能描述:ImportTSV可以将tsv(也可以是csv,每行数据中各个字段使用分隔符分割)格式文本数据,加载到HBase表中。采用Put方式加载导入采用BulkLoad方式批量加载导入ImportTSV这个功能藏在HBase自带的工具类jar包里。使用如下命令,查看HBase官方自带工具类

2020-06-01 15:05:06

Sqoop 从MySQL导入数据到HBase的命令参考

使用SQOOP将MySQL表的数据导入到HBase表中,指定表的名称、列簇及RowKey范例如下所示:/export/servers/sqoop/bin/sqoop import \-D sqoop.hbase.add.row.key=true \--connect jdbc:mysql://bd001:3306/tags_dat2 \--username root \--password 123456 \--table tbl_users \--hbase-create-table \-

2020-06-01 14:44:25

Hive 常见问题总结

row_number是排完序后再取topN,相同于去重

2020-05-28 10:51:48

ELM神经网络

A、C 是传统的神经网络做法,和存在的问题。(BP算法)ELM(极限学习机 Extreme Learning Maching)该算法随机产生输入层与隐层间的连接权重及隐层神经元的阈值,且在训练过程中无需调整,只需要设置隐层神经元的个数,便可以获得唯一的全局最优解。https://blog.csdn.net/csuwlf/article/details/85002255...

2020-05-28 10:49:31

特征选择算法

启发式搜索序列向前选择序列向后选择双向搜索增L去R选择算法序列浮动选择决策树完全搜索分支限界搜索

2020-05-28 10:42:11

查看更多

勋章 我的勋章
  • GitHub
    GitHub
    绑定GitHub第三方账户获取
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 阅读者勋章Lv1
    阅读者勋章Lv1
    授予在CSDN APP累计阅读博文达到3天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 1024勋章
    1024勋章
    #1024程序员节#活动勋章,当日发布原创博客即可获得
  • 勤写标兵Lv4
    勤写标兵Lv4
    授予每个自然周发布9篇以上(包括9篇)原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。
  • 学习力
    学习力
    《原力计划【第二季】》第一期主题勋章 ,第一期活动已经结束啦,小伙伴们可以去参加第二期打卡挑战活动获取更多勋章哦。