5 小亚文

尚未进行身份认证

我喜欢随遇而安的生活,但我更需要自身的努力来创造更好的生活

等级
TA的排名 7w+

Hbase 删除表格问题--- Table already exists

1. 首先输入$hbase zkcli命令进入zookeeper client模式2. 在zk client模式下输入ls /hbase/table命令看到zombie table,查看有哪些表 此时可以在正常模式下看下当前有哪些表3. 然后使用 rmr /hbase/table/TABLE_NAME 命令删除zombie table,重启hbase即可...

2020-05-06 13:49:48

hive 中join和Group的优化

group by 优化set hive.map.aggr = true; //是否在 Map 端进行聚合,默认为 Trueset hive.groupby.mapaggr.checkinterval = 100000000; //在 Map 端进行聚合操作的条目数目set hive.groupby.skewindata = true; //解决数据倾斜的万能钥匙join 优化s...

2020-02-20 18:03:23

查看liunx 下查看磁盘空间的几个命令

执行命令 df -h ,查看当前占用情况[ops@djl-data3 data]$ df -h Filesystem Size Used Avail Use% Mounted on/dev/vda3 36G 7.6G 28G 22% /devtmpfs 7.8G 0 7.8G 0% /devtmpfs ...

2020-02-17 15:05:00

hive 中mapjoin 出现情况分析

1.当两个表join的时候,当一方表数据量比较小的时候,运行hive的时候会自动进行mapjoin,但是进行mapjoin数据又跑不动,现在需要运行的时候加一句:关闭mapjionset hive.auto.convert.join = false; 2.mapjoin 优化,使用一张表数据小于1000行3....

2020-01-02 16:56:54

Google机器学习课程(二)降低损失(1)--迭代方法

得到

2019-08-11 12:15:21

Google机器学习课程(一)--训练与损失

线性回归按机器学习,线性回归模型方程式:y’=w1*x1+b其中:y′ 指的是预测标签(理想输出值)。b 指的是偏差(y 轴截距)。而在一些机器学习文档中,它称为 w0。w1 指的是特征 1 的权重。权重与线性函数中的“斜率”的概念相同。x1 指的是特征(已知输入项)。该式表示有一个特征的方程式,具有三个特征的模型可以采用以下方程式:y’=b+w1x1+w2x2+w3*x3训练...

2019-08-06 21:51:24

Google机器学习课程--机器学习术语

(监督式)机器学习定义:机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测

2019-08-06 21:13:56

查看HDFS上的文件,文件是否为空的命令总结

-test -[defsz] 测试文件是否存在:Answer various questions about , with result via exit status.-d return 0 if is a directory.-e return 0 if exists.-f return 0 if is a file.-s return 0 if file is great...

2019-07-30 10:37:25

Windows下如何将一个文件夹上传到git

原文:https://blog.csdn.net/geerniya/article/details/79552247以下给出详细步骤:1、首先得安装git客户端安装方法很简单,跟安装QQ之类的一样,进入官网:https://git-scm.com/ ,点击右侧下载windows版本的软件包,然后双击安装,一步一步下一步就可以了。安装完成之后,在开始菜单可以看到如下就算是成功了:如下图,点...

2019-01-02 11:51:29

hive表在join on和在where上过滤对比

一、left join 在on 和where 过滤对比A表结构以及数据:id name grade dept1 cid1 100 102 cid2 90 203 cid3 60 104 cid4 80 105 cid5 70 20B表结构以及数据:id name10 IT120 I...

2018-11-19 11:46:49

csr_matrix(Compressed Sparse Row matrix)存储模式 ---稀疏数据的压缩

压缩稀疏矩阵的某种存储方式>>> indptr = np.array([0, 2, 3, 6])>>> indices = np.array([0, 2, 2, 0, 1, 2])>>> data = np.array([1, 2, 3, 4, 5, 6])>>> csr_matrix((data, indices,...

2018-08-13 17:23:14

CNN卷积神经网络原理

转载:https://www.cnblogs.com/skyfsm/p/6790245.html 最近看了cnn神经网络,发现这篇博文很好,通俗易懂。神经网络的结构是这样的: 那卷积神经网络跟它是什么关系呢? 其实卷积神经网络依旧是层级网络,只是层的功能和形式做了变化,可以说是传统神经网络的一个改进。比如下图中就多了许多传统神经网络没有的层次 卷积神经网络的层级结构: ...

2018-07-11 17:42:49

tensorflow-CNN实例图像分类

https://www.cnblogs.com/denny402/p/6931338.html (cnn 图片分类)http://blog.csdn.net/csuzhaoqinghui/article/details/51377941(Tensorflow之构建自己的图片数据集TFrecords)http://blog.csdn.net/BeautyJingJing/article/det...

2018-07-11 17:00:34

MovieTaster-使用Item2Vec做电影推荐代码解析

在做推荐的时候了解到,可以将电影进行向量的训练,根据向量的相似度来做推荐,下载了MovieTaster代码,源代码地址 https://github.com/lujiaying/MovieTaster-Open,根据代码的数据来运行了一遍该程序。1.是process.py ,代码中iteritems()在python3中为items()import jsonDoulistFile = ...

2018-07-11 15:03:46

python zip()和zip(*)方法

zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 * 号操作符,可以将元组解压为列表>>>a = [1,2,3]>>> b = [4,5,6]>>> c = [4,5,6,7,8]>>&gt...

2018-07-11 10:16:49

NLP--gensim中doc2vec句向量实例

参考文章:https://blog.csdn.net/juanjuan1314/article/details/75124046/Doc2vec又叫Paragraph Vector是Tomas Mikolov基于word2vec模型提出的,其具有一些优点,比如不用固定句子长度,接受不同长度的句子做训练样本,Doc2vec是一个无监督学习算法,可以用于生成句向量,段落向量和文档向量。生成的向量可...

2018-07-06 16:31:03

pandas 排序

参考 1. http://blog.csdn.net/shingle_/article/details/71480334

2018-05-23 19:52:20

sklearn逻辑回归

逻辑回归自己的理解(明天把实例看完在写) 1.对机器学习的认识 引用大牛的观点: 机器学习算法没有所谓的优劣,也没有绝对的高性能,只有在特定场景、数据和特征下更适合的机器学习算法。 2.机器学习应用方法: 应用机器学习,千万不要一上来就试图做到完美,先做一个基本的model出来,再进行后续的分析步骤,一步步提高。所谓后续步骤可能包括『分析model现在的状态(欠/过拟合),分析我们使用的

2018-05-23 18:01:41

ALS 与协同过滤

ALS是交替最小二乘的简称。在机器学习中,ALS特指使用交替最小二乘求解的一个协同过滤算法。它通过观察到的所有用户给产品的打分,来推断每个用户的喜好并向用户推荐适合的产品。 ALS算法不像基于用户或者基于物品的协同过滤算法一样,通过计算相似度来进行评分预测和推荐,而是通过矩阵分解的方法来进行预测用户对电影的评分。

2018-05-23 17:49:01

python数据分析与挖掘实战---基于水色图像的水质评价拓展训练

import pandas as pdfileTest ='chapter9/test.xls'dataT =pd.read_excel(fileTest,encoding='utf-8') #读取数据,指定编码#将I II III IV V VI 转换为数字dataT.loc[(dataT[u'空气等级']=='I'),u'空气等级']=1dataT.loc[(dataT[u'空...

2018-05-23 14:57:55

查看更多

勋章 我的勋章
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。