自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

灬皇帝的新装灬的博客

大数据、数据分析、Web开发、爬虫都稍微会点

  • 博客(18)
  • 收藏
  • 关注

原创 Flink watermark解读

Flink watermarkwatermark:是一种衡量Event Time进展的机制,它是数据本身的一个隐藏属性。通常基于Event Time的数据,自身都包含一个timestamp,例如1472693399700(2016-09-01 09:29:59.700),即:timestamp小于1472693396700(2016-09-01 09:29:56.700)的数据,都已经到达了。好多人绕不过去,还有很多文章画图的,看得我更晕。。。watermark:是用于处理乱序事件的重

2020-05-29 14:01:58 316 1

原创 Monit 监控 PredictionIO 系统

一、配置详情:1.1 监控频次监控频次:300s/次1.2 监控页面查看地址WEB监控页面地址:http://XXX:2812/需要账号密码登录1.3系统监控项配置详情:check system myhost.mydomain.tldif loadavg (1min) > 4 then alertif loadavg (5min) > 2...

2019-07-19 17:44:28 266

原创 PredictionIO 做推荐系统踩的坑

1. spark 安装目录问题 ambari 安装的spark 版本号和社区下载的不一样,semver.sh脚本执行正则的时候验证spark版本是否合格,会失败。 重新安装 spark 指定路径2. 链接数据库须带端口3.spark路径 /data/Software/spark-2.3.3 4.postgresql数据库: 数据地址: ...

2019-07-12 18:08:09 1243 1

原创 Spark ItemCF推荐算法(mllib) 余弦相似度实现:

package com.keyboard.pro_testimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.StringIndexerimport org.apache.spark.mllib.linalgimport org.apache.spark.mllib.linalg.distr...

2019-05-27 10:49:01 3276 1

原创 用户画像体系介绍汇总

一、什么是用户画像用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。用户画像是对现实世界中用户的建模,用户画像应该包含目标,方式,组织,标准,验证这5个...

2019-03-29 16:32:18 8812

原创 Spark、Hive UDF函数使用汇总

Spark UDF:关于UDF:UDF:User Defined Function,用户自定义函数。创建测试用DataFrame// 构造测试数据,有两个字段、名字和年龄略。。。// 注册一张user表userDF.createOrReplaceTempView("user") Spark Sql - UDF用法下面的UDF的功能是计算某列的长度,该列的类型为S...

2019-02-20 16:10:52 3718

原创 随机森林+逻辑回归+贝叶斯等算法的组合使用

随机森林+逻辑回归+贝叶斯1.GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。使用其来自动发现有效的特征、特征组合,来作为LR模型中的特征,以提高 CTR预估(Click-Through Rate Prediction)的准确性2.这个程序主要是为了提升特征的准确性,筛选有效特征。其次是锻炼混合算法的使用,避免单一算法的局限性。大家可以按照路子,随意修改或者组合自己想...

2019-01-24 17:43:41 2103

原创 Tobii Studio眼动仪教程 - 真正的测谎机器

一、眼动仪介绍:1.介绍:      眼动仪是心理学基础研究的重要仪器。眼动仪用于记录人在处理视觉信息时的眼动轨迹特征,广泛用于注意、视知觉、阅读等领域的研究。现有不同厂家生产的多种型号的眼动仪,如 EyeLink眼动仪、EVM3200眼动仪、faceLAB4眼动仪、EyeTrace XY 1000 眼动仪。       早在19世纪就有人通过考察人的眼球运动来研究人的心理活动,通过分...

2018-12-19 19:25:37 12581 7

原创 hive数据挂载到Amazon S3时的问题

一、hive数据存放到S3时问题归纳1.添加分区问题alter table tableName add if not exists partition (dt='$day') location 's3://$day - (S3路径)';正常hive表添加分区是默认建立我们指定的分区,在s3上使用默认语句会添加一个dt=日期的一个文件夹,而正常分区目录没有“dt=“,这时需要手动指定数据...

2018-12-07 18:45:17 1590

原创 spark 2.3 ml 协同过滤推荐算法ALS

一.spark ml 协同过滤推荐算法相似度算法在Spark MLlib中提供了余弦相似度的分布式实现,org.apache.spark.mllib.linalg.distributed包中的IndexedRowMatrix是一个分布式矩阵类,其中提供了一个columnSimilarities方法用于计算该矩阵各列之间的余弦相似度。预测值计算:采用加权求和的方法计算预测值.Step 1...

2018-11-22 19:17:58 1073

原创 机器学习spark ml提取文章关键词特征并聚类word2Vec+KMeans

 1.取英文文章数据,训练成模型,就是特征向量,用word2Vec。 2.然后用这个模型,去将新数据,或者老数据进行分类。 3.效果非常好的话,会形成类似:体育、游戏、生活、艺术等类别。 4.所用为最新的spark ml,不是mllib。 5.中间可以自己加一些去除停用词,结果优化,格式化输出等。 val conf = new SparkConf().setMaster...

2018-10-22 18:25:15 2791

原创 spark Scala ml word2Vec 英文文档关键词提取

1.整体程序,没有问题,copy可以运行。path需要路径下需要放几个英文文档。2.spark ml程序,spark 2.X,Scala 2.11.X,jdk 1.83.内容大概为生成英文文档的关键词提取。4.主要注意spark ml和mlib的区别,我尽量使用的是最新的,ml + dataframe + spark SQL5.流程:去读英文文档、分词、过滤停用词、创建word2Vec、结...

2018-09-14 14:09:29 1443

原创 Amazon S3 Browser配置命令使用及客户端连接

S3文件管理器 与 CEPH相似一、客户端这个样纸:二、连接Accounts --> Add New Account1.随便起个名字2.Access key ID :id3.Secret Access Key :密码三、Linux 命令使用客户端是为了查看使用,真正实现自动化需要使用命令,来读取文件。使用命令教程:AWS官方文档:htt...

2018-08-03 10:34:13 21079 1

原创 Linux压缩解压大全

1、tar 解包 tar xvf filename.tartar 打包 tar cvf filename.tar dirname2、gz 解压1 gunzip filename.gzgz 解压2 gzip -d filename.gzgz 压缩 gzip filename3、tar.gz 和 .tgz 解压 tar zxvf filename.tar.gztar.gz 和 ...

2018-08-03 10:21:46 349

原创 scala之stripMargin和多行字符串的使用

 (1)Scala中创建多行字符串使用Scala的Multiline String。在Scala中,利用三个双引号包围多行字符串就可以实现。代码实例如:val foo = """abcd"""运行结果为:a   bc   d (2) 上述方法存在一个缺陷问题,输入的内容,带有空格、\t之类,导致每一行的开始位置不能整洁对齐。而在实际应用场景下,有时候...

2018-08-03 10:08:11 22716

原创 数据分析-Pandas教程:常见使用方法-模拟案例

Pandas是Python数据分析库。Pandas把结构化数据分为了三类:Series、DataFrame、Panel,分别可以理解为 MySQL 表的一列、表、库。1.引入:        可以使用pycharm搜索安装,超级简单。import numpy as npimport pandas as pd2.导入数据或创建数据:df_1 = pd.read_csv(...

2018-07-30 14:57:51 2333

原创 反反爬技术,破解猫眼网加密数字

一、背景 字体反爬应用还是很普遍。这两天有朋友咨询如何实现猫眼票房数据的爬取,这里其实与上面的文章核心思想是一致的,但是操作更复杂一些,本文做一个更详细的破解实践。有对字体反爬还比较陌生的,请参考前文。二、查找字体源 猫眼电影是美团旗下的一家集媒体内容、在线购票、用户互动社交、电影衍生品销售等服务的一站式电影互联网平台。2015年6月,猫眼电影覆盖影院超过4000家,这些影院的票房...

2018-01-24 18:09:02 10833 9

原创 Selenium + PhantomJS + python图片全屏截取+定位坐标+抠图+图片识别

Selenium + PhantomJS + python图片全屏截取+定位坐标+抠图+图片识别 硬核破解猫眼加密1.原图片(全屏截图)import pytesseractfrom PIL import Imagefrom selenium import webdriverfrom selenium.webdriver.common.desired_capabilities im...

2017-12-14 10:10:27 19635 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除