11 rongyongfeikai2

尚未进行身份认证

暂无相关描述

等级
TA的排名 792

Siddhi架构及原理

2019-05-16 18:06:25

目前Spark Application处理的数据量和性能

今年最值得开心的事情,就是SparkApplication在客户局点跑的效果。虽然里面涉及的算法由于涉密所以不能透露,但是性能杠杠的还是值得高兴一下的。每秒钟的数据量大概为40万~80万条。实时SparkApplication的性能(开5分钟的时间窗口):5分钟内可以处理完,没有延迟和堆积。离线SparkApplication的性能(一天跑一次,一次处理前一天的数...

2018-11-23 09:18:38

Apache Flink 各类关键数据格式读取/SQL支持

目前事件归并分为两种,一种为实时的归并,即基于Kafka内的数据进行归并和事件生成;一种是周期性的归并,即基于Hive中的数据进行数据的归并和事件生成。基于SQL归并时SparkStreaming支持的输入/输出数据如下: 数据类型 Flink支持情况 Kafka 需要定义schema HDFS(parquet/csv/textfile)...

2018-11-02 16:03:22

Apache Flink CEP学习总结

1. 简介ApacheFlink是一个计算框架,地位和Spark差不多。里面的API也有与Spark类似的,例如FlinkKafkaConsumer010对应着Spark里的读取Kafka形成流的API,DataStream对应着Spark里的DStream,也有一系列的transformAPI例如map/fliter等等。在yarn上提交任务的方式也十分简洁:请注意,它的ya...

2018-11-02 15:51:06

Hadoop Namenode启动报错GC overhead limit exceeded

HadoopNamenode启动报错:看起来是fsimage中的节点数目过多,导致的GCOverhead超过限制。Fsimage是namenode维护的重要文件之一,它包含了整个HDFS文件系统的所有目录信息和文件信息。对于文件来说包含了数据块描述信息、修改时间、访问时间等;对于目录来说,包含了修改时间、访问权限控制信息等。需要用以下命令查看fsimage文件占用的内存大小:....

2018-09-28 11:24:05

编译zeppelin

1.单独编译zeppelin-webcdzeppelin-web mvncleanpackage-DskipTests如果中途phantomJS安装报错,手动安装PhantomJS,命令为:npminstall 2.回到主目录编译zeppelinmvnpackage-DskipTests-Phadoop-2.7-Dhadoop.version=2.7.2-Pspar...

2018-08-21 10:18:38

oracle和sqlserver记录客户端ip、用户名、sql

1.oracle--建立LOGON_TABLEcreatetableLOGON_TABLEasselectsysdatelogon_time,sys_context('USERENV','SESSION_USER')username,sys_context('USERENV','IP_ADDRESS')ip_address,sys_context('USERENV','SESSION...

2018-07-03 13:45:24

sklearn使用逻辑回归

因为逻辑回归这一章实在毫无新意,而且使用ADFA-LD数据集函数调用都已经数字化了,也对实际工程没有任何帮助。所以仅贴一段示例代码:

2018-06-26 20:29:04

《web安全之机器学习入门》第7章朴素贝叶斯模型检测webshell

N-gram算法,认为第N个词只与前面的第N-1个词相关。例如对于一个句子,Ilovemycountry.那么2-gram得到的词集为:["Ilove","lovemy","mycountry"]代码如下:检测webshell的第一种方式的思路为,将phpwebshell文件按照单词分词后(正则\b\w+\b),按照2-gram算法得到词集,从而得到文件每一行在该词集上的分布情况,得...

2018-06-26 20:06:36

hbase thrift连不上的错误(client.RpcRetryingCaller: Call exception)

现象为:pythonhappybase连接hbase卡死,查看thrift里的日志发现:2018-06-2615:19:43,192INFO [thrift-worker-11]client.RpcRetryingCaller:Callexception,tries=21,retries=35,started=249681msago,cancelled=false,ms...

2018-06-26 15:39:06

《web安全之机器学习入门》第6章决策树与随机森林算法

决策树识别pop3端口扫描(原书中识别暴力破解,实际上pop3协议的并没有guess_passwd类型的数据,所以改为识别port_sweep.):待分析数据集:KDD-99数据集,链接:http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html该数据集是从一个模拟的美国空军局域网上采集来的9个星期的网络连接数据,分成具有标识的训练数据和未加标识...

2018-06-24 16:23:00

《web安全之机器学习入门》第5章K近邻算法读书笔记【下】

Rootkit是一种特殊的恶意软件,它的功能是在安装目标上隐藏自身及指定的文件、进程和网络连接等信息。待分析数据集:KDD-99数据集,链接:http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html该数据集是从一个模拟的美国空军局域网上采集来的9个星期的网络连接数据,分成具有标识的训练数据和未加标识的测试数据。数据集已经进行了数据采集、清洗、提...

2018-06-24 12:23:00

《web安全之机器学习入门》第5章K近邻算法读书笔记【上】

K近邻算法的思路:如果一个样本在空间上最近的K邻居大多数都属于M类,则该样本属于M类。在本章中,使用K近邻算法识别用户操作序列中的异常命令。分析数据集url:http://www.schonlau.net/数据集说明:50个用户的linux操作日志以User开头的文件为用户命令,总共有50个用户,每个文件记录了用户的15000条命令;其中前5000条是正常操作,而后10000条则包含部分异常操作l...

2018-06-24 01:21:18

关于netcore 53413后门的跟踪

最近听到一种说法是,有gafgyt蠕虫利用netcore的53413的后门,传播得非常厉害。那么,跟踪一下事实是否属实呢?1.首先看一下netcore/netis路由的53413后门这是一个2014年就爆出来的老洞。即netcore/netis路由器会默认监听53413端口(UDP),发送特定的字符串给它之后,就可以获得root权限登录,接着就可以执行相应的命令了。一个可以利用po

2018-01-23 08:30:22

Java版whois信息查询接口

1.whois是什么?首先明确一点,whois是一种协议,用来查询一个域名是否被注册,以及注册者、注册时间、最后更新时间以及相关信息。2.怎么查?不同的域名后缀往往需要像不同的whois服务器发送请求,比如以.jp(日本域名)结尾的域名和.ru(俄罗斯)结尾的域名就需要向不同whois服务器发送请求以获取信息。3.如何知道哪个域名后缀对应哪个whois服务器?进

2017-11-24 10:04:38

Struts2 S2-052

Struts2S2-052影响的版本是Struts2.1.2-Struts2.3.33,Struts2.5-Struts2.5.12。主要是struts2的restplugin的XStreamHandler存在问题。所以,我们在复现此漏洞时,需要引入struts2-core,struts2-rest-plugin以及struts2-convention-plu

2017-10-25 13:15:39

Struts2 S2-003

Struts2S2-003影响的版本是低于2.0.12以下的,所以搭建的环境使用低于2.0.12的最近一次版本,2.0.11.2。环境搭建:1.项目结构:2.pom.xml里的配置:3.web.xml的配置:4.struts.xml的配置:5.LoginAction.java代码:6.ind

2017-10-24 17:18:16

pgpool(3.6.5)的一个巨坑

在现场环境中突然发现sparkapplication卡死,而卡死的状态又与普通的阻塞不同,看起来就是执行了一部分job之后,后面的Job都没有提交了。而更为诡异的是,如果把指向不用pgpool,而直接用一个普通的pg库,整个sparkapplication是正常的。此时猜测可能问题出在driver端代码上,发现有一个类似这样的代码:df.write().jdbc(...)主要就

2017-09-28 15:29:59

机器学习引擎在公司内网环境发现蠕虫

自从将基于流特征的蠕虫检测算法部署到公司内网环境后,就发现,一直在报一台机器有蠕虫病毒。然后随意抽查一条,这台机器居然在1个小时内扫描了7万多台机器的445端口。发现这台机器是一位测试同学的机器,而她并未进行扫描随机IP445端口的测试。然后总结了一下特征:svchost.exe进程,大量的发送syn_sent445端口的请求和W32.Downadup蠕虫病

2017-07-03 17:57:16

XSS挑战赛记录

比赛网址:http://prompt.ml/0第一题:需要无交互的触发JS脚本的执行。代码如下:">

2017-06-14 19:56:58

查看更多

勋章 我的勋章
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!