2 妄念驱动

尚未进行身份认证

暂无相关简介

等级
TA的排名 9w+

逻辑回归进行信用卡欺诈检测

利用Logisticregression进行信用卡欺诈检测,使用的是一份竞赛数据集(已脱敏处理),使用的是Python的JupyterNotebook工具。观察数据importpandasaspdimportmatplotlib.pyplotaspltimportnumpyasnp%matplotlibinline导入数据并查看前5行data=pd.read_csv(

2017-10-30 00:12:21

Spark Streaming累加器与广播的简单应用

packagespark/***监控网络中的数据,基于broadcast中的黑名单,对获取数据流中的单词进行过滤筛选,并统计过滤筛选出记录的个数*/importorg.apache.log4j.{Level,Logger}importorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.broadcas

2017-10-03 22:42:42

Spark Streaming基于状态、窗口的实时数据流

与前两篇SparkStreaming的实时处理案例,原理基本一致,这里不再演示。最大的不同是,这两种方式必须设置checkpoint。(注:模拟器前面已给出)基于状态的实时数据分析使用updateStateByKey(func)步骤:步骤1.定义状态state步骤2.定义状态更新函数func步骤3.对DStream进行checkpoint步骤4.以func为参数,在DStr

2017-10-03 21:04:36

Spark Streaming实时处理TCP Sockets数据流

1.构建模拟器,模拟网络环境下的数据流;2.编辑SparkStreaming应用程序,在node01提交以集群模式运行,获取node02上端口9999中的文本数据流,并每隔5s对数据流中各单词的个数进行统计。演示文档//*******************模拟器******************packagesparkimportjava.io.{PrintWriter}impor

2017-10-02 23:06:44

Spark Streaming实时处理本地数据流

每隔20s监听本地文件夹“/home/hduser/Streamingtext”下新生成的文本文件,对新文件中的各单词个数进行统计/*Streamingtext下操作文件应注意以下几点:1.监控目录下的文件应该具有统一的数据格式,避免在内部解析时报错。2.文件必须是在监控目录下创建,可以通过原子性的移动或重命名操作,放入目录。3.一旦移入目录,文件就不能再修改了,如果文件是持续写入的话,新的

2017-10-02 21:52:53

Spark Streaming学习笔记

SparkStreaming是构建在Spark基础上的一个实时数据流处理框架。能够对流式数据进行可扩展的、高吞吐的、高容错的实时处理。批生成间隔(batchinterval)数据采集确是实时的、逐条进行的,而处理数据的单位是一批,因此需要确定一个时间间隔。系统对这个间隔内获得的数据统一操作,称为批生成时间间隔,决定了作业提交的频率,是系统调优的重要参数。Dstream(Discretiz

2017-10-02 16:28:44

Spark SQL用户自定义函数UDF及Apache日志实例

临时UDF创建临时UDF,在SQL中使用:(注:涉及文档上一篇博文《SparkSQL基础笔记及简单案例》给出》//创建DataFramecaseclassStudent(id:String,name:String,age:Int)valrdd=sc.textFile("hdfs://node01:9000/sqldata/students.txt").map(_.spli

2017-10-02 12:22:49

Spark SQL基础笔记及简单案例

SparkSQL是一个用来处理结构化数据的Spark组件,是Spark上一个分布式的SQL查询引擎,并拥有自己的SQL解析器。SparkSQL特点:快速具有统一的数据访问方式:兼容Hive,从各种结构化数据源中读取数据基于内存的列式存储技术面向多种语言具有良好的组件兼容性SparkSQL的执行流程:步骤1.SQL解析(语法结构层面的解析)步骤2.绑定(语义层面的解析)步骤3

2017-10-01 21:48:26

Spark-RDD笔记及集群作业实例

第一部分:RDD笔记定义:ResilientDistributedDataset(弹性分布式数据集)RDD是Spark应用程序中的数据表示形式RDD是一种分布式的内存抽象RDD具有数据流模型的特点:自动容错、位置感知调度和可伸缩性RDD是只读的记录分区的集合,使得实现容错的开销很低RDD是高度受限的共享集合特性:分区(partition):RDD的基本组成单位对于一个RDD,分

2017-09-26 22:18:14

Spark安装及环境配置

往期博文讲过Hadoop集群的搭建,这次分享下Spark的安装和配置,Spark是基于Hadoop的大规模数据处理引擎。Spark的特点是基于内存的大数据综合处理框架,速度百倍于MapReduce适用于处理较多迭代次数的任务基于RDD(弹性分布式数据集)实现容错和并行提出了DAG(DirectedAcyclicGraph有向无环图)支持多种语言的API(如Java、Scala、Pyth

2017-09-24 21:41:09

hadoop报错Name node is in safe mode

今天集群上操作出现如下错误:Cannotcreatedirectory/home/hduser/wordcount.Namenodeisinsafemode.安全模式。。翻了下资料,发现了解决方法在hadoop安装目录下执行如下命令bin/hadoopdfsadmin-safemodeleave即可解除安全模式SafemodeisOFFsafemode模式NameN

2017-09-24 10:26:08

XGBoost调参demo(Python)

XGBoost我们用的是保险公司的一份数据#各种库importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.linear_modelimportLogisticRegressionfromsklearn.ensembleimportRandomForestClassifier

2017-09-22 16:32:19

贝叶斯新闻分类demo(Python)

#pipinstalljiebaimportpandasaspdimportjieba数据源:http://www.sogou.com/labs/resource/ca.phpdf_news=pd.read_table('./data/val.txt',names=['category','theme','URL','content'],encoding='utf-8')df

2017-09-13 22:02:23

贝叶斯拼写检查器(python)

importre,collectionsdefwords(text):returnre.findall('[a-z]+',text.lower())deftrain(features):model=collections.defaultdict(lambda:1)forfinfeatures:model[f]+=1ret

2017-09-13 15:10:55

决策树demo(python)

%matplotlibinlineimportmatplotlib.pyplotaspltimportpandasaspdfromsklearn.datasets.california_housingimportfetch_california_housinghousing=fetch_california_housing()print(housing.DESCR)h

2017-09-13 12:23:29

梯度下降求解逻辑回归(Python)

LogisticRegressionThedata我们将建立一个逻辑回归模型来预测一个学生是否被大学录取。假设你是一个大学系的管理员,你想根据两次考试的结果来决定每个申请人的录取机会。你有以前的申请人的历史数据,你可以用它作为逻辑回归的训练集。对于每一个培训例子,你有两个考试的申请人的分数和录取决定。为了做到这一点,我们将建立一个分类模型,根据考试成绩估计入学概率。importnumpyas

2017-09-12 21:41:11

Python-基于物品的协同过滤算法(附两种算法的对比)

与上一篇UserCF数据来源一致。先贴代码ItemCF:#coding=utf-8importmathclassItemCF:def__init__(self,basefile,testfile):self.datafile=basefileself.testfile=testfileself.readData()

2017-09-10 19:32:59

Python-基于用户的协同过滤算法

数据来源:https://grouplens.org/datasets/movielens/#--------------------------------------------------------#Purpose:基于已知的训练集,"测试集"中的user的item进行评分预测,并进行用户没有接触过的物品进行推荐.#---------------------------------

2017-09-09 19:18:39

python距离计算公式

importmathimportnumpyasnpfrommathimportsqrtx=np.array([1,3,2])y=np.array([-2,1,-1])#相似度defcosDis(vector1,vector2):num=0.0xdenom=0.0ydenom=0.0foriinrange

2017-09-09 19:09:00

Flume搭建测试

日志收集之Flumecase1:1.wgethttp://archive.apache.org/dist/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz2.tar-zxvfapache-flume-1.6.0-bin.tar.gz3.mvapache-flume-1.6.0flume4.cdconfvicommands.c

2017-09-08 09:53:17

查看更多

勋章 我的勋章
    暂无奖章