自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 机器学习前端展示好用工具之streamlit

http://blog.hubwiz.com/2019/11/07/streamlit-manual/

2020-04-13 15:06:40 566

原创 ROC及AUC二值分类判断标准

https://blog.csdn.net/yinyu19950811/article/details/81288287

2020-04-13 15:03:14 581

转载 Kimball维度建模

https://www.jianshu.com/p/daab50a23c56

2020-04-09 14:40:54 156

原创 sql-server使用存储过程进行机器学习

https://www.cnblogs.com/joyanli/p/12529459.html

2020-04-02 14:19:40 127

原创 sql server

创建:https://blog.csdn.net/Lesour/article/details/88914198(1)主数据文件用来存储数据库的数据和数据库的启动信息。每个数据库必须有且只有一个主数据文件,其扩展名为.mdf。实际的主数据文件都有两种名称:操作系统文件名和逻辑文件名(在sql语句中会用到)。(2)辅助数据文件用来存储数据库的数据,可以扩展存储空间。一个数据库可以有多个辅助...

2020-04-02 10:58:22 141

原创 CountVectorizer参数

https://zhuanlan.zhihu.com/p/37644086

2020-03-31 10:33:06 638

转载 nlp--ngram模型和常见数据平滑方法(避免有的词从未出现)

http://52opencourse.com/111/%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E7%AC%AC%E5%9B%9B%E8%AF%BE-%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%EF%BC%88...

2020-03-31 09:58:24 612

转载 异常值检测

https://baijiahao.baidu.com/s?id=1619431536284756645&wfr=spider&for=pc

2020-03-27 13:24:11 93

原创 Mnist explaination--introduce to tensorflow

MNIST For ML BeginnersThis tutorial is intended for readers who are new to both machine learning and TensorFlow. If you already know what MNIST is, and what softmax (multinomial logistic) regression i...

2020-03-26 18:44:36 132

原创 SVM

SVM 核函数概念简介:https://blog.csdn.net/Wisimer/article/details/89573319?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158511433319724811849788%2522%252C%2522scm%2522%253A%252220140713.130056874…...

2020-03-25 14:11:39 107

转载 如何理解softmax

系数是这个Wij,训练模型主要是为了求出Wijhttps://blog.csdn.net/weixin_35770067/article/details/103565192?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158509102919724847023355%2522%252C%2522scm%2522%253A%252...

2020-03-25 10:42:29 89

转载 深度神经网络(DNN)反向传播算法(BP)

https://www.cnblogs.com/pinard/p/6422831.html

2020-03-23 14:08:53 145

原创 感知机原理

https://www.cnblogs.com/pinard/p/6042320.html

2020-03-23 13:43:27 75

原创 yarn框架运行过程

Mapreduce1.0缺点:只有一个Jobtracker,存在单点故障的问题,jobtracker任务过重,内存开销大,上限4000个节点资源分配不合理,把CPU分成slot,mapslot 和reduceslot不能互用于是提出了Yarn(hadoop2.0)Yarn基本就是对Mapreduce1.0的功能进行了拆分:Jobtracker负责的资源管理任务交给Yarn中Resour...

2020-03-19 10:29:25 139

原创 MapReduce概念详解

数据处理能力提升的两种路线:1.单核CPU从单核到双核到四核八核,2分布式并行编程随着 CPU制作工艺达到天花板,现在分布式并行编程有了发展,分布式并行编程就是借助一个集群通过多台机器同时处理大规模数据集。谷歌提出了mapreduce,apache做了开源实现,一个HDFS和Mapreduce合称为MapReduce,谷歌提出之前实际也有分布式并行编程MapReduce优点:每个节点都...

2020-03-17 11:47:53 538

转载 HIVE-分区表详解以及实例

http://dblab.xmu.edu.cn/blog/1876-2/#more-1876

2020-03-13 20:41:37 242

原创 hbase错误: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty SLF4

ttps://blog.csdn.net/pycrossover/article/details/102627807

2020-03-13 19:37:53 2405 3

原创 ubuntu14下hive操作

service mysql startmysql -u hadoop -p#mysql中创建create database hive; #保存hive元数据与hive-site.xml中localhost地址对应grant all on . to hive@localhost identified by ‘hive’; #将数据库所有权限给hive用户,hive是hive-site.xml...

2020-03-13 15:49:31 376

原创 structure streaming输入源之Kafka源实现

用生产者程序每0.1s生成一个单词写入kafka一个主题中,spark消费者程序每隔8s对收到的单词词频统计,把结果输出到kafka的另一个主题中#启动kafka,zookeeper终端cd /usr/local/kafkabin/zookeeper-server-start.sh config/zookeeper.properties#新建终端,不要关上一个,kafka终端cd /us...

2020-03-05 20:08:47 250

原创 structure streaming输入源之File源实现

文件放入到给定目录的操作应该具有原子性,即不能长时间在给定目录下打开文件写入内容,而是应该写入到临时文件后移动文件到给定目录下步骤:1.创建程序生成jason格式的file源测试数据2.创建程序对数据进行统计#!/usr/bin/env python3#-*-coding: utf8-*-import osimport shutilimport randomimport tim...

2020-03-05 18:08:06 331

原创 编写Structure streaming程序

步骤:1.导入pyspark模块2.创建SparkSession对象3.创建输入数据源4.定义流计算过程5.启动流计算并输出结果from pyspark.sql import SparkSessionfrom pyspark.sql.functions import splitfrom pyspark.sql.functions import explode#炸成一行一个单词if...

2020-03-05 15:00:29 310

原创 structure streaming

structure steaming在spark streaming上进行了全新架构,持续处理模式支持很快很快,微批处理模式支持毫秒响应,select where groupBy map filter flatMap操作都支持支持sparkSQL,数据抽象是dataframe 和DataSet SparkSQL只能处理静态数据spark streaming是dstreamstructure...

2020-03-04 21:47:40 1417

原创 输出操作,结果保存到本地和输出到MySQL

saveAsTextFiles("")结果写入到MySQLservice mysql startmysql -u hadoop -puse sparkcreate table wordcount(word char(20),count int(4));#得安装python连接MySQL的模块PyMySQLsudo apt-get updatesudo apt-get install...

2020-03-04 20:42:46 214

原创 有转换操作updateByKey

updateByKey操作跨批次维护想统计之前所有的,历史状态不断累加#!/usr/bin/env python3from__future__import print_functionimport sysfrom pyspark import SparkContextfrom pyspark.streaming import StreamingContextif__name__==“...

2020-03-04 20:14:53 241 1

原创 转换操作

DStream转换操作包括无状态转换操作(只统计当前到达批次,不会记录历史记录):map flatMap filter repartition reduce count union countByValue reduceByKey join(k,(v,w)) cogroup transform有状态转换操作(滑动状态转换操作就是有窗口滑动)reduceByKeyAndWindow)()co...

2020-03-04 19:07:22 302

原创 编写流计算程序

#!/usr/bin/env python3from__future__import print_functionimport sysfrom pyspark import SparkContextfrom pyspark.streaming import StreamingContextfrom pyspark.streaming.kafka import KafkaUtilsif_...

2020-03-04 14:47:08 153

原创 spark streaming kafka数据源的准备工作

kafka是个高吞吐量的分布式发布订阅消息系统,可以满足实时处理和批量离线处理,作为信息传递枢纽,kafka把外部数据源和hadoop生态系统里组件交互,直接编kafka就可以把所有外部数据源都交互到hadoop组件里kafka组件kafka集群包含很多服务器,这个服务器就叫brokerTopic:每个消息发送都会发到topic,订阅消息也是从每个消息topic来读,一个topic数据会被...

2020-03-03 19:14:54 93

原创 spark streamingRDD队列流

用streamingContext.queueStream(queueOfRDD)创建基于RDD的Dstream每隔1s创建一个RDD,加到队列里,每隔2s对Dstream进行处理cd 。。。。vim RDDQueueStream.py#!/usr/bin/env python3import timefrom pyspark import SparkContextfrom spark...

2020-03-03 18:09:21 412

原创 spark streaming套接字流流处理-用Socket编程创建数据输入源

服务端代码名字是DataSocket.py 用vim编一下#!/usr/local/env python3import socketserver = socket.socket()server.bind((‘localhost’,9999))#绑定ip和端口server.listen(1)#启动监听while 1:print(“I’m waiting for the connecti...

2020-03-03 15:33:58 780

原创 spark streaming套接字流流处理-用nc程序创建数据输入源

vim NetworkWordCount.py#!/usr/bin/env python3from__future__import print_functionimport sysfrom pyspark import SparkContextfrom pyspark.streaming import StreamingContextif__name__==“main”:if len...

2020-03-03 14:51:19 477

原创 spark独立程序方式创建文件流

cd /usr/local/spark/mycode/streaming/logfilevim FileStreaming.py#!usr/bin/env python3from pyspark import SparkContext,SparkConffrom pyspark.streaming import StreamingContextconf = SparkConf()c...

2020-03-02 17:46:00 351

原创 在pyspark中创建文件流然后wordcount

cd /usr/local/spark/mycodemkdir streamingcd streamingmkdir logfilecd logfile启动pysparkfrom pyspark import SparkContextfrom pyspark.streaming import StreamingContextssc = StreamingContext(sc, 10...

2020-03-02 17:27:12 460

原创 spark streaming流计算

现在主要有三类流计算框架平台商业级的流计算平台 IBM InfoSphere Streams和IBM StreamBase开源流计算框架 Storm twitter在用 和Yahoo! S4公司为支持自身业务开发的流计算框架百度Dstream 淘宝银河流计算平台 facebook Puma流计算更注重时效性数据实时采集工具有hadoop的Flume 和ChukwaSparksteami...

2020-03-02 16:29:55 236

原创 用sqarkSQL往MySQL写入数据

先设置表头,再写内容,内容得通过Row再转换成dataframe,再把内容与表头连接,再插入到MySQL中#!/usr/bin/env python3from pyspark.sql import Rowfrom pyspark.sql.types import *from pyspark import SparkContext,SparkConffrom pyspark.sql im...

2020-03-02 15:59:06 228

原创 linux spark连接MySQL数据库并打印到控制台上

Java数据库连接,(Java Database Connectivity,简称JDBC)是Java语言中用来规范客户端程序如何来访问数据库的应用程序接口jdbcDF = spark.read.format(“jdbc”).option(“driver”,“com.mysql.jdbc.Driver”).option(“url”,“jdbc:mysql://localhost:3306/sp...

2020-03-02 15:23:03 301

原创 将RDD转换为DataFrame,再换回RDD再查询几行看看

sparkContext是针对RDD的读写,后面DataFrame用sparkSession转换先得变成Row,然后创建dataframe就行了如果要查询,通过spark.sql,必须得注册成临时表才行from pyspark.sql import Rowpeople = spark.sparkContext.textFile(“file:///文件目录”).map(lambda x:x....

2020-03-02 01:47:55 144

原创 Spark创建SparkSession,dataframe常用操作

先启动pyspark第一篇博客有from pyspark import SparkContext,SparkConffrom pyspark.sql import SparkSessionspark = SparkSession.builder.config(conf=SparkConf()).getOrCreate()spark.read.text(“people.txt”)#读取文件创...

2020-03-01 21:33:36 790 1

原创 sparkSQL

sparksql前身是shark,shark基本是全抄了hive,问题就是优化啥的,hive人家是mapreduce的进程级并行,我们这spark数据抽象是RDD是线程级并行,所以shark执行优化依赖与hive跟我们方向就错了,而且导致了shark兼容hive时出现了线程安全问题,shark又开发了一套独立维护的打了补丁的hive源码分支,累的不行,所以spark直接新开发了这个sparksql...

2020-03-01 20:32:29 200

原创 spark二次排序,两列数据第一列排,如果第一列相等,看第二列

#!/usr/bin/env python3from operator import gtfrom pyspark import SparkContext, SparkConfclass SecondarySortKey():#参数是k,other,自带了参数self,不写def__init__(self,k):#构造函数self.column1 = k[0]self.column2 ...

2020-03-01 18:26:55 590

转载 python的构造函数

https://www.cnblogs.com/chaoguo1234/p/9351951.htmlPython中的构造函数Python中的构造函数是__init__函数。在Python中,子类如果定义了构造函数,而没有调用父类的,那么Python不会自动调用,也就是说父类的构造函数不会执行。比如有test.py的module文件:复制代码class A:def init(self, ...

2020-03-01 15:50:18 360

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除