自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (1)
  • 收藏
  • 关注

原创 spark word2vec 源码详细解析

spark word2vec 源码详细解析简单介绍spark word2vec源码解析word2vec 的原理 只需要看层次哈弗曼树skip-gram那部分简单介绍spark word2vecWord2Vec creates vector representation of words in a text corpus.The algorithm first constructs a voc...

2020-01-16 11:26:14 3989

原创 安装Spark+hadoop,spark、hadoop分布式集群搭建...(亲自搭建过!!)

首先说一下我所用的版本:spark-2.1.1-bin-hadoop2.7.tgz,hadoop-2.7.3.tar.gz,jdk-8u131-linux-x64.rpm,我们实验室有4台服务器:每个节点硬盘:300GB,内存:64GB。 1. 先装java1.8环境:给各个节点上传jdk-8u131-linux-x64.rpm到/home里面。用rpm安装。[root@localhost h

2017-11-20 17:58:38 14907 3

原创 spark 报java.lang.StackOverflowError

spark 广播类报java.lang.StackOverflowError 背景:需要广播一个167M的tree类,所以报栈内存不够解决办法:在spark-submit里加上:(目前由于数据量级小,所以采用local模式运行)spark-submit \$--class bp_beauty_op.beauty_op \$--master local[*] \$--driver-java-options "-Xss256m" \$test-1.0-SNAPSHOT.jar或者在spark-

2020-12-14 17:39:09 480

原创 spark HashingTF TFIDF怎样提取出词对应的TFIDF值

1.这个是spark官网的实例代码:import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}val sentenceData = spark.createDataFrame(Seq( (0.0, "Hi I heard about Spark"), (0.0, "I wish Java could use case c...

2020-04-03 10:51:19 2197 4

原创 Anaconda Navigator 闪退解决办法

点击Anaconda Prompt 在里面输入:conda install -c anaconda anaconda-navigator=1.6.2 可能有时因为网络不稳定,导致报错,这样的话多多试几次就可以。 这样就可以解决问题,亲自试过!

2017-11-21 14:36:48 2012

原创 openTSDB安装,部署

1. 安装JDK。可以直接用yum进行安装,如果你已经随便装了Java,openTSDB和Hbase对JDK版本有要求。 a.Hbase对JDK的要求: b.openTSDB对环境的要求: java环境可以使用Oracle的jdk或者openjdk,我选择的是openJDK1.7。现在开始安装opeJDK1.7: c.检查自己安装的java版本: java -version如果不是

2017-06-28 23:34:02 5129

原创 centOS7 网络配置,IP设置,连网配置

首先设置虚拟机的网络设置点击 编辑—>虚拟网络编辑器 后进入一个编辑页面:注意:在VMnet8下编辑内容,选中将主机虚拟适配器连接到此网络 取消选择 使用本地DHCP服务将IP地址分配给虚拟机。然后,点击 NAT设置(S) 可以看到此页面: 要记住第一个红色框框的子网掩码和网关的内容!点击第二个红色框框下面的 添加(A)… 可以看到:(这里相当于一个映射:将本地主机的一个端口映射到虚拟机中

2017-06-24 17:18:24 2867

原创 CentOS7 安装迷你版后,没有ifconfig命令的解决办法

配置yum源(本地) 挂载系统安装光盘mount /dev/cdrom /mnt/cdrom/在linux 输入如下命令:cd /etc/yum.repos.d/,然后ls显示yum.repos.d文件里面的文件有:CentOS-Base.repo CentOS-CR.repo CentOS-Debuginfo.repo CentOS-fasttrack.repo CentOS-Medi

2017-06-22 16:43:38 3706 2

原创 正则表达式给查找到的内容加引号

首先介绍一下正则表达式的基本语法,不使用任何一门语言,就使用notepad++进行正则表达式的操作。正则表达式:正则表达式表达就是操作字符串的一个规则,正则表达式使用了特殊的符号表示。正则表达式对字符串的操作主要有一下集中应用:匹配切割替换查找预定义字符(注意:任何预定义字符没有加上数量词之前都只能匹配一个字符,比如"12"就不能被”\\d“匹配):. 表示任何字符(与行结束符可能匹配也

2017-06-19 13:17:27 9757 3

原创 如何利用Python里面的json中的dump()/dumps()函数处理中文

比如说有这样的一个 data={'username':'李华','sex':'male','age':16}现在用json包来处理这条Jason数据:import json data = {'username':'李华','sex':'male','age':16}in_json = json.dumps(data)>>>import json >>>data = {'username':

2017-06-10 15:44:27 23934

原创 常见的码表

计算机并不区分二进制文件与文本文件。所有的文件都是以二进制形式来存储的,因此,从本质上说,所有的文件都是二进制文件。所以字符流是建立在字节流之上的,它能够提供字符层次的编码和解码。例如,在写入一个字符时,Java虚拟机会将字符转为文件指定的编码(默认是系统默认编码),在读取字符时,再将文件指定的编码转化为字符。常见的码表如下:ASCII:a 97 美国标准信息交换码。用一个字节的7位可以表示。

2017-05-28 16:31:14 2652

原创 安然电子邮件数据MySql格式

安然电子邮件数据MySql格式https://www.cs.purdue.edu/homes/jpfeiff/enron.html

2017-05-25 19:56:02 1896 3

原创 Apriori算法,MATLAB代码实现

Apriori算法简介:想必大家都知道apriori算法的原理吧,最著名的关联规则发现方法R.Agrawal提出的Apriori算法。1 Apriori 算法的基本思想2 Apriori算法的基本思想是通过对数据库的多次扫描来计算项集的支持度,发现的频繁项集从而生成关联规则。Apriori算法对数据集进行多次扫描。第一次扫描得到频繁1-项集的集合,第k(k>1)次扫描的结果来产生候选k-项集的集

2017-05-24 18:43:49 25001 24

原创 Notepad++怎样显示所有的字符

Notepad++怎样显示所有的字符 打开notepad++ 视图->显示符号->显示所有字符 显示换行符号CRLF(Windows下)

2017-05-23 16:27:46 5810

原创 快速入门Python

1.Python 的基本操作符1.1.除了给变量分配一个初始值,我们也可以使用变量进行一般的数学运算操作。在Python中,基础操作符+、—、* 、/、//、%和**分别表示加法,减法,乘法,除法,整除,取余和指数运算。1.2.在Python(以及大部分的编程语言)中除了=号,还有一些其他的分配符操作,其中包括像+=、-=、和*=这样的操作符。2.Python中的数据类型整型,浮点型,字符串首先我

2017-03-14 18:06:39 690 2

原创 总结:修改Anaconda中的Jupyter Notebook默认工作路径的三种方式

总结:修改Anaconda中的Jupyter Notebook默认工作路径一共有三种方式:方式1.打开Windows的cmd,在cmd中输入jupyter notebook --generate-config如下图: 可以看到路径为D:\Users……找到此路径修改jupyter_notebook_config.py文件 打开此文件找到## The directory to use

2017-03-14 17:44:34 144548 59

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除