自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 收藏
  • 关注

原创 【Spark+NLP】24、整理一些自己会用到的指令+操作

1、tfos框架操作:git克隆:git clone https://github.com/wjlx/tfos.git搭建环境:根据requirement.txt 搭建安装框架: cd /home/lin/tfos (必须先移动进来,不然报错) python3 setup.py install卸载: sudo p...

2019-11-20 10:47:50 281

原创 【Spark+NLP】23、中低配电脑关于spark的一些血泪踩坑

最近20天没有什么大的进展,一直各种踩坑,这里把当初的笔记记录下,以备后期查用。1、https://blog.csdn.net/HJXINKKL/article/details/81951551 https://blog.csdn.net/u013402321/article/details/831853452、停止运行着的Spark:stop-master.sh...

2019-11-06 16:36:59 341

原创 【Spark+NLP】22、下载、安装、部署github上的程序

1、在linux上安装git本人是ubuntu系统,运行$ sudo apt-get install git即可centos可运行$ sudo yum install git2、克隆项目命令行代码:git clone https://你复制的项目地址。其中的项目地址点击下图图标可获得。(推荐)(当然也可以点击右下角下载压缩包,然后自行解压)以https://githu...

2019-11-06 16:24:01 341

原创 【Spark+NLP】21、在pyspark上使用tensorflow框架和tensorflowonspark框架

安装方法见上上篇。踩坑:明明安装成功了tensorflow和tensorflowonspark,却在pyspark上用不起来。报错:>>> import tensorflow as tfTraceback (most recent call last): File "<stdin>", line 1, in <module>Import...

2019-10-16 17:21:40 2126

原创 【Spark+NLP】20、使用pyspark运行程序

一、仅使用pyspark运行超小程序>>> logFile="/hadoop-2.8.5/README.txt">>> logData=sc.textFile(logFile).cache()>>> numAs=logData.filter(lambda s:'a' in s).count()>>> numBs=lo...

2019-10-16 16:16:43 390

原创 【Spark+NLP】19、在ubuntu上配置tensorflow的环境(python + tf + tfonSpark + pyspark)

1、安装python:ubuntu系统自带python,不是最新版但能凑合用。查看版本:ls -l /usr/bin | grep python2、安装pip:sudo apt-get install python-pip python-dev踩坑:(python3.x版本对应的pip3,所以后面又将命令行改成:sudo apt-get install pyth...

2019-09-26 16:57:23 332 1

原创 【Spark+NLP】18、pyspark的安装和使用

写在前面: nlp卡在cnn有一个星期了,遇到种种困难无法决定使用哪门语言来写:1、scala:优点:在spark环境下,scala是主流、速度最快、代码最简洁的语言,word2vec就是用的它。缺点:用scala写神经网络没有现成的方法!(word2vec在spark-mllib库中有现成的直接用) 让新手纯手写感觉天方夜谭! 网上资料...

2019-09-25 16:27:16 591

原创 【Spark+NLP】17、spark-ml + spark-sql_关于rdd和dataframe的踩坑血泪史

说明:因为后期要做基于spark的项目,本人懒得纯手打了,决定在别的项目基础上修改过来即可。项目中要用到spark-ml的word2vec生成词向量,于是直接借用之前的手机短信项目的前半截了。代码不贴了,写下心得:利用spark-mllib库现成的word2vec轻轻松松几句代码就实现了。得到的词向量等内容存储在preResultDF中,我想看下生成的词向量什么样。1、sa...

2019-09-18 16:27:17 396

原创 【Spark+NLP】16、win10下使用IDEA完整运行一个spark ml机器学习程序

1、在pom.xml中添加spark mllib依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.12</artifactId> <version>${spark.version}</ve...

2019-09-16 11:11:27 523

原创 【Spark+NLP】14、使用IDEA运行spark小程序 + jar包在spark分布式环境中运行

统计E盘下helloSpark.txt文件中每个单词的出现次数一、测试代码:import org.apache.spark.{SparkContext, SparkConf}object spamm { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("wordcou...

2019-09-11 18:02:02 337

原创 【Spark+NLP】13、使用IDEA创建spark项目 + pom.xml的配置

说在前面:之前spark的分布式环境终终终终于搭建好了,下一步就是开始spark编程了。我用到的是IDEA。临时先在windows环境下操作,过两天移到linux环境中。一、IDEA的安装https://blog.csdn.net/PrincessLin/article/details/91540040二、idea安装scala + maven的安装和配置https:/...

2019-09-11 14:59:36 480

原创 【Spark+NLP】11、免密钥ssh登录 + hadoop分布式环境搭建!

一、ubuntu 18.04 vim的安装VPS从16.04换到18.04,发现vim命令找不到了,只有vi,界面一般,方向键还不对。重新安装vim就能解决问题:sudo apt-get remove vim-commonsudo apt-get install vim二、ssh免密登录1、首先确认 openssh-server是否安装成功确认命令:ps -e|...

2019-09-05 17:32:07 235

原创 【Spark+NLP】10、vmware虚拟机系统克隆后网络配置(2) (ubuntu18)

说明:上篇实现了单个虚拟机的网络配置,能够成功ping到百度等网站,但另外两台虚拟机网络配置时遇到各种问题,参照本篇进行修改+配置后成功了。1、Ubuntu18.04的网络配置有台虚拟机死活连不上网,根据这个又配置了一遍居然成功了!!!!https://www.cnblogs.com/opsprobe/p/9979234.html2、Ubuntu18.04连不网...

2019-09-05 15:31:36 150

原创 【Spark+NLP】9、vmware虚拟机系统克隆 + 网络配置 (ubuntu18)

一、说明:要使用hadoop集群,最好使用三台电脑以上,因设备受限,故使用虚拟机上创建三台ubuntu系统的虚拟主机,这三台主机间设置网络连接,使其能够相互通信。通常命名为master和slaver1、slaver2,这样的三台主机可以搭建成hadoop集群。二、克隆:1、可以使用vmware自己创建三台主机并分别配置和安装软件,但太繁琐,感觉又得好几天,不推荐。2、可以在一台虚拟...

2019-08-16 15:25:10 685

原创 【Spark+NLP】8、ubuntu18安装j和配置hadoop + 安装ssh

1、前提:需要安装jdk,本人使用1.8版本,安装方法可往前翻。 hadoop安装部分本人参考:https://blog.csdn.net/qjk19940101/article/details/705441972、下载软件压缩包:官网:https://www.howtoing.com/how-to-install-hadoop-in-stand-alon...

2019-08-15 12:15:00 178

原创 【Spark+NLP】7、ubuntu18安装jdk

1、官网下载linux环境下的jdk8http://www.oracle.com/technetwork/java/javase/downloads/index.html2、ubuntu18的桌面很像windows,能提供复制粘贴剪贴移动解压等功能。故将下载的jdk8压缩包移动到合适的位置并解压。本人:1、命令行输入sudo nautilus,弹出有root权限的文件夹。(...

2019-08-07 16:28:54 125

原创 【Spark+NLP】6、vmware+ubuntu虚拟linux环境的搭建

经过长时间的慎重考虑,决定弃坑windows,转向linux。1、缘由:1、企业均使用linux,坚持使用windows就将科研与生产脱节,实用性降低。 2、spark集群的启动我只看到了.sh命令,并没有cmd命令,坚持用windows的话需要借助xshell、crontab、oozie之类的各种小软件,感觉费力不讨好。 3、原本环境搭建就复杂,windows环境下hadoop的配置...

2019-08-03 15:57:20 202

原创 【Spark+NLP】5、使用spark-submit跑spark样例sparkpi.scala

[学习笔记,欢迎指正]1、我启动了hadoop,这么小的程序不需要启动。使用单机local模式提交任务 local模式也就是本地模式,也就是在本地机器上单机执行程序。使用这个模式的话,并不需要启动Hadoop集群,也不需要启动Spark集群,只要有一台机器上安装了JDK、Scala、Spark即可运行。cmd命令:cd D:\hadoop-2.8.3\sb...

2019-08-02 13:54:41 517

原创 【Spark+NLP】3、手机短信分类实例详细研究(2)变态详细版

接上篇,本文为主体代码。object SpamMessageClassifier {object:声明一个单例对象 def main(args: Array[String]) {1、这儿,args是一个Array[String]类型的方法参数。也就是说,args是一个String数组。在Scala中,Array是一个具有类型参数指明其元素类型的类(一个真正的类,而不是JAVA中那...

2019-07-26 10:49:35 916

转载 【收集】NLP语料库数据集+持续更新

来源:大数据文摘本文共4270字,建议阅读7分钟。本文为你奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表。奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧!数据集 Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案。(...

2019-07-22 16:42:29 8152

原创 【Spark+NLP】2、手机短信分类实例详细研究(1)变态详细版

《图解Spark》一书中的一段代码,使用spark+word2vec+前馈神经网络,实现手机短信分类。本人使用这个例子研究此类课题的实现过程,本文为代码的详细注释。(自用,入门,过于详细。)本文仅为头部信息,主体代码见后续(2)(3)等。。import org.apache.log4j.{Level, Logger}1、在应用程序中添加日志记录总的来说基于三个目的:监视代码中...

2019-07-22 14:39:14 976 3

原创 【Spark+NLP】1、idea安装scala + maven的安装和配置

一、在IDEA中使用scala若首次登录时未安装scala插件,可在此处重新安装:找到文件---设置---plugins,点击即可安装好后重启IDEA即可。二、maven的安装与配置本人因为需要对部分代码进行打包,查资料了解到需要用到maven,故使用。1、打开官网http://maven.apache.org/download.cgi2、下载此项3、...

2019-07-21 00:15:05 323

原创 【Spark入门】2、Spark编写软件——IDEA的安装与长期使用

说来不怕被笑,我安装和破解了两天。。一、安装1、官网下载https://www.jetbrains.com/idea/download/#section=windows2、双击exe文件,傻瓜式安装便可。本人参照https://www.cnblogs.com/mfcfine/p/9127880.html进行安装的,详细可借鉴。3、双击快捷键便可使用。4、汉化...

2019-06-13 16:09:49 346

原创 【Spark入门】1、Spark在windows下的环境搭建(包含jdk、scala、spark、hadoop的安装和配置)

本电脑之前未安装过相关的任何软件,比如scala、jdk、hadoop、spark之类的都没安装过。本教程正是在尝试安装的过程中记录的,本人健忘+很菜,怕后期把电脑弄崩溃了还得重新搭建,故提前记录好。一、安装JDK1、JDK下载地址:(jdk开源且免费,故可从官网直接下)http://www.oracle.com/technetwork/java/javase/download...

2019-06-10 10:26:19 709 1

原创 【tensorflow入门】15、神经网络中变量的存储和读取---saver+restore

tensorflow中允许将训练的variable存储起来,下次读取并接着训练。存储saver:import tensorflow as tfimport numpy as np #使用numpy代码会省事些#Save to file#remember to define the same dtype and shape when restoreW = tf.Variable(...

2019-06-05 08:11:53 537

原创 【tensorflow入门】14、卷积神经网络CNN

本文代码使用CNN实现MNIST手写数字识别问题,并统计准确率。本次几乎没踩雷,只是起初搭建的全连接层中神经元个数太多,cpu带不起来,出现一片黄色警告。心得:可改代码把数据减少。其实也该研究下gpu的使用了。代码:import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_...

2019-06-04 16:54:05 145

原创 【tensorflow入门】13、dropout解决过拟合overfit

内心os:后期还需补代码。一、使用原因: 当训练集不足够大时,过度学习会导致学习到的模型对本数据集几乎100%契合,但对别的符合条件的数据却无法get到。训练深度神经网络的时候,总是会遇到两大缺点:(1)容易过拟合(2)费时Dropout可以比较有效的缓解过拟合的发生,在一定程度上达到正则化的效果。二、dropout:其实就是让一部分神经元停止工作,避免神经网络获得...

2019-06-04 10:17:59 548

原创 【tensorflow入门】12、分类学习classification--使用MNIST数据集

完整代码在下方。一、介绍:分类入门,使用全连接神经网络,仅有输入层和输出层,准确率暂时仅86%左右。后续文章会推出更高准确率的方法:包括但不限于 全连接方法的优化、使用卷积神经网络等。二、思路:之前的代码都是解决回归问题的,从本文开始研究分类问题。回归是得到一个具体的数,分类是得到多个概率。导入MNIST数据,输入的数据为28*28像素的小图片,输出为0-9这10...

2019-06-03 11:12:32 339

原创 【tensorflow入门】11、tensorboard可视化--绘制直方图histogram+标量信息scalas

本文为tensorboard的进一步使用,tensorboard的安装及最初使用方法见【tensorflow入门】10、可视化--Tensorboard的安装、使用、排雷代码见文章最后。一、踩雷!本人跟着莫烦教程学习,莫烦教程视频中的tensorflow代码现在已不适用,我改了好久!1、几个函数更新:tf.train.SummaryWriter 改为:tf.su...

2019-05-31 18:22:18 1074

原创 【tensorflow入门】10、可视化--Tensorboard的安装、使用、排雷

一、对项目8【tensorflow入门】建造入门级神经网络的代码进行改造核心内容:1、打开cmd命令提示符。 输入python -m pip install matplotlib进行自动的安装,系统会自动下载安装包。2、导入工具包:import matplotlib.pyplot as plt3、输入代码:with tf.name_scope('xxx'): 具体见...

2019-05-31 09:12:12 424

原创 【tensorflow入门】9、结果可视化

1、安装matplotlib [Python中画图的工具包],否则会报错。Python库导入错误:ImportError: No module named matplotlib.pyplot 补救:2、在上一篇代码的基础上添加可视化代码。import tensorflow as tfimport numpy as npimport matplotlib.pypl...

2019-05-30 18:09:57 250

原创 【tensorflow入门】8、建造入门级神经网络

本文为含有一个隐藏层的神经网络,隐藏层中神经元个数为10.数据集:模拟数据集,x为等差数列的300个点,y=x^2-0.5+noise[底部有注释]import tensorflow as tfimport numpy as np#添加神经层的函数def add_layer(inputs,in_size,out_size,activation_function=None):...

2019-05-30 15:20:52 166

原创 【tensorflow入门】7、激励函数

#activation function 激励函数:就是把某一部分的神经元先激活起来,#把激活的神经元相应的信息传递到后面一层的神经系统里面部分方程:常用的激励函数:每种激励函数都针对固定的一类问题的。有对应关系。相关代码:后期可能会回来补内容,暂时理解的很浅。...

2019-05-28 18:08:59 154

原创 【tensorflow入门】6、传入值placeholder+feed_dict

因为后期要使用神经网络进行大量数据的运算,可以用python字典的形式存储起来,再用placeholder批量导入,这样比较方便。因此placeholder在后期非常有用,需要好好掌握。...

2019-05-28 17:03:54 177

原创 【tensorflow入门】5、变量

一、变量的定义二、变量的运算解析:变量state初始值为0,常量one初始值1执行3次for循环,每次都运行update这个op,将new_state赋给state。而new_state这个op为将state+1。因此第一次执行时0+1=1.,第二次1+1=2,第三次2+1=3....

2019-05-28 16:35:54 158

原创 【tensorflow入门】4、Session会话的两种打开模式

方法一:方法二:

2019-05-28 16:11:54 268

原创 【tensorflow入门】3、最简单的神经网络+详细注释 了解神经网络的结构

仅有一个神经元的神经网络:用以预测线性的y=0.3x+0.1 [底部有源码]输出结果:最终结果Weights=0.299999... =0.3 biases=0.10000....=0.1故预测结果:这些点按照线性方程为y=0.3x+0.1的形式分布。注释版:源代码:import tensorflow as tfimport numpy as ...

2019-05-28 15:03:38 202

原创 【tensorflow入门】2、tensorflow环境下安装jupyter

使用命令行编程无论视觉效果还是代码录入的用户体验都不太好,因此后期准备使用jupyter来编写代码。然而,报错了。使用import tensorflow as tf加载tensorflow报错。因为此电脑上原本的jupyter并不在tensorflow环境下面载入的,因此不能加载tensorflow。解决方案:在tensorflow环境下重新安装jupyter。命...

2019-05-27 18:08:59 2954 4

原创 【tensorflow入门】1、简单的tensorflow小程序+警告 this TensorFlow binary was not compiled to use

1、用命令行进入tensorflow的python编程位置C:\Users\aDreamer>activate tensorflow(tensorflow) C:\Users\aDreamer>pythonPython 3.5.2 |Continuum Analytics, Inc.| (default, Jul 5 2016, 11:41:13) [MSC v.1900 ...

2019-05-27 09:24:48 487

原创 【学习笔记】20190524

收获:1、深度神经网络DNN是指含有多个隐藏层的神经网络,广义上包含CNN、RNN、DBN等神经网络。例如:含有2个隐藏层的CNN就是一种DNN。2、DNN训练过程:无监督预训练+有监督微调。3、Spark+Tensorflow配合使用:可直接令DNN在Spark集群上进行深度学习。摘抄:深度学习的实质 及其 与浅层学习的区别深度学习实质:多隐层+海量数据——&g...

2019-05-24 18:13:37 123

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除