自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

幸运的Alina的博客

努力，奋斗

原创 Spark-shell 使用注意项记录

！！！直接杀进程的时候强烈建议提醒你自己你知道自己在做什么，为什么要这么做，不然，一个kill 命令下去一堆问题出现。在开发过程中会使用Spark-shell进行调试，这里记录下遇到的坑。在开发中没养成良好的退出习惯，每次ctrl+z就直接强制退出了，却不知在Yarn的application还处于等待消息接受状态中，后面发现多个端口都被占用后，无法启动Spark-shell，看了网上描述的最简单的是端口占用原因，直接杀掉端口对应进程。首先要说明这种方式很愚蠢，很不可取。当然我在实际中确实这么做了趟了

2020-05-26 19:39:40 728 3

原创 HDFS、YARN相关操作

1.查看YARN-CLIENT模式下运行报错输出到日志yarn logs --applicationId 对应applicationID > yarn.log 2. 批量将HDFS上多个文件合成一个文件，该方式将多个文件合成到本地，如果要放到HDFS则需要再进行put操作hadoop fs -cat /user/alina/* >data.csv上述表示将HDFS上...

2020-03-19 09:42:51 339

原创知识图谱入门学习之路（三）----图算法PageRank

进入到图算法很多人最先接触的算法就是PageRank，PageRank是谷歌最开始创造并应用的，当初主要是为了用来评估构成网络中的每一个节点的重要性。在正式结束PageRank算法之前，我们先了解下有网络图（The web graph）。网络图的特征就是：有向图，存在强连通区。在网络图中，网页作为图中的节点，超链接作为图中的边。In(V)={w| w can re...

2020-03-07 21:37:55 5372 2

原创知识图谱入门学习之路（二）----图基础

知识图谱创建后，后续应用中会对图进行运算和处理，这里先盘点下最近学习到的图基础1. degree distribution（度分布）度分布用来描述在图网络中，基于各个度下的节点统计情况公式中的表示度为K的节点数量举例如下：对于上面的图进行分析后可以得到下图的度分布情况：横坐标为度k2. Path Length(路径长度)路径长度用来衡量两点之间的最短距...

2020-02-27 13:22:17 1532

原创知识图谱入门学习之路（一）

知识图谱入门学习之路（一）知识图谱主要的目标是用来描述真实世界中的各种实体和概念，以及实体之间的关系，在知识图谱中实体用节点来进行表示，实体与实体之间的关系用边来表示。知识图谱中涉及到的关键技术包括：知识抽取知识表示知识融合知识推理目前用到的图数据库主要使用的是neo4j...

2019-11-25 07:10:02 1244

原创 Linux挂载data盘

在实际Linux操作中，会把data盘挂载带硬盘上，而不是放在系统盘中，毕竟系统盘存储一般不是很大，首先查看当前通过系统识别到的盘fdisk -l 可以看到各个盘下的大小和分区信息，通过上面可以看到 /dev/sdb下有9T大小的内存，所以选择把data目录挂载到该磁盘上通过lsblk查看首先在根目录下创建data文件夹mkdir /data然和格...

2019-11-08 14:04:14 9365 3

原创机器学习算法原理详解（一）-----逻辑回归

开一个系列来记录自己在学习机器学习算法原理中的心得与感悟，首先从逻辑回归开始写起吧。逻辑回归在维基百科的定义是Logistic回归是一种统计模型，其基本形式是使用Logistic函数来对二元因变量建模，尽管存在许多更复杂的扩展。在回归分析中，逻辑回归(或logit回归)是对逻辑模型(一种二元回归形式)的参数进行估计。在数学上，二元逻辑模型有一个因变量，它有两个可能的值，比如通过/...

2019-09-30 17:45:40 1016 1

原创 HIVE实现count分组统计后提取分组列中的TOP1

背景，有一个需求就是有一张用户办理产品渠道表，表中的数据字段如下用户ID 产品ID 渠道 ID然后需要统计不同的产品ID下面哪一个渠道ID对应的用户数最多，把最大的那个渠道ID找出来和产品ID一一对应上。在这个需求上使用了HIVE的开窗函数来实现，具体实现SQL语句如下select pro_id,qudao_code from (select pro_id,qud...

2019-08-06 09:16:56 5225 2

原创 HIVE与HDFS进行数据导入导出操作

1. 将HDFS文件导入到HIVE中1.1 创建内部表create table result(user_id int ,product_id int ,rating float) commend "save user information" row format delimited fields terminated by ',' ; load data inpath "/ha...

2019-07-24 16:53:51 5458

原创 PySpark集群运行任务报错No Space Left on the device

在实际运用中运用Spark集群跑任务的时候出现No Space Left on the device的错误，解决方法如下：1. 修改配置文件spark-env.sh,把临时文件引入到一个自定义的目录中去即可export SPARK_LOCAL_DIRS=/data/tmp2. 通过df -h 和du -sh * 查看当前的磁盘的使用情况，清理磁盘...

2019-07-24 16:37:14 1553

原创 python UnicodeEncodeError: 'ascii' codec can't encode characters in position 209-210

在平时开发的时候没有注意，最近出现了UnicodeEncodeError: 'ascii' codec can't encode characters in position 209-210: ordinal not in range(128)解决方法就是本身如果是用了print(str(sql))或者print(sql)改为print(sql.encode('utf-8')...

2019-07-24 11:43:19 1102

原创 Pyspark中的DataFrame操作汇总

1. 读取csv文件为DataFrame通过Pyspark直接读取csv文件可以直接以DataFrame类型进行读取，通过利用schema模式来进行指定模式。假设我有一个.csv文件，里面有四列数据，长这样，该.csv文件没有header。分别为用户id，电影id，电影评分，时间戳通过导入Spark SQL中引入数据类型，import pyspark.sql.type...

2019-07-07 16:57:16 17858

原创 Python运行Spark集群环境踩坑记录

这一段时间一直在弄spark集群，然后开发使用的是python开发，其中环境的坑多到几度想令我放弃，这也就是公司没有配置专业搭环境的工程师的弊端，遇到事情了只能自己解决，于是自己记录下不同的坑，方便自己以后排雷，也放出来给有需要的人。1. 在python中配置环境变量注意点首先就是python环境在集群中必须一致，如果是采用os.environ的方法的话,不然你就会遇到如下的报错解决...

2019-07-07 12:39:58 5012

原创解决在Hive建表时root用户对HDFS无权限问题

在使用pyspark 将DataFrame的数据插入到HIve中时，遇到了root账号无法insert数据到hive中，报错信息如下：org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=root, access=WRIT...

2019-07-02 11:37:22 4790

原创 linux下将Python环境默认更改为Python3.6

由于在实际使用的时候由于默认的一些程序都是使用的python如果直接调用启动的是Linux自带的2.7的环境就会出现很多问题，所以这里记录下环境更改为3.6的做法mv /usr/bin/python /usr/bin/python.bak #删除原来指向python2的软链接ln -s /usr/local/python3.6/bin/python3.6 /usr/bin/pytho...

2019-06-26 15:23:38 11109

原创 pyspark中读取文件后的RDD操作

本文记录下在python环境中对RDD的一些操作方法1. 创建RDD关于读取文件创建RDD的方法在前面文章已经介绍过来，这里就不做介绍了。还有一种自定义的data_rdd = sc.parallelize([('Alina',26),('Tom',22),('Sky',12),('Blue',21)])2. lambda 表达式在RDD重最常用到的就是lambda和...

2019-06-23 16:47:15 3360

原创 Spark读取文件如何区分HDFS文件和本地文件

在Hadoop集群上配置的Spark如果直接读取文件默认的是读取HDFS上的文件，那么如果想要读取本地的文件就不能直接写还需要说明如下：from pyspark.sql import SparkSessiondef CreateSparkContext(): # 构建SparkSession实例对象 spark = SparkSession.builder \ ...

2019-06-23 16:06:38 1875 1

原创如何将编写的py文件提交到spark并在集群下执行job

没学过java的时候用Spark可能一开始就会直接用Python对接，因为如果是创建scala语言的话，会存在很多问题，包括生成scala类或者object,以及最终在idea里面编译成jar包，因为需求紧急，所以就直接用Python来写了，那么将写完的 python文件如果只是在某个集群中的一台机器上运行，那么会发现实际整个运转都是在本地执行的，并没有做到集群运算，所以这里需要使用的就是进入到s...

2019-06-20 09:35:56 2732 1

原创在Python的环境下对Spark文件操作

在实际使用Spark做集群运算的时候我们会遇到很多实际的问题，特记录下来，本文主要讲解关于Spark读文件为RDD ，然后RDD转DataFrame，然后将RDD存为文件，以及如何保存DataFrame到文件from pyspark.sql import SparkSessiondef CreateSparkContext(): # 构建SparkSession实例对象 ...

2019-06-20 09:19:33 1466

原创 numpy中一些用法汇总

本篇文章用来总结在使用numpy库使用到的函数，方便自己回过头来查阅，在开始默认导入如下设置import numpy as np1. 奇异值分解会用到numpy.linalg.svd(a,full_matrices=True,compute_uv=True) a : 维度大于等于2的矩阵full_matrices：默认为True ,用来表示u, vh是否维度分别为（...

2019-05-26 17:32:02 1652

原创深度学习（二）---深度神经网络训练三部曲

就像修炼武功一样，都有武林秘籍，按照步骤一步一步修炼，练好基础，然后再举一反三,最终就可修炼绝世武功。在深度学习领域进行学习的过程中也是一样，先把基础功训练扎实，深入理解原理及步骤，后面不管是各种算法的变种都可以通过基础算法举一反三。今天就来讲解下深度神经网络训练的三部曲，也就是神经网络是怎么训练的。这里的训练三部曲就分为正向传播、反向传播、梯度下降。那么我们分开来讲解每一步做了啥以及这样...

2019-05-25 15:15:25 1924

原创深度学习（一）---深度神经网络解析

一直没找到时间来总结下自己学习的内容，这段时间坚持下，把所学所想记录下来，让自己的学习体系更完善，而不是停留在自认为会了的阶段还需要能够表达出来。首先梳理下人工智能、机器学习、深度学习之间的关系，用一张图来表示如下：可以看到人工智能是个最大最泛的概念，机器学习则就是指的一个程序在任务...

2019-05-25 11:02:37 1269

原创利用movielens数据集实现基于物品的协同过滤推荐

文中的数据集来源于 movielens的ml-100k ，数据集包括，u.data、u.item、u.user 。这里简要介绍下实现的思路，因为是基于物品的协同过滤，所以这里就是找两两物品之间的联系，然后根据物品来给用户进行相应的推荐，这里首先是要生成用户对物品的评分矩阵，然后就是生成物品同现矩阵，推荐结果 =物品同现矩阵* 用户物品评分矩阵。首先是导入数据，将所给的数据导入进来，因为主...

2019-05-21 17:03:19 7913 9

原创往HBase中导入csv文件的方法

在实际的操作中涉及到将批量的数据插入到HBase中，这样的话如果直接一条一条的通过put来进行插入，就显得尤其吃力了，在这里记录下自己所用到的方法，因为网上的资源很多都是千篇一律，然后需要配合自己的来弄，记录下对自己比较有用，以及在使用的过程中需要注意的地方。创建了一个测试的csv文件，命名为test.csv，数据长这样子首先将本地的csv文件上传到HDFS上去，这里...

2019-05-18 12:00:30 5386 2

原创 HBase从节点的HRegionServer服务未启动的解决方法

在主节点启动HBase后，进入到HBase shell 查看status的时候，发现server数量为0，进入到从节点的机器上执行jps查看也没有HRegionServer 服务，然后排查了下原因是另外2台机器和主机器时间不同步，貌似指的是集群间时间差达到30S就会出这种问题，然后我分别看了下三台机器，时间差都在几分钟的范围，于是手动改了系统时间然后将集群的时间改为一致后，再启动HBase...

2019-05-15 16:04:52 7183

原创运行HBase报SLF4J: Class path contains multiple SLF4J bindings解决方法

在实际启用HBase的时候，因为Hadoop中的jar包和HBase中的包版本不一致，就会出现对应的warnning信息，如图所示：那么解决方法也很简单，就是选择其中一个路径下面的jar包删掉，只删其中一个，想保守点操作的话，就把其中一个包重命名。我这里选择了将HBase目录下的jar包进行重命名。然后再运行就不会出现类似的警告信息啦。...

2019-05-15 15:55:09 6129 6

原创 Linux中SSH互信配置

在做Linux的SSH互信配置的时候需要注意一些事情，比如在互信的用户名是否在每台机器都存在，然后互信步骤按照如下进行可以避免出现一些在某些机器上登陆不需要密码，反过来登需要密码的问题。首先在每一台需要建立互信的机器上生成密钥，命令就是ssh-keygen -t rsa -P ''然后确保每一台机器上的密钥都生成后，会使用其中的公钥，再生成的时候会提示你，按着提示往下进行就好，...

2019-05-11 10:47:29 408

原创 Centos7给 root 账户开通ssh权限

问题描述，在做各台机器之间免密登录的时候，有一台服务器别人都无法ssh 过去，但是它能ssh别的服务器，后面发现是root账户没有开通ssh权限，于是记录下，如何给root账户开通ssh权限首先验证了是不是防火墙的问题，然后确认不是防火墙的问题后就去查看了对应的root是否具有对应的权限。vim /etc/ssh/sshd_config编辑这个文件下的将对应的login no...

2019-05-10 15:10:36 9702 3

原创 Centos7下搭建Hadoop-2.8.4分布式集群

由于机器原因，只拿到了三台机器，所以就先搭3台机器，一条机器做Namenode，另外2台做DataNode。Hadoop中的管理节点和数据节点最好分开部署数据节点在实际运行任务时负载是比较重的，很容易影响管理示例的稳定性下面是搭建步骤：1 修改/etc/hosts文件这里说明下有的是把自己的hostname做了修改，改成啥master ,salver 1，salver2这样...

2019-05-10 12:12:11 467

原创 Hadoop集群能打开50070端口网页不能打开8088端口网页

最近开始搭建Hadoop集群，一开始很顺利，后面慢慢的一步步爬坑，记录下遇到的问题和解决方法。在Hadoop 集群启动后，发现直接访问50070端口的网页没有问题，如图(博主这里还做了端口映射，所以看到的端口和实际端口不同)：但是直接访问8088端口就直接找不到：经过一步步的排查，记录下排查解决的方法：中间排查步骤如下：1. 查看hadoop 启动的进程因为8088...

2019-05-10 11:30:28 9548 9

原创利用itertuples对DataFrame进行遍历

最近在做推荐系统实践的时候需要生成物品同现矩阵和用户物品矩阵，发现了对DataFrame对象进行遍历很方便的函数itertuples与此相关的有如下:iterrows() : 将DataFrame迭代成（index ,series）iteritems()：将DataFrame迭代成（列名，series）itertuples()：将DataFrame迭代成元组示例如下：...

2019-05-09 14:53:51 24245

原创 git 回滚到指定版本

在日常处理中，由于不小心把服务器上的代码覆盖了，需要回滚，于是特意记录下，主要是提醒自己时刻要警惕，好在最后还是完美的解决了，但是受到的惊吓不小。可以看到最新的是自己提交的一次，然后选择需要回滚到版本git reset --hard 8d722bb6e976f255f9c4c1bf9233c386d69ca5ed然后就完成了，然后在这个小插曲中发现了在Pycharm中误删除...

2019-04-15 15:41:32 33698 1

原创盘点Python中的*args和**kwargs

在深入学习和探索了不定参数后，写篇文章记录下，方便后续复习。在定义函数的时候当有多个参数或者不确定传进来的参数有多少的时候，这里我们会选择不定参数来处理，这里先区分下*args和**kwargs之间的区别，*args是指的值不带key，然后值的数量未知；**kwargs则是数量未知，但是一一对应关系是已知的，以字典在传输。*args 适用在参数数量未知的情况下，一般是类似数组传入...

2019-03-29 14:58:42 141 1

原创 Pandas数据拼接操作merge、join、concat

在做数据处理过程中会遇到多个数据集之间进行拼接的操作，这里由于平时都是用的Pandas读取的数据集，所以一般是针对的是DataFrame类型的数据进行拼接操作。1. merge用于通过一个或多个键将两个数据集的行连接起来，类似于 SQL 中的 JOIN。该函数的典型应用场景是，针对同一个主键存在两张包含不同字段的表，现在我们想把他们整合到一张表里。在此典型情况下，结果集的行数并没有增加，列...

2019-03-25 15:53:02 1279

原创 Python中NameError: name 'reload' is not defined

解决：NameError: name 'reload' is not defined 问题对于 Python 2.X：import sys reload(sys)sys.setdefaultencoding(“utf-8”)对于 <= Python 3.3：import imp imp.reload(sys)注意：1. Python 3 与 Pytho...

2019-03-25 11:21:14 1320

原创爬虫爬取网页上的表格

最近有个爬虫的需求，然后在做爬虫的过程中涉及到要去爬取网页中的表格内容，鉴于直接采用常规方法有点傻，于是记录了如何直接提取表格内的方法在此，以便后续再回顾。from bs4 import BeautifulSoupimport urllibimport reimport config #自己定义的配置文件def spider_data(url): head = {} ...

2019-03-12 10:13:40 11681 3

原创正则表达式汇总

最近不管是在做爬虫，还是涉及到NLP中，都涉及到了正则表达式，有必要专门记录下在实际使用的过程中使用过的一些技巧和方法。一开始总感觉正则表达式咋一看很难琢磨，都是奇奇怪怪的符号，而且看到了就会有畏难情绪，后面慢慢悟着倒也习惯了。先聊聊正则表达式中关于匹配次数中的贪婪与非贪婪问题1. 贪婪与非贪婪因为在做正则表达式的时候，默认的是做的贪婪匹配，也就是尽可能多的匹配出满足要求的字...

2019-03-10 17:30:51 191

原创推荐系统学习

目前的推荐系统分为三类：1. 非个性化推荐系统特点：基于统计分析技术，推荐销售排行，这样所有的用户看到的推荐信息都是一样的，或者编辑推荐，以及基于平均数值评分。2. 半个性化推荐系统特点：根据用户当前的浏览行为或用户当前的购物车信息产生推荐结果 3. 完全个性化推荐系统特点：根据用户历史信息，结合用户当前行为，为用户完全产生个性化的推荐服务做推荐系统的时候，输...

2019-02-26 14:09:22 770

原创 Pandas读取tsv报ParserError: Error tokenizing data. C error

在加载tsv格式的文件的时候，报错ParserError: Error tokenizing data. C error: Expected 2 fields in line 43043, saw 3train=pd.read_csv("../input/TrainData.tsv",sep="\t",delimiter="\t")后面检查了下加了如下的参数就解决了tra...

2019-02-25 15:21:30 5426

原创 python可视化汇总

这里用到的可视化工具采用matplotlib.pyplot包的功能1.箱线图 boxplot箱线图作用：可以判别异常值，查看数据的分布情况from matplotlib import pyplot as pltplt.boxplot(x=train['key'].values,labels='x',whis=1.5)参数解释：x: 接受的是array或者是一系...

2019-02-06 19:15:41 272 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除