MG羽白-CSDN博客

原创 Spark GraphX 学习笔记——垃圾信息检测：LogisticRegressionWithSGD

垃圾信息检测：LogisticRegressionWithSGD (Stochastic Gradient Descent) 1）构建训练集的图import org.apache.spark.graphx._import org.apache.spark.mllib.classification.LogisticRegressionWithSGDval trainV = sc.ma...

2019-04-23 19:22:30 1766

原创 Spark GraphX 学习笔记——LDA实战：路透社电报新闻分类

1. 隐含狄利克雷分布（Latent Dirichlet allocation，LDA） 1）LDA 属于无监督学习，所有的主题并不需要事先指定，是在聚类过程中逐渐形成的。 2）MLlib 的 LDA 使用了 GraphX 来提高计算效率，尽管它的输入和输出都不是图。 3）LDA 是基于隐含变量的，在这里隐含变量指的是算法自动推断出来的“主题”。这些主题由一些与之关联的单词描述，但并...

2019-04-23 19:20:40 1589

原创 Spark GraphX 学习笔记——影片推荐：SVDPlusPlus （监督学习）

影片推荐： SVDPlusPlus （监督学习）推荐系统就是监督学习的一个例子，因为它提供了一些影片评分的数据，并要求预测未知的用户对影片的评分。一般有两种主流的方法来解决这个问题。 1）第一种主流方法比较直接和简单：对于需要处理的用户， Pat，找到和他有相同爱好的其他用户，然后给 Pat 推荐这些用户喜欢的影片。这就是 Netflix 公司早期的推荐策略，有时被称为邻居...

2019-04-23 19:18:47 2635

原创 Spark GraphX 学习笔记——旅行推销员问题：贪心算法

旅行推销员问题：在一个无向图中找到一个经过每一个顶点的最短路径1. 贪心算法对于旅行推销员问题而言，贪心算法是最简单的，即在每次迭代时选择最接近的最短边，但不做进一步搜索2. 贪心算法优化贪心算法可在不用增加太多代码的情况下，用不同的起始顶点重新运行整个算法，不断迭代，挑选出一个到达所有顶点并且最短的解决方案，用这种方法可以改善贪心算法。3. 贪心算法scala代码实现：...

2019-04-22 15:32:03 2092 1

原创 Spark GraphX 学习笔记——Dijstra最短路径算法

1. Scala中的Dijstra最短路径算法import org.apache.spark.graphx._def dijkstra[VD](g:Graph[VD,Double], origin:VertexId): Graph[(VD,Double), Double] = { /** * 1. 初始化 * 遍历图的所有节点 * 变为(false, Double.Max...

2019-04-22 14:54:14 2450

原创 Spark GraphX 学习笔记——预测社交圈

数据来源：Kaggle数据网址：https://www.kaggle.com/c/learning-social-circles/data实验目的：读取每个egonet文件内容，根据这些朋友及朋友间的连接创建一个图，找出图中的连通组件，输出社交圈结果参考书籍：spark GraphX实战编程语言：Scala// 1. 读取数据，生成pairRDDval egonets = ...

2019-04-17 10:41:44 2672 2

原创 Spark RDD解密（一）

1. RDD常用转换算子 1) map(f:T => U) 2) filter(f:T => Bool) // 过滤操作 3) flatMap(f:T => Seq[U]) // 将RDD中的每个集合合并成新的更大的集合 4) glom() // 将每个分区中的元素组成一个数组 5) distinct() // 将每...

2019-03-28 10:12:13 1889

原创 Kafka单节点部署

一. 单节点单broker的部署和使用1. 启动Zookeeper ./zkServer.sh start 或 zookeeper-server-start.sh config/zookeeper.properties2. 启动Kafka kafka-server-start.sh config/server.properties3. 创建topic ...

2018-12-11 11:11:22 2643

原创在scala中连接mysql时出现错误：Establishing SSL connection without server's identity verification is not recomm

在Scala中连接mysql时，输入命令：scala> rebuyDF.write.mode("append").jdbc("jdbc:mysql://localhost:3306/dbtaobao", "dbtaobao.rebuy", prop)出现错误如下：Wed Nov 28 20:41:12 CST 2018 WARN: Establishing SSL connect...

2018-11-28 20:50:23 1427

原创启动Hive时，出现Hive metastore database is not initialized

解决Hive启动，Hive metastore database is not initialized的错误。出错原因：以前曾经安装了Hive或MySQL，重新安装Hive和MySQL以后，导致版本、配置不一致。解决方法是，使用schematool工具。Hive现在包含一个用于 Hive Metastore 架构操控的脱机工具，名为 schematool.此工具可用于初始化当前 Hive 版本...

2018-11-27 14:07:40 2364

原创 ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: NO)

配置Mysql时出现如下问题，通过修改root密码得以解决：ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: NO) 1. 打开配置文件vim /etc/my.cnf，在配置文件[mysqld]后任意一行插入skip-grant-tables，来停止密码验证：# For a...

2018-11-26 15:21:44 1340

原创 CentOS7.3安装mysql

1. 下载mysql安装包$ wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm--2018-11-26 13:21:40-- https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpmResolving dev....

2018-11-26 15:15:24 1549 1

原创启动Zookeeper出现错误bin/zkServer.sh: line 140: ./zookeeper.out: Permission denied

在阿里云上搭建Zookeeper时，利用bin/zkServer.sh start启动Zookeeper出现如下错误：$ bin/zkServer.sh startZooKeeper JMX enabled by defaultUsing config: /home/lmg/Softwares/zookeeper/bin/../conf/zoo.cfgStarting zookeepe...

2018-11-26 11:30:33 6119 1

原创 linux用tar解压文件Cannot open: No such file or directory

在阿里云上搭建大数据平台，解压 zookeeper-3.4.10.tar.gz时报错如下：tar: zookeeper-3.4.10: Cannot mkdir: Permission deniedtar: zookeeper-3.4.10/ivysettings.xml: Cannot open: No such file or directorytar: Exiting with f...

2018-11-26 11:15:41 36549 3

原创 The authenticity of host 'izwz9c8l39itikxj328wwuz (IP地址)' can't be established.

在使用SecureCRT远程连接阿里云ECS时，启动hadoop：输入命令：./sbin/start-dfs.sh报错如下：The authenticity of host 'izwz9c8l39itikxj328wwuz (IP地址)' can't be established.分析原因：发现是由于使用了root用户，将用户改为普通用户xxx即可正常启动。...

2018-11-26 10:22:49 1307 1

原创 Exception in thread “main” java.lang.NoSuchMethodError: scala.Predef..conforms()Lscala/Predef$$less$

运行Scala程序，出现如下问题：Exception in thread “main” java.lang.NoSuchMethodError: scala.Predef..conforms()Lscala/Predef$$less$colon$less;at org.apache.spark.util.Utils$.getSystemProperties(Utils.scala:154...

2018-10-15 14:45:25 17543 3

原创《Spark核心源码分析与开发实战》读书笔记之一

第1章 Spark系统概述1.1 Spark是什么1. Spark比Hadoop快在哪里（1）Spark使用内存计算，而Hadoop使用IO（2）Hadoop的计算是按部就班一步一步进行的，而Spark则是提前生成了DAG，优化了运算路径 1.2 Spark生态系统BDAS1. BDAS：伯克利数据分析栈2. Spark CoreSpark将数据在分布式环境下分...

2018-10-13 14:45:04 6290

原创 Spark项目学习-慕课网日志分析-days5-Spark on Yarn

1. 概述（1）在Spark中，支持4种运行模式： 1）local:开发时使用 2）standalone：是Spark自带的，如果一个集群是Standalone的话，那就需要在多台机器上同时部署Spark环境（不推荐） 3）YARN：建议使用，统一使用YARN进行整个集群作业（MR,Spark）的资源调度 4）Mesos：国内用的少不管使用...

2018-10-06 20:18:22 5375

原创 Spark项目学习-慕课网日志分析-days4-慕课网日志分析

一慕课网日志分析实战项目 1）用户行为日志概述 2）离线数据处理架构（数据如何采集，如何清洗，需求处理，写入数据库，可视化） 3）项目需求 4）功能实现 5）Spark on YARN （90%公司将Spark跑在YARN上） 6）性能调优 1. 用户行为日志概述 1）用户行为日志：用户每次访问网站时所有的行为数据（访...

2018-10-06 20:15:43 5878 4

原创 Spark项目学习-慕课网日志分析-days3-External Data Source 外部数据源

1. External Data Source 外部数据源 1）每一个spark程序以加载数据开始，以输出数据结束 2）方便快速的从不同的数据源（json、parquet/rdbms），经过混合处理，在将处理结果以特定的格式，写回到指定的系统（HDFS S3)中处理过程： 1）要从关系型数据库导入大数据系统，然后处理完再导回原有数据库目标： 1）对于...

2018-10-06 20:13:59 5168

原创 Spark项目学习-慕课网日志分析-days3-DataFrame&Dataset

1.DataFrame 1）不是Spark SQL提出的，而是早期在R，Pandas中产生的 2）DataFrame是一个以列（列名、列的类型、列值）的形式构成的分布式的数据集，按照列赋予不同的名称 3）是关系型数据库中的一张表或者是R/Python中的一个dataframe概念，但是具有更多优化 2.DataFrame对比RDD（DataFrame能够具有更...

2018-10-06 20:10:54 5237

原创 Spark项目学习-慕课网日志分析-days2-Spark SQL

1.Spark SQL 概述（1）为什么需要SQL1）事实上的标准2）简单易学Hive：类似于sql的Hive QL语言 sql==>mapreduce 特点：基于mapreduce 改进：基于tez sparkSpark：分布式的基于内存的计算框架hive on spark ==> shark（hive on spark）优点：基于...

2018-10-06 20:08:46 5500

原创 Spark项目学习-慕课网日志分析-days1-hadoop

1. HDFS架构1 Master（NameNode/NM）带 N个Slaves（DataNode/DN)HDFS/YARN/HBase 1个文件会被拆分成多个Block NN：1）负责客户端请求的响应2）负责元数据（文件的名称、副本系数、Block存放的DV）的管理 DN：1）存储用户的文件对应的数据块（Block）2）要定期向NN发送心跳信息，...

2018-10-06 20:05:37 5081

转载 DAO层，Service层，Controller层、View层详解

1、Dao层Dao层主要是做数据持久层的工作，负责与数据库进行联络的一些任务都封装在此，Dao层的设计首先是设计Dao的接口，然后在Spring的配置文件中定义此接口的实现类，然后就可在模块中调用此接口来进行数据业务的处理，而不用关心此接口的具体实现类是哪个类，显得结构非常清晰，Dao层的数据源配置，以及有关数据库连接的参数都在Spring的配置文件中进行配置。2、Service层Se...

2018-10-06 20:01:29 655

原创 IDEA的常用操作（快捷键）

IDEA的常用操作（快捷键）Alt+回车导入包,自动修正 Ctrl+N 查找类 Ctrl+Shift+N 查找文件 Ctrl+Alt+L 格式化代码 Ctrl+Alt+O 优化导入的类和包 Alt+Insert 生成代码(如get,set方法,构造函数等) Ctrl+E或者Alt+Shift+C 最近更改的代码 Ctrl+R 替换文本 Ctrl+F 查找文本 Ctrl+Sh...

2018-10-06 20:00:21 5037

原创使用git bash 操作spark shell 无法删除

在使用git bash 操作spark shell BackSpace和Delete键均无法删除通过在git bash中设置，勾选Delete sends DEL可以使用delete键进行删除

2018-09-28 19:14:32 3687

转载【图解】梯度下降

转载：https://blog.csdn.net/guomutian911/article/details/78448171 如果读者对方向导数和梯度的定义不太了解，请先阅读上篇文章《方向导数与梯度》。前些时间接触了机器学习，发现梯度下降法是机器学习里比较基础又比较重要的一个求最小值的算法。梯度下降算法过程如下：1）随机初始值；2）迭代，直至收敛。表示在处的负梯度方向，表...

2018-08-26 15:01:41 1343

转载 mysql查询今天、昨天、7天、近30天、本月、上一月数据

今天select * from 表名 where to_days(时间字段名) = to_days(now());昨天SELECT * FROM 表名 WHERE TO_DAYS( NOW( ) ) - TO_DAYS( 时间字段名) <= 17天SELECT * FROM 表名 where DATE_SUB(CURDATE(), INTERVAL 7 DAY) <...

2018-08-24 16:31:56 281

转载索引的实现原理

这篇文章是介绍MySQL数据库中的索引是如何根据需求一步步演变最终成为B+树结构的以及针对B+树索引的查询，插入，删除，更新等操作的处理方法。Oracle和DB2数据库索引的实现基本上也是大同小异的。文章写得很通俗易懂，就转在这了。关于B+树和索引内部结构可以参考：《B 树、B- 树、B+ 树和B* 树》和《深入理解DB2索引（Index）》。 00 – 背景知识- B-Tree &a...

2018-08-23 10:13:12 743

转载【经典面试题】数据库MySql

原文链接：https://blog.csdn.net/Love_Taylor/article/details/698486741、MySql的存储引擎的不同答：MySQL中的数据用各种不同的技术存储在文件（或者内存）中，这些技术中的每一种技术都使用不同的存储机制、索引技巧、锁定水平并最终提供不同的功能和能力，这些不同的技术以及配套的相关功能在MySQL中称为存储引擎（也称为表类型）。My...

2018-08-17 13:14:49 146

转载【MySQL】20个经典面试题，全部答对月薪10k+

原文链接：https://blog.csdn.net/u013252072/article/details/529123851、MySQL的复制原理以及流程基本原理流程，3个线程以及之间的关联； 2、MySQL中myisam与innodb的区别，至少5点(1)、问5点不同；(2)、innodb引擎的4大特性(3)、2者selectcount(*)哪个更快，为什么 ...

2018-08-17 13:08:21 169

转载【转】MYSQL常见面试题及基础知识点

原文链接：https://blog.csdn.net/software_55white/article/details/729341551.数据库中事务的四大特性（ACID）事务概念：事务由单独单元的一个或多个SQL语句组成，在这个单元中，每个SQL语句是相互依赖的。而整个单独单元作为一个不可分割的整体，如果单元中某条SQL语句一旦执行失败或产生错误，整个单元将会回滚。所有受到影响的数...

2018-08-17 13:06:45 138

原创 SQL学习_常用函数参考

1. AVG() 函数 SELECT AVG(column_name) AS xxx FROM table_name // 从access_log中选择site_id和count，当count比count平均值大时 SELECT site_id, count FROM access_log WHERE count > (SELECT AVG(count) FROM ...

2018-08-05 11:16:38 3497

原创 SQL学习_常用语法2

1. DROP 语句：撤销索引、撤销表以及撤销数据库 1）DROP INDEX 语句：删除表中的索引 ALTER TABLE table_name DROP INDEX index_name（Mysql中） 2）DROP TABLE 语句用于删除表 DROP TABLE table_name 3）DROP DATABASE 语句用于删除数据库 DR...

2018-08-05 11:15:44 3525

原创 SQL学习_常用语句参考

1. selct语句的使用SELECT * FROM 表名称SELECT LastName,FirstName FROM Persons2. distinct的使用，返回无重复值SELECT DISTINCT Company FROM Orders 3. where语句，有条件的查询，使用单引号，数值不用引号SELECT * FROM Persons WHERE City='Be...

2018-08-05 11:14:52 3567

原创 Unable to initialize MapOutputCollector org.apache.hadoop.mapred.MapTask$MapOutputBuffer

Unable to initialize MapOutputCollector org.apache.hadoop.mapred.MapTask$MapOutputBuffer在运行MapReducer任务时出现如下问题：2018-07-08 18:47:45,749 WARN [org.apache.hadoop.mapred.MapTask] - Unable to initialize Ma...

2018-07-08 18:56:59 4201

原创 Bugs-Hadoop源码编译-yum install gcc-c++出错

安装g++时发生错误： yum install gcc-c++ 经过排查发现是本地源有问题，更换为163源。具体步骤如下： 1）先yum clean，然后进入yum源配置目录：cd /etc/yum.repos.d 2）备份系统自带的yum源：mv CentOS-Base.repo CentOS-Base.repo.save 3）下载其他yum源：wget http:...

2018-06-27 11:22:07 4191

原创 Hadoop学习-days5-编译源码

1. 配置电脑重点在于：1）删除eth0，并将eth1改成eth0,并复制物理地址 2）替换物理地址和IP地址 3）修改主机名称 4）打开 /etc/hosts 在其中添加 IP地址：主机名 5）在win7系统中C:\Windows\System32\drivers\etc...

2018-06-27 11:20:40 5053

原创 Bugs-完全分布式部署Hadoop-NodeManager启动不成功

出现的问题：在hadoop103上启动yarn时，102上的NodeManager启动不起来原因在于： 102中的Data/tmp/nm-local-dir的权限属于root解决方法：改变整个/tmp的授权即可...

2018-06-27 11:17:34 3852

原创 Hadoop学习-days4-完全分布式部署Hadoop

1. 首先准备虚拟机重点在于：1）删除eth0，并将eth1改成eth0,并复制物理地址 2）替换物理地址和IP地址 3）修改主机名称 4）打开 /etc/hosts 在其中添加 IP地址：主机名 5）在win7系统中C:\Windows\System32\drivers\etc路径中，打开Host文...

2018-06-27 11:16:06 3530

空空如也

Pytorch运行错误：RuntimeError: error executing torch_shm_manager