超风-CSDN博客

转载 linux iptables防火墙最详细讲解

架构图防火墙1. 什么是防火墙：防止其他用户恶意访问 2. 防火墙种类硬件防火墙：F5 软件防火墙：iptables firewalld 安全组iptables用户 ---> 调用iptables ---> ip_tables内核模式 ---> Netfilter(系统安全构架) ---> 过滤请求什么是包过滤防火墙什么是包：在数据传输过程，并不是一次性传输完成的，而是将数据分成若干个数据包，一点一点的传输。

2022-03-10 17:32:20 597

原创 Ubuntu卸载fcitx后系统桌面无法登录问题解决方法

系统启动后，进入命令行界面：Ctrl+Alt+F1 ----可以使用F1到F5都可以进入命令行界面卸载Fcitxsudo apt-get autoremove fcitxcd /etc/X11/Xsession.d -----进入Xsession.d目录sudo rm -f 72sogoupinyin -----删除搜狗拼音配置sudo rm-rf /etc/X11/xinit/xinput.d/fcitx ----删除xinput.d目录下fcitx文件夹sudorm.

2020-12-21 17:24:38 621

转载 Windows10安装ubuntu18.04双系统教程

写在前面：本教程为windows10安装ubuntu18.04（64位）双系统教程，是我多次安装双系统的经验总结，安装方法同样适用于ubuntu16.04（64位）。为了直观和易于理解，我会尽量图文并茂，并用最通俗的语言完成这篇教程。虽然安装ubuntu18.04和ubuntu16.04的方法一模一样，但为了满足强迫症患者，我特意将教程内容复制之后重新发了一篇，需要的进：Windows10安装ubuntu16.04双系统教程友情提示：如果你参照教程安装出现了问题，极有可能是因为不同电脑之间的差异导致，可

2020-12-13 10:36:10 562

转载表格对齐函数pandas.datafram.align的参数“join“说明

场景：做数据分析的时候，我们经常需要对数据预处理后的训练集和测试集两个表格进行对齐。这时候我们可以用上pandas DataFram.align这个函数。函数作用是返回列/行对齐后的两个表。但其文档https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.align.html没有对参数"join"作进一步说明。以下用例子来说明该参数的作用：先建两个表：(1) 设置join = "inner",..

2020-11-10 21:53:28 1114

转载当遇到ubuntu磁盘使用100%...

发现ubuntu执行命令出错：No space left on device执行：df -h发现：Filesystem Size Used Avail Use% Mounted onudev 2.0G 4.0K 2.0G 1% /devtmpfs 396M 392K 395M 1% /run/dev/vda1 40G 40G 0 100% /none 4..

2020-11-04 18:50:07 886

转载 GParted Linux磁盘扩展工具的使用

1.安装磁盘扩展工具。指令：sudo apt-get install -y gparted2.添加硬盘（1）关闭虚拟机，添加硬盘容量（2）启动虚拟机，打开gparted工具。目标：把未分配的区分配到sda1中。但中间存在着一个交换分区。交换分区的作用：用来做虚拟内存，当内存有限时，硬盘被用来做虚拟内存，把一些暂时不需要的内存信息存储到硬盘，当我们需要的时候在从硬盘里面读出来。（3）关闭交换分区（4）删除交换分区...

2020-10-29 10:32:23 2382

转载 2020-10-09

终端命令以不同模式运行Python Spark在“终端”中以不同模式运行Python Spark程序需要输入很长的命令，例如分别以local、Hadoop YARN、和Spark Standalone模式运行Python Spark（这里以~/pythonwork/PythonProject/wordcount.py为例）每次都要输入命令：local:cd ~/pythonwork/PythonProjectspark-submit --driver-memory 2g --master loca

2020-10-09 16:36:20 85

原创 AttributeError: module ‘tensorflow‘ has no attribute ‘placeholder‘等问题的解决

很多博客解决方法如下：import tensorflow as tfprint(tf.__path__)1 2查看tf版本。我的是因为在tf2下使用了tf1的API。解决方式:使用import tensorflow.compat.v1 as tftf.disable_v2_behavior()1 2import tensorflow as tf但是我安装的keras==1.2.2 tensorflow=2.3.0还是报tensorflow没有compat这..

2020-08-11 17:52:10 1526

转载使用pyspark时报错--FileNotFoundError: [WinError 2] 系统找不到指定的文件。

使用pyspark时报错？所有的都调试好了，cmd运行pyspark也可以，但在python里的ide运行这一段程序总是报错。from pyspark import SparkConf, SparkContextfrom py4j.java_gateway import JavaGateway# 初始化Sparkconf = SparkConf().setMaster("local").setAppName("My App")sc = SparkContext(conf=conf)pri

2020-07-27 06:04:43 2344 5

转载机器学习模型中归一化和标准化的应用场景

归一化：把每个特征向量（特别是奇异样本数据）的值都缩放到相同数值范围。如[0,1]或[-1,1]。最常用的归一化形式就是将特征向量调整为L1范数（就是绝对值相加），使特征向量的数值之和为1。L2范数就是欧几里得之和。这个方法经常用于确保数据点没有因为特征的基本性质而产生较大差异，即确保数据处于同一数量级（同一量纲），提高不同特征数据的可比性。概率模型（树形模型）不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、RF。而像Adaboost、SVM、LR、Knn、.

2020-06-23 21:07:21 2242 1

转载 Redhat6.5安装 MySQL5.7.19

1.下载二进制包，mysql-5.7.19-linux-glibc2.12-x86_64.tar.gz链接是官网wget https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.19-linux-glibc2.12-x86_64.tar.gz2.解压，改名tar zxvf mysql-5.7.19-linux-glibc2.12-...

2019-10-30 13:49:17 352

转载让Python3支持SQLMap（用virtualenvwrapper切换同一台机器上的不同Python版本环境）

文章转载自：https://blog.csdn.net/qq_35304570/article/details/79360182说明：由于Python2.*和Python3.*之间互相不兼容，因此很多第三方工具也存在Python2和Python3之间的选择性兼容，比如SQLMap只兼容Python2。还有Python2的老项目和Python3的新项目之间也需要Python环境的切换。本文暂且记...

2018-07-19 11:30:36 389

转载安装libwxsmithlib-dev时提示“正试图覆盖...”的错误

正在解压缩 libwxsmithlib-dev (从 .../libwxsmithlib-dev_10.05-2_i386.deb) ...dpkg：处理 /var/cache/apt/archives/libwxsmithlib-dev_10.05-2_i386.deb (--unpack)时出错：正试图覆盖 /usr/include/wxsmith/contrib/include/wx...

2018-07-18 16:24:56 291

转载你不能错过的 spark 学习资源

1. 书籍，在线文档Learning SparkAdvanced.Analytics.with.SparkMastering Apache SparkOfficial GuideSpark Guide by Cloudera2. 网站official siteuser mailing listspark channel on youtubespark summitspark technology ...

2018-04-12 20:49:42 828

转载 scala + intellij idea 环境搭建及编译、打包

大数据生态圈中风头正旺的Spark项目完全是采用Scala语言开发的，不懂Scala的话，基本上就没法玩下去了。Scala与Java编译后的class均可以运行于JVM之上，就好象.NET中F#与C#的关系。下面进入正题：1、下载scala sdkhttp://www.scala-lang.org/download/ 直接到这里下载sdk，目前最新的稳定版为2.11.7，下载后解压就行（后面在in...

2018-03-10 16:23:00 206

转载关于使用hbase进行多维度条件实时查询的方案调研

关于使用hbase进行多维度条件实时查询的方案调研。1.MapReduce方案优点：并发批量构建Index 缺点：不能实时构建Index 2.ITHBASE方案缺点：需要重构hbase，几年没有更新。 3.IHBASE方案缺点：需要重构hbase。 4.Coprocessor方案华为的HBase二级索引采用此方案（hindex

2018-02-01 12:59:53 535

转载 Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

问题导读1.GROUPING SETS与另外哪种方式等价？2.根据GROUP BY的维度的所有组合进行聚合由哪个关键字完成？3.ROLLUP与ROLLUP关系是什么？接上篇Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUEGROUPING SETS,GROUPING__ID,CUBE,ROLLUP

2017-12-23 20:17:15 332

原创 linux常用命令

当前文件一级目录所占磁盘大小： du -sh * 卸载挂载点：umount -l /home查看磁盘类型：df -T

2017-11-13 21:26:56 156

转载 Eclipse集成Maven和Scala

1.安装Maven第一步，在Apache官网下载maven：http://maven.apache.org/download.cgi第二步，解压maven压缩包，配置环境变量：[plain] view plain copyMAVEN_HOME=D:\maven-3.2.5 PATH=%MAVEN_HOME%\bin

2017-10-30 21:56:17 446

转载 python数据类型详解

转载自：http://www.cnblogs.com/linjiqin/p/3608541.html目录1、字符串2、布尔类型3、整数4、浮点数5、数字6、列表7、元组8、字典9、日期1、字符串1.1、如何在Python中使用字符串a、使用单引号(')用单引号括起来表示字符串，例如：str='this is string';p

2017-10-16 11:14:31 168

转载 Impala访问方式

文章转载自：http://blog.csdn.net/yu616568/article/details/52885156Impala作为一个SQL引擎，必然提供了Jdbc访问接口，特殊的是Impala完全兼容hiveserver2的接口，所以我们可以使用的客户端包括：beelineimpala-shellzeppelinhue前两种作为shell方式提供，其中beeli

2017-08-09 15:18:30 1277

转载 HBase架构组成

HBase架构组成HBase采用Master/Slave架构搭建集群，它隶属于Hadoop生态系统，由一下类型节点组成：HMaster节点、HRegionServer节点、ZooKeeper集群，而在底层，它将数据存储于HDFS中，因而涉及到HDFS的NameNode、DataNode等，总体结构如下：其中HMaster节点用于：管理HRegionServer，实现其负载均衡。

2017-07-16 16:13:18 1047

转载基于solr实现hbase的二级索引

基于solr实现hbase的二级索引我来了！发表于 1年前 (2014-11-17 08:44:03) | 评论（0） | 阅读次数（4723）| 0 人收藏此文章, 我要收藏一、目的了解hbase的都知道，由于hbase基于行健有序存储，在查询时使用行健十分高效，然后想要实现关系型数据库那样可以随意组合的多条件查询、查询总记录数、分页等就比较麻烦了。想要实

2017-06-22 14:01:58 392

原创集群中配置多台计算机之间ssh无密码登录的一种简便方法

当我们在配置多台计算，使之可以相互使用无密码登录-ssh,之前都是一台一台的配置，现在一台A上添加B，然后在另一台B上再次添加A，这样使得authorized_keys中的内容相同，但时并不是完全相同，比如添加顺序。如果超过2台，这种配置就相当复杂了，而且容易出错。后来，在网上看到了一种简单的配置，所有机器只需配置一遍即可。1.安装ssh. sudo apt-get install ssh.

2017-06-08 19:38:13 251

转载 solr安装与配置

这篇文章主要是介绍在Centos6上Solr6.5的安装与配置。一、安装准备及各软件使用版本说明：1、JDK8,版本jdk1.8.0_121下载地址：jdk-8u121-linux-x64.tar.gz2、Apache Tomcat，版本8.5.13 下载地址：apache-tomcat-8.5.13.tar.gz3、Solr,版本solr-6.5.0,下载地址：s

2017-05-22 19:46:40 352

转载通过BulkLoad的方式快速导入海量数据

转载自：http://www.cnblogs.com/MOBIN/p/5559575.html加载数据到HBase的方式有多种，通过HBase API导入或命令行导入或使用第三方(如sqoop)来导入或使用MR来批量导入（耗费磁盘I/O，容易在导入的过程使节点宕机），但是这些方式不是慢就是在导入的过程的占用Region资料导致效率低下，今天要讲的就是利用HBase在

2017-05-22 09:09:30 1640

转载 Spark资源调度

文章转载自：http://www.cnblogs.com/hd-zg/p/6089207.htmlSpark性能优化：资源调优篇在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱

2017-04-27 09:46:00 390

转载 Spark 提交任务时，报: Invalid signature file digest for Manifest main attributes

转载自： http://blog.csdn.net/dai451954706/article/details/50086295 今天在自己的电脑上，Ubuntu　14.04 中用Idea + SBT编写Spark测试代码，并打包成jar，上传到Spark集群上，submit时报错:[plain] view plain copyExce

2017-04-03 14:57:25 555

转载 CentOS 6.5 安装 MySQL 5.6.17 并修改MySQL的root用户密码

折腾一天，发现Centos6.5直接yum -y install mysql-server的话，安装的mysql数据库的root用户找不到，一直报‘roor’@'localhost'没有权限，网上有人找到了是6.5以上的，至少我看到的是这样，rpm安装也无法解决，这里有一篇博客，源码编译mysql，步骤很简单，大家可以看看。转载自：http://blog.csdn.net/u010098331

2017-03-29 19:26:57 644

转载 mysql用户权限管理

用户权限管理主要有以下作用： 1. 可以限制用户访问哪些库、哪些表 2. 可以限制用户对哪些表执行SELECT、CREATE、DELETE、DELETE、ALTER等操作 3. 可以限制用户登录的IP或域名 4. 可以限制用户自己的权限是否可以授权给别的用户一、用户授权复制代码代码如下:mysql> grant all privileges on *

2017-03-08 09:35:21 246

转载 scala的语法糖

转载自：http://clojure.iteye.com/blog/2091818Scala这些语法糖在第一次看到，对于我们这些老编程人员来说，感觉有点莫名其妙，不过慢慢熟悉之后，就会感觉很自然。时间可以磨灭一些东西的。对于scala搞那么多语法糖和新概念真是又爱又恨。爱的是scala引入了Java一直没有的lambda特性，这对于使用高阶函数抽象来处理集合数据非常有爱

2017-03-01 10:02:52 1394

原创通过进程pid查看文件安装路径

有什么一个软件有多个版本，但是不知道启动是哪一个，但是通过jps可以知道进程，则可以通过如下命令：ps ef|grep pid比如查找spark路径：

2017-02-28 20:19:11 2905

原创 Hive的安装

1）安装mysql 命令：sudp apt-get install mysql-server,记得设置root用户密码；2)设置mysql开机自启动，命令：sudo chkconfig mysql on。（三种办法，百度）3）登录mysql 命令：mysql -u root -p 然后输入正确密码。4）创建hive数据库，命令:create database hive。5）赋予用

2017-01-14 12:59:30 273

原创 Hive启动报错

启动时候：schema没有被初始化，org.apache.hadoop.hive.metastore.HiveMetaException: Failed to get schema version.根据官方文档：http://cache.baiducontent.com/c?m=9f65cb4a8c8507ed4fece7631047923d400f97634b8492462e8ec45f

2017-01-12 21:36:15 795

转载 zookerper安装与配置

原文转载至：http://blog.csdn.net/lihao21ZooKeeper是一个分布式开源框架，提供了协调分布式应用的基本服务，它向外部应用暴露一组通用服务——分布式同步（Distributed Synchronization）、命名服务（Naming Service）、集群维护（Group Maintenance）等，简化分布式应用协调及其管理的难度，提供高性能的分布式服务。

2017-01-03 18:55:13 4633

转载网络模型 - 随机网络，无标度网络，分层网络

转自： http://www.flickr.com/photos/caseorganic/4510691991/in/set-72157624621620243 小图大图Network Models - Random network, Scale-free network, Hierarchical network

2016-12-22 14:38:00 3199

转载 hadoop操作HDFS文件权限问题

描述：在window下使用Eclipse进行hadoop的程序编写，然后Run on hadoop 后，出现如下错误：11/10/28 16:05:53 INFO mapred.JobClient: Running job: job_201110281103_000311/10/28 16:05:54 INFO mapred.JobClient: map 0% reduce 0%1

2016-12-15 13:57:12 2611

转载 MapReduce开发的基础知识

转载自：http://t.dbdao.com/archives/basics-of-mapreduce-development.html?utm_source=tuicool&utm_medium=referral在前面的章节中，我们将Hadoop作为一个平台介绍给你。您了解了Hadoop架构背后的的概念，知道Hadoop管理的基础知识，甚至还编写了基本的MapReduce程序。在

2016-11-15 19:28:50 1448

转载 Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS

转载自：http://www.powerxing.com/install-hadoop/，在此感谢！！！本教程讲述如何配置 Hadoop 集群，默认读者已经掌握了 Hadoop 的单机伪分布式配置，否则请先查看Hadoop安装教程_单机/伪分布式配置或 CentOS安装Hadoop_单机/伪分布式配置。本教程适合于原生 Hadoop 2，包括 Hadoop 2

2016-11-10 10:42:17 231

转载 Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

当开始着手实践 Hadoop 时，安装 Hadoop 往往会成为新手的一道门槛。尽管安装其实很简单，书上有写到，官方网站也有 Hadoop 安装配置教程，但由于对 Linux 环境不熟悉，书上跟官网上简略的安装步骤新手往往 Hold 不住。加上网上不少教程也甚是坑，导致新手折腾老几天愣是没装好，很是打击学习热情。本教程适合于原生 Hadoop 2，包括 Hadoop 2.6.0, Hado

2016-11-10 10:40:54 383 2

sbt-launch-0.13.6.jar

空空如也