自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

转载 ES的Query DSL语句

1、term 过滤term主要用于精确匹配哪些值,比如数字,日期,布尔值或 not_analyzed 的字符串(未经切词的文本数据类型):{ "term": { "date": "2017-07-01" }}{ "term": { "title": "内蒙古" }}完整的例子, hostname 字段完全匹配成 saaap.wangpos.com 的数据:{ "...

2019-11-25 10:50:02 1127

转载 Maven的安装与配置

一、需要准备的东西1. JDK2. Eclipse3. Maven程序包二、下载与安装1. 前往https://maven.apache.org/download.cgi下载最新版的Maven程序:2. 将文件解压到D:\Program Files\Apache\maven目录下:3. 新建环境变量MAVEN_HOME,赋值D:\Program Files\Ap...

2019-11-04 15:23:34 214

原创 Linux下获取指定服务运行的进程号

Linux中,ps -ef用于查看全格式的全部进程,其中“ps”是在Linux中是查看进程的命令,“-e”参数代表显示所有进程,“-f”参数代表全格式。其中各列的内容意思如下:UID //用户ID、但输出的是用户名PID //进程的IDPPID //父进程IDC //进程...

2019-10-24 10:14:29 3182

原创 excel文件需要双击两次才能打开,解决方案

之前在做项目的时候发现,excel出现问题:当excel或csv文件第一次打开时,双击一次打开能打开,需要双击第二次才显示内容 解决方案cmd->regedit 打开注册表,找到计算机\HKEY_CLASSES_ROOT\Excel.Sheet.12\shell\Open\command双击名称值编辑名称值,在数值数据后追加 "%1"或者将/dde用 "%1"...

2019-10-18 16:01:52 20368 14

原创 shell编程——linux下远程一键检查mysql服务的运行状态

在服务器运行的过程中难免有某些服务挂掉的情况,例如mysql、tomcat等,这时需要有定时脚本去检查它们的状态,增加系统的健康状况。当有多个不同的服务挂在不同的服务器上时,一键检查也需要一步完成。这里以mysql为例,通过一台服务器控制另一台服务器上的mysql服务状态的检查。 以hadoop101为主服务器控制hadoop100上的mysql服务启停,在hadoop101上命...

2019-10-16 11:03:21 587

原创 python源码,朴素贝叶斯实现多分类

机器学习实战中,朴素贝叶斯那一章节只实现了二分类,网上大多数博客也只是照搬书上的源码,没有弄懂实现的根本。在此梳理了一遍朴素贝叶斯的原理,实现了5分类的例子,仅供参考!from numpy import *'''贝叶斯公式 p(ci|w) = p(w|ci)*p(ci) / p(w)即比较两类别分子大小,把结果归为分子大的一类p(w|ci)条件概率,即在类别1或0下,w(词频)出现的...

2019-10-09 10:09:56 2497 3

原创 编程题——输入一个正整数数组,将他们排起来成一个数,使得排出的数最小

如标题,例如 [675,23,10],组成最小数是1023675。可以用冒泡的思想,首先比较第一个元素675与23的组成,67523>23675,所以交换23和675,变为[23,675,10],;再比较675和10(始终让组成后大的元素靠后),变为[23,10,675];继续比较2310和1023,交换,变为[10,23,675],排序完成。python实现:alist = [...

2019-03-09 15:47:59 2106

转载 Numpy中的ndim、shape、dtype、astype

本文介绍numpy数组中这四个方法的区别ndim、shape、dtype、astype。1.ndimndim返回的是数组的维度,返回的只有一个数,该数即表示数组的维度。2.shapeshape:表示各位维度大小的元组。返回的是一个元组。对于一维数组:有疑问的是为什么不是(1,6),因为arr1.ndim维度为1,元组内只返回一个数。对于二维数组:前面的是行,后面的是列,...

2019-02-20 21:55:36 434

原创 k-means算法扩展

k-means是机器学习中最基本的聚类算法,但同样也有很多缺点:一是k选择是随机的,可能会得到局部最优解二是k的个数的选择是预估计的,很多时候并不知道样本被聚为几类最合适同样,k-measns仅能实现对连续型数值的样本操作,当数据量过于庞大时,时间复杂度较高(每次计算簇的中心来选取新的中心点) k-means++为了解决k的随机性,k-means++算法与k-means算法...

2018-11-20 19:42:30 671

原创 编程题——有m个数组成的数组,其中有一个数占一半以上,找出这个数

解法一:用快速排序,处于中间的数就是要找的那个数。时间复杂度为O(nlogn)快排的python实现可以点击这解法二:统计每个元素出现的次数,返回出现次数最大的元素。不同元素个数为M,则时间复杂度为O(M*n)aa = [1,1,1,1,0,0,0,0,0]set_aa = list(set(aa))count_max = 0key = 0for item in set...

2018-10-24 12:15:15 838

原创 排序算法原理详解,结合python实现

1、冒泡排序冒泡排序算法的原理很容易理解,对n个元素来说,每次从第1个元素开始遍历直到第n-1个元素,每走一步将其与其后一个元素比较,如果大于就替换,否则保持不变(故是稳定的);这样遍历一次之后,就将最大的元素移到末尾。第二次遍历排除上一步移到末尾的元素,即将余下的n-1个元素重复之前的操作,将最大的元素移到末尾;第三次遍历排除上一步移到末尾的元素,将余下的n-2个元素重读之前的操作;再是n-...

2018-10-09 17:18:03 640

原创 方差、协方差和皮尔森相关系数

方差:在给定皮尔森相关系数的定义以前,先给出一些统计学的基本概念,样本之间存在均值:方差:标准差:标准差是衡量样本集合的各个样本点到均值的距离之平均,是描述样本之间的离散程度,而方差是标准差的平方。有人会问了,为什么方差的分母是n-1,而不是n?在给出回答之前,先解释一下什么是无偏估计无偏估计:估计量的均值等于真实值,即具体每一次估计值可能大于真实值,也可能小于真实值...

2018-10-04 17:04:42 8097

转载 卡方检验

卡方检验,统计学的方法,现在机器学习看变量的时候也会用到。很多不知道的人,一听到这个名词,会马上联想到,啊?还要拿张卡来检验吗?其实卡方检验是英文Chi-Square Test 的谐音。在大数据运营场景中,通常用在某个变量(或特征)值是不是和因变量有显著关系。我常听到运营和分析师这样的对话,分析师:“这个变量我做了卡方检验了,不显著,所以我没有放进模型。”这时候,你要是仔细...

2018-10-04 14:23:37 1250

转载 用可视化思维解读和理解统计自由度

什么是自由度(degree of freedom)自由度并不是一个很好解释的概念。多数人最早接触到degree of freedom 应该是在Excel里面run regression后,输出的表格中的一个指标(如下图)。日常生活中的degree of freedom首先,你先不要想统计的知识,我们讲一个平时生活里的例子,比如你是一个非常喜欢鞋子的人,你每个礼拜每一天都想穿上不一...

2018-10-04 11:43:11 526

原创 编程题——统计字符串中连续出现多次的元素的个数

引出:网上可能有类似的问题,二进制串也是一种,比如统计“1100110011110001010”连续出现多次的元素个数:连续出现两次或两次以上的元素的个数"1"为3次,“0”为3次我一般喜欢用自己的思路去想出解决问题的方法,所以也没细查。数据结构与算法这种问题,我建议程序员如果想打牢基础的话最好自己动手去敲代码实现,做的多了,逻辑清晰了,问题自然就处理了思路:看似简单...

2018-09-23 22:23:09 5509

原创 python之random和numpy.random

最近经常用到random函数,因为总忘记或者搞混,所以在这做一个笔记randomrandom函数是python中封装好的函数,作为随机生成一些数必不可少的函数1、random.random()表示在[0,1)区间随机生成一个随机浮点数,所传递的函数不接受参数,即函数没有参数可传2、random.randint(m,n)接受两个参数,表示在[m,n]区间随机生成一个整数3...

2018-09-19 21:56:27 2822

原创 机器学习之查准率、查全率与P-R曲线,ROC曲线与AUC指标

在有监督学习中,往往会用一定的方法判断模型的好坏,比如有一系列的有实际标签的样本:实际的标签:1 1 1 1 1 0 0 0 0 0放入某个训练好的分类模型中预测:预测的标签:1 1 1 1 0 1 1 0 0 0一、TP、FP、TN、FN在评判之前,先给出以下的概念,仅仅考虑到二分类的情况下,可将样本根据其实际标签与学习得到的预测标签,可以分为四种情形(TP FP TN...

2018-09-17 15:29:37 4329 1

原创 hadoop伪分布式安装&启动HDFS

hadoop是基于java编写的分布式框架,要安装hadoop,必须先安装java的开发环境jdk下载http://www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.htmlhadoop官网下载http://www.apache.org/dyn/closer.cgi/ha...

2018-09-17 14:20:31 1234

原创 mysql查询每日新增用户量,结合python实现

之前在搜狐数据分析笔试的时候,同学拍下了这个问题有两张表:用户登录表A,字段信息为dt(登录日期),servertime(登录时间),userid(用户id),rolelevel(用户等级,int)用户充值表B,字段信息为dt(充值日期),servertime(充值时间),userid(用户id),money(充值金额,int)问题:1 查询某个时间段,比如2018-9-3到2...

2018-09-16 22:18:17 6446

原创 编程题——能组成三角形的三元组问题,python实现

今天笔试腾讯的技术岗位的数据分析,有个三元组问题三元组定义:能组成三角形的三元组,如(3,4,5),但(3,,5,4)又是一个不同的三元组,输入要求:输入3个数为,n,m,p,要求1<=n<100000,1<=m<100000,1<=p<100000,在输入的数以内,有多少个组合三元组,输出其个数,不满足输出为-1例:输入: 2 33 ...

2018-09-16 17:39:34 1991 3

原创 编程题——python实现统计相似子串

最近面笔试题遇坑,做到后面懵X了,到后来才想到其实很简单题目中的一些巴拉巴拉一堆的废话就不说了大概是这样的:要求输入1:一个长字符串输入2:一个短字符串输出:统计长字符串中有多少个与短字符串相似的子串emm... 一下子就有思路了好,开始码代码...按照短字符串的长度将长字符串的子串给穷举(即拆分)一下,代码很简单,在这我封装成一个函数,输出是一个二维列表...

2018-09-10 23:16:24 854

原创 解决本地网络适配器的驱动程序可能出现问题(未连接,连接可用或连接不可用)

解决方法:右键点击网络栏-->打开网络和共享中心点击更改适配器设置点击本地连接右键诊断若没能解决问题,点击右键-->属性查看是否有Liebao WiFi NAT Driver 驱动,若有,选中卸载就可以了  ...

2018-08-23 19:05:23 23619

原创 CentOS的下载与安装

第一步:下载镜像CentOS的官网地址 http://isoredirect.centos.org/centos/7.4.1708/isos/x86_64/选择当前所在国家的下载资源区点阿里服务器下载选择标准版本镜像 第二步:在VMware上安装镜像在VMware配置好后,选择所下载的镜像文件,打开虚拟机,点击Install CentOS Linux7回车选...

2018-08-18 17:02:21 6241 5

原创 梯度上升和梯度下降

关于梯度上升法和梯度下降法的原理,大多数都是纯理论的解释和公式的推导,没有一种直观的表达方式。在这我分别举出两个简单而又直观的例子,大家就明白了,为什么梯度下降法一定是减梯度,而梯度上升法一定是加梯度。 对于梯度下降法来说,在神经网络中用到,最小化误差的一种优化方法。如用梯度下降法求此函数的极小值,在x1,x2点分别可导,在x1处导数为负数,在此函数中,(-∞,0)区间...

2018-07-28 16:00:45 15837 3

原创 package XXX needs to be reinstalled, but I can't find an archive 解决language support打开瞬间闪退安装搜狗拼音

1.  备份 dpkg的状态文件sudo cp /var/lib/dpkg/status status.bkp2. 打开状态文件sudo gedit /var/lib/dpkg/status3. 找到错误的 XXX package并将其删除(如我XXX 是libqt5qml5,ctrl+F 找到libqt5qml5,把package之后的全部删除)4. sudo apt install -f之后可...

2018-05-14 14:11:41 3717 1

原创 Ubuntu下安装python3第三方库

Ubuntu下,自带了python2和python3,默认链接为python2本人用的python3,先修改默认的python链接:1.备份原来的链接 sudo cp /usr/bin/python /usr/bin/python_bak 2.删除指向默认版本的python2.7的链接 sudo rm /usr/bin/python 3.指定默认链接为python3.5 sudo ...

2018-05-04 17:05:05 21820 2

原创 Linux命令(全)

第一阶段:①查看目录内容ls(list),查看当前文件夹下的内容ls常用选项-a 显示指定目录下的子目录与文件,包括隐藏文件-l 以列表的方式显示文件的详细信息-h 配合 -l以人性化的方式显示文件大小ls通配符的使用* 代表任意个数的字符? 代表任意一个字符[] 表示可以匹配字符组中的任意一个([1234]) or [1-4]②切换目录cd(change directo...

2018-04-15 18:34:50 716

原创 java的安装以及配置环境变量

1.在java官网下载对应操作系统的jdk安装包,我的是64位的windows系统2.选择安装java的路径,如我的是在E盘下创建java的空文件夹,打开并创建jdk,jre两个空文件夹3.双击jdk的exe安装文件,点下一步4.选择第二步创建的jdk文件夹下安装5.点击确定,再点击下一步开始安装6.java安装目标文件夹界面,更改路径,选择第二步所创建的jre文件夹,如图:7.下一步安装完成8....

2018-04-10 16:42:44 1956

原创 mysql无法导出数据,出现ERROR 1290 secure_file_priv为NULL

secure-file-priv参数是用来限制LOAD DATA, SELECT ... OUTFILE, and LOAD_FILE()传到哪个指定目录的。cmd进入mysql,执行命令 show variables like '%secure%'; 查看secure_file_priv的值当secure_file_priv的值为null ,表示限制mysqld 不允许导入|导...

2018-04-09 22:50:15 8440 8

原创 ERROR 1045 (28000): Access denied for user 'ODBC'@'localhost' (using password: NO) ERROR 1045 (2800

cmd下,正常进入mysql命令:mysql -u用户名 -p密码如出现:ERROR 1045 (28000): Access denied for user 'ODBC'@'localhost' (using password: NO)或ERROR 1045 (28000): Access denied for user 'ODBC'@'localhost' (using password: Y...

2018-04-09 22:21:31 2734

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除