jose_yubin-CSDN博客

原创 leetcode83 Remove Duplicates from Sorted List

/** * Definition for singly-linked list. * struct ListNode { * int val; * ListNode *next; * ListNode(int x) : val(x), next(NULL) {} * }; */class Solution {public: ListNode* de...

2018-06-12 10:23:50 152

原创 Python基础知识

help说明文档dir这个包含哪些可以使用的东西导航列表推导式返回的是列表，列表中的每个元素[x**2 for x in [1,2,3]]append把一个元素，一个元素当作一个整体填充到list中 extend把各个元素都加入到list中高级排序功能sorted...

2018-04-18 21:52:14 152

原创机器学习中评估指标-周志华《机器学习》笔记

准确率，召回率，F1ROC曲线准确率，召回率，F1问题环境：挑出来的西瓜有多少比例是好瓜好瓜中有多少被挑出来了混淆矩阵可以这么解读：第一个字母表示我预测的结果对还是错，T就是true，F就是false；第二个字母表示，我预测的是什么正P(positive)还是负(negative); 矩阵对角线上的是我预测对的 - 查准率，准确率，pr...

2018-04-14 23:41:04 363

转载 SVD分解学习笔记

在网上看了几个分享博客，记录一下自己理解的并串起来这篇博客阐述清楚了SVD的几何意义 http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html 看了这篇博客意识到:一个矩阵A其实就是一种线性变换，因为一个矩阵A乘以一个向量xxx后得到的向量xTxTx^{T}，其实就相当于将这个向量xxx进...

2018-04-14 14:42:24 193

原创 word2vec学习笔记

[TOC] 首先我们是想，做这么一件事：根据前文出现的3个词，预测第四个词是什么？试想，如果已经给我们一组参数，把这组参数和已经出现的三个词做运算，求出来的的最大概率就可以认为是预测的第四个词。那么问题来了，这组参数怎么求呢？经典的机器学习模型，逻辑回归中可以找到一些类似的思想。逻辑回归的流程已经有样本集合D={(x1,y1),(x2,y2),..,(xm,ym)}D={(x1,...

2018-04-13 11:11:33 127

原创 deeplearning.ai神经网络和深度学习学习笔记

逻辑回归前向传播求损失函数导数m个样本的梯度下降向量化浅层神经网络神经网络表示浅层神经网络运算的向量表示激活函数逻辑回归单个样本的情况如下：前向传播假设一个样本有2个特征x1,x2x1,x2x_{1},x_{2}，从左向右传播，依次求出z,az,az,a和损失函数，我们需要一次次的更新参数w1,w2,bw1,w2,bw_{1}...

2018-04-12 11:10:53 243 1

原创最大似然估计

最大似然(likelihood)原理最大似然法的基本思想最大似然估计法的模型最大似然(likelihood)原理假设一个随机试验，有若干可能结果A1,A2,A3,...A1,A2,A3,...A_{1},A_{2},A_{3},... 如果只进行一次实验，而结果AkAkA_{k}出现了，那么我们就认为实验的条件对结果AkAkA_{k}的出现最有利。即实验...

2018-04-11 12:36:18 348

原创判断平衡二叉树

左树是否平衡，如果左树不平衡，false左树是否平衡，如果右树不平衡，false左右都平衡，左树高度hl，右树高度hr求出高度差|hl-hr|是否大于1public static class Node { public int value; public Node left; public Node right; ...

2018-04-06 12:28:56 105

原创数据结构算法-归并排序

从递归开始说起递归函数的时间复杂度公式归并排序归并排序代码归并排序时间复杂度O(NlogN)O(NlogN)O(NlogN)求数组小和从递归开始说起在一个数组中查找最大值，先在left侧找max，在right侧找max，更大者就是整体的max；使用递归就是使用系统栈，系统栈会自动帮我们把之前所有的信息压入栈中记录下来，从实际代码调试中看一看...

2018-04-02 11:37:02 365

原创 pandas-常用操作

groupbyimport pandas as pdimport numpy as np%matplotlib inlinesalaries = pd.DataFrame({ 'Name': ['July', 'Zewei', 'Zewei', 'Han', 'July', 'July', 'Zewei', 'July'], 'Year': [2016,2016,20...

2018-04-01 23:18:50 192

原创机器学习-数据处理

基本处理缺失值处理fillnadropna常用特征工程处理数值型幅度缩放统计结果作为特征四则运算高次特征和交叉特征离散化／分箱独热向量编码时间型特征选择过滤型包裹型嵌入型基本处理缺失值处理fillnadropna常用特征工程处理数值型幅度缩放from sklearn.prep...

2018-03-31 13:04:24 172

原创《统计机器学习》-决策树学习笔记

优点决策树学习三个步骤定义结点类型决策树与条件概率分布过拟合ID3构建决策树随机变量墒信息增益信息增益算法计算H(D)计算条件墒H(D|A)计算信息增益利用信息增益构建决策树实例信息增益比ID3算法C4.5生成算法决策树的剪枝决策树的损失函数CART算法决策树是基本的分类和回归方法。但是主要用于分类。在分类问题中，表示基于...

2018-03-30 12:32:03 274

原创 pandas要点

DataFrame的列都是Series，可以理解成DataFrame就是Series的集合 #每一列多少缺失值data.isnull().sum(axis=0)每一行都有多少缺失值data.isnull().sum(axis=1)

2018-03-28 18:13:43 151

原创 Spark与大数据处理常用操作

初始化RDDRDD的transform1 Spark可以分为1个driver(笔记本电脑或者集群网关机器上)和若干个executor(在各个节点上)，通过SparkContext(简称sc)连接Spark集群、创建RDD,简单可以认为SparkContext是Spark程序的根本。 Driver会把计算任务分成一系列小的task，然后送到executor执行。e...

2018-03-28 12:26:10 2261

原创机器学习

数据清洗简单易知的不可能数值比如身高12米的人组合属性判定地区在米国但是IP地址在大陆的新闻用户补齐可对应的缺省值缺失值很多的字段考虑不用很多情况正负样本不均衡电商情况下，用户点击／购买的商品疾病患者和健康人大多数模型对正负样本敏感，比如逻辑回归（LR）。这是因为如果正样本特别多，那么损失函数中正样本所占比例就更大，因为损失函数就是一个个样本误差叠加起来的，如果正样...

2018-03-15 16:52:00 156

原创逻辑回归

引出线性回归+阈值会有一定问题，因此需要把值映射到某个范围内，sigmoid函数11+e−z11+e−z\frac{1}{1+e^{-z}} 当预测出来的结果，可以看成概率p<0.5,y=0；如果p>0.5,y=1损失函数，代价函数如果逻辑回归采用的代价函数和线性回归使用同样的损失函数，平方损失，在逻辑回归的假设函数条件下，损失函数是非凸函数，因此逻辑回归的损失函数为...

2018-03-15 15:54:43 94

原创机器学习基本概念1

梯度该方向上升最大的方向梯度下降法原因并不是所有的矩阵都有逆计算量会很大梯度下降法更新参数沿着负梯度的方向下降 Θ1=Θ1−αdJ(Θ))dΘ1Θ1=Θ1−αdJ(Θ))dΘ1 \Theta _{1}=\Theta _{1}-\alpha \frac{\mathrm{d} J(\Theta))}{\mathrm{d} \Theta _{1}}凸函数...

2018-03-15 02:25:34 97

原创 Matplotlib基础入门之简易折线图

import pandas as pdimport matplotlib.pyplot as pltunrate=pd.read_csv("UNRATE.csv")#把字符串转成时间格式unrate['DATE']=pd.to_datetime(unrate['DATE'])#截取前六个显示first_6=unrate[0:6]#plot画图，x，y分别对应plt.plot(fir

2018-01-11 09:37:37 151

原创 Pandas基础入门

倒入pandas库import pandas as pd读取csv格式文件food_info=pd.read_csv("food_info.csv")查看前5行head()默认显示前五行food_info.head()查看有多少属性列food_info.columns查看数据有多少行，多少列查看某个特定行的数据

2018-01-09 11:21:03 187

原创 Matplotlib--画完整线图

import pandas as pdimport matplotlib.pyplot as pltunrate=pd.read_csv("UNRATE.csv")#把字符串转成时间格式unrate['DATE']=pd.to_datetime(unrate['DATE'])#新建一列month属性unrate['MONTH']=unrate['DATE'].dt.month#声明画

2018-01-04 16:49:08 325

原创 Matplotlib--简易折线图

import pandas as pdimport matplotlib.pyplot as pltunrate=pd.read_csv("UNRATE.csv")#把字符串转成时间格式unrate['DATE']=pd.to_datetime(unrate['DATE'])#截取前六个显示first_6=unrate[0:6]#plot画图，x，y分别对应plt.plot(fir

2018-01-04 15:58:57 358

单变量的推导yi^=f(xi)=ωxi+b\hat{y_{i}}=f\left ( x_{i} \right )=\omega x_{i}+b 其中损失函数可以是：L(f(xi))=(yi−yi^)2L\left ( f\left ( x_{i} \right ) \right )=\left( y_{i} -\hat{y_{i}}\right)^2,这里的损失函数可以是任意的，什么形式都可以。其

2018-01-04 09:01:51 553

原创 mac Sierra环境下pycharm+opencv3.2

pycharm要想调用cv2，需要制定工程编译器路径，可用which python查找python安装路径，然后添加至Project Interpreter

2017-04-12 15:17:00 509

原创 Ubuntu14安装opencv3.0+PCL

安装opencv3.0链接各个版本下载地址:http://opencv.org/releases.html官方文档: http://docs.opencv.org/3.2.0/d7/d9f/tutorial_linux_install.html博客: http://www.linuxidc.com/Linux/2015-05/116960.htm基本上就照着复制粘贴就行了。。。测试

2017-04-05 11:17:58 396

原创 hadoop下利用庖丁分词实现分词+wordcount的环境配置

准备：下载庖丁分词相关并把dic目录全放在eclipse工程路径下在/etc/profile设置dic目录,并且修改庖丁包下面的src目录下paoding-dic-home.properties。。知道字典路径添加PAODING_DIC_HOME在etc/profile把庖丁包里的各种jar包放在hadoop下。。。common，hdfs，mapreduce都放了在ecli

2016-12-19 12:26:17 300

原创 centos7GNOME创建桌面快捷方式

现在程序目录下创建一个make lin。。。。然后把这个软连接copy到桌面即可

2016-12-03 14:16:07 443

原创 centos7-x86-64卸载自带jdk并安装1.8jdk

安装好centos7查询java -version会有5，6个版本信息。。。大概有openjdk，headless或者python什么的如果不卸载，安装1.8jdk每次关机重启再次查询java版本就还是原来默认的，，很烦然后使用rpm -e --nodep按着java版本给出的顺序挨个卸载。。。然后把1.8版本的jdk解压在/usr/java下。。。java文件夹需要mkdir

2016-12-03 08:54:35 306

原创 centos7下更改默认JDK

之前装了个jdk1.7.。。后来要用8。。。于是需要删除之前的rpm -qa | grep javarpm -e --nodeps tzdata-java-。。。。。。。。。。。rpm -e --nodeps java-1.6.0-openjdk-。。。。。。。。。。。。。。删除了这两个文件之后，输入java后发现没了然后再配置java环境变量，source一下profile即

2016-12-01 01:24:32 394

原创 HDFS的shell操作

ls查看hdfs的list[root@master sbin]# hadoop fs -ls hdfs://master:9000ls: `hdfs://master:9000': No such file or directory[root@master sbin]# hadoop fs -ls hdfs://master:9000/Found 4 items-r

2016-11-28 09:44:53 283

原创配置SSH免密码登陆(非对称加密)和原理

在SecureCRT上创建对两台虚拟机的链接，然后在其中一个上走SSH协议，给另一台机器输命令这是在192.168.8.88上面输入命令。。。。[root@master ~]# ssh 192.168.8.99 mkdir /jose通过SSH即使自己给自己输命令都要输入密码hadoop启动的时候只需要一台机器就可以把其他机器启动，因此需要用到SSH--------------

2016-11-28 08:53:58 1183 1

原创 hadoop初始化和测试

只修改hadoop的5个配置文件并不能启动hadoop还要把hadoop的环境变量配置一下gedit /etc/profile在最后面添加export HADOOP_HOME=/master/hadoop-2.5.2export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin然后source /etc/profile刷新配置

2016-11-27 15:33:48 7218

原创 hadoop伪分布式修改该配置文件（5个）

1 hadoop-env.sh 添加JAVA_HOME2 core-site.xml第一个属性用来指定HDFS老大得地址，也就是NameNode的地址value值是主机名加端口号，如果在host文件中添加了主机名和ip映射，主机名也可以用ip地址替换。。。。。 fs.defaultFS hdfs://master:9000

2016-11-27 14:57:27 2412

原创分布式文件系统理解

定义：数据量越来越多，一个操作系统管辖的范围存不下，那么就需要分配到更多的操作系统管理的磁盘中，但是不方便管理和维护。因此就需要一个系统来管理多台机器上的文件，这就是分布式文件管理系统。允许文件通过网络在多台主机上分享的文件系统，可以让多台机器上的多用户分享文件和存储空间。容错，即使系统中某些节点脱机，整体来说系统仍然可以持续运作，不会有数据损伤。这一点可以用多个地方存储来解决。

2016-11-27 09:44:46 509

原创 hadoop伪分布式安装步骤

1 关闭防火墙主要是为了省事儿，方便多个结点之间通信2修改ip防止机器重新启动ip地址修改，方便定位3修改hostnameip地址和主机名映射配置4配置ssh自动登录一台机器给另一台机器发送命令

2016-11-27 09:42:19 214

qq351564759的博客