自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 收藏
  • 关注

原创 Java

第一个java程序java对大小写敏感; public 访问修饰符,控制其他程序对这段代码的访问级别; class 类,那么,public class 定义了一个大家公开访问的类; 一个源文件包含多个类,但是只能有一个public class,这个class名称必须和文件名一样; main 方法是程序入口; 分号是结束标记;数据类型和运算符(筋骨)标识符:必须以字母,下划线,美...

2018-10-22 16:56:50 142

原创 人脸识别项目心得

数据集的格式数据集有两部分,训练集和测试集。每个集都包含两个部分,根据cnn人脸识别的数据集,http://mmlab.ie.cuhk.edu.hk/archive/CNN_FacePoint.htm,包含图片和txt文本。图片是需要识别的图片,txt文本格式为:pic_name空格dot1_pos_x空格dot1_pos_y空格dot2_pos_x空格dot2_pos_y。训练模型现...

2018-10-16 17:03:45 3001

原创 从sql数据库中提取table并转换成numpy格式数据输出

import MySQLdbimport numpy as np#get data from sql databasesclass database(): def __init__(self): self.conn = MySQLdb.connect( host='127.0.0.1', user='root', ...

2018-07-11 11:32:19 1374

原创 lightGBM的简单用法

import lightgbm as lgbfrom sklearn import datasetsimport pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_squared_error file ...

2018-07-11 09:58:56 2394

原创 机器学习工程师--隐马尔科夫链应用和主题模型

词性标注词性标注应用:给一个句子标注词性。为什么:预处理句子,使得划分句子简单。猜词简单。马尔科夫链在句子词性中的作用:对于英文句子而言,遵循一定的语法。比如,副词后面接形容词或者副词或者动词,那么,对于这个句子来说,副词i后面接的是adj或者v的概率是不同的,如果后面是adj,那adj后面是名词还是and或者or的概率也是不同的,那么,每个词前后之间形成的关系形成了一个马尔科夫链,这个马尔科夫链...

2018-06-09 20:06:29 480

原创 Tensorflow实战指南

给亲爱的老板搭建人工智能平台,数据预处理花了2周已经准备完毕。开始模型搭建。使用 TensorFlow, 你必须明白 TensorFlow:使用图 (graph) 来表示计算任务.在被称之为 会话 (Session) 的上下文 (context) 中执行图.使用 tensor 表示数据.通过 变量 (Variable) 维护状态.使用 feed 和 fetch 可以为任意的操作(arbitrary...

2018-05-30 16:56:17 361

原创 Neural Networks and Deep Learning 第四周

什么是深度神经网络神经网络的个数是隐藏层+输出层,输入层不计入。对于这个只有单个神经元的网络,single neural network,我们称之为浅层(shallow)神经网络;隐藏层5个,输出层一个,所以这个神经网络一共是6层,称之为深度神经网络。符号表示:L代表神经网络的个数,上面按个就有6层神经网络,所以L=6。n^[l]代表在第l层神经网络中,有多少神经元个数。注意,输入层是n[0]=n...

2018-05-26 22:27:35 374

原创 Neural Networks and Deep Learning第三周

Overview of Neural Network回顾第一周的neural network,第一个neural network是z,第二个是theta,上一个传入下一个。拿单层神经网络来说,样本的值x1,x2...xn是input layer,是输入层;hidden layer是function layer,负责把input layer的值进行处理,然后传入output layer。传出来的值就...

2018-05-23 22:08:55 532

原创 《机器学习工程师》无监督算法3_关联规则挖掘

0000

2018-05-20 01:14:30 452

原创 pandas基本操作

#查看dataframe的数据,一般是看哪一个column有空数据,有多少空数据,是否应该drop该列df.info()

2018-05-18 19:34:15 165

原创 Neural Networks and Deep Learning 第二周 Logistic Regression

1. 二分分类 Binary Classification1.1 Logistic RegressionA picture is consist of three layers of matrics of Red, Green and Blue. Such as a 64 * 64 picture, the X.T = [array(red) + array(Green) + array(Blue...

2018-05-18 00:03:34 308

原创 Neural Networks and Deep Learning-引论

18号开始。

2018-05-16 22:24:22 209

原创 kaggle(二):最大利润问题

这是一个监督学习求解最大利润的题目。给很多人去放款贷款,目的是预测这些贷款的人会不会还款;如果还,标签为1,说明银行预测正确,可以得到利润;如果不还,标签为0,银行不可以得到利润。模型预测之后,和真实的标签去对比,评估模型的好坏。这道题牵扯到了比kaggle(一)更多的属性特征和样本数,(二)更多的数据清洗操作;(三)模型评估指标的应用。# coding: utf-8import pandas ...

2018-05-05 00:08:58 641

原创 《机器学习工程师》朴素贝叶斯

贝叶斯公式 P(a|b) = P(a) * P(b|a) / P(b)P(a)是先验概率;你提前知道一个袋里有5个球,3红2白;那么,白球概率是0.4,红球概率是0.6.这是已知分布情况下的概率;P(b|a)是a情况下,b发生的概率;P(b)是发生b的总概率,注意这个不等于一,等于发生b的总数,不是发生a的。朴素贝叶斯wiki的例子:如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定...

2018-05-04 12:08:56 133

原创 多进程模块

引子因为gil锁,就算python用了threading.Thread进行并发编程,一个cpu还是只能有一个线程同时执行。如何利用多个cpu呢,只有多进程了,每个进程中一个线程运行。多进程进程和线程的接口差不多,所以多进程的实现方式和多线程的实现方式也差不多。调用方式一:from multiprocessing import Processimport timedef f(name): ...

2018-05-03 18:09:55 193

原创 numpy基本操作

#点乘import numpy as npa = np.arange(12).reshape(3,4) #0-11,#一共12个数,分成了三行四列的二维矩阵b = np.arange(10,14,1).reshape(4,1) #10-13,以1为间隔分成4行一列的二维矩阵print(a.dot(b)) #点乘,就是数学中的矩阵乘法,前行乘以后列print(np.exp(a))...

2018-05-03 11:59:48 182

原创 《机器学习工程师》无监督学习

聚类 clustering是什么?1.无监督学习(不需要标签,就是1和0)2.按照相似性和结构性来对数据进行组织。数据压缩,图像分割,数据层次化组织,数据预分类。分类?2类分割型聚类或者平铺型聚类;层次型聚类。应用1.数据压缩 2.图像分割 3.数据层次化组织 K-means/K-medoids...

2018-05-02 17:53:24 175

原创 并发并行同步异步---学习于yuanchengqi老师

并发和并行并发:系统具有处理多个任务的能力。并行:系统具有同时处理多个任务的能力。并行是并发的一个子集。同步与异步同步:当进程执行到io操作(等待外部数据)时-----等:同步异步:不等,去执行其他,一直等到数据接收成功才回来处理。处理效率高。GIL:全局解释锁现在你的cpu是4核,有进程1,2,1中有子线程1.1,1.2,2中有2.1.2.2子线程。进程线程1线程2线程3进程11.11.21.3...

2018-05-01 21:05:25 446

原创 学习笔记--进程和线程

进程本质上是一段程序的运行过程(抽象的概念)定义:就是一个程序在数据集上的一次动态执行过程。由:程序,数据集和进程控制块组成。程序计数器来保存状态。单个cpu是并发,不是并行,进程之间是来回切换;如果有多个cpu,会有并行,一个cpu跑一个程序;如果2个cpu跑四个程序,肯定是一个cpu跑一个,剩下2个是时间片切换。线程两个进程占两个独立的内存空间,彼此相互独立;线程的出现是为了降低上下文的消耗,...

2018-05-01 16:06:34 117

原创 浅拷贝和深拷贝

引子:今天做题目时,碰到个东西感觉有意思:有一个pandas dataframe格式的数据,第一列是id号,需要去掉;但是去掉之前你不知道之后要不要用它,所以先保存一下:ID = df['ID']之前,老师讲过,像这样保存内存地址必须先给一个变量名,要不然会被内存清除。比如:def Foo(): print("Good")Foo #这个是看函数的内存地址Foo() #运行之后就被...

2018-04-28 21:18:53 485

原创 字符串处理和循环控制

# -*- coding: utf-8 -*-import strings = 'abc's[0] = 'x' #string不支持元素操作#去除空格s = ' abcd efg'print(s.strip()) #去掉所有空格,返回的是新的字符串,因为字符串不能修改print(s.lstrip()) #去掉左边空格print(s.rstrip()) #去掉右边空格pr...

2018-04-28 10:57:01 440

转载 PEP8编码规范

转载自豆瓣:PEP8 Python 编码规范一 代码编排1 缩进。4个空格的缩进(编辑器都可以完成此功能),不使用Tap,更不能混合使用Tap和空格。2 每行最大长度79,换行可以使用反斜杠,最好使用圆括号。换行点要在操作符的后边敲回车。3 类和top-level函数定义之间空两行;类中的方法定义之间空一行;函数内逻辑无关段落之间空一行;其他地方尽量不要再空行。二 文档编排1 模块内容的顺序:模块...

2018-04-28 10:33:48 123

原创 《人工智能工程师》逻辑回归 LogisticRegression

在逻辑回归里,不去拟合样本分布,而是确定决策边界。sigmoid函数sig = 1.0/(1 + np.exp(-x))为什么需要这个函数?这个函数有个特点,当x<0时,0<y<0.5;x=0时,y=0.5;x>0时,1>y>0.5。那么,假设我想对数据做二分类,首先从数据讲起。1.数据是m行n列的数据(xij, i=1..m, j=1..n),那么,样本1是向...

2018-04-28 00:25:26 147

原创 Kaggle(一):Titanic

虽然理论知识学了很多,但是实际操作还没有积累,现在每天积累一题。---------------------------不积跬步无以至千里---------------------------------------Titanic的数据分为test.csv和train.csv,每一行row代表一个乘客的详细信息,每一列column代表一个feature,最后一列是存活信息,1代表存活,0代表没存活。...

2018-04-25 23:39:16 213

原创 机器学习之特征工程

什么是特征工程特征:从数据中抽取出来对结果预测有用的信息。那么,现在有很多的数据,并不是每一个数据都有用,需要抽取。特征工程:使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好作用的过程。数据采集采集那些对预测结果有帮助的信息。能影响结果的,和结果有关联的,有表面的也有内部的,需要去辨别。数据清洗去掉脏数据。这个过程很花时间,但是能帮助你对业务的理解变得透彻...

2018-04-25 11:10:28 351

原创 socket

一:客户端/服务器架构即sc架构1.硬件c/s架构  2.软件c/s架构二:计算机网络架构 (在上一篇博客中有)https://blog.csdn.net/gaoyishu91/article/details/80059455三:socket为什么有socket,因为在应用层中软件产生的数据,必须打包好,通过tcp传输给网络层,那么数据打包必须遵循tcp格式才行。socket可以给一个工具去简单的...

2018-04-24 16:11:55 116

原创 网络通信原理

网络协议1.互联网的本质就是一系列的网络协议。2.互联网协议按照功能不同分为osi七层:应,表,会,传,网,数,物。五层:应,传,网,数,物。层的作用1.物理层:基于电器特性发送高低电压,高压对应数字1,低压对应数字0.2.数据链路层:以太网协议 (网卡)规定:一组电信号构成一个数据包,叫做 帧。每一个数据帧分成:头head和数据data两个部分head是18个字节 发送者6,接收者6,数据类型6...

2018-04-24 10:42:03 2134

原创 反射等一系列内置函数

hasattr(obj,"name")getattr(obj,"name",default = xx)setattr(obj,"name", '')delattr(obj,'name')在文件中用反射def sa_hi(): print('Nihao a')isinstance(obj,cls) #判断一个对象是否是一个类的对象,也可以判断是否是父类的,反应族谱关...

2018-04-22 16:35:34 154

原创 授权

import timeclass Open: def __init__(self,filename,mode = 'r', encoding = 'utf-8'): self.file = open(filename,mode,encoding=encoding) #得到一个文件句柄 self.mode = mode self.encod...

2018-04-22 00:08:31 155

原创 getattr,setattr,defattr,__getattr__,__setattr__,__delattr__,反射,继承,派生

#程序可以访问检测修改它本身状态的能力。# 四个函数 参数均是 前面func名称,后面是字符串# hasattr() object,name 判断object中有没有一个name字符串对应的方法或者属性# getattr() 获得func的属性字典(__dict__)中key对应的值,数据属性就是值,函数属性就是地址。= func.name# setattr() 设置,和改字典一样。...

2018-04-21 23:22:50 162

原创 多态,继承,封装

多态:对象如何通过他们共同的属性和动作来操作和访问,而不用考虑他们的类,反应在执行时候。python中一切皆对象,不同的对象调用相同的方法,获得结果。比如len可以计算列表长度,字符串长度。len(str1)-----> str1.__len__()len(list)----->list.__len__()所以,都是调用对象的方法,是面向对象。那么,他们调用的都是相同的属性,没考虑他们...

2018-04-21 11:13:46 102

原创 特征工程和数据预处理常用工具和方法

import pandas as pdtrain_data = pd.read_csv("train.csv")train_data.shape #应该是给了property(891, 12)train_data.describe()train_data["Age"].fillna(value=train_data["Age"].mean())terfrom sklea...

2018-04-20 00:50:35 2382

原创 面向对象编程(复习用)

三大编程范式:面向过程编程,面向对象编程,函数式编程。类:把一类事物的相同特征和动作整合到一起就是类。抽象概念。对象:就是基于类而创建的一个具体事物。实例化:由类生产对象的过程就是实例化。比如,类定义了一些特征和动作,那么98K是type 狙击枪,feature杀伤力大,装八倍镜,m24也具有这些特征,除了name不同。就可以将栓狙的共性结合在一起,特征也结合在一起。把他们全部包起来装好。所以,面...

2018-04-19 12:49:31 191

原创 configparser的使用去操作配置文件

import configparser #写配置文件config = configparser.ConfigParser() #有了一个空字典 config = {}config["DEFAULT"] = {"yishu":"27"} #defalut操作和字典一样,给键值对config["bitcome"] = {} #如果想创建新的配置类型,你要给它名字,先创建一个新的...

2018-04-18 17:09:38 1450

原创 logging模块

import logginglogging.basicConfig( level=logging.DEBUG, #从哪个级别开始 DEBUG级别最小,所以排他上面的全部打印 filename="logger.log", #默认显示在屏幕(stream),可以输入到这个文件中 filemode = "w", #默认是追加写在log中,w设定成清楚原数据写人新数据 ...

2018-04-18 15:04:37 91

原创 正则表达式

正则表达式可以用于模糊匹配,找东西。import rere.findall("yishu","gasghether")十几个元字符,六个匹配. 通配符 可以代替任意一个字符,除了/nr = re.findall("y..u","gasyghuether")print(r)^ 以什么开头r =re.findall("g..y","gasyghuyther")print(r)

2018-04-17 21:34:45 161

原创 XML模块

json和pickle跳过,直接xml。先看xml的数据类型:<?xml version="1.0" encoding="UTF-8"?><note> #标签 <to>Tove</to> #闭合标签 还有自闭合标签 <from>Jani</from> <heading

2018-04-17 17:05:55 209

原创 基本的模块介绍

time模块 根据目的不同,转换时间的显示形式import datetimeprint(datetime.datetime.now()) #2018-04-18 09:08:28.282755#时间戳 是一个秒数,计算print(time.time()) #float表达式#结构化时间 当地时间t = time.localtime() #拿到时间对象print(t.tm_year)...

2018-04-17 10:13:55 182

原创 特征工程初步学习

基本数据处理1.缺失值的填充df_train['Age'].fillna(value = df_train['Age'].mean()) #df_train数据包含关键字age的column,中间的缺失值用该列平均值填充。用sklearn的包from sklearn.preprocessing import Imputerhelp(Imputer)Imputation transformer ...

2018-04-17 00:55:23 138

原创 python相关知识点整理四(自己复习用)

filter, map, reduce几句话就能讲明白filter(function, iterable) 作用的是可迭代对象,list / tuple / dict / set / strlists = ['11班01','11班02','12班02','13班02'] #可迭代对象f = filter(lambda x: x.startswith('11班'),lists) #遍历li...

2018-04-16 23:44:25 126

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除