自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 特征工程系列(一):特征工程的概念/特征的处理

1 特征工程的概念 所谓数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。那么特征工程到底是什么呢?其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。2 特征处理  通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题:(1)量纲不同:即特征的规格不一样,不能够放在一起比较。(2)信息冗余:对于某些定量特征,其包...

2020-04-06 17:23:37 1131

原创 spark dataframe转换列的类型

spark在训练机器学习模型时,要求输入的DataFrame的列的类型为数值类型,而一般从原始数据读入的是string类型的数据,故需要将各个列都转为double类型。涉及到了dataframe多个列转化为某种类型的问题。如果是单列,可以用下面的方法:import org.apache.spark.sql.types._val data = Array(("1", "2", "3", ...

2019-10-23 14:46:50 8107

原创 python 静态方法 实例方法 类方法

Python其实有3种方法,即静态方法(staticmethod),类方法(classmethod)和实例方法,如下:def foo(x): print("executing foo(%s)"%(x))class A(object): def foo(self,x): print("executing foo(%s)" % (self.x)) @classmetho...

2018-07-23 18:48:07 332

原创 Python的函数参数传递后 参数可变与不可变问题

首先看下面的例子:a = 1def func(a): a=2func(a)print(a)##1 a = []def func(a): a.append(1)func(a)print(a)##[1]解释如下:类型是属于对象的,而不是变量。而对象有两种,“可更改”(mutable)与“不可更改”(immutable)对象。在python中,string...

2018-07-23 18:41:09 859

原创 python zip()函数

zip函数的原型为:zip([iterable, …])参数iterable为可迭代的对象,并且可以有多个参数。该函数返回一个以元组为元素的列表,其中第 i 个元组包含每个参数序列的第 i 个元素。返回的列表长度被截断为最短的参数序列的长度。只有一个序列参数时,它返回一个1元组的列表。没有参数时,它返回一个空的列表。当没有参数的时候当只有一个参数的时候当多个参数长度不同...

2018-07-23 18:35:24 306

原创 Python 字符串操作总结

 sequence类型都支持的一些通用操作: 成员检查:in、not in   'Py' in str    'python' not in str 连接:+               str_new = str1 + str2 复制:*                str ...

2018-07-22 17:44:12 1007

原创 Python 中for...esle和while...else语法

Python中的for、while循环都有一个可选的else分支(类似if语句和try语句那样),在循环迭代正常完成之后执行。换句话说,如果我们不是除正常以外的其他方式退出循环,那么else分支将被执行。也就是在循环体内没有break语句、没有return语句,或者没有异常出现。 (1)break情况下面我们来尝试在循环中执行break退出:#首先定义一个幸运数字,这样条例比较...

2018-07-22 17:28:45 677

原创 Python中的random模块

Python中的random模块用于生成随机数。下面介绍一下random模块中最常用的几个函数。random.random()random.random()用于生成一个0到1的随机符点数: 0 <= n < 1.0import randomprint(random.random())# 0.15265846707832142random.uniform()...

2018-07-21 22:09:03 212

原创 Python中join函数和os.path.join

Python中有join和os.path.join()两个函数,具体作用如下:join:连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串os.path.join():  将多个路径组合后返回函数说明:(1)join函数语法:‘sep’.join(seq)参数说明:sep:分隔符,可以为空。seq:要连接的元素序列、字符串、元组、字典等...

2018-07-21 21:29:28 334

原创 python中的枚举

当我们需要定义常量时,一个办法是用大写变量通过整数来定义,例如月份:JAN = 1FEB = 2MAR = 3...NOV = 11DEC = 12         甚至可以通过字典,或者建立一个类,通过属性名与属性值之间的对应实现枚举的功能,但是会有如下缺点:1.枚举值可以修改2.用类定义的话,这些枚举功能的类可以被实例化3.枚举值是否重复无法检查...

2018-07-21 21:00:33 2015

原创 Python中的三元运算符

语法如下:a if test else b根据test的布尔值来判断返回的是a还是b;如果test为真则返回a,反之则返回b.举例:print("True" if True else "False")# Trueprint("True" if False else "False")# False...

2018-07-21 20:58:40 450

原创 Python判断文件是否存在的三种方法

通常在读写文件之前,需要判断文件或目录是否存在,不然某些处理方法可能会使程序出错。所以最好在做任何操作之前,先判断文件是否存在。这里将介绍三种判断文件或文件夹是否存在的方法,分别使用os模块、Try语句、pathlib模块。使用os模块os模块中的os.path.exists()方法用于检验文件是否存在。判断文件是否存在import osprint(os.path.exists...

2018-07-21 20:57:39 863

原创 Python中的元类(metaclass)

元类是什么?如何使用元类?类对象        在理解元类之前,你需要掌握Python里的类.Python中类的概念借鉴于Smalltalk,这显得有些奇特.在大多数语言中,类就是一组用来描述如何生成一个对象的代码段。在Python中这一点仍然成立:class ObjectCreator(object):    passmy_object = ObjectCreator()print...

2018-07-21 17:34:02 201

原创 Python-copy()与deepcopy()区别

copy()与deepcopy()之间的区分必须要涉及到python对于数据的存储方式:结论:(1)我们寻常意义的复制就是深复制,即将被复制对象完全再复制一遍作为独立的新个体单独存在。所以改变原有被复制对象不会对已经复制出来的新对象产生影响。(2)而浅复制并不会产生一个独立的对象单独存在,他只是将原有的数据块打上一个新标签,所以当其中一个标签被改变的时候,数据块就会发生变化,另一个标签...

2018-07-21 16:55:44 274

原创 python 解包

所谓的解包(Unpacking)实际上可以看做是去掉()的元组或者是去掉{}的字典。 解包sequencep = (4,5)x,y = pprint(x)print(y)#x=4#y=5data = ["Alice",50,91.1,(2012,12,21)]name,shares,price,date = dataprint(name)print(date)#"Alice"#...

2018-07-21 16:50:27 255

原创 航空公司客户价值分析

1.背景方面准确的客户分类的结果是企业优化营销资源的重要依据,本文利用了航空公司的部分数据,利用Kmeans聚类方法,对航空公司的客户进行了分类,来识别出不同的客户群体,从来发现有用的客户,从而对不同价值的客户类别提供个性化服务,指定相应的营销策略。本次数据挖掘与数据分析目标:(1)借助航空公司数据,对客户进行分类;(2)对不同类别的客户进行特征分析,比较不同类别客户的价值分析;...

2018-07-20 22:05:19 9164 1

原创 电力窃漏电用户自动识别

    本文完整的叙述了数据分析实战项目“电力窃漏电用户自动识别”,包括数据探索分析、数据预处理、专家样本的构建、模型的构建以及模型的评价等。1.背景方面    传统的防窃漏电方法主要通过定期巡检、定期校验电表、用户举报窃电等方法来发现窃电或计量装置故障。但这种方法对人的依赖性太强,抓窃查漏的目标不明确。通过采集电量异常、负荷异常、终端报警、主站报警、线损异常等信息,建立数据分析模型,来实...

2018-07-19 22:57:07 8805 3

原创 python-单例模式

    单例模式(Singleton Pattern)是一种常用的软件设计模式,该模式的主要目的是确保某一个类只有一个实例存在。当你希望在整个系统中,某个类只能出现一个实例时,单例对象就能派上用场。    比如,某个服务器程序的配置信息存放在一个文件中,客户端通过一个 AppConfig 的类来读取配置文件的信息。如果在程序运行期间,有很多地方都需要使用配置文件的内容,也就是说,很多地方都需要创建...

2018-06-16 11:12:37 253

原创 Python 鸭子类型

    “当看到一只鸟走起来像鸭子、游泳起来像鸭子、叫起来也像鸭子,那么这只鸟就可以被称为鸭子。”    我们并不关心对象是什么类型,到底是不是鸭子,只关心行为。    比如在python中,有很多file-like的东西,比如StringIO,GzipFile,socket。它们有很多相同的方法,我们把它们当作文件使用。    又比如list.extend()方法中,我们并不关心它的参数是不是l...

2018-06-15 15:39:44 507

原创 python装饰器详解(四)---把参数传递给装饰器

因为装饰器必须接收一个函数当做参数,所以不可以直接把被装饰函数的参数传递给装饰器.装饰器就是一个普通的函数,回顾def my_decorator(func):    print("I am an ordinary function")    def wrapper():        print("I am function returned by thedecorator")        fu...

2018-06-14 16:45:14 6312 1

原创 python装饰器详解(三)---装饰器高级用法

1. 在装饰器函数里传入参数def a_decorator_passing_arguments(function_to_decorate):    def a_wrapper_accepting_arguments(arg1,arg2):        print("Igot args Look!",arg1,arg2)        function_to_decorate(arg1,arg2)...

2018-06-14 16:18:34 531

原创 python装饰器详解(二)---实现装饰器

装饰器就是把其他函数作为参数的函数def my_shiny_new_decorator(a_function_to_decorate):    # 在函数里面,装饰器在运行中定义函数: 包装.    # 这个函数将被包装在原始函数的外面,所以可以在原始函数之前和之后执行其他代码..    def the_wrapper_around_the_original_function():        ...

2018-06-14 15:49:21 313

原创 python装饰器详解(一)---基础知识

1. Python中的函数都是对象比如:def shout(word="yes"):    return word.capitalize()+"!"print(shout())# 输出 : 'Yes!'作为一个对象,你可以把它赋值给任何变量scream = shoutprint(scream())# 输出 : 'Yes!'    我们没有加括号,我们并不是调用这个函数,我们只是把函数"shout"...

2018-06-14 15:34:59 362

原创 Python中的 迭代对象、迭代器、生成器

    容器(container)、可迭代对象(iterable)、迭代器(iterator)、生成器(generator)以及列表/集合/字典推导式(list,set,dictcomprehension)均是python中重要的概念。本文主要对容器、可迭代对象、迭代器、生成器做详细的讲解。如有不足,欢迎指正。下图显示容器、可迭代对象、迭代器、生成器之间的关系,网上截图!!!1.容器(contai...

2018-06-13 09:53:36 197

原创 python的各种推导式

    推导式comprehensions(又称解析式),是Python的一种独有特性。推导式是可以从一个数据序列构建另一个新的数据序列的结构体。共有三种推导,在Python2和3中都有支持:l  列表(list)推导式l  字典(dict)推导式l  集合(set)推导式1.列表推导式(1)使用[]生成list基本格式:variable = [out_exp_res for out_exp in...

2018-06-12 08:27:27 749

原创 python中getattr(),hasattr(),setattr()

    getattr(),hasattr(),setattr()是python实现“自省”的三个重要方法,用来访问或者检查对象属性,这些方法可以用于任意对象,python中一切都是对象。(1)hasattr(obj, attr):这个方法用于检查obj是否有一个名为attr的值的属性,返回一个布尔值。(2)getattr(obj, attr):调用这个方法将返回obj中名为attr值的属性的值,...

2018-06-10 11:05:38 307

原创 Python-copy()、deepcopy()、字典类型的copy的区别及解释

    各种之间的区分必须要涉及到python对于数据的存储方式。   有关copy()和deepcopy,先看下面两条结论,接下来大家可以带着这两条结论进行下面的分析:    (1)寻常意义的复制就是深复制,即将被复制对象完全再复制一遍作为独立的新个体单独存在。所以改变原有被复制对象不会对已经复制出来的新对象产生影响。    (2)而shallow copy并不会产生一个独立的对象单独存在,他只...

2018-05-15 11:38:31 6880 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除