0 grandesucesso

尚未进行身份认证

我要认证

暂无相关简介

等级
TA的排名 43w+

Python读取Excel时把文本数据自动识别为float或int类型的解决办法

在使用Python做数据分析时,经常需要导入保存在Excel中的数据集文件,但很多时候Python的Pandas会把Excel中的文本数据(例如员工编号,身份证号,不同城市的数字代码等数值型文本)识别为'float'或'int'类型, 而这并不是我们所需要的,特别是在有些机器学习模型中需要对连续型数据和离散型数据(字符串,也就是文本)进行严格区分。看下面的栗子:数据集Excel长这样:现在我们用Pandas把该Excel文件读入Python中:data=pd.read_excel(r"F:\...

2020-07-03 12:07:12

python sklearn库实现多元线性回归模型的建立,并进行评估和调优

https://www.jianshu.com/p/00df8c347a85

2020-06-15 21:44:36

LinearRegression模型与SGDRegressor模型的性能比较

https://www.cnblogs.com/King-Key/p/12024147.html

2020-06-15 08:27:22

分类型变量独热编码后添加列标题

2020-06-12 23:00:23

关于ValueError: Expected 2-D array, got 1-D array instead:的报错原因及解决办法

直接上代码来说明问题:import pandas as pdfrom sklearn.preprocessing import OneHotEncoderfrom sklearn.preprocessing import LabelEncoderfrom sklearn.preprocessing import LabelBinarizerfrom sklearn.preprocessing import MultiLabelBinarizer# 创建测试数据testdata=pd.D

2020-06-08 10:53:26

为什么要对分类型变量进行独热编码?

文章转载自:https://www.cnblogs.com/whisper-yi/p/6079177.html独热编码在数据处理中的作用独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。例如对六个状态进行编码:自然顺序码为 000,001,010,011,100,101独热编码则是 000001,000010,000100,001000,010000,100000.

2020-06-07 15:39:43

Python中对某一列数据添加排序序号并取出特定序号对应的行

需求:有时我们需要对DataFrame中某一列进行升序或降序排列,并取出某个/些排序序号对应的行。示例:以下是全球部分国家不同酒类(啤酒,白酒,红酒)的消耗量,我们要找出中国的啤酒消耗量在这些国家中排第几名。import numpy as npimport pandas as pd drinks=pd.read_csv(r"C:\Users\ABC\Desktop\drinks.csv",keep_default_na=False)drinks.head(10) # 设置'kepp_defa

2020-06-06 12:41:55

Python字符串格式化的三种方法:%, format和f-strings

Python字符串格式化的三种方法第一种:%就是上古时代的方法,Python2.6 以前的独霸天下的 "%"操作符:name='Lilei'age=100'Hello, my name is %s, and I am %s years old' %( name, age) 输出结果:第二种:format{} 直接替换字符串就是我常用的 ‘format’。Python2.6 引入,性能比 % 更强大。大概有三种写法:'Hello, my name is {}, and I am {}

2020-06-03 22:07:58

Python添加列值排序序号并输出指定序号对应的行

需求:对数据集中某列数据升序/降序排列并添加一列对应的排序序号;同时输出指定序号对应的行。下面以具体案例来说明怎么实现这一需求。示例:导入数据:本文引用的数据集是世界上各大洲的主要国家在某时间段内的白酒,啤酒和红酒的消耗量。drinks=pd.read_csv(r"C:\Users\grandesucesso\Desktop\drinks.csv",keep_default_na=False)drinks.head(10) # 输出前10行数据# 设置'kepp_default_na=Fal

2020-05-22 22:46:41

Python中自定义函数:计算字符串中每个字符出现的次数

Python中自定义函数:计算字符串中每个字符出现的次数**需求:**在Python中自定义一个函数,用该函数接收输入的字符串中每个字符出现的次数。代码:s=input('请输入字符串:')dic={} # 新建一个空字典,用来接收字符串中每个字符(键)和其出现的次数(值)for i in s: dic[i]=s.count(i) # 因为字典的键具有唯一性,因此字符串中重复的字符也不会重复出现在字典中dic 测试:输出结果:...

2020-05-15 09:13:10

mysql-installer-community-8.0.18.0 for Windows(64位)安装包--免积分直接下载

众所周知,在MySQL官网上下载安装包简直是龟速,这让很多想安装mysql的小伙伴简直无法忍受。今天就直接奉上mysql社区版8.0.18.0版本的安装包供各位有需要的小伙伴下载使用。...

2020-05-15 08:48:59

SQL分组后取出每组的第N条(或第几大/小的)记录(全网最简单的方法)

在实际工作中,有时我们需要用SQL语句对数据分组后取出每一组内的某一条(如第1条,第2条……第n条,或者第1大/小,第2大/小……第n大/小)记录,下面将介绍实现这一需求的最简单的SQL查询方式。需求:查询每门课程成绩排名第3的学生姓名,对应的课程名称和成绩思路:1. 按照课程名称(course)字段对上表score进行分组,再按照成绩(point) 对每个分组内的记录...

2020-04-24 16:02:11
勋章 我的勋章
  • 签到新秀
    签到新秀
    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 新人勋章
    新人勋章
    用户发布第一条blink获赞超过3个即可获得
  • 阅读者勋章Lv2
    阅读者勋章Lv2
    授予在CSDN APP累计阅读博文达到7天的你,是你的坚持与努力,使你超越了昨天的自己。
  • 持之以恒
    持之以恒
    授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!
  • 勤写标兵Lv1
    勤写标兵Lv1
    授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。