秋天の-CSDN博客

原创 hive、pg库：新增字段、修改字段类型 alter table

hive、pg库：新增字段、修改字段类型 alter table

2022-09-08 10:11:10 2725

Python 列表数据分布区间统计数量例如：把年龄间隔20岁作为区间，统计每个区间的人数import pandas as pdages=[24,22,26,30,25,23,47,31,51,45,43,13]bins=[0,20,40,50,60,70,80,90,100]#将年龄划分为18-25，26-35，36-60,60以上cats=pd.cut(ages,bins)print(pd.value_counts(cats)) #按区间计数print(pd.cut(

2022-03-23 17:41:04 9146 2

原创 sql建表与gp建表语句

sql数据库建表语句、GP数据库建表语句

2022-03-18 09:54:52 1349

原创 sql 常见查询语句

sql 常见查询语句

2022-01-18 16:59:29 1364

原创 sql 按日期或按顺序统计累计值

sql 按日期，或按顺序，统计每一天的累计值。

2022-01-18 16:20:34 6830

原创 Python value_counts() 变DataFrame

data1 = data['date'].value_counts().rename_axis('date').reset_index(name='count')

2021-12-07 16:02:33 2878

原创 python 时间日期格式转换

2021-10-13 11：00 转为 2021-10-13语句为：data.occur_time.map(lambda x: x.strftime('%Y-%m-%d'))

2021-12-07 16:00:36 781

原创 sql inner join、left join、right join的区别举例

sqla表与b表的inner join、left join、right join的区别举例结果如下：

2021-06-25 11:11:22 91

原创 linux系统编码错误、退格键失效纠正

linux系统编码错误、退格键失效纠正linux系统编码错误纠正linux系统backspace退格键失效，backspace退格键使用不了

2021-06-25 11:05:13 330

原创 Python 列表里有字段的键值元素，如何排序

列表格式如下：aaa=[{'7901': 0.762},{'7904': 0.401},{'7906': 0.391},{'7259': 0.585},{'7256': 0.522}]对列表aaa中，字典的value排序。变成：[{'7901': 0.762},{'7259': 0.585},{'7256': 0.522},{'7904': 0.401},{'7906': 0.391}]def take(kk): return list((kk.values()))[...

2021-04-28 14:20:59 168

原创 Python 识别nan，浮点型数据

nan值，通常是个浮点型数据，有时候很难识别出nan值。如果判断变量为nan值是否等于其变量本身，就可以判断这个变量是否nan值了。a = float('NaN')aOut[135]: nantype(a)Out[136]: floata !=aOut[137]: True...

2021-04-28 14:15:16 1506

原创 Python 连接oracle数据库，读取oracle数据，并存为DataFrame

连接oracle数据库，读取oracle数据，并存为DataFrameimport cx_Oracleimport osos.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8' #设置解码格式，使查询结果可显示中文conn=cx_Oracle.connect('用户名/密码@IP:端口/服务名') #连接数据库cursor = conn.cursor()cursor.execute('select * from ...

2021-04-08 17:03:41 745

原创 Python 柱状图

柱状图代码。横坐标表示值。纵坐标表示总数。柱状图能看出数据各个值的的总数情况。import matplotlib.pyplot as pltX=df2['id'].astype(str)Y=df2['number']fig = plt.figure()plt.bar(X,Y)plt.xlabel("PRICE_LAN_ID")plt.ylabel("COUNT")plt.xticks(rotation=60)plt.show() 输入数据如下：输出结果如下：..

2021-04-08 16:58:20 238

原创 Python 频数直方图

频数直方图代码。横坐标表示值。纵坐标表示频数。频数直方图能看出数据总体的分布情况。import numpy as npimport matplotlib.pyplot as pltimport matplotlib import pandas as pddata=pd.read_excel('test.xlsx')data=data['free_sco-0.3']def draw_pic(free_sco): plt.rcParams['font.sans-serif.

2021-04-01 16:54:17 2772

原创 linux 使用Xshell连接HIVE数据库

linux系统下，需要用到xshell去连接数据库。1、在linux服务器上面。直接输入hive2、输入数据库名称use 数据库名；3、显示该数据库名下，所有数据表show tables ；4、打开数据库名下，某一张数据表AAAselect * from AAA ；...

2021-03-12 16:57:33 3786

原创 Python 使用sql查询语句，execute(sql)，结果保存到变量

Python调用sql数据库的数据，使用sql语句，execute(sql)。根据dataFrame中，查询该字段“contnet_id”，对应的"content"，结果保存到一个变量。from sqlalchemy import create_enginedef content(ids): engine=create_engine("mysql+pymysql://账号:密码@127.0.0.1:5050/数据库名",echo=True,connect_args={'charset'

2021-02-23 11:29:23 5630 1

原创 python 模拟鼠标点击+bs4一键爬取多个网页新闻（题目、媒体、日期、内容、url）

在搜狗新闻中，输入关键词（两岸关系发展前景）后，出现6页有关于这个关键词的新闻。现在目的就是爬取有关这个关键词的网页文章，如题目、媒体、日期、内容、url。如下图：加载包import requestsfrom bs4 import BeautifulSoup #bs4import reimport pandas as pdimport urllib....

2021-02-01 14:32:30 4896 6

原创 Python 列表取出除了指定某个词之外的词，重新组成列表

承接python、R、sql、spss作业代写：数据分析、数据挖掘、数据爬虫、机器学习、模型代跑、算法优化https://item.taobao.com/item.htm?spm=a2oq0.12575281.0.0.50111deb9xAUhJ&ft=t&id=634285173072

2021-01-14 16:06:24 1952

原创 R语言下载包出错Warning: 无法在貯藏處https://cloud.r-project.org/src/contrib中读写索引:

报错原因，竟然是ie浏览器的问题，unbelievable1、在R中，下载包的时候，却发现报错：Warning: 无法在貯藏處https://cloud.r-project.org/src/contrib中读写索引: 无法打开URL'https://cloud.r-project.o2、后来针对CRAN重新选择，但以下这几个都选择了一遍。都还是报错。3、最后找到原因了。下载包是依赖本机的ie浏览器下载的。本身电脑的ie浏览器出错了，打开是网页显示打不开的。所以导致下...

2021-01-13 11:16:34 17648 7

原创 python DataFrame某两列组成一个矩阵

情况一：以某列统计类型，按类型分类数据如下：结果如下：代码：df.groupby(['key1']).count() 情况二：以某列为值，统计另一列与之对应的类型分布数据如下：结果如下：代码如下：df=pd.get_dummies(data.article_id).groupby(data.user_id).apply(max)...

2020-11-18 15:27:35 3720

原创 python doc文档转化为html文档，保留大部分原有格式、字体、字体颜色

如下doc文档的图。与转化为html的图作对比，效果还是不错的。doc转化为html，代码如下：from pydocx import PyDocXhtml = PyDocX.to_html("防晒指南.docx")f = open("test.html", 'w', encoding="utf-8")f.write(html)f.close()...

2020-11-12 15:33:22 1583 1

原创 python 调用接口数据，并转码‘utf-8’

python 调用url接口，获取里面的内容，如：url='https://m.weibo.cn/statuses/show?id=HgumKdvQ3',打开是json格式。如下图所示：上图并不是utf-8格式，需要转码：import jsonimport requestscontent_urls='https://m.weibo.cn/statuses/show?id=Jt8kuncgB'r = requests.post(url=content_urls)r.textr.jso

2020-11-11 14:52:15 1146

原创 python 时间转换：前天、3天前、1周前、1小时前、昨天、2019-11-04、11-04、11月04日

时间转换：前天、3天前、1周前、1 周前、1小时前、昨天。均转化为 '%Y-%m-%d %H:%M:%S' 此格式。import reimport timefrom datetime import datetimedef beforeHours2Date(hours, date_format='%Y-%m-%d %H:%M:%S'): hours = int(hours) t = time.time() - hours*60*60 t = time.st...

2020-11-04 12:00:40 1590 1

原创 Python 根据图片url，批量下载图片

根据图片url。批量下载图片：import osimport requestspath=os.getcwd()+'\\abc\\' #设置图片文件路径，前提是必须要有abc这个文件夹import pandas as pddf=pd.read_excel('url1.xlsx')urls=df['url']for i in range(len(urls)): print(i) # url = 'http://pic.qiushibaike.com/syste..

2020-10-10 17:36:48 11781 1

原创 Python datatime 可获取时间段的数据

from datetime import datetimetarget_time = '2020-01-09 22:32:14' #实际时间format_pattern = '%Y-%m-%d %H:%M:%S'cur_time = '2020-08-06 00:00:00' #在这时间之后difference = (datetime.strptime(target_time , format_pattern) - datetime.strptime(cur_time, form...

2020-09-29 15:33:09 748

原创 Python 获取当前路径及上一级路径

1、获取当前路径parent = os.path.dirname(os.path.realpath("__file__"))2、获取上一级路径garder = os.path.dirname(parent)

2020-09-29 15:31:03 2079

原创 python 重置索引、列表重命名、删除空值

1、重置索引df=df.reset_index(drop = True)2、列表重命名df=df.rename(columns = {'内容': "content", "转发内容":"tran_content"})3、删除data中某列含有空值的整行df=df[df['content'].notna()]、def useFilter(df,colslist): df = df[colslist] if 'content' in df.column...

2020-08-17 11:47:31 3376

原创 python 保留正则之外的字符（去除正则出来的内容）

采用微博文本，文本内容中，很多都带@XXX作者的名称。这类名称的存在，严重影响数据的质量。'@喵了个咪://@快快封刀:化妆//@我马上来:是啊，今天这个活动搞得不错 '经过正则处理后：'是啊，今天这个活动搞得不错 'import rea='//@喵了个咪://@快快封刀//@我马上来:是啊，今天这个活动搞得不错'b=re.findall(r'(//@.*?:)',a)for i in range(len(b)): a=a.replace(str(b[i]),''.

2020-08-10 12:04:40 666

原创 Python 运维 linux离线安装python环境anaconda3

发现linux系统是离线时，运行python文件，各种报错，各种包要离线安装。1、安装 anaconda3环境下载https://www.anaconda.com/products/individual2、安装annconda文件bash Anaconda3-2020.02-Linux-x86_64.sh3、配置环境变量通过 /etc/profile文件vi /etc/profile在这个文件的后面加上：export PATH = /root/anaco..

2020-07-03 11:08:59 1338

原创 git 上传gitlab项目总结

2020-07-02 16:37:20 110

原创 python pip install 出错 SystemTimeWarning

出现SystemTimeWarning：在安装第三方包时，cmd后输入pip install pymysql时出现以下错误：SystemTimeWarning,Could not fetch URL https://pypi.org/simple/pip/: There was a problem confirming the ssl certificate: HTTPSConnectionPool(host='pypi.org', port=443): Max retries exceeded.

2020-06-30 10:56:32 1052

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

分类文档 data.xlsx

作词频数据使用.xlsx

空空如也