自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(75)
  • 资源 (2)
  • 收藏
  • 关注

原创 flink中AggregateFunction 执行步骤以及含义全网详细解释

package operator;import org.apache.flink.api.common.functions.AggregateFunction;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.functions.Reduce..

2020-10-20 21:16:57 2604 1

原创 2020-08-13

https://www.cnblogs.com/daizhengyang/p/13384169.html https://blog.csdn.net/qq_27289001/article/details/77150598 https://www.cnblogs.com/wujuntian/p/6821442.html 查看帮忙命令 hlep--server级别 db.he...

2020-08-13 16:22:24 159

原创 python  浅拷贝 深拷贝 

----------------------不改变父对象类型----------import copya = [1, 2, 3, 4, ['a', 'b']] # 原始对象b = a # 赋值,传对象的引用c = copy.copy(a) # 对象拷贝,浅拷贝d = copy.deepcopy(a) # 对象拷贝,深拷贝a.appe...

2020-04-10 13:53:23 207

原创 #解决matplottlib显示中文的问题 # 仅适用于Windows

#解决matplottlib显示中文的问题# 仅适用于Windowsplt.rcParams['font.sans-serif']=['SimHei'] #指定默认字体plt.rcParams['axes.unicode_minus']=False #解决保存图像时符号-显示为方块的2问题...

2019-11-12 14:03:13 176

原创 自写逻辑回归(利用随机梯度下降法)

'''梯度下降法需要对每个杨讷都需要遍历。时间复杂度太大为了解决这个时间复杂度问题,我们最常用的算法其实是随机梯度下降法,可以理解成是梯度下降法的一个变种。''''''随机梯度下降法的核心思想是:每一次的迭代更新不再依赖于所有样本的梯度之和,而是仅仅依赖于其中一个样本的梯度。所以这种方法的优势很明显,通过很“便宜”的方式获得梯度,并频繁地对参数迭代更新。这里最大的问题是梯度...

2019-11-05 14:56:35 1432 1

原创 自写逻辑回归(利用梯度下降法)

import numpy as npimport matplotlib.pyplot as plt# 随机生成样本。二分类问题。每个类别生成5000个样本数据np.random.seed(12)num_observation=5000#正太分布 multivariate_normal(mean, cov, size=None, check_valid=None, tol=None...

2019-11-04 23:46:05 247

原创 np.where(y==1) 返回y=1的下标

pos=np.where(y==1) # 返回y=1的下标neg=np.where(y==0)

2019-11-04 22:45:01 881

原创 KNN回归-预测二手车

'''KNN是一个典型的分类模型,就时预测类别,例如苹果,香蕉等。预测的结果是训练集上已经包含的类别,并不会预测出新的类别二手车价格预测是预测车的价格,是数值。理应按照回归算法来算怎么用knn来实现回归问题呢? 找到最近的K样本之后,我们直接取了平均作为预测值,很直观这里给出了对于数据的简单描述。Ask Price 字段是我们要预测的值,即二手车的...

2019-10-28 00:00:41 803

原创 交叉验证_一KNN为例子

'''k折交叉验证k折交叉验证里面的k并不是Knn里面的k(eighbors) 在KNN里,通过交叉验证,我们即可以得出最合适的K值。它的核心思想无非就是把一些可能的K逐个去尝试一遍,然后选出效果最好的K值。一般情况将K折交叉验证用于模型调优,找到使得模型泛化性能最优的超参值。,找到后,在全部训练集上重新训练模型,并使用独立测试集对模型性能做出最终评价。https://...

2019-10-17 11:24:47 4254

原创 knn的调用库和knn手写

from sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifierimport numpy as npfrom sklearn.metrics import accuracy_scorei...

2019-10-14 23:50:18 546

原创 数据处理中 男性变为1 女性变为0

knn_train['Sex'][knn_train['Sex'] == 'male'] = 1 knn_train['Sex'][knn_train['Sex'] == 'female'] = 0 

2018-11-21 22:15:17 12422

原创 while else 和for else

1.#while else 和for else# 因为else语句不是独立语句而是语句块,语句块只有当回退到和与闭合的块# 一样的缩进量时语句结束,所以else语句不会单独结束'''while else 和for else意思就是while是和else一块的。当有break或者return的时候,会跳出while块,又因为while和else是一个整体,所以就跳出el...

2018-11-11 11:15:12 11296 1

原创 把dataframe的一列设为索引

#df.set_index('列名',inplace=True)

2018-10-05 16:18:05 23212 3

原创 dataframe中有很多维度的参数。用dataframe.plot的时候。我就只要一个维度的。(x轴默认的就是index)

#注意下面的绘制图像的简单的方法,可以直接dataframe类型的.plot results_df.plot(y=['Accuracy (%)'], kind='bar', ylim=[50, 100], ax=ax1, title='Accuracy(%)', legend=False) ax2 = plt.subplot(1, 2, 2)#(x轴默认的就是index)...

2018-10-04 20:12:20 3482

原创 图表 x轴是类别,y轴是个数。类似频率图

import seaborn as sns sns.countplot(x='price_range',data=train_data) #统计train_data总数据中price_range列中每个每个数字的个数 plt.title('Training_Data') # plt.xticks(rotation='vertical') plt.xlabe...

2018-10-04 19:38:20 1037

原创 绘图中一条直线进行上下填充

#化直线plt.semilogx(c_range,train_scores_mean,label='Training score', color='darkorange',lw=lw)#画直线上下的偏移,然后进行涂色plt.fill_between(c_range,train_scores_mean-train_scores_std, ...

2018-10-02 21:43:07 309

原创 当很多数据中比如水果类型1,2,3,水果标签苹果,例子,香蕉 很多这样的,这样给筛选出来

#创建目标标签和名称的字典 即1代表一种水果,2代表另一种水果 3代表另外一种水果fruit_name_dict=dict(zip(fruits_df['fruit_label'],fruits_df['fruit_name']))print(fruit_name_dict) #{1: 'apple', 2: 'mandarin', 3: 'orange', 4: 'lemon...

2018-10-02 21:06:18 1362

原创 根据数值型变量设置图片的颜色

%matplotlib notebookfrom mpl_toolkits.mplot3d import Axes3Dlabel_color_dict = {1: 'red', 2: 'green', 3: 'blue', 4: 'yellow'}colors = list(map(lambda label: label_color_dict[label], y_train)) #利用...

2018-09-25 15:46:51 406

原创 解决时间年份格式显示不全的bug

data=pd.read_excel('./附件1.xlsx',header=0)plt.figure(figsize=(15,6))data=data[data['doubtterr']==0]data=data[['iyear','eventid']]data=data.groupby('iyear'). count()print(data)x=data.indexy=data...

2018-09-18 18:27:40 1030

原创 设置x轴的标签,由于x轴的文字性。不太好用text #前面用range代替,一边后面text 这里在此重新返回

df_city=data_1_c.groupby('居住地').count()# print(df_city)data_2['city']=data_2['地区'].str[:-1] #map(lambda x:x[:-1] ,data_2['地区'])# print(data_2)q1data=pd.merge(df_city,data_2,left_i...

2018-09-18 17:25:56 233

原创 根据手机参数对手机价格进行预测

#---------------------------config文件夹----------------------import osimport pandas as pd# 数据集路径dataset_path = './data'# 输出集路径output_path = './output'if not os.path.exists(output_path): o...

2018-09-14 21:51:29 1019

原创 plt在两点间画图像 plt.plot([10,20],[30,40],color='gray') #误差线(10,30) (20,40) 两点画图

fig=plt.figure(figsize=(10,4))ax1=fig.add_subplot(1,2,2)plt.plot(x_test,y_test,color='r',linewidth=2,linestyle='--') #目的就是画出模型的直线plt.scatter(xtrain,ytrain,marker=',',color='k') ...

2018-09-12 19:30:24 704

原创 plt中画直方图时候,bar中会不分条形图的边界

plt.bar(range(20), y1, width=0.8, edgecolor='k', #边缘线框颜色 facecolor='yellowgreen', tick_label=q1data_20_sl['city'] #设置x轴的标签 )...

2018-09-12 16:56:50 1680

原创 eval 保留输入的类型,否则输入一个字典格式的,结果成了str类型的

 lst=eval(input('输入一个列表'))  #作用是会保持输入的类型。不加的话输入是数组,结果变成了str类型的

2018-09-10 02:44:13 418

原创 缺失值的数量

nan_counts=len(data[data.isnull()]) 

2018-09-10 00:26:57 511

原创 线程中----主线程只等待一秒。一秒过后。主线程执行。不管子线程是否执行完毕都要扼杀

import threadingimport timeevents=threading.Event()def fun_1(event): print('开始第一步,第二部正在等待中......') event.wait() print('第二部完成')t1=threading.Thread(target=fun_1,args=(events,))t1.set...

2018-09-06 11:38:58 637

转载 pyhon多线程学习——setBaemon方法

Python多线程学习 setDaemon方法2014年08月22日 16:31:13 阅读数:1975收起个人分类: Python(2)setDaemon方法:# -*- coding: utf-8 -*- import threadingimport time class myThread(threading.Thread):    def __init__(self,...

2018-09-05 22:46:32 155

转载 Python 一篇学会多线程

yeayee------>更多技巧------>更多源码------>www.yeayee.comPython 一篇学会多线程多线程和多进程是什么自行google补脑,廖雪峰官网也有,但是不够简洁,有点晕,所以就整个简单的范例。  对于python 多线程的理解,我花了很长时间,搜索的大部份文章都不够通俗易懂。所以,这里力图用简单的例子,让你对多线程有个初步的认识...

2018-09-05 11:19:35 160

原创 在一张散点图中,数值大于某个值的用一种颜色。另外的数据用另一种颜色

#思路 分开画。在一张图中画两个。用不同颜色# =========================异常值分析====================# (2)箱型图分析fig = plt.figure(figsize = (10,6))ax1 = fig.add_subplot(2,1,1)color = dict(boxes='DarkGreen', whiskers='Dar...

2018-09-04 20:14:36 3405 1

原创 #根据两点直线图

ax3.plot([x1,x2],[y1,y2],'-r')  

2018-09-04 13:42:09 141

原创 pandas中基本操作——如缺失值处理。等

# =====替换缺失值===data[data.isnull()] = 0 data.fillna(0,inplace=True)#====25% 和75%===sta = data['A_sale'].describe() #.describe()中有基本的数据,自己可以打印试试stb = data['B_sale'].describe()#print(sta)...

2018-09-04 13:41:35 185

原创 dataframe中用一个比较每两个数字的增长率

#========前一天减去上一天然后在除以前一天计算百分比=============#==========1============data=pd.DataFrame({'A':[1,3,5,7], 'B':[2,4,6,8]})print(data)data['百分率']=pd.Series(map(lambda x:((data['A'][x...

2018-09-03 22:09:35 3933

原创 dataframe中的小数显示为百分数(apply(匿名函数))

data['B_per%'] = data['B_per'].apply(lambda x: '%.2f%%' % (x*100)) 

2018-09-03 21:20:24 13985

原创 python 画图 横坐标为时间轴时如何手动控制时间 比如以3天为一个间隔。一个月30天只显示10个

import numpy as npimport pandas as pdimport osimport matplotlib.pyplot as plt#解决matplottlib显示中文的问题# 仅适用于Windowsplt.rcParams['font.sans-serif']=['SimHei'] #指定默认字体plt.rcParams['axes.unicode_minu...

2018-09-03 20:47:10 18539

转载 python中count()、values_counts()、size()函数

count()函数之详解   https://blog.csdn.net/JNingWei/article/details/78308815转载了count()函数,以便自己以后更好的查阅。string 中 某字符 的次数str.count(sub, start= 0,end=len(string)) Args Annotations sub 搜索的子字符串...

2018-09-02 19:51:52 11785 2

原创 作用将一个文件夹里的所有文件(不限层级)立面的所有文件。全部复制到一个新的文件夹里面,并未去掉原文件夹里面的子文件夹,一步到位提取所有文件。

'''作用将一个文件夹里的所有文件(不限层级)立面的所有文件。全部复制到一个新的文件夹里面,并未去掉原文件夹里面的子文件夹,一步到位提取所有文件。'''import osfrom shutil import copyfilefind_fil=[]path='C:\\Users\\yyy\\Desktop\\11'tar='C:\\Users\\yyy\\Desktop\\55'...

2018-09-01 16:48:04 296

原创 Series 假如有两个索引都是a 那么求平均数

#Series 假如有两个索引都是a 那么求平均数a=pd.Series([1,2,3,4,6,7],index=['a','a','b','b','c','d'])ind=list(a.index)ind_dict={} #判断哪些是重复的索引for i in ind: if i in ind_dict.keys(): ind_dict[i]+=1 e...

2018-08-22 00:09:08 855

原创 Series 假如有两个索引都是a 那么求平均数

#Series 假如有两个索引都是a 那么求平均数a=pd.Series([1,2,3,4,6,7],index=['a','a','b','b','c','d'])ind=list(a.index)ind_dict={} #判断哪些是重复的索引for i in ind: if i in ind_dict.keys(): ind_dict[i]+=1 e...

2018-08-21 23:32:56 937

原创 列表在用for 循环删除一些元素的时候记得用 for i in list.copy()

 for i in data.copy(): if not diag(i): data.remove(i)#这是因为没删除一次data本身就变了 所以再次循环的时候就不是之前的了 所以要用·copy 

2018-08-19 17:07:47 505

原创 python的文件处理

python 读写、创建 文件python中对文件、文件夹(文件操作函数)的操作需要涉及到os模块和shutil模块。得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd()返回指定目录下的所有文件和目录名:os.listdir()函数用来删除一个文件:os.remove()删除多个目录:os.removedirs(r“c:\python”)检验给出...

2018-08-16 14:44:35 93

flink_study

包含flink的基础知识

2022-02-16

double_car.csv

原数据

2019-10-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除