自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

BeaNewer的博客

之前是搞测绘的,现在搞数据挖掘

  • 博客(19)
  • 收藏
  • 关注

原创 python,xgboost使用

接口太多,我看有的博主写的跟官网不太一样,有点晕。目前主要是用两个接口#Scikit-Learn的APIfrom xgboost import XGBClassifier#xgboost自带APIimport xgboost as xgbxgb第一个适配SKlearn库,可以配合fit,predict等方法使用。介绍下具体参数XGBClassifier在下面的博客里有sklearn中xgboost模块的XGBClassifier函数以下是xgbGeneral Parameters

2020-11-01 21:40:39 1725 4

原创 python连接Oracle

连接Oracle稍微费点劲1.需要下载cx_Oracle库,直接pip就行2.得下载instantclient,官网下载即可https://www.oracle.com/cn/database/technologies/instant-client-download-for-windows-64-bitiitanium.html3.在电脑本地配置环境变量,不配置就得在pythonh代码中加声明。如:D:\Oracle_client\instantclient-basic-windows.x64-2

2022-04-13 01:30:22 1247

原创 用python发邮件

用到的Python库.import smtplibfrom email.mime.text import MIMEText # 用来构造文本类型的邮件from email.header import Header # 用来构造邮件的头部# 如果服务器用代理访问的外网,用到下面两个库import socks import socket第三方SMTP服务host:服务器地址port:25user:用户名p

2022-04-10 20:13:37 1332

原创 计算机网络的学习(概述)

因特网概述网络、互联网、因特网网络:由若干节点(Node)和连接这些节点的链路构成互联网:多个网络通过路由器互连,成为一个覆盖范围更大的网络因特网:世界上最大的网络注:Internet 和internet的区别internet是指互联网、Internet是指因特网三个阶段逐步形成了多层次ISP(因特网服务提供者)结构的因特网三种交换方式电路交换如果电话交换机一样的方式,接通电话线,称为电路交换。交换是指:动态的分配传输路径的资源三个步骤:1.建立连接(分配传输路径资源

2021-12-11 17:30:35 1876

原创 推荐算法--召回

召回算法的基本逻辑流程目的尽可能多维度,相对准确的找到和用户可能相关的物品候选集。这一阶段主要是关注与 user-item的相关性,以及物品本身的质量基本召回路径推荐算法本质上也是为了给用户找到合适的物品,那么依据用户到物品的不同路径,可以分为以下几种 方法。u2i:直接计算用户和物品的相似度u2i2i:基于物品的协同过滤,先得到用户的行为列表,获取对物品的喜好,然后查i2i,推荐相似物品u2u2i:基于用户的协同过滤,先计算用户的相似度:余弦相似度,Jaccard公式,再推荐其他用户

2021-12-06 23:04:33 1156

原创 推荐系统的理解

为什么需要推荐系统提高流量转化率---------流量具有稀缺性和不确定性:不确定是指用户意图无法简单明了的表达出来;用户就是想逛一逛,目的不明确;用户的意图跟需求不匹配-如果用户了解的不多,她的意图可能就比较片面。---------流量同时具有差异性:用户每个人都是独特的,体现在她的意图,消费水平,品牌偏好,兴趣爱好。挖掘和匹配长尾需求有些用户的需求需要被长尾的物品满足,区别于二八定理,长尾需求认为头部商品怎么满足一部分用户的需求。提升用户体验技术积累推荐场景流量浪

2021-12-06 19:14:24 191

原创 AdaBoost用于回归步骤

AdaBoost回归SKlearn源代码AdaBoost常用于分类,在回归中常常有几个问题让人迷惑。AdaBoost算法在每次迭代之后,会改变样本的权重分布。分类算法会把错误的样本权重加大,正确的样本权重减小。而回归当中,则会根据误差大小来决定权重改变多少。在《统计学习算法中》举的例子是以单层的CART分类树来解释的,每次迭代会根据误差权重的不同学习出新的Cart树,也就是说每个模型之间是存在差异的。但是对于无法接受样本权重的算法,例如神经网络等算法,每次迭代产生的模型岂不是一样?后来去翻阅了S

2021-03-22 11:11:57 4573 6

原创 将数据保存到已有的EXCEL中的不同sheet

def save(data,num): book = load_workbook(os.path.join(address,"滑坡数据.xlsx")) writer = pd.ExcelWriter(os.path.join(address,"滑坡数据.xlsx"),engine = 'openpyxl') writer.book = book data.to_excel(writer,sheet_name = '特征工程{}'.format(num)) writer

2020-12-18 14:55:39 480

原创 Hive学习笔记

Hadoop生态系统就是为处理如此大数据集而产生的一个合乎成本效益的解决方案。MapReduce:将计算任务分成多个处理单元分散到一群家用的或服务器级别的硬件机器上。HDFS:分布式文件系统HIVE:如何从一个现有的数据基础架构转移到Hadoop上。,这就是HIVE出现的原因。HIVE提供了HiveQL的查询语言。将大多数的查询转换为MapReduce任务。Hive适用:静态数据分析,不需要开始响应给出结果,数据本身不会发生太大且频繁的变化。Hive内部是啥metastoreservi

2020-11-29 21:39:37 198

原创 安装好Mysql,配置好hive-site.xml,打开hive报错

删除你创建的hive-site.xml将自带的hive-default.xml.template 改为hive-site.xml,并将你自己的信息填入。此时再运行hive仍会报错。原因是hive-default.xml.template中某些地址有错误,直接记事本打开,搜索错误来源,路径改成自己设置的绝对路径文件夹就行,文件夹随意设置,会自己创建。然后就可以打开了。...

2020-11-23 22:13:03 463

原创 插入排序

直接插入排序 稳定排序 空间复杂度O(1),时间复杂度O(n²);效率与原始序列的排序有关。#代码def insertsort(lists): for i in range(len(lists)): key = lists[i] j = i-1 while j>=0 and lists[j]>key: lists[j+1] = lists[j] lists[j] = key j -=1 return lists 二分排序希尔排序 不

2020-11-19 18:53:26 69

原创 Hadoop官方 正则练习

$ mkdir input $ cp etc/hadoop/*.xml input $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep input output 'dfs[a-z.]+' $ cat output/*报错org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not..

2020-11-18 09:29:49 152

原创 特征筛选(嵌入型Embeded)

基于模型的特征选择使用一个监督机器学习模型来判断每个特征的重要性,并且仅保留最重要的特征。用于特征选择的监督模型不需要与用于最终监督建模的模型相同。特征选择模型需要为每个特征提供某种重要性度量,以便用这个度量对特征进行排序。可以利用L1正则化的稀疏功能,以及树类算法可以计算特征重要性的功能。L1正则化相比L2正则化,L1正则化更趋近于使参数为0,而L2则会是参数趋向于零;所以L1具有稀疏参数的功能。树类算法通常采用RM,GBDT算法,利用每一层的特征对结果损失下降的总和排序,决出特征重要性排名.

2020-11-13 14:11:34 522 1

转载 【集成学习】sklearn中xgboost模块的XGBClassifier函数

常规参数booster gbtree 树模型做为基分类器(默认) gbliner 线性模型做为基分类器silent silent=0时,不输出中间过程(默认) silent=1时,输出中间过程nthread nthread=-1时,使用全部CPU进行并行运算(默认) nthread=1时,使用1个CPU进行运算。scale_pos_weight 正样本的权重,在二分类任务中,当正负样本比例失衡时,设置正样本的权重,模型效果更好。例如,当正负样本

2020-10-31 15:25:44 524

原创 pandas.DataFrame.cumsum函数使用

函数参数如下:DataFrame.cumsum(axis=None, skipna=True, *args, **kwargs)axis :不必多说,横轴竖轴skipna:True or False 是否忽略空值函数功能主要是为了解决分组后按时序排列累加计算。适用场合如下:譬如图中的数据,我们希望获得每次购物的时候,该用户之前购买次数。data.groupby(“用户”)[“购买物品数量”].cumsum()该函数可以计算出目前为止买过的次数,再做处理就能得到想要的结果。

2020-10-30 23:13:45 4074

原创 pandas.merge

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)left,左边连接的表right,右边连接的表on 用来连接的键how 连

2020-10-30 19:10:15 81

原创 利用os.path.join()路径拼接读取excel文件

def get_source_data(): # 源数据路径 DataPath = '固定路径XXXXXXX' # 读入源数据 train1 = pd.read_csv(os.path.join(DataPath, 'XXXXXX.csv'), parse_dates=['Date_received', 'Date']) train2 = pd.read_csv(os.path.join(DataPath,

2020-10-21 13:36:56 1526

原创 value_counts

Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)[source]返回包含计数的Series。得到的对象将按降序排列,以便第一个元素是最经常出现的元素。默认情况下排除NA值参数normalize: 为True返回频率;default Falsesort :bool, default True 排序.ascending: bool, default False 降序

2020-10-20 10:15:29 259

原创 Pandas Groupby函数

文章目录Groupby参数介绍1.Transform2.Agg聚合3.ApplyGroupbyDataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=<object object>, observed=False, dropna=True)groupby操作涉及到分割对象、应用函数和组合结果的某种组合。这可以用于对大量数据进行分组,并对这些分组进.

2020-10-18 17:33:04 1007

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除