自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 协同过滤

布尔型数据集 和 稀疏评分矩阵 的 基于用户 和 基于物品的协同过滤

2020-12-31 22:57:14 426

原创 经典算法 及其 API

线型回归(Linear regression)梯度下降 及其 API岭回归 及其 API)K近邻算法逻辑回归(Logistic Regression)决策树ID3C4.5CART 树K-means平均轮廓系数法“肘”方法CH系数Mini-batch K-means集成学习思想bagging 和 随机森林boostingAdaboostGBDTXGBoostbagging集成与boosting集成的区别超参数确定交叉验证 和 网格搜索

2020-08-10 23:00:35 1078

原创 机器学习流程

机器学习流程获取数据数据集分类将本地数据导入数据的基本处理数据去重缺失值处理异常值处理数据集分割特征工程特征提取数据离散化 和 one-hot编码文本特征提取 和 jieba分词Tfidf特征预处理归一化 和 标准化特征降维特征选择低方差特征过滤主成分分析(PCA)模型训练(算法)模型评估拟合和欠拟合(评估结果效果)分类模型评估准确率精确率、召回率、F1-scoreAUC指标(ROC线下面积)回归模型评估平均绝对误R2模型的保存和加载

2020-08-10 22:56:48 712

原创 Pandas 数据处理库

index columns value ['列'].value_counts() shape T head tail .loc[列名] .iloc[下标] sort_values/index 排序 nlargest nsmallest quere & | describe cumsum groupby().agg apply replace isnull dropna fullna qcut/cut concat/merge crosstab pivot_table

2020-07-31 21:51:20 891

原创 HBase数据库 及 HappyBase库

概念数据模型原理HMaster 服务器RegionServer表储存读数据流程REST ServerHBase Shellscan 限制查询happybaseConnection 连接HBasetables() 返回此HBase实例中表名列表create_table 新建表delete_table 删除表禁用和解禁表table 创建表对象

2020-06-05 22:53:01 1007

原创 Hive

Hive简介组件CLI 操作数据类型数据库操作表操作加载导出数据数学函数聚合函数表生成函数字符函数时间函数自定义函数排序(ORDER BY 和 SORT BY)CLUSTER BY、DISTRIBUTE BY、SORT BY分页(limit)起别名(as)去重(distinct)分组查询(group by)case表达式联表查询动态分区

2020-05-25 20:57:22 811

原创 Kafka 分布式消息对列

Kafka 分布式消息对列 概述整体结构zookeeper安装kafka安装创建集群Kafka python API创建生产者创建消费者Kafka-python Demo

2020-04-03 20:02:45 304

原创 Flume 分布式日志收集系统

Flume 分布式日志收集系统概述运行机制安装部署使用配置文件书写Source选型Channel选型Sink选型系统结构图Flume 拦截器(时间戳、静态、正太筛选、UUID、主机)Flume优化(负载均衡、故障转移)

2020-04-01 18:44:34 475

原创 hadoop 分布式文件管理系统

概念组成HDFS 分布式文件系统HDFS环境搭建HDFS shell操作YARN 资源管理系统YARN 框架YARN执行流程YARN 环境搭建MapReduce 分布式处理框架MapReduce原理详解MapReduce Python 操作MapReduce框架局限及代替框架HAdoop漫画Hadoop 读写流程 、 容错机制 和 副本分派规则

2020-02-16 18:54:36 437

原创 Spark框架 及 pyspark库

简介开启sparkspark-core(RDD)使用步骤RDD的 常用算子transformationactionpersistSpark SQL (DataFrame)DataFrame简介、创建和分类数据清洗案例数据去重缺失值处理异常值处理Spark-Streaming

2020-02-14 18:15:30 868

原创 非关系型数据库--Redis

特点应用场景数据结构字符串增删改查哈希hash增改删查列表list增查无序集合set有序集合zset共有命令python与redis交互

2020-02-07 11:26:00 259

原创 关系型数据库--mysql

安装和配置操作数据库、表、字段表数据操作where条件 支持的运算符排序分页分组和聚合联表查询子查询表复制联表更新建表填数据事务构建Python连接数据库流程

2020-01-31 13:30:17 476

原创 数据库总章

概念作用特点分类服务端和客户端工作流程存储数据要求MYSQL

2020-01-31 12:09:17 128

原创 距离计算公式

欧氏距离 曼哈顿距离 切比雪夫距离 闵可夫斯基距离 标准化欧氏距离 马氏距离 余弦距离 汉明距离 杰卡德距离

2019-11-13 18:32:07 1513

原创 Numpy 快速计算科学库

零一数组zeros ones_like eye full 已有数组array 等差linespace arange 等比logspace 随机random.rand uniform randint randn(标准正太) normal reshape resize(变) astype T(转置) unique(去重) 逻辑判断 logical_or any all where max argmin median mean std var sum dot矩阵相乘 vstack垂直拼接 元素取整

2019-11-11 20:28:17 326

原创 Matplotlib

创建画布figure 绘制图像plot折线,scatter散点,bar柱状,hist直方,pie饼图 显示图像show 修改刻度ticks 添加坐标说明label 添加标题title 显示网格grid 显示图例legend 图像保存savefig 多画布创建subplots

2019-11-09 23:46:21 320

原创 简单的在线push即时通讯

简单的在线push即时通讯 SocketIO框架中的服务器和客户端的开发 事件处理即发送消息

2019-11-05 23:44:15 489

原创 flask框架

设置视图 配置参数 蓝图 工厂函数 处理请求(六种转换器) 返回响应(五种响应json对象) 状态保持 统一异常处理 请求钩子 上下文对象

2019-10-27 18:31:02 313

原创 正则表达式

match方法 search方法 findall方法 元字符(. [] \d \w \s \D \W \S)量词({} * + ?)匹配位置(^ $)匿名分组 有名分组 贪婪和贪婪模式 正则配合或运算

2019-10-19 21:00:45 245

原创 多任务

多任务 进程与线程 并行与并发 创建多进程 daemon进程 创建多线程 daemon线程

2019-09-04 16:47:34 240

原创 python 面对对象

python 面对对象 编程思想 类和对象定义类 创建对象 实例属性 类属性 内置方法__init__方法__str__方法__del__方法__dict__方法__cls__方法__mro__方法实例方法 类方法 静态方法私有属性和方法三大特性 封装 继承 多态 继承分类 调用形式 重写父类的方法继承顺序单例__new__方法

2019-08-26 16:09:57 186

原创 Linux终端命令

ls[-alhF] tree pwd cd mkdir[-p] rm[-if] cp[-ria] mv[-i] cat[-b/n] more echo > >> grep[-i n/v] | ln[-s] shutdown[-r] ifconfig ping ip地址 ssh [-p 端口号] 远程用户名@远程IP地址 scp [-r] 用户1@IP地址:路径/文件 用户2@IP地址:路径/文件 tar 压 [-zcvf] 解 [-zxvf]

2019-08-19 20:41:23 925

原创 python 文件操作 和 标准库

文件操作 读取数据 写如数据 追加写入数据 使用上下文打开文件 文件及文件夹的 os操作 sys模块 random模块 加密模块 docker容器 git工作流

2019-08-15 17:40:39 257

原创 python 函数

定义和调用函数 形参和实参 局部变量和全局变量 return返回值 函数执行流程 函数嵌套 匿名函数 高阶函数 闭包 带参数的装饰器(装饰器工厂函数) 生成器 yield

2019-08-07 22:45:52 264

原创 python数据类型

字符串 列表 元组 字典 集合 类型转换 索引、切片、find、index、len、count、max、minreplace、split、splitlines、partition、strip、join、just、lower、upper、title、capi... startswith、endwith、isalpha、isdigit、isalnum、isspace append、extend、+=、insert reverse、sort del、pop、remove、clear

2019-08-03 08:32:31 337

原创 python运算符

算数运算符赋值运算符⽐较运算符(关系运算符)逻辑运算符三元运算符(三元运算符)成员运算符运算符运算等级

2019-07-31 23:17:45 211

原创 python循环语句

while循环、while嵌套、for循环、break和continue、序列循环遍历删除

2019-07-29 18:48:13 383

原创 python if条件判断语句

if语法,if嵌套,三目运算

2019-07-29 17:13:00 551

原创 python 输入输出函数

变量名 = input("提示信息")print(输出内容, sep="*" , end='结束符')print(f"{表达式或变量名}")

2019-07-28 20:40:47 602

原创 pycharm软件应用

pycharm的基本使用,配置环境,快捷键PyCharm 初始设置项⽬中新建python文件打开项⽬配置主题颜色,字体配置编辑区域字体配置控制台字体配置环境变量更换编辑器及添加工具库Pycharm远程开发

2019-07-28 13:19:58 1191

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除