自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(84)
  • 收藏
  • 关注

原创 【git】常用命令

gitreset--hard222e18d(reflog中的版本号)如果有冲突,手动修改重新提交(此时提交无须制定文件)删除已经add缓存中的文件。提交引号中备注信息。

2022-08-01 23:43:15 121 1

原创 idea基本使用配置

1 进入setting2 放大缩小3 悬停提示4 自动导包5 方法全匹配6 抬头设置/**@author sjj@create ${DATE} - ${TIME}*/7 编码格式8 自动编译9 水平垂直显示10 常用快捷键11 版本控制git12 maven13 清除缓存和索引备份历史14 避免自动更新15 插件下载...

2021-09-13 15:12:43 136

原创 (6) Hive

https://www.bilibili.com/video/BV1EZ4y1G7iL?from=search&seid=9593247233200036247Hive基础学习 125节课 3天重点是 安装 UDF函数 JVM调优一、 Hive基本概念1 什么是hive2 优缺点3 架构原理4 和其他数据库比较二 Hive安装元数据配置Mysql三 内部表和外部表可以设置互换...

2021-09-02 17:54:16 109

原创 (5) YARN

一 理论1 yarn基础架构2 工作机制3 mapreduce/hdfs/yarn配合工作4 yarn调度器和调度算法5 生产环境下的参数解释6 命令行操作yarn二 使用1 生产环境参数配置2 容量调度器生产实现3 yarn公平调度器在生产实现4 yarn的tool接口5 回收站...

2021-08-27 11:42:49 75

原创 (4)MapReduce (非重点,生产已经被spark取代)

alt+回车 idea重写方法一 MR概述1 定义2 优缺点3 wordcount案例二 序列化三 核心框架原理1 输入的数据2 shuffle3 输出数据4 Join5 ETL6 总结四 压缩1 各种压缩算法2 各种算法特点3 生产使用情况五 常见的问题解决方案...

2021-08-26 17:44:14 168

原创 (3)HDFS全面详细解释 重点

生产环境用HA 高可用 双namenode一 概述1 HDFS产生背景和定义2 优缺点3 组成4文件块大小二 HDFS的shell相关操作(开发重点)上传 put下载 get三 HDFS的客户端api优先级别 最高在右边四 HDFS的读写流程(面试重点)读取数据从block0开始顺序读取五 NN和2NN(了解)六 DataNode工作机制(了解)七 数据完整性...

2021-08-25 11:20:15 61

原创 (1)大数据hadoop

来源 非常感谢https://www.bilibili.com/video/BV1Qp4y1n7EN?p=9&spm_id_from=pageDriver共178集 预计一周看完 每天30集大数据特点大量高速多样低价值密度hadoop框架一、 概念1 是什么由apache基金会所开发的分布式系统基础架构主要解决海量的数据的存储和分析计算问题广义上来说是hadoop生态圈,例如hbase hive2 发展历史3 三大版本apache cloudera(CDH)收

2021-08-25 09:52:01 88

原创 (2)hadoop集群部署和常见面试题和常见问题

core配置HDFS配置YARNmr配置分发准备启动集群配置workers第一次启动简单测试数据位置数据高可用在三个服务器中都有数据备份配置历史服务器配置历史日志聚集集群启动和停止常见面试题目必须各个节点的datanode进程都删除 ,然后重新格式化,重启集群——————————————————————————————————————————————————————时间同步(看看就行,不需要执行)...

2021-08-24 14:19:16 118

原创 Homework 2 - Classification 教师版

Homework 2 - ClassificationDatasetLogistic RegressionSome Useful FunctionsFunctions about gradient and lossTrainingPlotting Loss and accuracy curvePredicting testing labelsPorbabilistic generative modelPredicting testing labelsParse csv files to numpy arra

2021-03-08 23:51:36 193

原创 Homework 1: Linear Regression 样例

Homework 1: Linear Regression本次目標:由前 9 個小時的 18 個 features (包含 PM2.5)預測的 10 個小時的 PM2.5。Load ‘train.csv’train.csv 的資料為 12 個月中,每個月取 20 天,每天 24 小時的資料(每小時資料有 18 個 features)。import sysimport pandas as pdimport numpy as npfrom google.colab import drive !g

2021-03-08 22:24:10 153

原创 numpy 数组的创建 zero和empty的区别

numpy 提供的最重要的数据结构是`ndarray`,它是 python 中`list`的扩展。## 1. 依据现有数据来创建 ndarray### **(a)通过array()函数进行创建。**```pythondef array(p_object, dtype=None, copy=True, order='K', subok=False, ndmin=0): 对于将 list 转成 ndarray使用array()即可 忽略asarray()【例】import numpy

2021-03-04 20:15:34 1636 1

原创 numpy 时间日期和时间增量

import numpy as npa = np.datetime64('2020-03', 'D')print(a, a.dtype) # 2020-03-01 datetime64[D]a = np.datetime64('2020-03', 'Y')print(a, a.dtype) # 2020 datetime64[Y]print(np.datetime64('2020-03') == np.datetime64('2020-03-01')) # Trueprint(np.

2021-03-04 19:22:54 283 1

原创 numpy基础

import numpy as npx = np.array([1, 1, 8, np.nan, 10])print(x)# [ 1. 1. 8. nan 10.]y = np.isnan(x)print(y)# [False False False True False]z = np.count_nonzero(y)print(z) # 1numpy.count_nonzero是用于统计数组中非零元素的个数详细用法: numpy.count_nonzero(a, axi

2021-03-03 20:22:12 174 1

原创 数据分析和展示

# 导入matplotlib中的pyplotimport matplotlib.pyplot as plt# 为了使matplotlib图形能够内联显示%matplotlib inline# 导入词云库from wordcloud import WordCloud,ImageColorGenerator4.1 按州总捐款数和总捐款人数柱状图# 各州总捐款数可视化print(c_itcont.head(2))print(c_itcont.info())st_amt = c_itcont.

2021-03-03 20:15:45 104 1

原创 数据探索与清洗

数据探索与清洗进过数据处理部分,我们获得了可用的数据集,现在我们可以利用调用shape属性查看数据的规模,调用info函数查看数据信息,调用describe函数查看数据分布。# 查看数据规模 多少行 多少列c_itcont.shape(756205, 8)# 查看整体数据信息,包括每个字段的名称、非空数量、字段的数据类型c_itcont.info()<class 'pandas.core.frame.DataFrame'>Int64Index: 756205 entries,

2021-03-03 19:37:30 219 1

原创 异常和警告

异常处理异常就是运行期检测到的错误。计算机语言针对可能出现的错误定义了异常类型,某种错误引发对应的异常时,异常处理程序将被启动,从而恢复程序的正常运行。Python 标准异常总结BaseException:所有异常的 基类Exception:常规异常的 基类StandardError:所有的内建标准异常的基类ArithmeticError:所有数值计算异常的基类FloatingPointError:浮点计算异常OverflowError:数值运算超出最大限制ZeroDivisionErr

2021-03-02 22:47:47 211

原创 1 基础补漏

1 三元运算符x, y = 4, 5if x < y:small = xelse:small = y相当于small = x if x < y else y详细解释:使用 if else 实现三目运算符(条件运算符)的格式如下:exp1 if contion else exp2condition 是判断条件,exp1 和 exp2 是两个表达式。如果 condition 成立(结果为真),就执行 exp1,并把 exp1 的结果作为整个表达式的结果;如果 conditio

2021-03-02 20:15:30 152

原创 股票预测 day4 过拟合

import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasetsfrom sklearn.preprocessing import StandardScalerfrom sklearn.svm import SVCfrom sklearn.pipeline import Pipelinefrom sklearn.model_selection import train_test_splitfrom skl

2021-02-02 17:59:32 236

原创 股票预测 预测结果一条直线 无特征 烦恼一周了

学习率调整无效果数据归一化无效果特征字段添加减去 效果忽略模型增加RNN层 无效果添加模型天数 效果不明显import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasetsfrom sklearn.preprocessing import StandardScalerfrom sklearn.svm import SVCfrom sklearn.pipeline import Pipeline

2021-02-01 23:56:23 2154 27

原创 股票预测 day2 处理股票数据

做神经网络 逻辑回归以30天为一个周期进行处理数据import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasetsfrom sklearn.preprocessing import StandardScalerfrom sklearn.svm import SVCfrom sklearn.pipeline import Pipelinefrom sklearn.model_selection impor

2021-01-26 00:32:34 121

原创 股票预测 day1 收集股票数据

特别感谢!!《基于LSTM的股票价格的多分类预测》论文地址:https://www.hanspub.org/journal/PaperInformation.aspx?paperID=32542data_utils.py 已经有现成代码pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tushare 补充模块运行生成详细描述https://waditu.com/document/2?doc_id=27...

2021-01-21 23:02:53 153

转载 交叉熵 完美解释

https://zhuanlan.zhihu.com/p/35709485

2020-12-15 11:33:53 101

原创 pandas demo(8) axis

2020-11-06 17:42:20 54

原创 pandas demo(7) 字符串处理

2020-11-06 17:36:52 68

原创 pandas demo(6) 排序

2020-11-06 17:28:32 58

原创 pandas demo(5) settingwithcopywarning报错处理

2020-11-06 17:22:05 41

原创 pandas demo(3) 统计函数

2020-11-06 17:16:28 74

原创 pandas demo(4) 缺失值处理

2020-11-06 17:16:11 72

原创 pandas demo(1) 读取数据

import pandas as pdpath_t1='C:\\Users\\19057058\\Desktop\\发票\\test\\test\\ad.csv'df_log=pd.read_csv(path_t1,sep = '\t')print("查看前五条和最后五条数据:",df_log.head)print("查看数据规格:",df_log.shape)print("查看数据元素:",df_log.columns)print("查看索引信息:",df_log.index)...

2020-11-06 17:03:23 83

原创 pandas demo(2) 修改数据

value_counts()增加多列

2020-11-06 17:02:55 63

原创 集成学习 stacking

2020-11-06 09:58:46 112

原创 集成学习 adaboosting

import numpy as npfrom sklearn.pipeline import Pipelineimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.preprocessing import StandardScalerfrom skle...

2020-11-05 19:05:20 98

原创 集成学习 gradient boosting

import numpy as npfrom sklearn.pipeline import Pipelineimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.preprocessing import StandardScalerfrom sklea..

2020-11-05 19:05:00 138

原创 集成学习demo(3) oob_bagging

import numpy as npfrom sklearn.pipeline import Pipelineimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.preprocessing import StandardScalerfrom sklear.

2020-11-05 17:56:23 63

原创 随机森林 extra-trees

import numpy as npfrom sklearn.pipeline import Pipelineimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.preprocessing import StandardScalerfrom sklear.

2020-11-05 17:46:10 634

原创 集成学习 随机森林

import numpy as npfrom sklearn.pipeline import Pipelineimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.preprocessing import StandardScalerfrom sklea..

2020-11-05 17:42:59 81

原创 集成学习简述 votinghard

import numpy as npfrom sklearn.pipeline import Pipelineimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.preprocessing import StandardScalerfrom skle...

2020-11-05 16:38:43 158

原创 集成学习demo(2) bagging

import numpy as npfrom sklearn.pipeline import Pipelineimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.preprocessing import StandardScalerfrom s...

2020-11-05 16:38:09 119

原创 集成学习demo(1) softvoting

import numpy as npfrom sklearn.pipeline import Pipelineimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.preprocessing import StandardScalerfrom skl...

2020-11-05 16:37:48 202

原创 CART

import numpy as npfrom sklearn.pipeline import Pipelineimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import PolynomialFeaturesfrom sklearn.preprocessing import StandardScalerfrom sk...

2020-11-05 15:53:08 46

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除