allen sue-CSDN博客

原创 docker启动报错：Cannot connect to the Docker daemon

docker启动异常排查

2023-08-01 17:13:49 3521 1

原创 DataHub Docker安装 &PostreSQL元数据集成

install docker & docker-compose，包括docker-compose升级。读取 postgresql 元数据。

2022-12-12 18:29:48 560 1

原创 Jax, Numpy & Scipy

Google开源的Jax据说很厉害，主要是用来解决numpy在GPU上支持度不太友好的开源包(PyTorch，Cupy，Numba等均同此)，今天小试一下，确实有优秀的地方测试(仅限很少部分的numpy api，文档中有Scipy的api)Version随机数 & jax替换numpy的点乘jit函数梯度计算Reference官方文档Github...

2021-02-16 18:24:40 886

ReferenceHiveHive窗口函数Hive Wiki WindowingAndAnalyticsOracleWindow FunctionAnalytic FunctionsMySQLMySQL窗口函数Window Functions概述代码准备(hive)-- ALTER TABLE order RENAME TO order_infoscreate table order_infos(name varchar(20), order_date d

2021-01-25 15:40:50 221

原创 docker-compose资源限制&docker资源监控

资源限制设置v2：pu_shares，cpu_quota，cpuset， mem_limit，memswap_limit，mem_swappinesdocker-compose.yml version: '2' services: testservice: image: image container_name: container_name ports: - 'ports_out:ports' privileged: T

2020-12-31 11:24:06 4051

原创模型评估指标

分类：混淆矩阵/列联表二分类：准确率，召回率，AUC（ROC曲线下的面积），logloss（对预测概率的似然估计），accuracy（概率阈值影响该指标），precision（概率阈值影响该指标）TPTPTP：正预测为正(预测正确)TNTNTN：负预测为负(预测正确)FPFPFP：负预测为正FNFNFN：正预测为负预测结果为正的准确率：准确率/PPV=TPTP+FP\text{准确率/PPV} = \frac{TP}{TP + FP}准确率/PPV=TP+FPTP正样本预测的准确率：召回

2020-12-28 14:52:42 177

原创假设检验小结

Reference & 相关，请点击此处

2020-11-25 17:49:33 268

原创统计功效(power)

定义 & 描述别名敏感度(sensitivity)目的：反映一个检验检测出指定大小效应的能力定义在假设检验中，拒绝原假设后，接受正确的替换假设的概率假设检验拒绝的漏报率：用同样的检验方法，对样本重采样/重复实验后计算检验值，统计检验值 > 0.05(显著阈值)的占比假设检验的“正确通过率”，1 - 漏报率不犯第二类错误的概率当AB两组差异真的存在时，我们能正确判断的概率计算：1−β=Φ(z−z1−α/2)+Φ(−z−z1−α/2)1 - \beta = \Phi

2020-11-24 11:33:57 8028

原创 keras layers笔记

文章目录base`Layer.get_weights()`:Returns the current weights of the layer`Layer.set_weights(weights)`: Sets the weights of the layer, from Numpy arrays.`Model.get_config()`: config of the layer`Layer.add_loss(losses, **kwargs)`: Add loss tensor(s), potentiall

2020-09-30 16:24:11 3186

原创建模之常见激活函数（Keras，tf2）

神经网络常见激活函数序号激活函数表达式优点缺点Kerastf21sigmoidy=11+e−x=tanh(x/2)+12y=\frac{1}{1+e^{-x}}=\frac{\text{tanh}(x/2)+1}{2}y=1+e−x1=2tanh(x/2)+1属于(0,1)(0, 1)(0,1)，即指定区间，又属于累计概率范围指数计算成本不低；梯度弥散&爆炸keras.activations.sigmoidtf.nn.sigmoid2elu.

2020-08-18 22:36:41 562

原创建模之常见优化器（Keras）

序号优化函数概述场景Keras1SGD训练速度快容易陷于局部最优解keras.optimizers.SGD：可设置动量和nesterov参数sgd2Adagrad(自适应学习率)适用于数据稀疏或者分布不平衡的数据集中收敛速度快keras.optimizers.Adagrad3RMSprop(自适应学习率)修改了AdaGrad的梯度积累为指数加权的移动平均，使得其在非凸设定下效果更好。避免了学习率越来越低的的问题，而且能自适应地调节学习率深度神经网络...

2020-08-18 21:21:01 802

原创 ClickHouse & OLAP

installdocker installconnect by DBeaverconnect error: cannot create driver instance原因：DBeaver下载ClickHouse驱动失败解决方法：增加国内源的maven地址。窗口->首选项->DBeaver->驱动 -> Maven。添加阿里云的maven地址http://maven.aliyun.com/nexus/content/groups/public/，并将其移到最上面，再次下

2020-08-17 17:31:48 701

原创建模之常见模型评估指标（Keras, Sklearn, R）

相同算法请见建模之常见损失函数序号概况表达式场景kerassklearnR1分类准确率预测正确个数的占比分类keras.metrics.Accuracyaccuracysklearn.metrics.accuracy_scoreAccuracy2二分类准确率同上分类keras.metrics.BinaryAccuracykeras.metrics.binary_accuracybinary_accuracy3多分类准确率同上分类ke

2020-08-16 22:24:43 2422

原创建模之常见损失函数（Keras, Sklearn, R）

序号概况表达式场景sklearnkerasR1交叉熵H(p,q)=∑x(p(x)×log(1q(x)))=∫xP(x)×log(Q(x))dxH(p, q)=\sum_x(p(x) \times \text{log}(\frac{1}{q(x)})) = \int_x P(x) \times \text{log}(Q(x))\mathrm{d}xH(p,q)=∑x(p(x)×log(q(x)1))=∫xP(x)×log(Q(x))dx−log(p(y∣y^))=−(y...

2020-08-16 13:13:50 1162

原创 PyTorch Documentation

install packagesDocumentation官网GithubPyTorch中文文档ApacheCN

2020-08-08 12:17:58 316

原创傅里叶分析 & 应用

傅里叶级数：Fourier Serie傅里叶级数针对周期性函数：任意周期函数都可写成三角函数之和公式f(x)=a0×1+∑i=1∞(ai×cos(2×π×iT×x)+bi×sin(2×π×iT×x))=∑k=−∞∞(gk(x))f(x) = a_0 \times 1 + \sum_{i=1}^{\infty}(a_i \times cos(\frac{2 \times \pi \times i}{T} \times x) + b_i \times sin(\frac{2 \times \pi \

2020-08-01 14:36:06 1469

原创 Sklearn之特征工程&建模

特征工程sklearn建模说明特征工程来自于自己的总结，参考了使用sklearn做单机特征工程sklearn来源于网络以上如有侵权，请联系我

2020-07-26 11:03:19 215

原创 Box-Cox变换

定义：一种广义幂变换方法，是统计建模中常用的一种数据变换目的用于连续变量不满足正态分布的情况Box-Cox变换之后，可以一定程度上减小不可观测的误差和预测变量的相关性改善数据的正态性、对称性和方差相等性，但方差齐性的问题不一定会消失，做过之后仍然需要做方差齐性的检验，看是否还需要采用其他方法公式y(λ)={yλ−1λλ≠0ln⁡(y)λ=0y(\lambda) =\begin{cases}\frac{y^{\lambda} - 1}{\lambda} & \lamb..

2020-07-24 11:46:10 3477

原创 msck repair error

error: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask解决方法hive issue有效方案：set hive.msck.path.validation=ignore;

2020-07-01 14:36:24 657

原创 Power BI之函数

DAXM函数调取方式：新建查询 --> 在公式标记栏中输入= #shared，点击现实的M函数，即显示注释

2020-06-28 16:40:25 2320

原创 Power BI可视化之透视及可配置联动

透视（行列转换）：转换–>逆透视列–>透视其他列透视前透视透视后可视化产业结构产业结构趋势切片器–>年度更多选项–>列表格式–>常规–>方向–>水平各省产业结构趋势切片器增加省份/地区列表堆积面积图呈现产业结构趋势图例：产业类别轴：年度值：金额...

2020-06-28 14:05:04 3992 1

原创 Power BI可视化之参数what-if

前提：数据加载已完成创建模拟参数建模–>新建参数使用模拟参数新增度量值：建模–>新建度量值：折扣后的销售额 = sum(Orders[total_sales]) - sum(Orders[total_sales])*'discount percentage'[discount percentage 值]展示折扣为0折扣为0.1折扣为0.3...

2020-06-24 10:14:56 980

原创 Power BI数据源之web

获取单个页面数据获取数据–> web -> 基本。url: https://search.jd.com/Search?keyword=手机&wq=1手机&page=&s=51&click=0 在导航器中，通过表的内容来识别目标表，转换数据将目标列进行rename，无用列删除获取多个页面数据...

2020-06-19 13:53:01 1507 2

原创 python并发与并行

并发与并行的区别并发：concurrency。单个cpu+多道技术就可以实现并发并行：parallel：同时运行，只有具备多个cpu才能实现并行使用场景计算密集型多核CPUmultiprocessingJoblibsklearn.externals.joblib分布式parallelCeleryredisrabbitmqdemo testGPU自己写CUDA内核numbacupypycudapyopenclmarsIO密集

2020-06-15 18:28:02 339

原创 Python代码规范与结构

代码规范PEP8pylintGoogle Style Guid其它的一些说明对于config.py，不要在程序中直接import config写死，可通过main函数参数的形式来增加灵活性代码效率编写高质量代码改善 Python 程序的 91 个建议代码结构Python最佳实践指南2018Kenneth Reitz 建议的DemoREADME.rstLICENSEsetup.pyrequirements.txt# 具体模块sample/__init__.py

2020-06-08 17:14:26 403

原创算法的时间复杂度与空间复杂度

主要材料来源算法的时间与空间复杂度（一看就懂）算法的时间复杂度和空间复杂度时间复杂度概念执行当前算法所消耗的时间(最坏情况的运行时间)推导O阶的方法用常数1取代运行时间中的所有加法常数在修改后的运行次数函数中，只保留最高阶项。如果最高阶项存在且不是1，则去掉该最高阶项系数。得到的最后结果就是O阶常用的时间复杂度所耗费的时间从小到大依次是O(1)<O(logn)<O(n)<O(nlogn)<O(n2)<O(n3)<O(2n)<

2020-06-05 18:34:56 151

原创 Python读取配置文件之python2与python3的区别

python3from configparser import ConfigParserclass ReadIni(object): """ read ini config file """ def __init__(self, config_ini): self.config_info = ConfigParser() self.config_info.read(config_ini) def read_mysql_config(self): ".

2020-06-04 16:11:22 282

原创 python之爬虫

get cookieres = requests.post(url=url, data=data, headers=headers[, allow_redirects=False])cookie = requests.utils.dict_from_cookiejar(res.cookies)302（重定向）：请求的url为真实的url，header中的referer为重定向之前的urlSSLroutiness, ssl3_read_bytes, sslv3 alter handshake fa.

2020-06-01 18:11:03 95

PyScripter

python工具

空空如也