自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

影子的博客

挣扎在大数据和数据分析建模中的影子

  • 博客(37)
  • 资源 (4)
  • 收藏
  • 关注

原创 Building wheel for pycocotools (pyproject.toml) ... error错误解决

在准备langchain-ChatGLM开发环境时,运行pip install -r requirements.txt报错:Building wheel for pycocotools (pyproject.toml) ... error错误解决方法

2023-06-13 17:15:29 9697 6

原创 pip install 时报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte

解决pip install 编码错误

2023-06-13 16:03:04 1642 1

原创 neo4j的图计算算法功能总结

neo4j图计算算法功能说明

2022-11-24 09:00:54 2325 1

原创 pyarrow读写hdfs

python使用pyarrow读写hdfs,将hdfs上的文件读出来,转成pandas的dataframe(就可以使用pandas做进一步分析处理),然后以parquet格式再写回hdfs

2022-03-09 14:53:37 5700

原创 python-etl框架bonobo使用入门

python etl框架bonobo的简介和安装使用入门

2022-02-23 15:22:02 1849

原创 vscode+python开发环境搭建

vscode+python开发环境搭建,包括添加格式化工具、添加python运行环境、项目切换虚拟环境

2022-02-11 18:28:21 15040

原创 windows+vscode穿越跳板机调试远程代码

win10环境的vscode通过跳板机远程编辑调试内网代码

2022-02-08 14:33:21 2481

原创 工业数据分析技术与实战之数据分析的挑战——昆仑数据田春华培训听课记录

昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战。培训给出了一些实际的数据分析例子,包括“设备管理”、“运作优化”和“营销服务”三类;然后讲了数据分析的基本框架、方法和技术;最后给出了大数据时代,数据分析的认识误区和挑战。田老师发音不标准啊,好多词听好几遍,再关联上下文,连猜带蒙的才勉强能明白,不过有的也不一定对。记录以反复学习。视频链接过去我们经常提非结构化数据,其实结构化数据也是现在数据分析的一大方向。比如时序结构,工业上大量的传感器、物联网数据。再就是移动互联网的时空数据,一些观测数据

2020-06-24 18:21:02 309 1

原创 工业数据分析技术与实战之数据分析的误区——昆仑数据田春华培训听课记录

昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战。培训给出了一些实际的数据分析例子,包括“设备管理”、“运作优化”和“营销服务”三类;然后讲了数据分析的基本框架、方法和技术;最后给出了大数据时代,数据分析的认识误区和挑战。田老师发音不标准啊,好多词听好几遍,再关联上下文,连猜带蒙的才勉强能明白,不过有的也不一定对。记录以反复学习。视频链接本课讲大数据为数据分析带来的变化。首先在计算架构上带来的变化。原来的数据分析都是基于单机的,服务器的,当数据量大了以后,计算受硬件限制,解决这个问题就引入

2020-06-24 18:17:34 363

原创 工业数据分析技术与实战之营销服务——昆仑数据田春华培训听课记录

昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战。培训给出了一些实际的数据分析例子,包括“设备管理”、“运作优化”和“营销服务”三类;然后讲了数据分析的基本框架、方法和技术;最后给出了大数据时代,数据分析的认识误区和挑战。田老师发音不标准啊,好多词听好几遍,再关联上下文,连猜带蒙的才勉强能明白,不过有的也不一定对。记录以反复学习。视频链接:https://appgzdr0r6c3350.h5.xiaoeknow.com/v1/course/column/p_5e90181d2f5c2_Ut1

2020-06-24 14:39:42 466

原创 工业数据分析技术与实战之运作优化——昆仑数据田春华培训听课记录

昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战。培训给出了一些实际的数据分析例子,包括“设备管理”、“运作优化”和“营销服务”三类;然后讲了数据分析的基本框架、方法和技术;最后给出了大数据时代,数据分析的认识误区和挑战。田老师发音不标准啊,好多词听好几遍,再关联上下文,连猜带蒙的才勉强能明白,不过有的也不一定对。记录以反复学习。视频链接:https://appgzdr0r6c3350.h5.xiaoeknow.com/v1/course/column/p_5e90181d2f5c2_Ut1

2020-06-24 14:37:06 411

原创 工业数据分析技术与实战之设备管理——昆仑数据田春华培训听课记录

昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战。培训给出了一些实际的数据分析例子,包括“设备管理”、“运作优化”和“营销服务”三类;然后讲了数据分析的基本框架、方法和技术;最后给出了大数据时代,数据分析的认识误区和挑战。田老师发音不标准啊,好多词听好几遍,再关联上下文,连猜带蒙的才勉强能明白,不过有的也不一定对。记录以反复学习。视频链接:https://appgzdr0r6c3350.h5.xiaoeknow.com/v1/course/column/p_5e90181d2f5c2_Ut1

2020-06-24 14:07:29 407

原创 工业数据分析技术与实战之入门——昆仑数据田春华培训听课记录

田老师发音不标准啊,好多词听好几遍,再关联上下文,连猜带蒙的才勉强能明白,不过有的也不一定对。记录以反复学习。视频链接:https://appgzdr0r6c3350.h5.xiaoeknow.com/v1/course/column/p_5e90181d2f5c2_Ut1xWLXN?type=3&share_user_id=u_5e91169429c27_G0xxVfLReS&share_type=2&scene=%E5%88%86%E4%BA%AB&access_en

2020-06-24 11:42:32 509

原创 OpenModelica使用入门

安装安装要装在默认路径下,否则可能造成模型编译失败。创建模型实例文件——新建Medolica类,命名为RLC1,在库中选择Modelica/Electrical/Analog/Basic中的电容、电阻、电感以及大地模块和Source中的恒定电压源模块,将其拖入组件视图中,设定好参数后,将其连接。在模型名上右键,点击“仿真配置”:运行仿真,编译成功后自动弹出绘图界面,选择参数查看结果:导出为FMU:导入开源库文件——系统库:打开ExothermicReaction,运行:结果:

2020-05-14 14:23:49 13315 2

原创 win10下python虚拟环境管理(conda)

不同项目依赖的python环境及第三方库可能不同,所以最好为每个项目创建单独的虚拟环境。创建虚拟环境的方法有三种:用virtualenv用pycharm用conda分别进行了验证。用virtualenv创建虚拟环境(未成功)参照https://www.jianshu.com/p/ad2d8ee4a679 过程,在激活虚拟环境时出错,没能解决:.\venv\Scripts\act...

2020-04-22 09:13:27 986

原创 dask-ml引入机器学习算法错误AttributeError: module 'sklearn.metrics.pairwise' has no attribute '__module__'

学习dask-ml时,遇到下面问题:from dask_ml.cluster import KMeansAttributeError Traceback (most recent call last)~\Anaconda3\lib\site-packages\dask\utils.py in wrapper(method) 5...

2020-04-17 12:02:49 3215

原创 解决dask的dashboard无法显示问题

在jupyter notebook运行dask distribute client,打开dashboard时,无法显示监控内容:from dask.distributed import Clientclient = Client(n_workers=4)client打开Dashboard: http://127.0.0.1:8787/status只显示后台报错:问题分析:...

2020-04-08 11:27:16 1391 1

原创 解决dask分布式搭建错误:ValueError: tuple is not allowed for map key

按照https://blog.csdn.net/a19990412/article/details/79510219所述步骤完成dask分布式搭建后,在最后一步运行测试程序时,报错:ValueError: tuple is not allowed for map key官方问题说明:https://github.com/dask/distributed/issues/3491原因:msgp...

2020-04-08 08:53:38 1070

翻译 FeatureTools官方文档——Get Start 之用实体集表示数据

原文官网链接:Representing Data with EntitySets实体集 EntitySets是实体及其之间关系的集合。它们对于为特征工程准备原始的结构化数据集非常有用。尽管Featuretools中的许多函数将实体和关系作为不同的参数,但建议创建一个EntitySet,以便你可以根据需要更轻松地操作数据。The Raw Data 原始数据下面我们有两个与客户交易相关的数据表(...

2020-03-20 09:10:43 744

原创 工业大数据产品的思考

工业相关思考时代的大势是什么?工业行业如何借势?我们离能借这个势还差些什么?工业互联网的用户特点:我们的用户不纯粹是个人,而是企业下的员工,有点像钉钉。我们的利润不来自流量。但是,同样依靠用户被满足的程度。让用户在我们的产品中找到一点确定,一点依赖。向客户交付价值,获得回报。工业互联网的点线面体如何定义?为什么不敢做数据分析的投入?因为恐惧?害怕没有市场小,害怕没有快速回报?害怕绩效不好?...

2020-03-16 19:52:59 196

原创 梁宁产品思维学习笔记

学习笔记产品能力就是训练一个人:判断信息,抓住要点,整合有限的资源,把自己的价值打包成一个产品向世界交付,并且获得回报。别怕茫然,别怕被diss,别怕推倒重来。先建立信息的秩序,再建立自己内限的秩序。在一片纷杂里,你会知道自己该放弃哪些点,抓住哪个点,慢慢建立起掌控。产品的人生就是天天被打击。人和产品的五个层次:1、 感知层:外貌,表面数据2、 角色框架层:基于角色的接触,都是浅层的...

2020-03-16 17:55:50 872

原创 时序数据应用ARMA模型探索性分析处理流程及方法

平稳性检验方法:时序图检验、自相关图、偏自相关图检验、adfuller检验纯随机性检验:自相关图、偏自相关图检验、LB统计量、DW(Durbin-Watson)检验、正态分布检验、Ljung-Box检验、adfuller检验非平稳序列确定性分析:趋势分析、季节效应(周期性)分析、综合分析、X11分析非平稳序列转换为平稳序列:差分、方差齐性变换、平滑、分解...

2020-03-15 21:41:50 457

原创 三角函数关系图

倒三角关系sin2(x)+cos2(x)=1sin^{2}(x) + cos^{2}(x) = 1 sin2(x)+cos2(x)=1tan2(x)+1=sec2(x)tan^{2}(x) + 1 = sec^{2}(x)tan2(x)+1=sec2(x)1+cot2(x)=csc2(x)1 + cot^{2}(x) = csc^{2}(x) 1+cot2(x)=csc2(x)2、对角...

2020-03-15 21:27:02 13753

原创 卡方检验与方差分析的使用场景总结

下面一图帮助记忆卡方检验与方差分析的使用场景 explanatory 代表自变量,response代表因变量,c代表分类变量,q代表数值型变量。 总结为: (1)分类问题 类别变量,用卡方检验 连续变量,先分箱为类别(分段),再用卡方检验(或颠倒自变量与因变量,再采用方差分析检验) (2)回归问题 类别变量,方差分析(当自变量是Q,因变量是C时,可以颠倒自变量与因变量,再采用方差...

2018-08-12 11:53:03 7675

翻译 机器学习项目流程检查单

翻译自Hands-On Machine learning with Scikit-Learn and TensorFlow APPENDIX B : Machine Learning Project Checklist机器学习项目清单本清单引导你实践一个机器学习项目。主要包括8步: 1、问题构建及全局控制 2、获得数据 3、探索并了解数据 4、准备数据,从而更好的发现机器学习算...

2018-05-08 16:12:02 346

翻译 sklearn 用户手册之1.12. 多类别与多标签算法

2018-05-08 15:56:26 6936

原创 python读取oracle数据

1、安装cx_Oracle pip install cx_Oracle 安装文档http://cx-oracle.readthedocs.io/en/latest/installation.html,里面有可能出现的问题的解决办法,如DPI-1047: Oracle Client library cannot be loaded如果python是64位的,那么cx_Oracle和oracl...

2018-03-27 10:09:49 10840

原创 全文检索系统技术架构及流程说明

技术架构图 索引的创建根据文件来源,分为hadoop数据和oarcle数据两类。 (1) hadoop数据 在线网盘的文本文件和非文本文件都保存在hadoop的hdfs或hbase数据表中,推荐系统的网页文件也保存在hbase表中。这些文件通过tika、Jsoup等文本提取或文本解析工具将文件名、文本内容、网页文字内容等可索引数据解析出来保存在hbase表的对应字段中,然后通过ES-...

2018-03-16 11:09:02 3219

原创 朴素贝叶斯算法

注:其实不是原创,可也不是转载和翻译,是整理的邹博《机器学习》视频配套ppt里关于朴素贝叶斯的算法推导。怎么就没有个其它选项,不选还不行?数学基本公式条件概率公式: P(A|B)=P(AB)P(B)P(A|B)=P(AB)P(B)P(A|B) = \frac{P(AB)}{P(B)} 全概率公式: P(A)=∑iP(A|Bi)P(Bi)P(A)=∑iP(A|Bi)P(Bi)P(A...

2018-03-07 13:14:07 398

原创 推荐系统相关工具简介

  下面对上篇《推荐系统架构及流程说明》中提到的相关工具做个简单介绍。    1、Lambda架构   Lambda架构的目标是设计出一个能满足实时大数据系统关键特性的架构,包括有:高容错、低延时和可扩展等。Lambda架构整合离线计算和实时计算,融合不可变性(Immunability),读写分离和复杂性隔离等一系列架构原则,可集成Hadoop,Kafka,Storm,Spark,Hbase...

2018-03-07 08:41:03 2156

原创 推荐系统架构及流程说明

  个性化推荐系统,实现了新闻、二手信息等多种类型的信息的个性化推荐,每一个用户都会拥有属于自己的个性化推荐列表。下面简单介绍推荐架构及推荐流程。   本推荐架构参照Lambda架构,分为三层:批处理层、实时处理层和服务层。   (1)批处理层:主要组件是HDFS、Hbase和Spark MLlib。持久化的历史数据、静态数据保存于Hbase或HDFS;应用程序使用Spark MLlib机...

2018-03-06 13:09:03 12642

原创 如何快速入门python数据分析

如何快速入门python数据分析2018-03-04如果有很好的java或C++等编程语言的基础,怎样快速开始python数据分析呢? 1、安装python开发环境 找个python数据分析集成包Anaconda装上,可以是python2.7的,也可以是python3.x的。我装的Anaconda3-4.3.1-Windows-x86_64.exe。 2、学习一下python开发环境...

2018-03-05 08:46:45 690

原创 向量的导数

向量的导数1、向量的导数设A为m×n" role="presentation" style="position: relative;">m×nm×nm\times n的矩阵,x" role="presentation" style="position: relative;">xxx为n" role="presentation" style="position: relat

2018-01-23 17:31:36 4273

原创 最大似然估计

最大似然估计设有分布f(x,θ)f(x,\theta) ,其中θ\theta为未知参数。已知服从该分布的样本 x1,x2,...,xnx_1,x_2,...,x_n,则可以求出当θ\theta为何值时,出现x1,x2,...,xnx_1,x_2,...,x_n这n个样本的概率最大。也就是,在已知实验结果(即样本)的情况下,估计满足这些样本分布的参数,把可能性最大的那个参数θ\theta作为真实

2018-01-23 16:39:22 2496

原创 2017工作总结及2018工作计划

  这两天在写2017年工作总结,翻翻这一年学的东西干的事儿,好多话想说。   临近年底,终于硬着头皮学完了邹博机器学习视频里的算法,不然真心疼花的那四百块钱。为了看懂他那些公式推导,不得不又把高数、线性代数、概率和数理统计又看了一遍,然后学算法公式推导的时候又发现那些导数矩阵分布啥的跟没看过一样,只能再回去重啃。过程中无数次怀疑我的智商都传给了儿子,一点儿都没给自己留下;无数次怀疑我大学是否学...

2018-01-19 11:58:12 3940

原创 python基础

python基础——《利用Python进行数据分析》附录a:Python语言精要读书笔记语言语义1、缩进,而不是大括号,冒号表示一段缩进代码的开始,其后的所有代码都必须缩进相同的量,直到代码块结束为止。 2、分号只能用在一行里不同语句之间 3、万物皆对象 4、#后面的都为注释 5、函数或方法调用 函数:result=f(x,y,z)或g() 对象的方法调用:obj.some_method

2017-12-14 10:03:00 523 2

原创 线性回归学习总结(未完待续)

线性回归学习总结邹博《机器学习》视频课程学习笔记回归定义.目标函数.θ" role="presentation" style="position: relative;">θθ\theta的解析式求解过程正则项与防止过拟合θ" role=&a

2017-12-13 17:32:11 3083

模型交换和协同仿真的功能模型接口FMI(翻译).pdf

FMI_for_ModelExchange_and_CoSimulation中文翻译

2021-11-12

elasticsearch的hanlp中文插件

ElasticSearch1.7.1的hanlp1.2.4中文插件。有源码,有开发、安装说明文档,可根据需要自己更换相关软件的版本重新编译。想开发hanlp的大牛致敬!

2016-02-23

windows下hadoop2.6开发环境搭建过程说明及插件

windows下搭建hadoop2.6开发环境详细说明,包括各种错误解决方法及参考文档;包括所需插件及测试代码

2015-12-15

android2.3移植ethernet

android2.3移植ethernet。包括补丁文件和移植说明文档

2012-09-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除