自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(77)
  • 资源 (1)
  • 收藏
  • 关注

原创 数据治理读书笔记-体系篇-数据架构

数据架构是将企业业务实体抽象为信息对象,将企业的业务运作模式抽象为信息对象的属性和方法,建立面向对象的企业数据模型,数据架构实现从业务模式向数据模型的转变,业务需求向辛纳希功能的映射,企业基础数据向企业信息的抽象。

2023-03-09 22:00:02 123

原创 数据治理读书笔记-体系篇-数据战略

数据战略不仅是企业领导的“一把手”工程,更是各级领导的重点工程,各级领导应对数据战略规划项目高度重视,进而确保项目能够顺利推行。

2023-03-02 22:10:36 130

原创 数据治理读书笔记-体系篇-数据管控

数据管控是一套以数据治理相关组织和人员为核心的,涵盖企业数据治理制度、流程、考核等各个方面的执行保障机制,其本质是通过建立高质量的人才队伍和严明的制度体系来确保数据战略被正确落实。

2023-03-01 22:23:04 141

原创 数据治理读书笔记-体系篇

工业企业数据治理体系以数据管控为核心,通过数据管控统领数据治理的10大职能领域,包括数据战略、数据架构、主数据管理、元数据管理、时序数据管理、数据指标管理、数据质量管理、数据安全管理、数据交换与服务、数据开发与共享。

2023-02-28 22:28:31 83

原创 数据分析一些自己觉得很不错的思路

愿自己不断的学习,不断的成长 一直觉得自己在数据分析思路和角度方面还是有存量的,能忽悠一部分人,但是今天听了公司王博(王亚明)的思路,还是觉得很佩服。什么问题呢? 经典的市场和研发的矛盾,市场觉得研发的机型不够不能满足市场需求,研发觉得市场部为了卖出商品乱承诺,导致客户不满意,流失客户。王博的解题思路将商机进行聚类,层次聚类,这样每个层级不同类个数,相当于要研发的产品类型,然后去评估不同种类的投入产出比,来决定研发商品的类型。这个聚类过于简单了,细节方面没有考虑商机中各个因素的权限

2020-08-20 16:40:26 200

原创 数据中台的探讨

最近换的工作,组内一直在讨论什么是数据中台,我们要建立数据中台怎么做?感觉很多企业都在进行这样的摸索或者说探讨,所以决定把自己看到的介绍数据中台的都列出来,供大家对比阅读,等后续多了,就整理一个目录出来,把关键点列上吧,现在只做个记录吧!https://blog.csdn.net/cqcre/article/details/96935800...

2019-12-27 15:49:04 166

原创 pycharm需要注册的问题

pycharm的破解问题一直以为pycharm是一款开源的软件,都不知道之前是怎么安装的竟然都没觉得注册是个事,今天早上发现pycharm过30分钟就提示注册,然后就给关闭了,才发现这是一款付费软件,上网找教程,花费了20分钟搞定吧!之所以想说说是因为感觉到网友真的是太伟大了废话少说,尊重原创,发布链接https://blog.csdn.net/lengyuewusheng99/articl...

2019-10-08 11:07:09 1911

原创 python的趣味小应用--windows下.exe小程序生成

换了份工作,换了种心情,有业务需要,搞了个自动化报表的小工具,使用的是python自动生产.exe的包pyinstaller,来到这边新同事很nice,直接上名字,带我一起熟悉业务,一起做事情的刘圣义,谢谢他! 主要解决问题,是从几个表里面把数据进行整合计算,最终输出一张excel表格,python脚本开发没啥问题,按照正常开发就行,要有main函数,然后如果有需...

2019-09-12 17:15:14 1314 3

原创 pycharm使用anaconda环境的遇到问题的一些记录

最近换了工作,领完新电脑就需要装环境啦!1. anaconda和miniconda任选一种,装起来,我比较喜欢anaconda,但是这个占空间好像蛮大的。2. anaconda装完(勾选Add path to your environment一定要将conda环境添加到系统变量中,否则在pycharm中使用时会报错)之后整两个环境,我一般都是python2.7和python3.7各来一个,...

2019-09-06 15:07:56 1428

原创 背包问题简单实现

跟同事聊,他面试的时候被问到背包问题,问我知道这个问题嘛,我说知道,但是说来惭愧,之前看过动态规划的东西,后面又全忘记了,所以又去学习了下背包问题的解题思路。看了几篇博文,发现有一篇写的不错,所以先列上https://www.jianshu.com/p/a66d5ce49df5参照这篇博文,将其java代码改成python代码,记录下import numpy as ...

2019-07-11 16:02:24 174 1

原创 AUC详解

本着尊重原作者(或者转载者)的目的,先把引用链接发上来https://blog.csdn.net/Stephen_shijun/article/details/83059863这篇文章前面讲的很好,重点提到了样本不均衡的情况,但是后面介绍AUC的时候不够详细https://blog.csdn.net/lieyingkub99/article/details/81266664这篇则是讲解...

2019-05-10 16:21:17 2286

原创 python中scipy包中的linkage进行层次聚类

from scipy.cluster.hierarchy import dendrogram, linkage,fclusterfrom matplotlib import pyplot as pltX = [[i] for i in [2, 8, 0, 4, 1, 9, 9, 0]]#method是指计算类间距离的方法,比较常用的有3种: #single:最近邻,把类与类间距离最近的作...

2019-03-01 18:14:32 12243 2

原创 linux命令(shell脚本)直接连接redis

最近遇到一个过滤问题,需要取redis中的数据,平常都是用python脚本来读取,然后存到文件中,shell脚本再调用,后面想想都是语言,linux命令肯定可以直接连接redis,所以搜罗了下,在此记录下先进入命令行redis-cli -h XXXX -p 6379 -a XXXXget key第二种方式可以直接放入shell脚本redis-cli -h XXXX -p 6379 -a...

2018-12-06 14:40:39 16162

原创 gensim中的word2vec的使用

本着尊重原著的想法,我们先把一些引用的文章贴上来,供大家参考word2vec的理论知识,这个真的蛮详细的,我表示没有耐心全部搞透啊!:https://blog.csdn.net/itplus/article/details/37969519苏剑林苏大神的博客,我很喜欢的一位大神:https://kexue.fm/archives/3863刘建平Pinard 大神的博客:https://...

2018-08-21 16:07:34 8417 7

原创 极大似然估计的一些学习整理

尊重原创,尊重每个人的成果,所以把参考的博文放在首位:这篇博文讲的很肤浅但是很通透 :https://blog.csdn.net/u011058765/article/details/51435502这篇博文讲的很到位,很深刻,本文的大部分也是摘自此博文:https://blog.csdn.net/zengxiantao1994/article/details/72787849极大似然...

2018-08-20 18:44:39 15227 1

原创 一些杂碎知识(python中的map、lambda、reduce、zip)以及神经网络的前向传播和反向传播手工推导

     一直没有系统的学习过代码,数学系毕业,学校期间接触C,考了计算机等级考试二级,后面出来工作,先用vb(又是暴露年龄的编程语言啊),后面java,到现在基本稳定在python,一直都觉得自己是一个不求甚解的人,只要能出正确结果,不考虑代码的陈旧性,感觉自己的代码还停留在最基本的语句的应用,其实每种语言再不断的优化迭代,更新了很多很方便的自带函数,今天就遇到了python中的map、lamb...

2018-06-22 11:33:37 576

原创 用户长短期兴趣模型-多因素模型探索

      最近在做资讯推荐,发觉是个很有意思的课题,尽管在人事上有些不愉快,但是总体来讲,这个课题是我喜欢的,也是我第一次实践。我希望能在这次的实践中从真实的点击效果数据中寻求对算法对推荐更深层次的理解。       尽管算法这块并没有太多创新的东西,但是还是将所做的事情记录下。      第一步:聚焦用户的短期兴趣(用户短期兴趣模型)        短期兴趣模型大体的思路是滑动时间窗,但是我发...

2018-06-20 20:11:38 4198 1

原创 一些关于人性的思考~

     总想写点什么,但是一直没捕捉到那个点,我想这些点就是每个人的欲望和恐惧吧!在公司里与各式各样的人接触,尤其是同组的同事,能够真真切切的感受到每个人的欲望和恐惧!发觉欲望与恐惧总是匹配而来,没有一个人能够逃脱,甚至我自己!记得以前自己最喜欢的作家是台湾的林清玄,一个佛系的作家,读他的书内心是那样的平静与安宁,而现实的生活里总是充斥着各种欲望与恐惧!有时候自己在想真的能够超脱的人会是什么样的...

2018-06-18 15:22:11 1234

原创 词向量与Embeding解析

      最近在关注词向量,一直以为它是将语料训练之后的输出结果,看了苏大神的文章(https://kexue.fm/archives/4122)才知道它只是个参数而已!而Embedding层就是以one hot为输入、中间层节点为词向量维数的全连接层!而这个全连接层的参数,就是一个“词向量表”!onehot还是很强大的:one hot型的矩阵相乘,就像是相当于查表,于是它直接用查表作为操作,而...

2018-05-21 19:01:52 1396

原创 word2vec 以及keras的lstm

最近学习了word2vec 以及keras的lstm,理解并修改了大神的代码,深入学习了下,同时开通了github,以后代码的搬运还是在专业工具上吧,csdn博客代码的书写太不方便了,github地址:https://github.com/shengmingruxue/ToaduptoSwan/blob/master/README.md算法的学习像无底洞一样,感觉自己每天都惴惴不安,同时还得考虑要...

2018-05-19 20:44:48 3869 2

原创 轻轻掀开你的面纱来,嗨,spark

      标题起的挺有意思,但是最近的心情挺没意思,有人的地方就有江湖,有时候人与人的相处真是复杂,实在觉得没必要那么复杂,开心了笑,不开心了哭,像小孩子一样不好嘛!唠叨的话不说了,干正事!!!     学习spark是希望数据量大起来的时候,能够用spark跑起来,当初的一个瓶颈就是在协同过滤(cf),所以学习spark的时候先从简单数据的协同过滤开始吧!pyspark能跑通得感谢那个素未谋面...

2018-04-27 19:10:18 234

原创 Hadoop Shell命令-(spark学习前奏)

     有时候感觉自己就像一只瘦小的绵羊,被放在了一片无边无际的草原上,这里的小草丰腴而鲜美,面对着唾手可得的美味,只能默默的叹息,自己的胃是辣么辣么的小,啃呀啃呀消化不了,什么时候才能啃完,才能消化完,去外面的世界看一看呢?!     机器学习领域就像这片大草原一样,需要学习的东西太多太多,有时候好希望自己有魔法,魔法棒挥动之后,深度学习、spark等等各种算法各种工具我就都使用自如啦!然而现...

2018-04-25 13:52:35 417

原创 python启动http服务

    好久没有更新啦,最近又有一些新的学习与尝试,所以来更新下,以便以后遇到同样的问题还记得怎么处理!    最近在做资讯推荐算法,大体就是基于内容的推荐,还可以的一点是走实时推荐,即可以根据用户最近的浏览来捕捉用户的兴趣点,从而根据用户即时兴趣做相似度召回以及排序,算法方面没有什么可说的,使用了 gensim,jieba,hanlp 模块    hanlp模块的安装也有一些坑,其实可以直接装p...

2018-04-23 11:19:46 8337

原创 keras学习之-mnist_cnn.py

keras的初窥,发现keras真是一个极好的api,封装了好多繁琐的东东,使用起来简洁方便。注:该例子相对比较简单,两个卷积层作为隐藏层,一个全连接层作为输出层# -*- coding: utf-8 -*-"""Created on 2018/3/13 18:15 @author: lhua"""#先翻译下开头:# 用MNIST手写数字识别数据训练了一个简单的CNN模型。在迭代1...

2018-03-14 10:23:28 2421

原创 keras学习之cnn

     今天重点理解了几篇介绍CNN的博文,跑了几个基于keras的cnn的代码样例,只能说实现了对CNN的初窥!      博文:http://blog.csdn.net/qq_25762497/article/details/51052861#t0 从这篇博文里面获取了计算一个维度(宽或高)内一个输出单元里可以有几个隐藏单元的公式 博文:http://blog.csdn.net/u01264...

2018-03-13 17:25:10 480

原创 keras打卡

       上周,同事普及了下《生成对抗网络 (GAN)》,看到简单的几十行简洁代码,就完成了图像生成器、分类器的构建,感觉很赞叹!就这样认识了keras,想着对自己这个深度学习小白来说,keras将是个不能再好的选择了,所以就准备开始学习keras了,然命运如此多舛,在网上找了个很类似官网的代码跑起来却出现了一堆问题!看到那些密密麻麻的报错代码,整个人生都赶脚崩溃了,那些密密麻麻的小字母与er...

2018-03-12 10:45:11 235

转载 防止过拟合的正则化项

感叹知乎上的大牛们啊,解释的相当到位,作为计算机小白来说,感觉非常容易理解,所以在这里转载了!https://www.zhihu.com/question/20924039机器学习中常常提到的正则化到底是什么意思?举个例子 这是个基于多核的支持向量机的目标函数 d是多核函数的参数 它说r(d)是正则项。为什么要令r(d)为正则项,有什么目的?

2017-12-27 17:52:09 725

转载 详解 MNIST 数据集

http://blog.csdn.net/simple_the_best/article/details/75267863最近学习xgboost算法,看到好多代码样例中用到了这个测试集,所以学习一下!MNIST 数据集已经是一个被”嚼烂”了的数据集, 很多教程都会对它”下手”, 几乎成为一个 “典范”. 不过有些人可能对它还不是很了解, 下面来介绍一下.MNIST 数据集可

2017-12-18 11:39:46 1849

转载 gbdt的参数意义与设置

http://www.jianshu.com/p/005a4e6ac775重要参数的意义及设置推荐GBDT树的深度:6;(横向比较:DecisionTree/RandomForest需要把树的深度调到15或更高)  以下摘自知乎上的一个问答(详见参考文献8),问题和回复都很好的阐述了这个参数设置的数学原理。  【问】xgboost/gbdt在调参时为什么树的深度很少就能达到很高的

2017-12-12 17:12:35 5614

原创 python中的3d画图

python的3d散点图from sklearn.cluster import KMeansfrom sklearn.externals import joblibfrom sklearn import clusterimport numpy as np # 生成10*3的矩阵data = np.random.rand(100,3)print data# 聚类为4类es

2017-12-12 16:39:48 1106

转载 snownlp和jieba对比,被碾压的很惨

今天逛网页,无意中看到了有人写snownlp这个库用来处理文本的情感,出于好奇,出于安慰吧(因为这两天想装hanlp,结果没装上,总是报错,心情巨沮丧!!,所以逛着其他包替代hanlp)发现jieba的分词直接碾压snownlp的分词,snownlp的情感分析也是巨慢,其中把训练中包括了分词部分,巨慢,不可用的赶脚!举例如下:更多的例子就不再一一列举了!不过还是把介

2017-12-12 16:20:51 55913 4

转载 jupyter notebook 安装,使用

http://blog.csdn.net/tina_ttl/article/details/51031113Python·Jupyter Notebook各种使用方法记录·持续更新使用pip来安装Jupyter。输入安装命令pip install jupyter即可,大约需要几十秒钟运行:cmd->jupyter notebook 在网页上运行一、 Ju

2017-12-11 17:28:17 9947

转载 交叉验证(CrossValidation)方法思想简介

交叉验证 Cross-validationhttps://www.cnblogs.com/sddai/p/5696834.html交叉验证(CrossValidation)方法思想简介以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为

2017-12-11 16:53:16 2074

转载 npp正则使用,很方便,就是需要会正则,正则一直是偶头疼的东东

http://blog.sina.com.cn/s/blog_62b13cf20102wtlw.html下载notepad++并安装。从该地址下载notepad++:http://download.tuxfamily.org/notepadplus/6.6/npp.6.6.Installer.exe。下载后安装软件。使用notepad++打开需要处理的文

2017-12-11 15:13:36 435

原创 那些年的风,那些年的雨,那些年一起走过的风风雨雨

这并非一篇洋洋洒洒的散文,这是一篇规规矩矩的数据分析         骨子里的自己其实是充满了浪漫色彩的文艺小清新,而现实眼中的自己却是一枚屌丝IT女!与那个同为屌丝IT人事的他一起携手走过了近4个年头了!生活中点点滴滴都在简单的时光里慢慢的沦为了回忆,成为了不可触及的过去,常常想让时光慢一些,让我们有时间来细细品味这点点滴滴,而时间的脚步却从未放慢一点点!能留住的似乎都在记忆的硬盘里!马上又

2017-12-09 16:38:14 368 2

转载 OneHotEncoder

one_hot(独热码)官方示例的个人理解官方给的例子1234567891011from sklearn import preprocessing enc = preprocessing.OneHotEncoder() 

2017-12-07 15:15:37 365

翻译 gbdt与逻辑回归融合

GBDT原理及利用GBDT构造新的特征-Python实现看了许多GBDT构建特征的资料整理而成,具体资料见Reference。背景Gradient BoostingGradient Boosting Decision TreeGBDT应用-回归和分类GBDT构建新的特征思想GBDT与LR融合方案源码内容generate GBD

2017-12-07 14:20:15 3771

转载 一个 11 行 Python 代码实现的神经网络

概要:直接上代码是最有效的学习方式。这篇教程通过由一段简短的 python 代码实现的非常简单的实例来讲解 BP 反向传播算法。代码如下:Python1234567891011X = np.array([ [0,0,1],[0,1,1],[1,0,1],[1,1,1] ]

2017-12-05 16:45:48 302

转载 python操作redis

https://www.cnblogs.com/zhouxinfei/p/7895428.htmlPython操作Redis之设置key的过期时间对于一个已经存在的key,我们可以设置其过期时间,到了那个时间后,当你再去访问时,key就不存在了有两种方式可以设置过期时间,一种是指定key从当前时间开始算起还能存活多久,时间单位有两个,一个是秒,一个是毫秒第二

2017-11-28 11:07:37 238

转载 python 操作redis

python 操作redis之——HyperLogLog#coding:utf8import redis# python 操作redis之——HyperLogLogr =redis.Redis(host="33.23.724.12190",port=6222,password="666666")# 1.Pfadd 命令将所有元素参数添加到 HyperLogLog 数据结构

2017-11-28 11:03:57 197

循序渐进教你学会EXT使用

1、ext表格控件; 2、ext树形; 3、表单和输入控件也能改成ext样式; 4、超脱一切的弹出窗口; 5、不同的浏览器可以显示一样的布局。。。

2011-09-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除