自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 Superset配置邮件发送报告功能

目录Superset配置邮件发送报告功能superset config配置debian10 配置中文环境首先,给apt换源安装对应字符集首先,安装locals然后,安装字符集最后,安装对应中文字体Superset配置邮件发送报告功能superset版本1.3.0安装方式: docker官方安装superset config配置EMAIL_REPORTS_USER="admin" # 发送邮件的用户账号EMAIL_REPORTS_SUBJECT_PREFIX = "[Report] " # 邮件

2021-09-26 16:31:29 2191

原创 Superset查询用户报表看板权限

本来想google一下的,结果没找到,写完了就分享出来,方便大家。SELECT a.dashboard_title ,a.id ,c.datasource_id ,c.perm ,c.schema_perm ,h.last_nameFROM dashboards aLEFT JOIN dashboard_slices bON a.id = b.dashboard_idLEFT JOIN slices cON b.slice_

2021-09-06 19:18:40 612

原创 【免费】中国省级行政单位ISO 3166-2对照表

为了找个表,用百度搜了半天,结果全部指向需要付费下载的地方,想钱想疯了吧,互联网开放互助的精神何在?恶心坏了最后用bing找到了,在万维百科有,去原网址复制粘贴吧,我偷懒粘贴的图片。https://www.wanweibaike.com/wiki-ISO_3166-2:CN...

2021-02-03 15:25:56 5950 3

原创 Superset最新版本安装方法-2021 v_1.0.0

Superset最新版本安装方法-2021创建环境安装superset设置默认的数据库为mysql配置环境创建环境我base环境是python3.8,结果用conda安装要么就没这个包,用了conda-forge渠道安装多次,全部失败,最后痛定思痛,还是新建个环境吧,建议用python3.7的版本,兼容性高点。conda create -n superset python=3.7安装superset这里尝试继续使用conda安装,还是一样失败,最后只能选择pip,还挺香的。这里千万注意,是安装a

2021-01-23 15:33:34 2864 2

原创 【算法】各类排序算法Python简单实现

烦躁,看看算法书静静心import numpy as npimport randomimport time# 归并排序def sort_two(a,b): n = len(a) + len(b) a.append(np.inf) b.append(np.inf) c = [] for i in range(n): if a[...

2019-11-04 11:22:06 152

原创 假设检验——小解转化率A\B试验

目前学习了解假设检验中,学的不是很透彻,所以仅根据 A/B-test显著性检验 讲一讲转化率类型的假设检验。一、伯努利分布一次实验,两种结果,就是伯努利试验。伯努利分布_百度百科抛一次硬币,结果为正面为事件A,则P(A)的期望和方差分别为1/2,1/4,即p和p(1-p)二、二项式分布重复n此的伯努利试验,就是二项式分布,重点是独立同分布,没什么好说的。二项...

2019-09-06 16:41:03 1213

原创 Hive-Sql内实现日期变量

目前的工作需要在公司平台上通过hive导出数据,定时任务的权限没有开放给我,所以只能每天手动导,手动导数时又要天天手工改日期,很麻烦,所以想要where子句能够每天自动有对应的日期。以上是前提,有太多槽点,请忽略。首先,要思考的是日期字段的数据类型,以及hive是否也有隐式转换 参考这篇文章 ...

2019-06-19 16:01:14 8092 1

原创 Python决策树实现 适用分类变量、连续变量、缺失值

按照周老师书上讲的用权重处理缺失值,发现问题很多。每当决策树选择包含缺失值的属性作为分割条件时,该属性包含缺失值的实例将被同时分配到每个子节点,这无疑将增加运算量。同时,各项退出条件的设置也不能再依据实例个数而应该是权重。总的来说,按照书上写的实现一遍,很多以前不懂的都一下子明白了。对sk learn中的决策树也有了更好的理解CART算法对分类变量也是用的二叉树,这样不仅能提升运算速度,感觉这...

2018-08-21 11:49:51 7615 1

原创 Python pandas.DataFrame.apply用法

今天被pandas.DataFrame.apply和pandas.core.groupby.GroupBy.apply搞糊涂了,在搜索的过程中发现很多人跟我一样弄糊涂了。这是DataFrame.apply  Applies function along input axis of DataFrame. Objects passed to functions are...

2018-08-06 19:11:09 2965 2

原创 机器学习 决策树初探Titanic

尝试用了sklearn的决策树,发现一些问题。决策树算法的一个很大的优势就是可以很轻松的处理离散的分类变量,但CART仅支持数值变量。我看周老师的决策树这章讲的是通过为实例增加权重的方式处理缺失值,sklearn的分类树数据中不能存在缺失值。所以,为了简单的使用sklearn的决策树,我只能手动给缺失值补值。对有序分类变量,采取直接数值化的方式处理;对无序的,用了binary coding方法...

2018-08-01 19:27:02 291

原创 Python报错 from . import _imaging as core

昨天安了个包,conda升级了相关联的某些包,我的PIL升级到了5.1.0,结果今天爬虫就报了如下的错from PIL import Image报错 from . import _imaging as coreImportError: DLL load failed: The specified module could not be found.上网看有的建议是回滚PIL,但我的Py...

2018-07-26 10:32:05 9256

原创 Python 可迭代对象、迭代器、生成器概念理解

建议先看我上次发的作用域、闭包的概念再看完廖老师的关于面向对象的高级编程,或者先看    定制类再看 完全理解Python迭代对象、迭代器、生成器再看 python迭代器与生成器详解最好有自己的思考,有时候虽然描述不同,但内核是一样的 print(type(range))print(type(range(5)))print(next(iter(range(5))))...

2018-07-19 18:04:26 274

原创 Python __slots__ ,@property,私有变量学习记录

使用装饰器的实质是将方法伪装成属性调用,但并不是真的存在该属性。_Student__score根据不同解释器并不总是能正确调用__score属性,所以最后不要用。另外,单下划线命名的变量(包括类,函数,普通变量)仅不能通过from module import * 导入到另外一个模块中,通过 import ClassClsss._test或者from Class impo...

2018-07-17 15:03:24 252

原创 Python Excel画图

from PIL import Imagefrom pandas import DataFramepath = r'C:\Users\liuyiheng\Pictures\LCLM_1.jpg'img = Image.open(path)imgL = img.convert('L')pix = imgL.load()w,h = imgL.sizeframe = DataFrame(...

2018-06-20 17:04:19 2895

原创 python 全局变量和局部变量学习记录

一般假如在函数中定义了同名的局部变量和全局变量,在函数中对该变量做的变化不会反映到全局变量身上。def test2(st): st = 'hello' return st st = 'hehe'print(st)print(test2(st))print(st)hehehellohehe而假如该变量为可变类型如list时,def test(lis): l...

2018-06-14 17:57:33 233

原创 PBI 自如公共数据展示

<iframe width="933" height="700" src="https://app.powerbi.com/view?r=eyJrIjoiOGE1NTU3ZTktMmI4ZC00ZjU2LTk1ZWItYmFhODAyNDU2MTJmIiwidCI6ImQ2ZDlhZDNhLTQ5NDYtNGVjNy1hODUxLWZmYWZhMWIzZDQ3MCIsImMiOjEwfQ%3...

2018-06-14 10:18:44 767

原创 python 自如爬虫

from selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byfr...

2018-06-08 15:19:13 2640 2

原创 python 当当京东比价

今天发现当当的抢购价是覆盖在当当价上的,大概是页面加载js渲染展示新的抢购价。所以如果简单的去爬就会发现爬到的价格和网页显示的不一样。不得不吐槽,当当的网页加载真的慢,我眼睁睁看着当当被替换成抢购价。不过无所谓了,我已经会用selenium爬加载js的动态网页了。等我再学学就是要解决多线程问题。不过发现跟机器学习一样,爬虫也有现成的好用的框架,自己写只是帮助理解原理,效果还是不如直接用框架# -*...

2018-05-15 18:11:59 820 2

原创 Python BeautifulSoup爬取链家租房信息

# -*- coding: utf-8 -*-"""Created on Thu May 3 14:15:00 2018@author: liuyiheng"""import urllib import pandas as pdfrom pandas import DataFramefrom bs4 import BeautifulSoupfrom urllib impor...

2018-05-03 18:29:08 1663

原创 Python BeautifulSoup爬取当当网图书信息

# -*- coding: utf-8 -*-import urllib.requestfrom bs4 import BeautifulSoupimport pandas as pdpath1 = r'C:\Users\name\Desktop\单品信息爬虫抓取\second_class.xlsx' # 我是有个要查的ID表,自己做着玩建议ID从25069999开始迭代pat...

2018-04-18 18:19:29 2971

原创 机器学习实战之KMeans算法pandas实现

这次写的恶心死我了,第一次随机选中心点的代码有问题还是怎么的,导致第一轮过完,可能会出现某个中心点根本就完全不合适,没有任何一个点会标记为这个中心点,然后报错。导致我的这个代码时灵时不灵,开始完全想不到bug的原因。 而且虽然用pandas来自己实现确实能帮忙巩固pandas的知识,但我还是觉得以前是走入了误区。机器学习重要的部分应该是对理论的理解和轮子的使用,至于书中的代码,理解下理论实现的具体

2017-08-31 10:40:29 3180 1

原创 机器学习实战之决策树算法pandas实现

本来早就写完了,但出了两个小错误,我又不会debug,只能一点点代码试哪里错了,真的烦死了,旁边还有蚊子叫,烦上加烦,好在最后找到错误原因了。import numpy as npfrom pandas import DataFrame, Seriesdef cal_shannon(frame): val_count = frame.iloc[:, -1].value_counts()

2017-07-15 02:06:53 2002 3

原创 机器学习实战之knn算法pandas实现

开始学习机器学习实战这本书,打算看完了再回头看 周志华的 机器学习。机器学习实战的代码都是用numpy写的,有些麻烦,所以考虑用pandas来实现代码,也能回顾之前学的 用python进行数据分析。感觉目前章节的测试方法太渣,留着以后学了更多再回头写。# coding: gbkimport pandas as pdimport numpy as npdef getdata(pat

2017-07-07 11:14:58 2457

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除