自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(73)
  • 资源 (1)
  • 收藏
  • 关注

原创 HP M1136无法打印的解决方法

电脑重装了一次,打印机好久没有用,新连接上打印的时候无法打印了。寻找无法打印原因:1. M1136是可以复印的,说明机器是没有问题的;2. 其次,下载了https://support.hp.com/cn-zh/drivers/selfservice/hp-laserjet-pro-m1136-multifunction-printer-series/5094778上的HP pri...

2019-11-02 07:22:52 12582

原创 R语言中dplyr::case_when不会做强制数据类型检查的地方

tbl(db_link, "db_table_name") %>%select(a) %>%mutate(b = case_when(a == 1 ~ 2, a == 2 ~ "b")) %>%collect()以上的语句不会因为2 与 "b" 类型不一致报错。...

2019-06-12 21:04:39 2153

原创 R语言处理矩阵遇到内存不足的问题的处理办法

Error : cannot allocate vector of size XGb类似于这种问题的可能处理办法:1. 可以用matrix尽量不要用data frame;2. 可以用integer matrix尽量不要用 double matrix;3. 对于大量运算后最好加上一个gc(), 强制R语言回收内存;4. 对于大矩阵而言用bigmemory包,可以将大矩阵放到临时...

2019-06-11 17:29:12 12739

原创 Learning SQL学习笔记5

1. ANSI SQL中包括如下几种集合操作:intersect;union;except;但是MYSQL8之后,只支持union;2. UNION与UNION ALL的区别在于:UNION会对结果进行排序,并且移除重复项;3. 多个表进行集合操作时,最后利用ORDER BY进行排序时,ORDER BY后面列名是第一个表的列名。4. MYSQL不允许()用于表之间的集合操作。5. UNION用法:SELECT *FROM table1UNIONSELECT *

2022-05-27 13:17:46 116

原创 Learning SQL学习笔记4

SQL中的JOIN:1. 笛卡尔内积:SELECT a.first_name, a.last_name, a.actor_id FROM actor aJOIN film_actor;2. 内连接:SELECT * FROM table1INNER JOIN table2ON table1.col1 = table2.col23. 采用内连接时,多个表内连接的结果与连接顺序无关。4. 出于性能的考虑,有时会用subquery的方式;5. 有的情况下需要将表与自己相连

2022-05-27 13:06:58 128

原创 python中的eval(), repr(), ast.literal_eval()

2022-05-22 10:20:44 131

原创 Learning SQL学习笔记3

WHERE使用:WHERE condition1 AND condition2;WHERE condition1 OR condition2;WHERE expression == condition;WHERE expression != condition;WHERE expression BETWEEN condition1 AND condition2;WHERE expression IN (C1, C2, ...)WHERE expression NOT IN (C1

2022-05-22 10:04:24 89

原创 Learning SQL学习笔记2

第二天SQL常用的关键字SELECTFROMWHEREGROUP BY和HAVINGORDER BYSQL常用的关键字SELECTFROMWHEREGROUP BYHAVINGORDER BYSELECTselect之后可以是如下的内容:数据表中的列;字符串或者数字;表达式;数据库内置的函数;自定义函数。AS可以用来重命名;DISTINCT可以用于去掉行中重复的数据,但对于数据量很大的情况下会很慢;FROM其后可以添加如下数据表:永久表;临时表(TEMPORAR

2022-05-20 15:49:46 128

原创 Learning SQL学习笔记1

第一天1. 安装mysql;2. 下载sakila database(dev.mysql.com/doc/index-other.html);在mysql console上执行如下命令:source sakila-schema.sql;source sakila-data.sql;2. 安装DBeaver;在对应的mysql数据库连接中,需要A. 更改allowPublicKeyRetrieval为true;B. 输入数据库密码,选择数据库sakila;3. 试运行一

2022-05-19 21:53:37 146

原创 mastering shiny学习笔记(chapter3_basic_reactivity)

1. server端比较复杂,需要保证用户A操作组件时,用户B不受影响;2. 需要借用renderText()与reactive()实现server端调用input中的变量;

2021-05-11 11:17:04 143

原创 mastering shiny chapter2 部分课后习题

1.library(shiny)ui <- fluidPage( dataTableOutput("table"))server <- function(input, output, session) { output$table <- renderDataTable(mtcars, options = list(paging = FALSE, .

2021-05-08 15:23:13 137

原创 mastering shiny学习笔记(chapter2_UI)

1. Input有两个重要参数: inputID与label;2. 文本输入组件: textInput(), passwordInput(), textAreaInput();3. 数值输入组件:numericInput(), sliderInput();4.日期输入组件: dateInput(), dateRangeInput();5. 有限选择组件: selectInput(), radioButtons(), checkboxGroupInput(), checkboxInpu...

2021-05-08 14:59:36 123

原创 mastering shiny chapter1的部分课后习题

library(shiny)library(ggplot2)datasets <- c("economics", "faithfuld", "seals")ui <- fluidPage( selectInput(inputId = "dataset", label = "Dataset", choices = datasets), verbatimTextOutput(outputId = "summ.

2021-05-08 12:07:28 164

原创 Mastering Shiny学习笔记(chapter1)

电子书地址:https://mastering-shiny.org1. shiny deployment的参考文献:https://rstudio.com/resources/rstudioconf-2019/shiny-in-production-principles-practices-and-tools/2. shiny三大件: UI, Server, Reactive programming;3. 建立空白app.R的模板方法:在app.R中输入shinyapp, 再按下sh..

2021-05-08 11:07:18 380

原创 利用python3调用aliyun API的方法

网上买了个aliyun api, 给出的示例代码是python2的,不能用,所以只能写一个基于python3的代码.import requestshost = 'http://geo.market.alicloudapi.com'path = '/v3/geocode/geo'appcode = '你的appcode'querys='address=%E6%96%B9%E6%81%92%E5%9B%BD%E9%99%85%E4%B8%AD%E5%BF%83A%E5%BA%A7&b.

2021-04-22 15:32:33 600

翻译 常用的R包(翻译)

https://support.rstudio.com/hc/en-us/articles/201057987-Quick-list-of-useful-R-packages获取数据:1. DBI: R与关系数据库连接的基本包;2. odbc: 利用odbc driver连接数据库;3.RMySQL, RPostgreSQL, RSQLite: R与特定数据库连接的工具;4.XLConnect, xlsx, openxlsx R与excel连接的工具;5. foreign, ha..

2021-04-21 10:49:25 436

原创 关于在mac中matplotlib/seaborn等绘图中使用中文的问题

有两个命令:fc-list 显示所有本机字体;fc-list :lang=zh family显示本机所有中文字体。比如Songti TC(宋体繁体),Songti SC(宋体简体)添加如下的语句,就可以实现中文显示了。import matplotlib.pyplot as pltplt.rcParams["font.family"]="Songti SC"参考文献:https://matplotlib.org/3.1.0/tutorials/text/tex...

2021-04-15 17:52:15 444

原创 kaggle上的start-here-a-gentle-introduction笔记

1.这是一个典型的二分类有监督学习问题,目的是为了预测贷款申请人是否可能违约。2.评价二分类模型一般使用的是AUC值,也就是ROC曲线下方的面积。ROC曲线的纵轴代表的是sensitivity,即True Positive Rate,横轴代表的是1 - specificity,即1 - TrueNegative Rate。AUC取值越大,说明二分类模型的效果越好。代码如下:1. 加载包:# numpy和pandas是为了基本的数据清洗import numpy as ...

2021-04-08 10:41:32 111

原创 shiny+leaflet小案例

library(shiny)library(leaflet)library(tidyverse)library(lubridate)source("helpers.R")POI_values <- readr::read_csv("data/POI_values.csv")ui <- bootstrapPage( tags$style(type = "text/css", "html, body {width:100%;height:100%}"), ...

2021-04-08 10:40:21 551

原创 python计算IV值

1. pdf分页使用的是\newpage 或者 \pagebreak;https://stackoverflow.com/questions/25240541/how-to-add-newpage-in-rmarkdown-in-a-smart-way2. python计算IV值def compute_IV(df, variable, target): """ to compute the IV of the variable df: data f

2021-04-08 10:35:48 838

原创 deep learning with python中5.4.3节的visualizing heatmaps代码

书中的代码不能用了。找了一些资料。现将新代码放到这里。from tensorflow.keras.applications.vgg16 import preprocess_input, decode_predictionsfrom tensorflow.keras.preprocessing.image import load_imgfrom tensorflow.keras import preprocessingfrom tensorflow.keras import backend as

2021-04-07 17:58:27 143

原创 二分类模型的kaggle notebook笔记

kaggle上有一个这样的比赛:Home Credit Default Risk Competition, 是预测信用卡违约的。有一名作者是Will Koehrsen,他写了一系列的文章,从二分类入门到参数调试,非常详细。https://www.kaggle.com/willkoehrsen/start-here-a-gentle-introduction这是入门的文章,关于基本的数据预处理,包括缺失值的处理,特征工程等,最后采用了logistic model, random forest mo

2021-04-02 14:53:01 601

原创 Deep Learning with Python-7.3节学习笔记

本节讲的是搭建高级模型的方法,主要包括1.在某些层中添加如下的方法residual connections,normalization,depthwise separable convolution;2.超参调优,强调了random search的重要性,还有两个工具:Hyperopt, Hyperas;3. 模型组合。强调了不同模型有不同的优点,diversity is strength. 包括深度学习模型,树模型,线性模型等一起的拟合。...

2021-04-01 17:50:23 62

翻译 利用pickle存储与读取文件对象

# 写文件with open('imdb_data', 'wb') as imdb_data_file: pickle.dump(imdb_data, imdb_data_file)# 读文件with open('imdb_data', 'rb') as imdb_data_file: imdb_data = pickle.load(imdb_data_file)参考https://www.techcoil.com/blog/how-to-save-a...

2021-03-23 18:02:42 196

翻译 mac电脑中的python卸载

目前tensorflow2不支持python3.9(2021-3-18),所以只能使用python3.8了.官方文档的卸载说明如下:1. 首先删除应用程序(Applications)下的python3;2. 其次删除/Library/Frameworks/Python.framework下的python版本。需要注意的是不要删除其它地方的python,因为macOS依赖于这些文件。参考文档:https://docs.python.org/3/using/mac.html?highli

2021-03-18 17:03:24 1107

翻译 处理nltk.download()报错的方法

import nltkimport ssltry: _create_unverified_https_context = ssl._create_unverified_contextexcept AttributeError: passelse: ssl._create_default_https_context = _create_unverified_https_contextnltk.download('punkt')参考文献:https://stacko...

2021-03-12 11:53:28 187

转载 jupyter notebook找不到module但是控制台可以找到的解决办法,同时解决卸载旧版本python安装新版本python出现的问题

pip3 install ipykernel --upgradepython3 -m ipykernel install --user参考文献:https://stackoverflow.com/questions/50914761/jupyter-notebook-cant-find-modules-for-python-3-6

2021-03-11 14:10:36 878

原创 http请求中的汉字编码处理

在API请求中,经常需要处理汉字。例如‘北京’,应该转化为‘%E5%8C%97%E4%BA%AC’在python3中如下处理:import urllib.parsequery = '北京'urllib.parse.quote(query)即可。参考:https://www.urlencoder.io/python/#:~:text=URL%20Encoding%20query%20strings%20or%20form%20parameters%20in,uses%20UTF-8e.

2020-07-22 15:14:02 1205

原创 python中的CSV大数据读取

主要有两种方式:1. pd.read_csv(file, chunksize=chunk_size)这样可以保证分块读取;下面的博客提供了如下的代码https://blog.csdn.net/qq_36330643/article/details/78739764 def get_df(file, chunk_size=1e5): mylist = [] for chunk in pd.read_csv(file, chunksize=chunk_size): ...

2020-06-29 10:22:31 1139

原创 HIVE创建分区表并将csv文件导入

1.创建分区表:CREATETABLEIFNOTEXISTS first_table(user_idSTRING, salarydecimal(10, 2),)PARTITIONEDby(part_yearlySTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\,';2.将csv文件导入:LOAD DATA LOCAL INPATH '/home/user_salary.csv'OVERW...

2020-06-03 18:33:41 2323

翻译 python中利用boolean list检索list的方法

问题如下:numbers = [1, 0, 2, 4]bools = [True, False, False, True]result = [1, 4]通过numbers和bools获取result.方法一:[number for number, b in zip(numbers, bools) if b == True]方法二:np.array(numbers)[np.array(bools)]方法三:from itertools import compress

2020-06-02 15:31:22 4135

原创 linux若干命令

获取linux下的python命令位置:which python(which python3)whereis python(whereis python3)获取linux下的python包安装位置:pip list(pip3 list)pip showpandas(pip3 show pandas)linux中添加路径:vi ~/.bash_profilesource ~/.bash_profilehttps://blog.csdn.net/sinat_2915831..

2020-05-22 10:21:18 150

原创 用R生成pdf文档

1. 如果是英语文档的话,有一个非常好用的包,memor, 方便添加各种图表,而且作者提供了模型;2. 如果是中文文档的话,推荐使用rticles包,里面有ctex模板,非常方便写中文pdf文档,里面可以使用Latex....

2020-05-14 09:56:43 1685

原创 用python生成pdf report

1. 安装pip install pdfkitpip install Jinja2同时安装 wkhtmltopdf;https://towardsdatascience.com/creating-pdf-reports-with-python-pdfkit-and-jinja2-templates-64a89158fa2d2. 使用Plotly + Jupyter notebook + xhtml2pdf生成pdf reporthttps://plotly.com/python/v3

2020-05-12 12:07:49 262

原创 python中的代替for-loop的操作

1. map(function, list)x = ['a', 'b', 'c']result = map(str.upper, x)list(result)

2020-05-09 14:22:15 508

翻译 计算文本相似性的方法

常用的有两种度量:Jaccard Similarity与Cosine SimilarityJaccard Similarity的定义如下: 两组文本的交集大小除以两组文本的并集大小;Cosine Similarity的定义如下: 两组文本进行TF或者TF-IDF变换后,化为向量,计算向量夹角的余弦。...

2020-05-07 11:01:37 199

转载 (转载)macOS下的matplotlib的中文显示问题

https://mathsyouth.github.io/2019/06/12/macos-matplotlib1. 查找当前系统的已用字体:fc-list :lang=zh;2. 添加如下代码:from matplotlib import rcParamsfrom matplotlib.font_manager import FontPropertiesimport matp...

2020-04-13 15:18:26 128

翻译 python调用不同文件中的函数方法

1. 暂时添加文件路径到系统路径中:import syssys.path.append('/Users/abcdefg/Documents/life/miscellaneous/python_function')2. 加载相应的python文件:import file13. file1.function1就可以了需要注意的是: file1的名字不要与python现有的包名冲...

2020-03-27 15:15:46 630

原创 时间序列是否平稳的判别方法

时间序列平稳指的是这个时间序列的值与时间无关。1. 首先可以做ACF图直观上判别时间序列是否存在明显的自相关;2. 常用的检验有KPSS, ADF检验等。3....

2020-03-26 11:50:21 4532

转载 Could not install packages due to an EnvironmentError: [Errno 13]的处理办法(转载)

(转载)ERROR: Could not install packages due to an EnvironmentError: [Errno 13] Permission denied: '/Library/Python/3.7/site-packages/descartes-1.1.0.dist-info'Consider using the `--user` option or che...

2020-03-26 11:49:49 888

Probability and Measure-Billingsley

一本从现代角度讲概率的书。很多的书都推荐看这本书来了解相关知识。作者前言中自称自己的书与从前的书不同的。

2013-09-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除