自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(80)
  • 资源 (6)
  • 收藏
  • 关注

原创 office2010 卸载出现“安装程序找不到ProPlus.ww\ProPsWW.cab 请浏览正确的安装源的错”解决方法

笔者在换电脑后想卸载office2010安装office2016 但是卸载的过程中遇到了上述问题就记录一下自己的解决方案1、强制删除officeX对应的文件夹,然后使用toolkit工具清理即可。笔者是通过这种方法解决的!2、应该也可以使用toolkit直接卸载,不过我在卸载的过程中控制面板和电脑管家的软件管理都未能成功,所以我就没有使用toolkit而是直接删除了文件夹,使用toolki...

2018-07-24 20:30:07 40617

原创 go入门--mult_returnval

代码】go入门--mult_returnval。

2022-08-02 19:38:12 240 1

原创 sedona error : java.lang.NoClassDefFoundError: org/opengis/referencing/FactoryException

具体原因不详但笔者增加了一个依赖解决了 <dependency> <groupId>org.datasyslab</groupId> <artifactId>geotools-wrapper</artifactId> <version>1.1.0-25.2</version> </dependency>

2021-10-19 20:12:47 623

原创 pandas dataframe 一列数据变多列

一、问题描述希望把dataframe 中的一列数据分割为多列追加到dataframes上分割前示意图分割后效果图二、代码实现#提取出分割列的名称,或者可以自己定义分割后的列名称feature_name = data.columns[-1].split(",")#是用expand属性进行分割data[feature_name] = data[data.columns[-1]].str.split(',', expand=True)#目标列名称feature_nam.

2021-09-03 19:54:50 2099

原创 pd_to_datetime将时间戳转换日期格式,日期不正确

一、问题描述笔者需要将时间戳数据转换成日期格式,使用的是pd_to_datetime进行转换,得到了如下图结果data["date_"] = pd.to_datetime(data["timestamp"],unit = "ms")一眼看上去是转换正确了,但使用线上的工具进行验证时出现了不一致性二、原因分析线上的工具和使用pd_to_datetime转换得到的时间刚好相差8个小时,初步感觉是时区出现了问题,希望通过阅读文档找到如何去修改时区的属性但经过查看pd_to_da...

2021-09-03 14:26:29 5248 4

原创 如何对字符串数字数组进行排序scala

1、问题描述希望对字符串数组("5","2","1","11","15")排序得到("1"," 2", "5", "11","15"),但是调用sorted函数后得到的是字典排序2、解决办法使用如下代码即可妥善解决tmp1.sortBy(_.toInt)3、方法缺陷上述的代码的适用范围有限,仅针对纯数字的字符串有效,对含有字母的排序或报错类似较好的处理办法是将数字提取出来,进行排序具体思路参考:https://stackoverflow.com/questi...

2021-09-01 21:12:44 730

原创 查看xgboost版本

>> import xgboost as xgb>> xgb.__version__

2021-08-20 11:43:34 3163

原创 MAC-OS使用xgboost时报错

import xgboost时出现如下错误XGBoostError: XGBoost Library (libxgboost.dylib) could not be loaded.Likely causes: * OpenMP runtime is not installed (vcomp140.dll or libgomp-1.dll for Windows, libomp.dylib for Mac OSX, libgomp.so for Linux and other UNIX-like.

2021-08-13 16:09:05 1294

原创 mac安装lrzsz后运行卡死解决办法

lrzsz的安装配置具体参见:https://segmentfault.com/a/1190000012166969上述完成后,若可以正常使用,万事大吉,如出现卡死的情况,可以查看配置文件'/usr/local/bin/iterm2-recv-zmodem.sh'‘usr/local/bin/iterm2-send-zmodem.sh中的脚本中如下图的位置路径是否正确,修改成自己path即可正常使用...

2021-07-13 14:14:52 482

原创 Mac终端美化配置

iTerm2+ oh my zsh主要参考:https://www.jianshu.com/p/9c3439cc3bdb中途可能会遇到:fatal: unable to access 'https://github.com/ohmyzsh/ohmyzsh.git/': Failed to connect to github.com port 443: Operation timed out本人使用的是sudo xcode-select -switch /Applications/Xco

2021-07-13 10:28:00 106

原创 小米无线蓝牙耳机Air2 SE如何连接MacPro

若设备可以搜索到小米真无线蓝牙耳机Air2 SE但无法配对,建议您:1、若设备连接了WiFi(2.4Ghz),由于蓝牙和WiFi共用天线,且工作在相同的频段,故当WiFi传输数据量较大时,蓝牙会受到干扰,建议关闭WiFi后再尝试配对;2、将左右耳机放入充电盒中,同时长按左右耳机的触摸部位7秒,耳机白色指示灯长亮,松开按键,耳机白色指示灯闪烁,即完成恢复出厂设置,恢复出厂设置后再尝试配对;3、更换其他设备尝试配对,如果还是无法配对,建议售后检测。...

2021-06-27 16:58:05 16545 1

原创 毕业论文参考文献格式-工科

参考文献是我们毕业论文中重要的组成部分,其格式有和严格的要求,我国毕业论文现行使用的是国标7714-2005,手动的调整参考文献格式不仅会耗费很多的时间和精力,当我们的论文内容有所tia

2021-06-19 20:06:00 476

原创 应届毕业生北京租房经验

写在前面个人情况:本人是2021届毕业生,现在在北京西二旗附近打工,一名准打工人适用范围:如下经验是个人在找房过程中的一些经验供大家参考

2021-06-18 12:34:07 236

原创 docker 启动时错误docker: Cannot connect to the Docker daemon

在学习docker的时候遇到一个错误docker: Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?. 如下图:本人也是一个使用docker 的新手,不太了解背后的原理,大致可能是docker 的clinent在使用run/pull/build等命令,需要首先与docker daemon建立连接才能运行,官网的docker架构图解决办法是:重新加载

2021-03-28 20:35:38 20562 1

原创 复制多行内容粘贴时合并为一行的原因

笔者最近遇到复制多行代码或者其他内容粘贴时会自动的合并为一行的现象,百思不得其解,突然意识到可能是copytranslator 自动翻译软件搞的鬼,该软件能够配合福昕PDF阅读器使用,很便捷的阅读英文paper,但是在调试代码或者写东西时务必关闭下载链接:https://copytranslator.github.io/download/ https://www.foxitsoftware.cn/pdf-reader/...

2020-09-25 14:36:46 5323 4

原创 推荐系统的研究分类

推荐系统的研究分类分类的方式主要是:按照算法运用的技术分类,按照技术解决问题分类,按照使用的数据源进行分类,按照评估指标进行分类等四种分类方式1、按照技术分类a-.CF/关联规则a.矩阵分解b.主题模型c.图模型d.深度学习e.知识图谱2、按照问题类型a.数据稀疏性b.冷启动c.可解释性3、按照数据源a.ratingsb.reivewc.user-profiled.item-attribute4、按照评估指标a.评分预测:MSE R

2020-09-21 16:07:15 315

原创 如何快速找到paper 提到算法的源码(计算机领域)??

1、如果该算法有开源的话,首先推荐网站https://paperswithcode.com/,比较高效,不需要VPN2、如果算法比较新的话,最好去作者的主页(大佬)去逛一下3、使用Google 搜索 paper 名字 + source code (需要翻墙,不是很友好)...

2020-09-21 15:26:35 1162

原创 推荐系统的挑战

推荐系统的挑战推荐系统简介随着互联网2.0的发展,用户不再是数据的消费者,满足于关键词的搜索和在线浏览,而成为了数据的生产者。数据逐渐由专业机构的生产转向由用户的生产,数据量也日益剧增,信息过载油然而生,具体的表现是一是信息过滤即如何从海量的信息中找到自己需要的信息,二是个性化即如何确保找到的信息与用户的偏好是匹配的。推荐系统能够在用户没有明确给出信息需求的情况下主动的给用户传递个性化感兴趣的信息。作为信息检索(IR)领域的一个重要分支近些年来发展极快,从传统的协同过滤算法到后来的因子分解机及其变种,

2020-09-10 10:37:31 1212

原创 时间预测实践-汽车销量的分析预测

背景:03年到19年第一季度分季度的数据,13年之前只有传统汽车的销量,13年之后是传统汽车+新能源汽车的销量,需要预测未来三期传统汽车的销量数据链接:具体的实现过程:#loda datadata = pd.read_excel("/Users/jackwang/downloads/时序数据.xlsx")data.head()数据格式转换data = data...

2020-03-08 14:19:15 2120 1

原创 统计学习之时间序列分析

一、什么是时间序列 1、定义 按照时间的顺序把一个随机事件变化发展的过程记录下来 就构成了一个时间序列。 对时间序列进行观察、研究,找寻它变化发展的规律,预 测它将来的走势就是时间序列分析。 2、栗子7000年前,古埃及人把尼罗河涨落的情况逐天记录下来, 就构成所谓的时间序列。对这个时间序列长期的观察使他们发现尼罗河的涨落非常 有规律。当天狼星第一次和太阳同时升起的...

2020-03-01 17:29:29 2639

转载 统计学习-方差分析之单因素方差分析

1、数据背景有A、B、C、D四个地区,不同地区的销售量不一样,现抽取了不同时间段内每个地区的销售量,试使用方差分析的方法解决:1、每个地区间的销售量是否相同?2、不同月份的销售量是否相同?3、不同时间与地区的销售量是否相同?2、术语介绍学习方差分析,我们首先需要知道它所说的专业性术语,如:因素、水平、协方差、因变量,自变量等。单纯看定义可能会有点迷,下面我们通过一个栗子来看...

2020-03-01 16:38:04 7574 1

原创 统计学习之方差分析

零、案例说明为了检验某小学六年级教学质量的差异,从该小学六年级的三个班级中分别选取一定数量的学生,分成三个组(三个样本),对他们期末考试的平均分进行统计分析。如果实验显示每个每组的均值相同,即三个班期末考试的成绩差异不大,则表明该小学六年级不同班级的教学质量没有差异,and vice versa。每个样本组的平均分分别为 , ,方差分别为 ,,给出零假设 :==备择假设 :样...

2020-02-23 15:54:15 2631

原创 汽车销售数据相关性分析

数据:https://pan.baidu.com/s/1VlTy4nfvgXdDzgimVguZMg数据展示:券代码 日期 传统汽车销量 国内生产总值当季值(亿元)x1 汽油价格(元/吨)x2 人民币贷款基准利率%x3 汽车总产量(万辆)x4 公路里程数 汽车整车股票指数 消费者信心指数 65 2003年Q1 102....

2020-02-16 21:48:54 1634

原创 统计学习之回归分析

目录一、什么是回归分析二、回归分析有哪些?三、回归分析的应用四、回归分析常用工具(Python代码实现)五、如何选择合适的回归模型参考文献:一、什么是回归分析百度百科:回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关...

2020-02-09 23:12:41 1277

原创 人体温度、心率和性别数据分析

任务描述Q1、人体体温的总体均值是否为98.6华氏度?Q2、人体的温度是否服从正态分布?Q3、人体体温中存在的异常数据是哪些?Q4、男女体温是否存在明显差异?Q5、体温与心率间的相关性(强?弱?中等?)数据链接:https://pan.baidu.com/s/1t4SKF6U2yyjT365FaE692A*笔者使用的是jupyter 进行的数据分析#导入相关的库impo...

2020-01-19 22:38:44 2636 1

原创 mac  新的hosts生效命令

mac新的hosts生效命令如下:sudo killall -HUP mDNSResponder

2020-01-19 15:27:37 2867

原创 git 常用功能

1、安装https://www.liaoxuefeng.com/wiki/896043488029600/8960670743384962、配置https://www.jianshu.com/p/910fdc2a03623、补全https://cloud.tencent.com/developer/article/10218694、常用命令...

2020-01-19 11:14:40 116

原创 UDF、UDAF和UDTF开发模板

0.背景Hive是一种构建在Hadoop上的数据仓库,Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce作业,是MapReduce更高层次的抽象,不用编写具体的MapReduce方法。Hive将数据组织为表,这就使得HDFS上的数据有了结构,元数据即表的模式,都存储在名为metastore的数据库中。1.UDF是什么?hive的类SQL预发给数据挖掘工作者带来...

2020-01-14 19:20:42 625 1

转载 HIVE 函数大全

一、关系运算:1. 等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE举例:hive> select 1 from lxw_dual where 1=1;12. 不等值比较: <>语法: A <> B操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式B...

2020-01-14 18:41:11 166

转载 hive explode & lateral view

1.explodehive wiki对于expolde的解释如下:explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows. UDTFs can be used in the SELECT expression list a...

2020-01-14 18:10:43 156

原创 hive union all 使用

union all 用来合并多个select的查询结果,需要保证select中字段须一致,每个select语句返回的列的数量和名字必须一样,否则,一个语法错误会被抛出。更多内容可参考:https://blog.csdn.net/liuguangfudan/article/details/78623074...

2020-01-14 17:01:22 3740 1

转载 hive常用的时间日期函数

1.unix_timestamp()返回当前时区的unix时间戳返回类型:biginthive (tmp)> select unix_timestamp() from hive_sum limit 1;14658750162.from_unixtime(bigint unixtime[,string format])时间戳转日期函数返回类型:stringhive (tmp)...

2020-01-14 15:37:29 275

原创 回归分析参数介绍

SS是平方和回归误差平方和(SSE)残差平方和(SSR)及总体平方和(SST)df(degree of freedom)为自由度。MS为SS与df的比值,与SS对应,SS是平方和,MS是均方,是指单位自由度的平方和。coeft表明系数的,因为该因素t检验的P值是0.000,所以表明有很强的正效应,认为所检验的变量对模型是有显著影响的。F是F test F 检验,联合显著检验...

2020-01-10 18:07:20 2772

原创 参数估计 python实践

1、背景想要探究movielens 1M评分数据的评分分布情况是否符合某种分布,做如下假设2、理论推导3、算法实现3.1 数据准备工作#导入所需要的库import pandas as pdimport numpy as npimport mathimport matplotlib.pyplot as plt#数据的准备工作with open("r...

2019-12-29 14:43:06 312

原创 hive 表中常用的 增加/修改/替换列操作

1)语法更新列ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name]增加和替换列ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name da...

2019-12-26 16:11:26 4782

原创 hive 分区表和数据产生关联三种方式

写在前面:想要从hive数据库里面查询到数据就要求hive的元数据必须存在且元数据指向的的HDFS路径中也必须要存在实际的数据(1)方式一:上传数据后修复 使用的场景是历史数据积累了很多分区数据,推荐使用该方式,该方法将HDFS上的数据方向写到hive的元数据库MySQL中上传数据hive (default)> dfs -mkdir -p /user/hive/wareho...

2019-12-26 16:00:30 682

原创 统计学习之假设检验

1、什么是假设检验假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。2、假设检验的相关概念2.1原假设和备择假...

2019-12-22 14:49:24 2514

原创 统计学习系列之参数估计

参数估计1、什么是参数估计简单来说是:参数估计是指使用样本统计量估计总体的参数的【百度百科的解释如下】参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。要处理两个问题:(1)求出未知参数的估计量;(2)在...

2019-12-22 11:48:10 4288

原创 抽样分布实践(python版)

任务描述: 1、验证数据是否服从正太分布 2、验证数据是否服从T分布 3、验证数据是否服从卡方分布背景知识: 1、什么是假设检验 假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的...

2019-12-21 18:44:07 579

原创 HIVE 分组排序查询

笔者在参加面试时遇到的一个关于hive数据库查询的的问题题意大概是这个样子的。有如下图结构的一个表:表中的数据是长这个样子的:面试官要求我查询的结果是长这个样子的我第一印象觉得这个题还蛮简单的,就写了一个select col1,col2,col3,max(col4) from test_selectgroup by col1,col2;面试官说你确定...

2019-12-10 11:31:42 918

China-national-Std-GBT-7714-2005-NCUTER.csl

自定义毕业论文餐卡文献格式,可以更加高效的撰写毕业论文

2021-06-19

传统汽车的销量——时序数据.xlsx

03年到19年第一季度分季度的数据,13年之前只有传统汽车的销量,13年之后是传统汽车+新能源汽车的销量,需要预测未来三期传统汽车的销量

2020-03-08

ratings.dat

本数据集是movielens公开的数据集 不是完整版是关于评分的 主要的作用是配合我写的参数估计 python实践使用的

2019-12-29

描述性统计.ipynb

该文件是针对统计学中常用的统计量进行编写的python代码 使用的是notebook

2019-11-07

统计学习-描述性统计.docx

统计学习-描述性统计(理论部分)主要包含的内容有: 集中趋势各测度值的计算方法 2. 集中趋势各测度值的特点 3. 离散程度各测度值的计算方法 4. 离散程度各测度值的特点 5. 偏态与峰态的测度方法

2019-11-07

Scrapy爬虫

Scrapy爬虫框架,一种很强大的 python 爬虫框架,初学python爬虫者必知

2018-05-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除