自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 软件开发面试代码题

排序算法:def bubble_sort(seq): # 冒泡排序 count = len(seq) for i in range(0, count): for j in range(i + 1, count): if seq[i] > seq[j]: seq[i], seq[j] = l...

2019-09-23 20:30:54 227

原创 SQL总结

SQL的执行顺序:(1)from(3) join(2) on(4) where(5)group by(开始使用select中的别名,后面的语句中都可以使用)(6) avg,sum....(7)having(8) select(9) distinct(10) order by...

2019-08-21 09:31:10 118

原创 牛客网编程输入输出问题

单行输入:import sysfor line in sys.stdin: offset,n,l1,l2 = list(map(int,line.strip().split())) #输出 print start1,end1,start2,end2多行输入:import sysimport syswhile True: line1= sys....

2019-08-11 14:48:13 1061

原创 XGBOOST

在XGBoost里,每棵树是一个一个往里面加的,每加一个都是希望效果能够提升,下图就是XGBoost这个集成的表示(核心)一开始树是0,然后往里面加树,相当于多了一个函数,再加第二棵树,相当于又多了一个函数...等等,这里需要保证加入新的函数能够提升整体对表达效果。提升表达效果的意思就是说加上新的树之后,目标函数(就是损失)的值会下降。如果叶子结点的个数太多,那么过拟合的风险会越...

2019-07-27 15:40:34 106

原创 算法记录

面试算法汇总:快速排序 :单链表实现非递归实现二叉树中序遍历冒泡排序单链表反转算法最长递增子序列的个数最长公共子串背包问题TOPK二叉树序列化和反序列化二叉树知道前序遍历和中序遍历构造还原LRU算法实现不许用现成的数据结构单链表归并单链表奇数位递增偶数位递减进行排序一个矩阵从左到右增从上到下增查找某个数单例设计模式(双重锁)二叉树...

2019-07-19 15:53:41 288

原创 spark Sql

读取和存数据:hivre 中读取直接就可以写SQL,逻辑类似在hive 中一样,但从其他数据源中读取数据时,需要先用registerTempTable命表名,再进行查询。这些数据也可以使用rdd操作函数#从hive中读取:from pyspark import HiveContextfrom pyspark import SparkContextfrom pyspark imp...

2019-07-10 21:45:43 119

原创 pyspark 语法总结

导入pyspark# coding:utf-8#使用pysparkfrom pyspark import SparkConf, SparkContextimport pysparkfrom pyspark import SparkContext as scfrom pyspark import SparkConfconf=SparkConf().setAppName("mini...

2019-07-08 17:23:55 1752

原创 hadoop 语法积累

查看部分文件内容:hadoop fs -text 文件 | head -5

2019-05-21 19:49:39 266

原创 K_means 算法

算法原理kmeans的计算方法如下:1 随机选取k个中心点2 遍历所有数据,将每个数据划分到最近的中心点中3 计算每个聚类的平均值,并作为新的中心点4 重复2-3,直到这k个中线点不再变化(收敛了),或执行了足够多的迭代时间复杂度:O(I*n*k*m)空间复杂度:O(n*m)其中m为每个元素字段个数,n为数据量,I为跌打个数。一般I,k,m均可认为是常量,所以时间和...

2019-04-11 11:35:18 425

原创 .Xgboost算法的原理及实践

决策树 https://www.cnblogs.com/yonghao/p/5135386.html分类树和回归树的区别,叶子节点的输出值是什么 分类树和回归树的如何选择分裂的属性 算法流程图Xgboost:1,https://yq.aliyun.com/ziliao/2961202,https://www.cnblogs.com/zhouxiaohui888/p/600...

2018-12-13 13:42:46 165

原创 python 使用笔记

zip的使用:a = [1,2,3]c = ['a','b','c']n = a.zip(c) #n = [(1,'a').....]zip(*a):#a= ["Hello hello", "Hello New York", "York says hello"],zip(*a)为每个元素的字母依次组成元组的list [('H', 'H', 'Y'), ('e', 'e', 'o')....

2018-12-12 10:26:59 332

原创 keras 处理文本,分类,数值数据,并添加进网络的步骤和方法

一,读取数据:主要使用pandas 读取,以后考虑使用其他方法(libsvm等)二,获取训练集和测试集:这一步主要是划分数据集,drop()掉训练集里的预测那一列三,处理缺失值:可以使用fillna(value,inplace)来把缺失值补全四:送入网络之前的处理:1;分类信息的处理:主要使用Keras的Tokenizer方法进行处理:1,使用Tokenizer类对...

2018-09-21 11:11:01 632

原创 fasttaxt:数据预处理和生成词向量

数据预处理:1,符号处理:def go_split(s,min_len): # 拼接正则表达式 symbol = ',;。!、?!' symbol = "[" + symbol + "]+" # 一次性分割字符串 result = re.split(symbol, s)return [x for x in result if len(x)>...

2018-09-16 19:39:58 1223

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除