自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

吴世俊的博客

个人学习笔记

  • 博客(29)
  • 资源 (4)
  • 收藏
  • 关注

原创 spark性能优化

代码中展示了spark性能优化的常见种方法。图中为调用训练好的xgb模型做预测。

2023-05-12 15:50:22 82

原创 xgb算法原理

xgb算法

2022-04-21 20:43:23 352

原创 Xgboost实战-Spark版

一分钟说清楚原理请转:介绍代码

2022-04-21 20:42:09 1590

转载 Word2vec和Doc2vec原理理解并结合代码分析

一直在用Word2vec和Doc2vec做Word Embedding和Sentence/Document EMbedding,但是刚开始用的时候对其原理一直是一知半解,只是知道怎么用而已。古人云:既要知其然,也要知其所以然。所以,结合作者论文,以及网上各位前辈的博客和开源代码之后,抽空写写自己对Word2vec和Doc2vec原理的理解,以及结合代码做一些分析。希望能够有用,有错误也请各位朋友批...

2018-09-12 09:43:06 2125

转载 福昕阅读器中书签里面页面跳转保持适合宽度样式

 在使用福昕阅读器时,在左边的书签栏里面,点击不同页面跳转时,原来的页面如果是适合宽度,跳转后页面又变成适合页面了,这样的话页面太小,不太容易看清。   在网上搜了一下,“工具”—“偏好设置”,在弹出的对话中,选择“页面显示”一项中,右面如图设置,默认缩放比例:选择“适合宽度”,单击“确定”退出。试了这种方法不行。 后来有热心网友提示:在“页面显示”设置的最末尾有一项,勾选即可转自:https:/...

2018-04-28 16:18:32 1246

原创 python编程中的if __name__ == ‘main‘: 的作用和原理

python编程中的if __name__ == 'main': 的作用和原理在大多数编排得好一点的脚本或者程序里面都有这段if __name__ == 'main': ,虽然一直知道他的作用,但是一直比较模糊,收集资料详细理解之后与打架分享。1、这段代码的功能一个python的文件有两种使用的方法,第一是直接作为脚本执行,第二是import到其他的python脚本中被调用(模块重用)执行。if ...

2018-04-23 20:30:01 662

原创 04-tensorboard模型的保存和使用

tensorboard模型的保存和使用8-1  saver_save(训练模型并保存)在之前的代码基础上加两句saver =tf.train.Saver() saver.save(sess,'net/my_net.ckpt')第一个参数是要保存的回话,第二个是模型的保存的路径这两行代码都加在靠后的部分 #训练模型并保存import tensorflow as tffrom tensorflo...

2018-04-22 09:58:31 2050

原创 04-循环神经网络(RNN)和LSTM

RNN(Recurrent NeuralNetwork)和LSTM(Long Short Term Memory) RNN(Recurrent NeuralNetwork) RNN:存在随着时间的流逝,信号会不断的衰弱(梯度消失) LSTM(Long Short Term Memory):很好的解决梯度消失控制信号的衰减控制信号输出信号本身值的百分之多少   只有时间1的的信号可以被传入只有时间4...

2018-04-22 09:54:53 497

原创 04-卷积神经网络(CNN)

卷积神经网络传统神经网络存在的问题权值太多,计算量太大         (权值参数 = v0*v1个)权值太多,需要大量样本进行训练 最好样本的数量是网络权值数量的3到5倍,这样效果才好(经验之谈,并没有科学依据)局部感受野1962年哈佛医学院神经生理学家Hubel和Wiesel通过对猫视觉皮层细胞的研究,提出了感受野(receptive field)的概念,1984年日本学者Fukushima...

2018-04-22 09:47:27 289

原创 03-Tensorboard的使用 (老衲又卷土重来了!!!)

Tensorboard的使用1、添加命名空间在之前的程序的基础上添加命名空间,这样就可以把一些操作打包在一起了,更加有利于我们的可视化(使结构图更加的简洁)命名空间的语法:with tf.name_scope('name')  #name为我们给这个空间取的名字记得给变量取变量名:x = tf.placeholder(tf.float32, [None, 784])x = tf.placehold...

2018-04-21 12:46:17 248

原创 03-Tensorboard的使用 (鉴于刚刚千发散去,本次先占个坑,下次再写)

03-Tensorboard的使用 

2018-04-20 21:36:49 179

原创 02-MNIST数据集

MNIST数据集MNIST数据集的官网:Yann LeCun'swebsite下载下来的数据集被分成两部分:60000行的训练数据集(mnist.train)和10000行的测试数据集(mnist.test)每一张图片包含28*28个像素,我们把这一个数组展开成一个向量,长度是28*28=784。因此在MNIST训练数据集中mnist.train.images 是一个形状为 [60000, 784...

2018-04-20 21:34:23 351

原创 02-Tensorflow优化 - 今天搞这个,千发散去。

tensorflow优化第四(今天搞这个,头发急剧减少)优化函数:随机梯度下降法、等等多个 Optimizer(优化器):tf.train.GradientDescentOptimizertf.train.AdadeltaOptimizertf.train.AdagradOptimizertf.train.AdagradDAOptimizertf.train.MomentumOptimizertf...

2018-04-20 21:07:34 870

原创 01-Tensorflow入门基础

Tensorflow入门基础第一Tensorflow谷歌2015年开源谷歌里面有一个工具tensorboard,在浏览器中直接查看运行即可视化  Anaconda的安装 Windows下Tensorflow的安装 在anaconda prompt中输入如下命令 安装CPU的版本:pip install tensorflow安装GPU的版本:pip install tensorflow-gpu  第...

2018-04-20 19:03:28 201

原创 tensorflow使用——遇到的bug及解决

bug 1(老衲花了几个小时,最终才将这个bug解决,累觉不爱啊)Intel MKL FATAL ERROR: Cannot load mkl_intel_thread.dll.使用环境:anaconda + pycharm +python3.6解决方法:1、在命令行中,将环境切换到tensorflowC:\Users\shijun.wu>activate tensorflow2、按将num...

2018-04-20 14:54:18 1850

原创 anaconda中安装tensorflow(在Windows10环境下)

安装tensorflow1、cmd打开命令行,输入如下代码,创建tensorflow环境C:\Users\shijun.wu>conda create -n tensorflow python=3.62、当出现Proceed ([y]/n)? 时,输入y3、激活tensorflow输入C:\Users\shijun.wu>activate tensorflow之后会得到:(tensor...

2018-04-19 20:54:47 394 1

转载 Anaconda找包,安装包时,遇到PackageNotFoundError: ''Package missing in current channels"

本文转自:https://blog.csdn.net/ksws0292756/article/details/79192268Anaconda作为一个工具包集成管理工具,下载python工具包是很方便的,直接敲:conda install package_name1但是有时候安装一个工具包(如skimage)的时候,在当前的channels中找不到这个包,会提示:PackageNotFoundEr...

2018-04-17 22:04:33 534

原创 pycharm使用的一些快捷键

缩进问题1、选择我们要操作的部分:按下tab键后,整个块就会缩进;按下shift+tab键后,就会进行反向缩进。

2018-04-17 19:31:07 152

原创 加速下载安装各种插件与包

在使用python pip 安装各种插件和包的时候,经常链接的是外网,所以下载速度特别慢。在一位大神的帮助下,得知了一种快速下载的方法:直接通过 阿里云  来下载这些插件和包使用方法:pip文件:https://download.csdn.net/download/weixin_40834089/10351613这里的pip文件是配置过的,与平时看见的pip文件是有区别的。下载后,先解压,然后,将...

2018-04-16 10:06:12 880

原创 win10下安装tensorflow

本文用的是native中的pip 安装tensorflowpython版本为如果安装顺利的话,那是相当相当简单的:1、cmd打开命令行窗口2、在命令行中输入:pip install --upgrade tensorflow但是作为学到现在这个程度的同学们都知道,想如此顺利的安装成功,幼稚!!!下面是我的安装过程(一把辛酸泪啊):1、cmd打开命令行窗口2.1、在命令行输入:pip3 install...

2018-04-15 23:33:39 419

原创 00 机器学习 (ML)导论

机器学习 (Machine Learning)1、定义机器学习 (Machine Learning) 是近 20 多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。简而言之,机器学习是通过学习老知识(训练样本),得出自己的认知(模型),去预测未知的结果。从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意...

2018-04-13 21:47:31 207

原创 06 K均值(K-Means)

引子:聚类算法的简介        聚类算法是一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。聚类算法与分类算法最大的区别是:聚类算法是无监督的学习算法,而分类算法属于监督的学习算法。        在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。K均值(K-Means)1、定义K-me...

2018-04-13 21:36:59 580

原创 05 神经网络(NNs)

神经网络(Neural Networks)1、定义神经网络是由具有适应性的 简单单元组成的 广泛并行互联的网络,它的组织能够模拟生物神经系统 对真实世界物体 所做出的交互反应。神经网络的基本组成部分是神经元模型。感知机——神经网络的基本组成单元                生物神经元                                     M-P神经元 生物神经元通过树...

2018-04-13 21:26:50 3411

原创 04 支持向量机(SVM)

支持向量机(Support Vector Machine)1、定义支持向量机(Support Vector Machine,SVM)支持(support)向量(vector)指的就是样本点机器(Machine)支持向量机它是针对线性可分情况进行分析的,对于线性不可分的情况,它会将向量(样本)映射到一个更高维的空间里,在这个更高维空间里建立有一个最大间隔超平面,进行线性可分。通俗来讲,它是一种二类分...

2018-04-13 21:15:28 538

原创 03 朴素贝叶斯(NBM)

朴素贝叶斯(Naive Bayesian Model)1、定义:贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。 贝叶斯法事概率论你框架下实施决策的基本方法,对分类任务来说,在所有相关概率都已知的情况下,如何运用这些概率来推测,分类 朴素贝叶斯最核心的部分是贝叶斯法则,而贝叶斯法则的基石是条件概率 条件概率公式设A,B是两个事件,...

2018-04-13 21:02:39 873

原创 02 随机森林(RF)

随机森林(Random Forest,RF) 1、定义随机森林指的是利用多棵树对样本进行训练并预测的一种分类器随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为...

2018-04-13 20:43:45 567

原创 01 决策树(DT)

决策树(DT) 1、定义决策树:决策 + 树我们的决策过程就像树的成长一样。由一个根(节点)不断的发散决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。 § 叶子节点:存放决策结果§ 内部节点:特征属性,及其对应输出,按照输出选择分支§ 决策过程:从根节点出发,根据数据的各个属性,计算结果,选择对应的输出分支,直到到达叶子节点,得到结果 ...

2018-04-13 20:38:32 665

原创 python爬虫之Scrapy爬虫框架

1、windows下安装Scrapy框架cmd进入命令行模式pip install scrapy然后就是静静的等待安装完成常见问题:pip版本有可能太旧,此时只需要更新一下pip就好                (命令行中输入更新代码:python -m pip install --upgrade pip)2、Scrapy框架的基础知识2.1 基本组成:spiders为核心代码,主要是一些爬虫的...

2018-04-08 21:47:18 551

原创 python抓取一个网页的源代码并存储到本地文件

1.1读取一个网页的源代码:url:我们要爬取的网页链接(例如:url = “https://www.hao123.com”)#读取一个网页的源代码import urllib.requestdef read_pageHtml(url): file = urllib.request.urlopen(url) data = file.read() return datau...

2018-04-08 17:33:29 27438

精通Python网络爬虫 核心技术、框架与项目实战

本书侧重于实战,理论部分讲解的比较精炼。由于本书比较新,所以最大的特点就是上面的示例代码都是可以直接运行的(看了好多书,代码都无法直接参考使用)

2018-05-02

python pip 通过阿里云下载各种插件和包

在使用python pip 安装各种插件和包的时候,经常链接的是外网,所以下载速度特别慢。

2018-04-16

Python语言程序设计斯坦福教材 .pdf

习题约占总篇幅的一半,以实例教,由实践学,采用基础先行、问题驱动的方法。

2017-11-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除