来自火星的攻城狮-CSDN博客

原创【pytorch模型转onnx模型】一些模型转化和加速推理的知识

【pytorch模型转onnx模型】一些模型转化和加速推理的知识。

2022-08-25 09:14:28 303

一种CTR预估中连续特征的Embedding学习框架 - AutoDis 地址：http://www.ai2news.com/blog/36873/ 2021-07-10一口气放出三篇SIGIR论文！详解阿里妈妈搜索广告CTR模型演进地址：http://www.ai2news.com/blog/36849/ 2021-05-28WSDM’21「蚂蚁」CTR预估：多交互注意力网络 Multi-Interactive Attention Network for Fine-grained Fea

2022-02-21 10:31:15 676 1

原创 gensim w2v 使用记录

训练模型model = word2vec.Word2Vec(sentences, min_count=1, seed=1, size=100, window=5)保存模型txt 格式为可查看模式，若binary=True，mac本地查看文件会乱码model.save('text8.model') # 保存模型model.wv.save_word2vec_format('token_vec_300.txt', binary=False) # 保存字典获取w2v 字典的key和对应向量voc

2022-02-10 09:58:04 1063

原创机器学习文章记录

样本分布变化-对抗验证：https://zhuanlan.zhihu.com/p/93842847

2021-12-20 14:04:17 522

原创搜推文章整理20211220

美团“猜你喜欢”深度学习排序模型实践：https://zhuanlan.zhihu.com/p/35090791

2021-12-20 14:03:38 432

原创特征相关性

为什么特征相关性非常的重要？器学习模型的好坏取决于你所拥有的数据。这就是为什么数据科学家可以花费数小时对数据进行预处理和清理。他们只选择对结果模型的质量贡献最大的特征。这个过程称为 “特征选择”。特征选择是选择能够使预测变量更加准确的属性，或者剔除那些不相关的、会降低模型精度和质量的属性的过程。数据与特征相关被认为是数据预处理中特征选择阶段的一个重要步骤，尤其是当特征的数据类型是连续的。那么，什么是数据相关性呢？数据相关性：是一种理解数据集中多个变量和属性之间关系的方法。使用相关性，你可以得到一些见解

2021-11-23 11:23:41 2243

原创 pyspark/gensim word2vec对比总结

1、pyspark word2vec 参数https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.feature.Word2Vec.html?highlight=word2vec#pyspark.ml.feature.Word2Vecclass pyspark.ml.feature.Word2Vec(*, vectorSize=100, minCount=5, numPartitions=1, stepSize=

2021-07-19 14:29:32 600 1

转载 gensim.models.word2vec 参数说明

安装JUPYTER后PYCHARM的CONSOLE报错LIST.REMOVE(X): X NOT IN LISThttps://www.freesion.com/article/1099204611/

2021-03-03 20:18:59 689 2

原创【深度学习】Encoder-Decoder

先存优秀资料，后续整理：https://zhuanlan.zhihu.com/p/114933655

2021-01-07 09:48:38 179

原创机器学习特征工程实用技巧大全

常规总结https://zhuanlan.zhihu.com/p/26444240https://zhuanlan.zhihu.com/p/33429338

2021-01-06 09:50:28 74

原创【机器学习】缺失值处理总结

处理缺失值的意义没有高质量的数据，就没有高质量的数据挖掘结果，数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时，可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中，往往缺失数据占有相当的比重。这时如果手工处理非常低效，如果舍弃缺失记录，则会丢失大量信息，使不完全观测数据与完全观测数据间产生系统差异，对这样的数据进行分析，你很可能会得出错误的结论。为什么要进行空值处理？系统丢失了大量的有用信息；系统的不确定性更加显著，系统中的确定性成分更难把握；包含空值的数据会使挖掘过程陷入混乱，导

2020-12-31 10:26:22 2954

原创【pyspark系列】pyspark.ml Word2Vec使用总结

pyspark版word2vec一、导入 word2vecimport pysparkfrom pyspark.sql.functions import format_number as fmtfrom pyspark.sql.types import FloatType,StringType,ArrayTypeimport pyspark.sqlfrom pyspark.sql import SparkSessionfrom scipy import spatialfrom pyspark

2020-11-18 14:32:23 1810

原创 Pyspark DataFrame 读写 (df.write)

https://www.jianshu.com/p/d1f6678db183

2020-10-27 13:46:07 2395

原创 python 代码规范教程

https://zh-google-styleguide.readthedocs.io/en/latest/google-python-styleguide/python_style_rules/#id16

2020-08-24 17:32:03 86

原创【机器学习】-数据不平衡-采样

背景所有数据存在DataFrame对象df中。数据分为两类：多数类别和少数类别，数据量相差大。数据预处理已将多数类别的Label标记为1，少数类别的Label标记为0。一、下采样（以少的为标准，抽样逼近）从多数类中随机抽取样本（抽取的样本数量与少数类别样本量一致）从而减少多数类别样本数据，使数据达到平衡的方式。二、上采样（以多的为标准，扩量逼近）和下采样采用同样的原理，通过抽样来增加少数样本的数目，从而达到数据平衡的目的。一种简单的方式就是通过有放回抽样，不断的从少数类别样本数据中抽取样本，然后使

2020-07-17 09:18:19 666

原创特征共线性对模型的影响

一、背景共线性问题是困扰模型预测能力的一个问题。在数据分析面试的时候也经常会出现关于共线性问题的面试考点。二、共线性描述2.1 何为共线性共线性又叫做多重共线性，是指自变量之间存在较强的，甚至完全的线性相关关系。影响：当自变量之间存在共线性时，模型的参数会变得极其不稳定，模型得预测能力会下降。很难确切区分每个自变量对因变量得影响，因此增加了对于模型结果得解释成本。因此，在建模前期得变量得筛选环节，就需要采取有效措施避免共线性问题。但在实际的问题中，自变量之间除了存在共线性问题之外，完全可能存在

2020-07-16 09:24:24 3648

原创 pyspark Dataframe 添加新列

如何添加一个新的列到Spark DataFrame(使用PySpark)方法一：不能将任意列添加到Spark中的DataFrame。新列只能使用literal创建。from pyspark.sql.functions import litdf = sqlContext.createDataFrame( [(1, "a", 23.0), (3, "B", -23.0)], ("x1", "x2", "x3"))df_with_x4 = df.withColumn("x4", lit(0)

2020-05-09 21:48:44 496

原创如何实现自定义SecureCRT自动登录

https://blog.csdn.net/qq_25606103/article/details/51265315

2019-12-02 17:58:05 214

原创正则表达式教程从0到1

正则表达式教程http://www.zsythink.net/archives/tag/%e6%ad%a3%e5%88%99%e8%a1%a8%e8%be%be%e5%bc%8f/

2019-11-29 11:12:40 1278

原创 shell入门教程系列

shell入门教程1:https://www.cnblogs.com/dongying/p/6262935.htmlshell入门教程2:https://www.cnblogs.com/dongying/p/6270972.htmlshell入门教程3:https://www.cnblogs.com/dongying/p/6376131.htmlshell入门教程4:https://...

2019-11-28 15:09:24 99

转载 spark与hadoop的区别

http://blog.sina.com.cn/s/blog_6cb1b33c0102y495.html

2019-11-28 11:20:57 83

原创 SQL中在查询结果中新增一列自定义的值

select *,cast(‘自定义的值’ as 自定义的字段类型) as ‘列名’ from 表名–简写select *, 自定义的值 as 列名 from 表名select ‘086a’ as tag from xxx

2019-11-25 15:24:41 2583

原创 pip 豆瓣

直接在后面添加 -i “https://pypi.doubanio.com/simple/”#例如安装 keraspip install keras变成pip install keras -i “https://pypi.doubanio.com/simple/”

2019-11-25 14:22:47 235

原创 Hive创建表以及导入数据

建表内表create table test_user_base(name string comment 'name value',workid string comment 'workid value',age string comment 'age value',sex string comment 'sex value',phone string comment 'phone v...

2019-11-22 11:00:19 598

原创 MAC上配置rz，sz命令实现文件上传，下载(亲测可用！)

有些特殊情况，mac下无法使用scp命令完成文件的上传和下载命令，在windows上可以用rx,sz命令上传和下载文件，对应到Mac上就是rz,sz命令，下面介绍一下如何配置MAC上的rz,sz。1、安装iterm2Mac自带的终端是不支持lrzsz，需要下载Mac上强大的终端工具--Iterm2，一款非常好用的命令行工具，官网下载地址：https://www.iterm2.com/，下...

2019-11-22 10:53:32 1957

原创 Leetcode:两数之和

问题描述：给定一个整数数组 nums 和一个目标值 target，请你在该数组中找出和为目标值的那两个整数，并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是，你不能重复利用这个数组中同样的元素。例如给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]一、暴力循...

2019-09-11 00:18:23 68

原创如何理解相关性系数（pearson、spearman、kendall）

转载: https://www.jianshu.com/p/7697eb89926a三个相关性系数（pearson, spearman, kendall）反应的都是两个变量之间变化趋势的方向以及程度，其值范围为-1到+1，0表示两个变量不相关，正值表示正相关，负值表示负相关，值越大表示相关性越强。person correlation coefficient（皮尔森相关性系数）公式如下：重点...

2019-08-29 15:18:33 4515

转载 Pycharm快捷键设置（鼠标滚动控制字体大小）

https://www.cnblogs.com/luyanru66/p/9677567.html一、pycharm字体放大的设置File —> setting —> Keymap —>在搜寻框中输入：increase —> Increase Font Size（双击） —> 在弹出的对话框中选择Add Mouse Shortcut在弹出的对话框中同时按住ctrl...

2019-07-25 10:47:51 695

原创三招提升数据不平衡模型的性能（附python代码）

https://yq.aliyun.com/articles/600963?spm=a2c4e.11153940.0.0.23475e30KPh37W

2019-07-18 16:41:31 191

原创 Jupyter Notebook 添加目录插件（nbextensions）

简单四步即可实现在jupyter notebook中添加目录：step1：在cmd命令框中运行 pip install jupyter_contrib_nbextensions；step2：关闭jupyter notebook，在cmd命令框中运行 jupyter contrib nbextension install --user --skip-running-chec...

2019-05-20 17:14:11 5337 3

原创库存周转天数计算

对于统计一段时间内的所有SKU的整体周转天数或周转率，公式如下：库存周转天数 = 平均日库存金额/平均日销售金额周转率=销售金额/平均库存金额

2019-05-13 20:39:12 4869

转载机器学习模型评估指标总结

常用机器学习算法包括分类、回归、聚类等几大类型，以下针对不同模型总结其评估指标一、分类模型常见的分类模型包括：逻辑回归、决策树、朴素贝叶斯、SVM、神经网络等，模型评估指标包括以下几种：（1）二分类问题（a）混淆矩阵准确率A：预测正确个数占总数的比例精准率P：正例样本中有多少被预测正确了召回率R：预测的正例样本中有多少是正确的F1 Score（精准率与召回率集成）：2P*R/(P+...

2019-03-26 19:03:22 718

原创零售新科学-笔记

现货率：就是在售商品中，有库存的货品占比页面显示在售，10款商品，20个SKU，1W件库存，实际仓库只有9款商品，10个SKU，5000件库存针对商品现货率90%针对SKU现货率 50针对库存数量现货率5当单店的销售速度太低时，绝大多数品类都无法做到单店单品维度的预测。基于此，零售商只能通过聚合相似门店以及相似单品的销售数据的方式，挖掘销售的规律。零售商不能仅仅对原始数据进行分析，...

2019-03-21 09:21:51 565

原创 Linux 批量删除进程的命令

2019-03-18 14:26:57 1109

baidu_32109835的博客