自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

云海的博客

翻译 NLP领域的小样本学习

一般而言，p-tuing效果优于PET范式。但是对于标签特别多，以及蕴含任务需要去理解的时候，p-tuing任务的效果不是很好。蕴含任务就是无法把标签变成完形填空的形式。因为预训练有大量的参数，如果样本非常少，那么训练参数量就会远远高于样本量，造成过拟合！Rdop做的是隐式数据增强，把一句话，变成两个接近的token。通过引入一段话，把分类标签带入到训练样本中，实现完形填空的功能。few-shot: 通过较少的学习样本，实现比较好的识别能力。PET的缺点，写的不同的模板会影响效果。基于PET使用伪模板。

2022-11-08 11:22:34 504 1

原创 NLP知识笔记一

1 自监督学习 2 自监督词表示学习 3 word2vec 分布式假设：语义相近的句子之间，应该具备相近的空间向量，紧密的关系。 4 句子的编码模型Language Modeling 5 自回归，自训练模型

2022-07-06 15:16:03 239

原创数据埋点梳理

目录介绍:埋点文档介绍:埋点是流量数据采集的一种主要方式, 是分析用户行为的重要手段。本质上可以理解为，一次html动作触发了网络请求, 并被服务端的框架存储下来的行为。按照埋点实现方案分为按照HTML行为触发网络请求的方式可以划分为点击事件：用户每点击页面按钮一次就记录一次数据。曝光事件：当用户成功进入一个页面时记录一次数据，当刷新一次页面也会记录一次数据，如果通过手机HOME键切换出去，则不会记录。页面停留时长：页面停留时长主要用来记录用户在一个页面的停...

2021-10-27 14:53:53 1599 1

原创 KMeans聚类分析实战——如何把城市划分成不同的种类

问题背景:某业务有以下几个考核城市的指标，（如出车率，这里不详细介绍）现在要对全国所有的城市按照上述指标进行分类，比如表现好的，表现差的，那么问题来了，我应该分为几类呢，是分3类还是分7类？谁是好的那一类，谁是差的那一类呢？土豪回答：拍脑袋决定个目标值，都达到就是好的那一类，至于分几类，就好中坏吧！作者说：其实也可以，但是我们还可以使用聚类分析的方式，评估分为几类，以及如何分类更合适。第一步：数据预处理数据集： df(pandas.datafr...

2021-09-13 16:58:28 3858 2

原创 xgboost解决业务问题实践——司机流失预测模型

声明: 文章所引用的数据禁止用于商业用途业务需求描述：某部门今年的核心指标是司机留存率，司机留存是指司机有完单。所以为了提高司机留存，需要预测出下周哪些司机完单量是0 ，从而城市的同学及时干预，促进司机完单，提高司机留存率。所以本需求简述为：给你91万司机，滴滴数据库的数据随便取，但是必须是第N周的数据，请预测第N+1周，哪些司机没有完单量。下面是本次建模的基本流程第一步：确定特征如何司机下周不干了，他这周有什么行动表现吗，或者这周发生了什么...

2021-09-13 16:40:30 978 4

原创 Python+Flask+ngrok调度刷新echarts数据并部署

①获得公众网络可以访问的网址下载注册ngrok，名字是不是很难记，你rok哥， ngrokhttps://ngrok.com/download这里下载安装然后去这里注册一个你rok哥的账号，我直接用自己的github账号绑定了，我们的目的是要那个token这里https://dashboard.ngrok.com/auth/your-authtoken这是我的token1nnIwp751ucpJXj8WNwjWMPlzyk_**uHNvHCks3ePJfHTruoU② ...

2021-01-31 00:36:01 442 1

原创集成算法与随机森林简介

集成算法的种类：第一种，随机森林模型随机森林的优势：①能够处理很高维度的数据，不用做特征选择。②训练完之后可以给出哪些feature比较重要③容易做成并行化方法，速度较快④可视化展示。第二种： Boosting模型。串行模式从弱学习期开始加强，通过加权来进行训练。典型代表：AdaBoost ,XgboostAda boost会根据前一次的分...

2020-06-17 11:49:42 350

原创 sklearn线性回归及原理介绍

1 一次线性回归误差服从均值为0方差为θ2的高斯分布损失函数，用于定义和衡量模型的误差，实际点到预测平面的垂直距离。如何评价模型？决定系数 R方 ,衡量数据和回归线的贴近程度。r*2=LinearRegression().score(test_x,test_y)1.2代码实现方式import pandas as pdimport numpy...

2020-06-10 15:33:25 977

原创决策树模型及scikit实现

一基本概念：根节点：第一个选择点叶子节点：最终的决策结果非叶子节点和分支：中间过程熵：来源于化学的概念，随机变量的不大确定性的度量。不确定性越大，熵越大。计算公式比如，一枚硬币投掷一次，正负的概率都是0.5 ，那么熵计算公式：H(x)=-(0.5log2 0.5+0.5log2 0.5)=1.0信息增益：熵减少的量。父节点熵-（子节点的熵的加权平均...

2019-12-02 22:14:09 189 2

原创 Python使用Flask实现文件上传和访问

安装: 在pycharm里面新建一个虚拟环境的工程pip安装(本次安装的版本是0.10.1 python版本是2.7 )如何copy依赖安装包?pip freeze >requirements.txtpip install -r requirements.txt新建文件夹,static ,templates新建一个网站服务:#!/usr/b...

2019-08-25 18:49:15 2616

原创 python 安装impala报错及解决办法

from impala.dbapi import connect执行的时候报connect找不到 ,如果只 pip安装impyla是不行的.https://github.com/cloudera/impyla 官网可以看到依赖的包DependenciesRequired: Python 2.6+ or 3.3+ six, bit_array th...

2019-07-23 17:43:03 12264 2

原创《增长黑客》读书笔记

作者：范冰（以下称作者）本人（以下称我）第一章：增长黑客的崛起Hotmail，第一个基于网页的邮件客户端，之前一直在线下打广告，离目标用户太远，花费巨大。后来在每个用户的邮件后缀打广告，0成本实现了快速的扩张。AARRR模型：获取，激发，留存，增加收入，传播推荐。获取Acquisition 让用户首次接触产品，踏进店门激发活跃 activat...

2019-04-08 21:30:12 3805

原创地图可视化方案优缺点总结

地图可视化实现方式：excel——power map :优点：方便易用,热力图调节比较方便，视频发布缺点：定位不是很准，无法到经纬度，发布的话，线上被封死了。echarts:优点：高度可调，基本上可以按照你想要的样子定制。交互方案多，效果好，适合做大屏缺点：数据吞吐量不大，有开发成本，部分js基于google国内无法访问。没有和数据处理工具集成（pyechart...

2019-03-12 08:57:40 5969 1

原创基于KNN的分类模型-预测美团外卖城市等级

需求介绍美团有自己的城市等级，外卖依据其业务体量，重新划分了外卖的城市等级。这个城市根据其业务情况来划分的，比较详细。现在有以下样本数据。city_name city_level pnum ddl 临汾 D2 ** ** 南京 A ** ** 洛阳 C1 ** ** 无锡 B1 ** ...

2019-03-01 10:15:42 1602

原创 python对用户评价内容进行语义情感分析

使用 QQ 号登陆腾讯云官网 https://www.qcloud.com/，在管理中心，获取的 SecretId 和 SecretKey。背景：用户在点评平台上的评价文本内容，有时候感情色彩和打的分值并不相同，为了更准确的反映用户的感情色彩我们获取文本内容后，通过腾讯的语义分析平台进行感情色彩分析，得到两个分值，positive，negative为后面更深入的感情分析做铺垫。以...

2019-02-25 20:48:01 5887 2

原创基于SAS的主成份分析——某业务增长原因分析

备注: 本文所有数据都是模拟数据, 已经脱敏简介：主成份分析（PCA），把多个指标转化为少数几个综合指标的降维思维。核心思想是把m个相互存在关系的指标变量，转化为彼此独立的一组新的n个指标，一般n<m比如研究儿童发育的指标可能有m个，其中的腿长，胳膊长，身高等指标我们可以汇总成一个新的独立指标x。当x指标出问题的时候，我们可以推断其身体结构的发育遇到了问题，而不是...

2019-02-23 19:42:51 992

原创 python机器学习scikit-learn线性回归及决策树分类

一安装scikit-learn 依赖numpy,SciPy,mkl 如果包来源不同，有的使用whl，有的使用pip官方安装，会造成执行程序的时候报错，找不到模块。解决办法是，卸载所有的包，统一来源，重新安装。插播一个神奇的网站：http://sklearn.apachecn.org/#/ 二广义线性回归模型2.1 简单的实例-二元一次方程拟合目前有3列数，已知x1...

2019-02-16 21:21:16 1201 2

原创 python绘图工具plotly研究

plotly功能比较全，传统如matplot更多的是面向基础绘图组件的编辑。大部分情况下，我们更在乎的是可视化展现效果，因此plotly这种快速，漂亮，简单的可视化解决方案挺不错。但是呢，plotly也会有比较坑的地方，比如你要注册账户生成apikey,使用前必须写： plotly.tools.set_credentials_file(username='user_name', api_...

2019-02-13 14:37:07 5211 4

原创 python-地图可视化组件folium

folium是python的一个用来绘制地图，并在地图上打点，画圈，做颜色标记的工具类。简单易学，和pandas可以很好的融合，是居家必备良品。一基本功能演示import foliumimport webbrowserm=folium.Map(location=[40.009867,116.485994],zoom_start=10) # 绘制地图，确定聚焦点folium.Mar...

2019-02-11 15:19:03 41564 17

原创 numpy功能手册

numpy

2019-01-26 17:08:42 1822

原创 maplotlib.pyplot学习笔记

参见 online guide:https://matplotlib.org/tutorials/index.html代码解析：import matplotlib.pyplot as pltimport numpy as npx=np.arange(0,10,0.2)y=np.arange(0,10,0.2)plt.figure(1,figsize=(9,3)) #定义画布尺...

2019-01-13 17:57:06 334

原创 scrapy爬虫框架结合BeautifulSoup

①安装scrapy pip install scrapy 依赖的包 python-lxml python-dev libffi-dev

2017-08-10 23:00:15 2564 1

原创 BeautifulSoup初体验

欲学爬虫，scrapy是python的重点，scrapy是框架，核心还是解析html元素，这方面专业的还是BeautifulSoup。这是官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id9 多看官方文档，多练习，基本上可以掌握的很清晰！ ①实战案例 1,1配置模拟浏览器from bs

2017-08-03 22:30:47 553

原创 scikit-learn对天气数据进行回归分析

一:实验背景: 结合《python数据分析实战》里面的方法,对山东的十个城市的6月17日的气温进行收集，分析气温和距离海岸线距离（以下简称s）的关系. 用到的库 matplotlib 库画出图像 scikit-learn 库对数据进行回归分析 numpy 库对数据进行切片工具:pycharm 数据:高密,莱阳等十个地区的气温数据,6月17日当天分时段的温度二单城市温度可视化

2017-07-17 21:05:17 2737

原创 pymysql访问mysql数据库并且plotly实现可视化

①python和mysql数据库的交互 MysqlDb和pyMysql,推荐使用后者官方文档:http://pymysql.readthedocs.io/en/latest/user/examples.html pymysqlimport pymysql.cursorsconn=pymysql.connect(host='127.0.0.1',port=3306,user='root',pa

2017-07-12 22:51:18 2691

原创数据仓库C

存储格式文本导入到hive中,必须是TextFile格式. RCFile 存储空间TextFIle

2017-06-07 21:26:54 281 1

原创数据仓库B

HDFS Hadoop Dietribute Filesystem 存储块 block MapReduce Map-combiner-shuffler-reduce YARN介绍 ZoopKeeper 用于故障转移,当资源管理器失败后,另一个可以马上恢复. datanode–读取数据 Hadoop工作过程 HIVE介绍进入hive的操作界

2017-06-03 18:50:46 275

原创数据仓库A

BI 企业大数据服务结构大数据etl技术 Informatica datastage之类的已经不用了,现用大数据的定制化开发. greenPlum之前使用的大数据etl平台 ①SCD问题处理方法并举例 ②ODS是什么,在数据仓库的作用. ：ods是短期的实时的数据，供产品或者运营人员日常使用，而数据仓库是供战略决策使用的数据；ods是可以更新的数据，数据仓库是基本不更新

2017-05-30 12:42:31 798

原创 GIT学习笔记

安装: Mac：https://sourceforge.net/projects/git-osx-installer/ Windows：https://git-for-windows.github.io/ Linux：apt-get install git 验证安装 cmd输入 git即可基础: 切换到当前目录 git status 查看是不是repository –是 O

2017-04-20 22:03:53 221

原创 JavaWeb前端知识-JQuery

介绍: 第三方的js库,包含以下特性 HTML元素获取,HTML元素操作,CSS操作,HTML时间函数,JavaScript特效和动画,AJAX,Utilities. http://www.jquery.com –下载 $(document).ready(function(){})--文档就绪函数 $(function(){})选择器编辑元素: (“p”)选取p元素(“p”) 选取

2017-04-17 23:00:23 259

原创 JavaWeb前端知识-JavaScript进阶

① 错误处理第一:try catch错误处理function f1(){ try{ alert("ss"); add(); } catch (e) { document.getElementById("err").innerHTML=e.message; } }</scrip

2017-04-10 23:00:20 293

原创 JavaWeb前端知识-JavaScript基础

JavaScript是世界上最流行的语言之一,一种轻量级的语言,可插入html页面,由浏览器执行.标准名称:ECMA 功能: - 写入HTML输出 - 对事件做出反应 - 改变HTML内容 - 改变HTML图像 - 改变HTML样式 - 验证输入使用: 在或者里面写,js代码放在页面代码的底部,这样可以元素创建后再执行. ① js的语句规则 js可

2017-04-09 19:05:32 253

原创 JavaWeb前端知识-CSS进阶

表格:

2017-04-05 20:05:32 248

原创 JavaWeb前端知识-CSS初级

简介; css Cascading Style Sheets 层叠化样式表

2017-03-26 23:16:55 230

原创 MongoDb数据库-I基础

sd

2017-03-25 20:12:24 264

原创 Linux常用命令

home /tom root :chaojiguanliyuan

2017-03-24 22:13:12 355

原创 JavaWeb前端知识-HTML

HTML的组件介绍 ①基本结构第一部分是头文件<html> <head> <meta> </head> --------------------------------- <body> <p>这是段落标签</P> <br/>换行 <hr/>分割线 <h1>文字大小设置</h1> </body>

2017-03-18 23:59:27 487

原创 Python文件操作

A接收用户输入,input函数=input("提示信息")输出数据print 函数%s 字符串%d 数字B打开文件=open(文件地址,r/w/r+,Buffer).close() 关闭文件读取文件内若能.read()readlines/readline

2017-03-11 16:04:16 193

原创 Python数据结构

A列表:a=['安徽','浙江','福建']相同数据类型,并且通过0,1,2,3索引可以引用值.函数: print()len()append()insert() 插入extend() 复制+ 合并del a[] 删除reverse()遍历: a = ['a','b', 'c']for i in range(len(a)):

2017-03-08 22:07:12 203

转载 pandas基础操作

本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译，原文在这里。这篇文章是对pandas的一个简单的介绍，详细的介绍请参考：Cookbook 。习惯上，我们会按下面格式引入所需要的包：一、创建对象可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。1、可以通过传递一个list

2016-05-17 10:58:48 355

spark概述教学课件

简单的介绍了spark

2022-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除