自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 资源 (1)
  • 收藏
  • 关注

翻译 NLP领域的小样本学习

一般而言,p-tuing效果优于PET范式。但是对于标签特别多,以及蕴含任务需要去理解的时候,p-tuing任务的效果不是很好。蕴含任务就是无法把标签变成完形填空的形式。因为预训练有大量的参数,如果样本非常少,那么训练参数量就会远远高于样本量,造成过拟合!Rdop做的是隐式数据增强,把一句话,变成两个接近的token。通过引入一段话,把分类标签带入到训练样本中,实现完形填空的功能。few-shot: 通过较少的学习样本,实现比较好的识别能力。PET的缺点,写的不同的模板会影响效果。基于PET使用伪模板。

2022-11-08 11:22:34 504 1

原创 NLP知识笔记一

1 自监督学习 2 自监督 词表示学习 3 word2vec 分布式假设: 语义相近的句子之间,应该具备相近的空间向量, 紧密的关系。 4 句子的编码模型Language Modeling 5 自回归,自训练模型

2022-07-06 15:16:03 239

原创 数据埋点梳理

目录介绍:埋点文档介绍:埋点是流量数据采集的一种主要方式, 是分析用户行为的重要手段。本质上可以理解为,一次html动作触发了网络请求, 并被服务端的框架存储下来的行为。按照埋点实现方案分为按照HTML行为触发网络请求的方式可以划分为点击事件:用户每点击页面按钮一次就记录一次数据。曝光事件:当用户成功进入一个页面时记录一次数据,当刷新一次页面也会记录一次数据,如果通过手机HOME键切换出去,则不会记录。页面停留时长:页面停留时长主要用来记录用户在一个页面的停...

2021-10-27 14:53:53 1599 1

原创 KMeans聚类分析实战——如何把城市划分成不同的种类

问题背景:某业务有以下几个考核城市的指标, (如出车率,这里不详细介绍)现在要对全国所有的城市按照上述指标进行分类, 比如表现好的,表现差的,那么问题来了,我应该分为几类呢, 是分3类还是分7类?谁是好的那一类, 谁是差的那一类呢?土豪回答: 拍脑袋决定个目标值, 都达到就是好的那一类, 至于分几类,就好中坏吧!作者说: 其实也可以,但是我们还可以使用聚类分析的方式, 评估分为几类,以及如何分类更合适。第一步:数据预处理数据集: df(pandas.datafr...

2021-09-13 16:58:28 3858 2

原创 xgboost解决业务问题实践——司机流失预测模型

声明: 文章所引用的数据禁止用于商业用途业务需求描述:某部门今年的核心指标是司机留存率, 司机留存是指司机有完单 。 所以为了提高司机留存,需要预测出下周哪些司机完单量是0 , 从而城市的同学及时干预,促进司机完单, 提高司机留存率。所以本需求简述为:给你91万司机, 滴滴数据库的数据随便取,但是必须是第N周的数据, 请预测第N+1周,哪些司机没有完单量。下面是本次建模的基本流程第一步:确定特征如何司机下周不干了, 他这周有什么行动表现吗, 或者这周发生了什么...

2021-09-13 16:40:30 978 4

原创 Python+Flask+ngrok调度刷新echarts数据并部署

①获得公众网络可以访问的网址下载注册ngrok,名字是不是很难记, 你rok哥, ngrokhttps://ngrok.com/download这里下载安装然后去这里注册一个你rok哥的账号,我直接用自己的github账号绑定了,我们的目的是要那个token这里https://dashboard.ngrok.com/auth/your-authtoken这是我的token1nnIwp751ucpJXj8WNwjWMPlzyk_**uHNvHCks3ePJfHTruoU② ...

2021-01-31 00:36:01 442 1

原创 集成算法与随机森林简介

集成算法的种类:第一种,随机森林模型随机森林的优势:①能够处理很高维度的数据,不用做特征选择。②训练完之后可以给出哪些feature比较重要③容易做成并行化方法,速度较快④可视化展示。第二种: Boosting模型。 串行模式从弱学习期开始加强,通过加权来进行训练。典型代表:AdaBoost ,XgboostAda boost会根据前一次的分...

2020-06-17 11:49:42 350

原创 sklearn线性回归及原理介绍

1 一次线性回归误差服从均值为0方差为θ2的高斯分布损失函数,用于定义和衡量模型的误差,实际点到预测平面的垂直距离。如何评价模型?决定系数 R方 ,衡量数据和回归线的贴近程度。r*2=LinearRegression().score(test_x,test_y)1.2代码实现方式import pandas as pdimport numpy...

2020-06-10 15:33:25 977

原创 决策树模型及scikit实现

一 基本概念:根节点: 第一个选择点叶子节点: 最终的决策结果非叶子节点和分支:中间过程熵:来源于化学的概念,随机变量的不大确定性的度量。不确定性越大,熵越大。计算公式比如,一枚硬币投掷一次,正负的概率都是0.5 ,那么熵计算公式:H(x)=-(0.5log2 0.5+0.5log2 0.5)=1.0信息增益:熵减少的量。父节点熵-(子节点的熵的加权平均...

2019-12-02 22:14:09 189 2

原创 Python使用Flask实现文件上传和访问

安装: 在pycharm里面新建一个虚拟环境的工程pip安装(本次安装的版本 是0.10.1 python版本是2.7 )如何copy依赖安装包?pip freeze >requirements.txtpip install -r requirements.txt新建文件夹,static ,templates新建一个网站服务:#!/usr/b...

2019-08-25 18:49:15 2616

原创 python 安装impala报错及解决办法

from impala.dbapi import connect执行的时候报connect找不到 ,如果只 pip安装impyla是不行的.https://github.com/cloudera/impyla 官网可以看到依赖的包DependenciesRequired: Python 2.6+ or 3.3+ six, bit_array th...

2019-07-23 17:43:03 12264 2

原创 《增长黑客》读书笔记

作者:范冰 (以下称作者 ) 本人(以下称 我)第一章 : 增长黑客的崛起Hotmail,第一个基于网页的邮件客户端,之前一直在线下打广告,离目标用户太远,花费巨大。后来在每个用户的邮件后缀打广告,0成本实现了快速的扩张。AARRR模型:获取,激发,留存,增加收入,传播推荐。获取Acquisition 让用户首次接触产品,踏进店门激发活跃 activat...

2019-04-08 21:30:12 3805

原创 地图可视化方案优缺点总结

地图可视化实现方式:excel——power map :优点 :方便易用,热力图调节比较方便,视频发布缺点:定位不是很准,无法到经纬度,发布的话,线上被封死了。echarts:优点:高度可调,基本上可以按照你想要的样子定制。交互方案多,效果好,适合做大屏缺点:数据吞吐量不大,有开发成本,部分js基于google国内无法访问。没有和数据处理工具集成(pyechart...

2019-03-12 08:57:40 5969 1

原创 基于KNN的分类模型-预测美团外卖城市等级

需求介绍美团有自己的城市等级,外卖依据其业务体量,重新划分了外卖的城市等级。这个城市根据其业务情况来划分的,比较详细。现在有以下样本数据。city_name city_level pnum ddl 临汾 D2 ** ** 南京 A ** ** 洛阳 C1 ** ** 无锡 B1 ** ...

2019-03-01 10:15:42 1602

原创 python对用户评价内容进行语义情感分析

使用 QQ 号登陆腾讯云官网 https://www.qcloud.com/, 在管理中心,获取的 SecretId 和 SecretKey。背景:用户在点评平台上的评价文本内容,有时候感情色彩和打的分值并不相同,为了更准确的反映用户的感情色彩我们获取文本内容后,通过腾讯的语义分析平台进行感情色彩分析,得到两个分值,positive,negative为后面更深入的感情分析做铺垫。以...

2019-02-25 20:48:01 5887 2

原创 基于SAS的主成份分析——某业务增长原因分析

备注: 本文所有数据都是模拟数据, 已经脱敏简介:主成份分析(PCA),把多个指标转化为少数几个综合指标的降维思维。核心思想是把m个相互存在关系的指标变量,转化为彼此独立的一组新的n个指标,一般n<m比如研究儿童发育的指标可能有m个,其中的腿长,胳膊长,身高等指标我们可以汇总成一个新的独立指标x。当x指标出问题的时候,我们可以推断其身体结构的发育遇到了问题,而不是...

2019-02-23 19:42:51 992

原创 python机器学习scikit-learn线性回归及决策树分类

一 安装scikit-learn 依赖numpy,SciPy,mkl 如果包来源不同,有的使用whl,有的使用pip官方安装,会造成执行程序的时候报错,找不到模块。解决办法是,卸载所有的包,统一来源,重新安装。插播一个神奇的网站:http://sklearn.apachecn.org/#/ 二 广义线性回归模型2.1  简单的实例-二元一次方程拟合目前有3列数,已知x1...

2019-02-16 21:21:16 1201 2

原创 python绘图工具plotly研究

plotly功能比较全,传统如matplot更多的是面向基础绘图组件的编辑。大部分情况下,我们更在乎的是可视化展现效果,因此plotly这种快速,漂亮,简单的可视化解决方案挺不错。但是呢,plotly也会有比较坑的地方,比如你要注册账户生成apikey,使用前必须写: plotly.tools.set_credentials_file(username='user_name', api_...

2019-02-13 14:37:07 5211 4

原创 python-地图可视化组件folium

folium是python的一个用来绘制地图,并在地图上打点,画圈,做颜色标记的工具类。简单易学,和pandas可以很好的融合,是居家必备良品。一 基本功能演示import foliumimport webbrowserm=folium.Map(location=[40.009867,116.485994],zoom_start=10) # 绘制地图,确定聚焦点folium.Mar...

2019-02-11 15:19:03 41564 17

原创 numpy功能手册

numpy

2019-01-26 17:08:42 1822

原创 maplotlib.pyplot学习笔记

参见 online guide:https://matplotlib.org/tutorials/index.html代码解析:import matplotlib.pyplot as pltimport numpy as npx=np.arange(0,10,0.2)y=np.arange(0,10,0.2)plt.figure(1,figsize=(9,3)) #定义画布尺...

2019-01-13 17:57:06 334

原创 scrapy爬虫框架结合BeautifulSoup

①安装scrapy pip install scrapy 依赖的包 python-lxml python-dev libffi-dev

2017-08-10 23:00:15 2564 1

原创 BeautifulSoup初体验

欲学爬虫,scrapy是python的重点,scrapy是框架,核心还是解析html元素,这方面专业的还是BeautifulSoup。 这是官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id9 多看官方文档,多练习,基本上可以掌握的很清晰! ①实战案例 1,1配置模拟浏览器from bs

2017-08-03 22:30:47 553

原创 scikit-learn对天气数据进行回归分析

一:实验背景: 结合《python数据分析实战》里面的方法,对山东的十个城市的6月17日的气温进行收集,分析气温和距离海岸线距离(以下简称s)的关系. 用到的库 matplotlib 库画出图像 scikit-learn 库对数据进行回归分析 numpy 库对数据进行切片 工具:pycharm 数据:高密,莱阳等十个地区的气温数据,6月17日当天分时段的温度 二 单城市温度可视化

2017-07-17 21:05:17 2737

原创 pymysql访问mysql数据库并且plotly实现可视化

①python和mysql数据库的交互 MysqlDb和pyMysql,推荐使用后者官方文档:http://pymysql.readthedocs.io/en/latest/user/examples.html pymysqlimport pymysql.cursorsconn=pymysql.connect(host='127.0.0.1',port=3306,user='root',pa

2017-07-12 22:51:18 2691

原创 数据仓库C

存储格式 文本导入到hive中,必须是TextFile格式. RCFile 存储空间TextFIle

2017-06-07 21:26:54 281 1

原创 数据仓库B

HDFS Hadoop Dietribute Filesystem 存储块 block MapReduce Map-combiner-shuffler-reduce YARN介绍 ZoopKeeper 用于故障转移,当资源管理器失败后,另一个可以马上恢复. datanode–读取数据 Hadoop工作过程 HIVE介绍 进入hive的操作界

2017-06-03 18:50:46 275

原创 数据仓库A

BI 企业大数据服务结构 大数据etl技术 Informatica datastage之类的已经不用了,现用大数据的定制化开发. greenPlum之前使用的大数据etl平台 ①SCD问题处理方法并举例 ②ODS是什么,在数据仓库的作用. :ods是短期的实时的数据,供产品或者运营人员日常使用,而数据仓库是供战略决策使用的数据;ods是可以更新的数据,数据仓库是基本不更新

2017-05-30 12:42:31 798

原创 GIT学习笔记

安装: Mac:https://sourceforge.net/projects/git-osx-installer/ Windows:https://git-for-windows.github.io/ Linux:apt-get install git 验证安装 cmd输入 git即可 基础: 切换到当前目录 git status 查看是不是repository –是 O

2017-04-20 22:03:53 221

原创 JavaWeb前端知识-JQuery

介绍: 第三方的js库,包含以下特性 HTML元素获取,HTML元素操作,CSS操作,HTML时间函数,JavaScript特效和动画,AJAX,Utilities. http://www.jquery.com –下载 $(document).ready(function(){})--文档就绪函数 $(function(){})选择器编辑元素: (“p”)选取p元素(“p”) 选取

2017-04-17 23:00:23 259

原创 JavaWeb前端知识-JavaScript进阶

① 错误处理 第一:try catch错误处理function f1(){ try{ alert("ss"); add(); } catch (e) { document.getElementById("err").innerHTML=e.message; } }</scrip

2017-04-10 23:00:20 293

原创 JavaWeb前端知识-JavaScript基础

JavaScript是世界上最流行的语言之一,一种轻量级的语言,可插入html页面,由浏览器执行.标准名称:ECMA 功能: - 写入HTML输出 - 对事件做出反应 - 改变HTML内容 - 改变HTML图像 - 改变HTML样式 - 验证输入 使用: 在或者里面写,js代码放在页面代码的底部,这样可以元素创建后再执行. ① js的语句规则 js可

2017-04-09 19:05:32 253

原创 JavaWeb前端知识-CSS进阶

表格:

2017-04-05 20:05:32 248

原创 JavaWeb前端知识-CSS初级

简介; css Cascading Style Sheets 层叠化样式表

2017-03-26 23:16:55 230

原创 MongoDb数据库-I基础

sd

2017-03-25 20:12:24 264

原创 Linux常用命令

home /tom root :chaojiguanliyuan

2017-03-24 22:13:12 355

原创 JavaWeb前端知识-HTML

HTML的组件介绍 ①基本结构 第一部分是头文件<html> <head> <meta> </head> --------------------------------- <body> <p>这是段落标签</P> <br/>换行 <hr/>分割线 <h1>文字大小设置</h1> </body>

2017-03-18 23:59:27 487

原创 Python文件操作

A接收用户输入,input函数=input("提示信息")输出数据print 函数%s 字符串%d 数字B打开文件=open(文件地址,r/w/r+,Buffer).close() 关闭文件读取文件内若能.read()readlines/readline

2017-03-11 16:04:16 193

原创 Python数据结构

A列表:a=['安徽','浙江','福建']相同数据类型,并且通过0,1,2,3索引可以引用值.函数: print()len()append()insert() 插入extend() 复制+ 合并del a[] 删除reverse()遍历: a = ['a','b', 'c']for i in range(len(a)): 

2017-03-08 22:07:12 203

转载 pandas基础操作

本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译,原文在这里。这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook 。习惯上,我们会按下面格式引入所需要的包:一、            创建对象可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。1、可以通过传递一个list

2016-05-17 10:58:48 355

spark概述教学课件

简单的介绍了spark

2022-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除