__y__-CSDN博客

原创 OpenCompass 大模型评测

OpenCompass 大模型评测。

2024-01-24 23:57:06 326

原创基于 InternLM 和 LangChain 搭建你的知识库

看到目前上传的文件目录里已经生成了对应的chrome embedding，但是在检索时感觉没有用到向量数据库的内容。

2024-01-24 22:33:55 417

原创书生·浦语大模型训练营

本章就是通过 transformers 载入本地模型进行推理。这里对输入做了简单的处理，当输入为空时，不进行交互。

2024-01-08 23:33:37 361

Task5 模型融合Tip:此部分为零基础入门金融风控的 Task5 模型融合部分，欢迎大家后续多多交流。赛题：零基础入门数据挖掘 - 零基础入门金融风控之贷款违约预测项目地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl比赛地址：https://tianchi.aliyun.com/competition/entrance/531830/introductio

2020-09-28 11:20:31 91

转载 Task4 建模调参

Task4 建模与调参此部分为零基础入门金融风控的 Task4 建模调参部分，带你来了解各种模型以及模型的评价和调参策略，欢迎大家后续多多交流。赛题：零基础入门数据挖掘 - 零基础入门金融风控之贷款违约预测项目地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl比赛地址：https://tianchi.aliyun.com/competition/entrance

2020-09-25 08:17:07 149

转载 Task3 特征工程

Task3 特征工程此部分为零基础入门金融风控的 Task3 特征工程部分，带你来了解各种特征工程以及分析方法，欢迎大家后续多多交流。赛题：零基础入门数据挖掘 - 零基础入门金融风控之贷款违约项目地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl比赛地址：https://tianchi.aliyun.com/competition/entrance/531830

2020-09-21 21:33:09 109

转载 Task2 数据分析 (1)

Task2 数据分析此部分为零基础入门金融风控的 Task2 数据分析部分，带你来了解数据，熟悉数据，为后续的特征工程做准备，欢迎大家后续多多交流。赛题：零基础入门数据挖掘 - 零基础入门金融风控之贷款违约目的：1.EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备项目地址：https://github.com/datawhal

2020-09-18 23:58:14 662

转载零基础入门金融风控之贷款违约预测挑战赛 Task1 赛题理解

Task1 赛题理解Tip:本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控之贷款违约预测挑战赛。赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景，解决实际问题，帮助竞赛新人进行自我练习、自我提高。项目地址：https://github.com/datawhalechina/team-learning-data-m

2020-09-15 11:02:32 407

转载 Task6 基于深度学习的文本分类3

Task6 基于深度学习的文本分类3基于深度学习的文本分类学习目标了解Transformer的原理和基于预训练语言模型（Bert）的词表示学会Bert的使用，具体包括pretrain和finetune文本表示方法Part4Transformer原理Transformer是在"Attention is All You Need"中提出的，模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同，但是并不

2020-08-04 23:46:15 155

转载 Task5 基于深度学习的文本分类2

Task5 基于深度学习的文本分类2在上一章节，我们通过FastText快速实现了基于深度学习的文本分类模型，但是这个模型并不是最优的。在本章我们将继续深入。基于深度学习的文本分类本章将继续学习基于深度学习的文本分类。学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类文本表示方法 Part3词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每

2020-07-30 23:28:33 164

原创 Task4 基于深度学习的文本分类1 (1)

Task4 基于深度学习的文本分类1在上一章节，我们使用传统机器学习算法来解决了文本分类问题，从本章开始我们将尝试使用深度学习方法。基于深度学习的文本分类与传统机器学习不同，深度学习既提供特征提取功能，也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法 Part2现有文本表示方法的缺陷在上一章节，我们介绍几种文本表示方法：One-hotBag of WordsN-gramTF

2020-07-27 22:03:07 190

原创 Task3 基于机器学习的文本分类

Task3 基于机器学习的文本分类在上一章节，我们对赛题的数据进行了读取，并在末尾给出了两个小作业。如果你顺利完成了作业，那么你基本上对Python也比较熟悉了。在本章我们将使用传统机器学习算法来完成新闻分类的过程，将会结束到赛题的核心知识点。基于机器学习的文本分类在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广，且包括多个分支，本章侧重使用传统机器学习，从下一章开始是基于深度学习的文本分类。学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类

2020-07-26 00:04:56 109

转载 Task2 数据读取与数据分析

Task2 数据读取与数据分析在上一章节，我们给大家简单介绍了赛题的内容和几种解决方案。从本章开始我们将会逐渐带着大家使用思路1到思路4来完成本次赛题。在讲解工具使用的同时，我们还会讲解一些算法的原理和相关知识点，并会给出一定的参考文献供大家深入学习。数据读取与数据分析本章主要内容为数据读取和数据分析，具体使用Pandas库完成数据读取操作，并对赛题数据进行分析构成。学习目标学习使用Pandas读取赛题数据分析赛题数据的分布规律数据读取赛题数据虽然是文本数据，每个新闻是不定长的，但任然使

2020-07-22 23:49:19 74

转载 Task1 赛题理解

Task1 赛题理解零基础入门NLP - 新闻文本分类本章将会对新闻文本分类进行赛题讲解，对赛题数据进行说明，并给出解题思路。赛题理解赛题名称：零基础入门NLP之新闻文本分类赛题目标：通过这道赛题可以引导大家走入自然语言处理的世界，带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务：赛题以自然语言处理为背景，要求选手对新闻文本进行分类，这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据完成赛题报名和数据下载，理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数

2020-07-21 19:47:10 72

原创百度强化学习训练营七日体验

强化学习（RL）强化学习（RL）初印象Part1 什么是强化学习Part2 强化学习能做什么Part3 强化学习与监督学习的区别Part4 强化学习的如何解决问题Part5 强化学习的算法和环境强化学习（RL）初印象Part1 什么是强化学习强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。核心思想：智能体agent在环境environment中学习，根据环境的状态state（或观测到的observati

2020-06-27 10:14:43 252

原创 Datawhale 零基础入门CV - Task 05 模型集成

Datawhale 零基础入门CV赛事-Task5 模型集成在上一章我们学习了如何构建验证集，如何训练和验证。本章作为本次赛题学习的最后一章，将会讲解如何使用集成学习提高预测精度。5 模型集成本章讲解的知识点包括：集成学习方法、深度学习中的集成学习和结果后处理思路。5.1 学习目标学习集成学习方法以及交叉验证情况下的模型集成学会使用深度学习模型的集成学习5.2 集成学习方法在机器学习中的集成学习可以在一定程度上提高预测精度，常见的集成学习方法有Stacking、Bagging和Boost

2020-06-02 21:53:22 71

转载 Datawhale 零基础入门CV - Task 04 模型训练与验证

Datawhale 零基础入门CV赛事-Task4 模型训练与验证在上一章节我们构建了一个简单的CNN进行训练，并可视化了训练过程中的误差损失和第一个字符预测准确率，但这些还远远不够。一个成熟合格的深度学习训练流程至少具备以下功能：在训练集上进行训练，并在验证集上进行验证；模型可以保存最优的权重，并读取权重；记录下训练集和验证集的精度，便于调参。4 模型训练与验证为此本章将从构建验证集、模型训练和验证、模型保存与加载和模型调参几个部分讲解，在部分小节中将会结合Pytorch代码进行讲解。4

2020-05-30 21:04:10 130

原创 Datawhale 零基础入门CV - Task 03 字符识别模型

Datawhale 零基础入门CV赛事-Task3 字符识别模型在前面的章节，我们讲解了赛题的背景知识和赛题数据的读取。本章开始构建一个字符识别模型，基于对赛题理解本章将构建一个定长多字符分类模型。3 字符识别模型本章将会讲解卷积神经网络（Convolutional Neural Network, CNN）的常见层，并从头搭建一个字符识别模型。3.1 学习目标学习CNN基础和原理使用Pytorch框架构建CNN模型，并完成训练3.2 CNN介绍卷积神经网络（简称CNN）是一类特殊的人工神

2020-05-27 08:36:13 106

原创 Datawhale 零基础入门CV - Task 02 数据读取与数据扩增

Datawhale 零基础入门CV赛事-Task2 数据读取与数据扩增在上一章节，我们给大家讲解了赛题的内容和三种不同的解决方案。从本章开始我们将逐渐的学习使用【定长字符识别】思路来构建模型，逐步讲解赛题的解决方案和相应知识点。2 数据读取与数据扩增本章主要内容为数据读取、数据扩增方法和Pytorch读取赛题数据三个部分组成。2.1 学习目标学习Python和Pytorch中图像读取学会扩增方法和Pytorch读取赛题数据2.2 图像读取由于赛题数据是图像数据，赛题的任务是识别图像中的字

2020-05-23 23:04:06 91

转载 Datawhale 零基础入门CV赛事-Task1 赛题理解

Datawhale 零基础入门CV赛事-Task1 赛题理解本章内容将会对街景字符识别赛题进行赛题背景讲解，对赛题数据的读取进行说明，并给出集中解题思路。1 赛题理解赛题名称：零基础入门CV之街道字符识别赛题目标：通过这道赛题可以引导大家走入计算机视觉的世界，主要针对竞赛选手上手视觉赛题，提高对数据建模能力。赛题任务：赛题以计算机视觉中字符识别为背景，要求选手预测街道字符编码，这是一个典型的字符识别问题。为了简化赛题难度，赛题数据采用公开数据集SVHN，因此大家可以选择很多相应的paper作为

2020-05-20 20:29:04 85

原创腾讯新闻和知乎

爬取腾讯新闻import timefrom selenium import webdriverfrom bs4 import BeautifulSoupdriever = webdriver.Chrome("F:/Download/Google/chromedriver")driever.get('https://news.qq.com/')html = driever.page_...

2020-04-27 20:47:19 152

原创 IP、session和cookie

IP、session和cookieIPIP被封为什么会出现IP被封如何应对IP被封的问题如何获取代理IP地址使用代理确认代理IP地址有效性关于http和https代理session和cookie前置：动态网页和静态网页静态网页动态网页http1.0session和cookiessessioncookies一个重要概念selenium基本步骤：高级-查找元素：高级-等待页面加载（wait）实战案例：...

2020-04-25 18:20:29 1713

原创爬虫常用的库

Beautiful SoupBeautiful Soup 是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。它基于HTML DOM 的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持 l...

2020-04-22 17:01:11 380

原创爬虫1

HTTPHTTP的请求方法有很多种，主要包括以下几个：GET：向指定的资源发出“显示”请求。GET方法应该只用于读取数据，而不应当被用于“副作用”的操作中（例如在Web Application中）。其中一个原因是GET可能会被网络蜘蛛等随意访问。HEAD：与GET方法一样，都是向服务器发出直顶资源的请求，只不过服务器将不会出传回资源的内容部分。它的好处在于，使用这个方法可以在不必传输...

2020-04-21 23:23:04 161

原创 Task5 模型融合

Datawhale 零基础入门数据挖掘-Task5 模型融合五、模型融合Tip:此部分为零基础入门数据挖掘的 Task5 模型融合部分，带你来了解各种模型结果的融合方式，在比赛的攻坚时刻冲刺Top，欢迎大家后续多多交流。赛题：零基础入门数据挖掘 - 二手车交易价格预测地址：https://tianchi.aliyun.com/competition/entrance/231784/int...

2020-04-04 22:36:06 159

原创 Task4 建模调参

Datawhale 零基础入门数据挖掘-Task4 建模调参四、建模与调参Tip:此部分为零基础入门数据挖掘的 Task4 建模调参部分，带你来了解各种模型以及模型的评价和调参策略，欢迎大家后续多多交流。赛题：零基础入门数据挖掘 - 二手车交易价格预测地址：https://tianchi.aliyun.com/competition/entrance/231784/introductio...

2020-04-01 17:49:16 258

原创 Datawhale 零基础入门数据挖掘-Task3 特征工程

Datawhale 零基础入门数据挖掘-Task3 特征工程¶三、特征工程目标Tip:此部分为零基础入门数据挖掘的 Task3 特征工程部分，带你来了解各种特征工程以及分析方法，欢迎大家后续多多交流。赛题：零基础入门数据挖掘 - 二手车交易价格预测地址：https://tianchi.aliyun.com/competition/entrance/231784/introduction...

2020-03-28 20:09:20 114

原创 Task2 数据分析-Copy1

Datawhale 零基础入门数据挖掘-Task2 数据分析二、 EDA-数据探索性分析Tip:此部分为零基础入门数据挖掘的 Task2 EDA-数据探索性分析部分，带你来了解数据，熟悉数据，和数据做朋友，欢迎大家后续多多交流。赛题：零基础入门数据挖掘 - 二手车交易价格预测地址：https://tianchi.aliyun.com/competition/entrance/23178...

2020-03-24 19:58:40 220

原创动手学深度学习three

动手学深度学习Three梯度下降梯度下降动态学习率优化算法进阶An ill-conditioned ProblemMaximum Learning RateSupp: PreconditioningSolution to ill-condition词嵌入基础二次采样Skip-Gram 跳字模型负采样近似损失函数词嵌入进阶GloVe 全局向量的词嵌入GloVe 模型载入预训练的 GloVe 向量求近...

2020-02-24 18:23:40 149

原创动手学深度学习day-two

动手学深度学习day-two过拟合、欠拟合及其解决方案模型选择、过拟合和欠拟合训练误差和泛化误差模型选择验证数据集K折交叉验证过拟合和欠拟合模型复杂度训练数据集大小权重衰减方法L2 范数正则化（regularization）简洁实现丢弃法简洁实现梯度消失和梯度爆炸随机初始化模型参数PyTorch的默认随机初始化Xavier随机初始化考虑环境因素协变量偏移标签偏移概念偏移循环神经网络进阶**RNN*...

2020-02-16 23:09:23 331

原创动手学深度学习day-one

线性回归回归模型y^=x1w1+x2w2+b\hat{y}=x_{1} w_{1}+x_{2} w_{2}+by^=x1w1+x2w2+b其中 w1 和w2 是权重（weight），b 是偏差（bias），且均为标量。它们是线性回归模型的参数（parameter）。模型输出 yˆ 是线性回归对真实值y 的预测或估计整个学习的步骤如下所示定义模型初始化模型参数定义损失函数...

2020-02-14 18:23:20 125

原创机器学习实战第七章--集成方法 ensemble method

机器学习实战第七章–集成方法 ensemble method集成方法:ensemble method（元算法: meta algorithm）概述概念：是对其他算法进行组合的一种形式提升方法是将弱学习算法提升为强学习算法的统计学习方法。在分类学习中，提升方法通过反复修改训练数据的权值分布，构建一系列基本分类器（弱分类器），并将这些基本分类器线性组合，构成一个强分类器。代表性的提升方法是A...

2019-12-07 16:10:08 244

原创机器学习实战第六章--支持向量机

机器学习实战第六章--支持向量机特点SVM 开发流程SMO 伪代码大致如下：特点优点：泛化（由具体的、个别的扩大为一般的，就是说：模型训练完后的新样本）错误率低，计算开销不大，结果易理解。缺点：对参数调节和核函数的选择敏感，原始分类器不加修改仅适合于处理二分类问题。使用数据类型：数值型和标称型数据。支持向量(Support Vector)就是离分隔超平面最近的那些点。SVM 开发流程...

2019-12-04 13:13:36 213

原创机器学习实战第五章--Logistic回归

logistic回归logistic回归希望对输出表示0或1sigmod函数是表示Logistic的一种方式在坐标尺度很大时，Sigmod可以看做阶跃函数梯度上升算法同梯度下降算法类似通过求导za...

2019-11-23 19:03:10 139

原创机器学习实战第四章--朴素贝叶斯

工作原理提取所有文档中的词条并进行去重获取文档的所有类别计算每个类别中的文档数目对每篇训练文档: 对每个类别: 如果词条出现在文档中-->增加该词条的计数值（for循环或者矩阵相加）增加所有词条的计数值（此类别下词条总数）对每个类别: 对每个词条: 将该词条的数目除以总词条数目得到的条件概率（P(词条|类别)...

2019-11-23 11:03:50 264

原创机器学习实战第三章--决策树

决策树创建分支def createBranch():'''此处运用了迭代的思想。感兴趣可以搜索迭代 recursion，甚至是 dynamic programing。''' 检测数据集中的所有数据的分类标签是否相同: If so return 类标签 Else: 寻找划分数据集的最好特征（划分之后信息熵最小，也就是信息...

2019-11-16 14:56:55 86

原创机器学习实战第二章--KNN

KNN算法流程特点基本原理项目案例1: 优化约会网站的配对效果项目案例2: 手写数字识别系统注（运行中发现的问题）流程收集数据：任何方法准备数据：距离计算所需要的数值，最好是结构化的数据格式分析数据：任何方法训练算法：此步骤不适用于 k-近邻算法测试算法：计算错误率使用算法：输入样本数据和结构化的输出结果，然后运行 k-近邻算法判断输入数据分类属于哪个分类，最后对计算出的分类执行后续...

2019-11-15 19:40:02 267

电子科技大学《信号与系统》孔斌辅导班

空空如也