TURING.DT-CSDN博客

原创共享优秀博文及书单

（文中的链接需要右键，在新的窗口打开，csdn不知道搞什么，直接点开提示"该网址内容存在未知风险"，网址链接根本没有安全问题）网上的优秀教程及书籍有很多，之前一直使用收藏夹方式收藏，后来发现越来越多，导致优秀的教程自己也找不到了，本着共享精神，以后将优秀的教程链接及书单名称全部整理到这里，便于自己查找，也共享给其他朋友，共用进步，书单只提供书的名字，建议大家购买正版图书，如果此文有内容侵犯到作...

2017-03-12 10:03:16 1567

原创 doccano标注工具|为机器学习建模做数据标注

转到“Dataset”页面，然后单击“操作”菜单中的“Export dataset”按钮。在标签编辑器页面中，您可以通过指定标签文本、快捷键、背景颜色和文本颜色来创建标签。创建项目后，点击Dataset按钮，点击Import dataset导入数据。需要注意，市面上的机器学习课程一般都默认数据已标注，在此基础上讲机器学习。然后，选择“Add”按钮以显示表单。根据需要选择项目的功能需求，例如允许单标签，把数据打乱随机显示，用户之间共享标注。下面我们以外卖评论数据为例，对评论进行判断，标注为正、负面情感。

2024-04-03 13:40:45 1197

原创 Linux Centos7安装Docker容器

Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器或Windows 机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。可以看到刚才在执行docker run hello-world的时候，已经将hello-world镜像拉去到本地镜像中了。docker社区、ee企业版 ce为社区版官方推荐使用ce版，默认安装最新的docker。/var/lib/docker 为docker默认的工作路径！

2024-03-28 11:49:44 903

原创产品经理与产品运营的区别和联系

因此在我们确定一个产品价值的时候需要跟公司本来的战略结合在一起考虑，这样才能保证产品价值的完整性。产品经理与产品运营都需要深入了解用户，产品经理需要通过了解来确定产品价值，提升用户体验；为了让产品价值更高效的体现，产品经理需要对产品进行功能或者信息架构，需要研究用户体验，需要懂得一些交互技巧。通过上文的内容，可以看产品经理的工作重心赋予产品价值，而产品运营的工作重心是如何让产品发挥出价值。产品运营的主要目的是：是让产品能有效的发挥出它应有的价值。创造有价值的产品的第一步就是：寻找和确定产品的价值。

2024-01-16 10:44:54 1054

原创浅谈标签及应用场景

标签的应用场景是由互联网领域逐步推广到其他领域，打标签的对象也由用户、产品等扩展到渠道、营销活动、服务等，不同领域有不同的应用，目前最典型的应用是用户画像、产品画像，画像是按应用场景将多个标签组合分类而成，比如：筛选出年龄在20-30岁在广州的女性，就使用多个标签的组合，从而精准找到符合应用的用户。标签由标签名称和标签值组成，打在目标对象上。综上，标签画像的应用越来越被企业重视，其应用场景也覆盖了各行业、各领域，期望该文能起到抛砖引玉的作用，挖掘我们在各个岗位上的标签应用赋能业务。

2024-01-11 15:51:43 486

原创标签 VS 数据指标，概念与区别

指标可以从标签中转化，比如高净值客户的迁移率（从长尾客户转化到高净值客户的比率），其中高净值客户和长尾客户都是标签，但在标签的基础上增加一个迁徙率，就由标签转化为了指标。同样标签也可以从指标转化得来，比如说银行中常用的数据标签：私行客户（AUM>=500万），其中 AUM 就是数据指标，不同银行的标签设定可能是不同的。不懂数据的产品不是好运营，为了便捷地了解产品现状及业务效果，指标体系中会有很多拆解的细分指标，这些数据的变动反映的是用户对于运营情况的最新反馈，为运营的业务决策提供了数据支持。

2023-12-22 19:28:47 1035

原创基于LangChain+ChatGLM2-6B+embedding构建行业知识库

目的：最近在探索大模型本地化部署+知识库实现行业解决方案，安装过程记录，分享给需要的同学，安装前确定好各组件的版本非常重要，避免重复安装走老路。方案一：使用开源LLM本地部署和微调优点：数据最安全，因为不管是模型还是训练数据都在本地缺点：要调教出一个足够出色的模型，需要耗费较多的人力物力（当然相比于预训练已经好太多了）具体实施：（LLAMA、ChatGLM2）+（Lora、P-Tuningv2、promote-tunning等）方案二：基于LLM+向量数据库。

2023-11-13 18:49:40 1504

转载一文读懂什么是CTO、技术VP、技术总监、首席架构师

究竟什么是CTO，一个公司真的需要CTO么？哪些公司的职位对于技术管理者来讲真的是CTO的职位？同样是技术最高负责人，为什么有人叫CTO、有人叫技术总监、技术VP，有人叫首席架构师？他们之间的差别是什么？怎样才能成为一个合格的CTO？各职位之间的差异，从以下技术管理者需要的五个核心能力来区别开：领导力、文化构造能力、人员管理能力、体系搭建能力、技术实力。同样是最高技术负责人，在这五点能力上的强弱决定了最终自己在市场上“挣”出来的职位是什么。

2023-11-03 11:30:43 2151

原创大数据开源框架技术汇总

引言主要基于对现阶段一些常用的大数据开源框架技术的整理，只是一些简单的介绍，并不是详细技术梳理。可能会有疏漏，发现再整理。参考的太多，就不一一列出来了。这只是作为一个梳理，对以后选型或者扩展的做个参考。目录Hadoop：Apache Hadoop是一个开源的分布式系统基础框架，离线数据的分布式存储和计算的解决方案。Hadoop最早起源于Nutch，Nutch基于2003 年、2004年谷歌发表的两篇论文分布式文件系统GFS和分布式计算框架MapReduce的开源实现HDFS和MapReduce。2005年推

2023-10-18 14:06:28 595

转载大模型评测总结与思考

想要全面且准确的测出一个大模型的能力且让所有人认可、达成共识，这件事本身具有非常大的难度，如今大模型的发展不同以往，传统的NLP榜单，不论是测评的能力项还是具体测评case都难以满足，为此必定要构建新的测评集，这个难度正如前面所说很大，还有一条路就是不构建测试集而是公测，让所有人来随机测，各种提问，但是这种方式对于开发者来说迭代周期长，且各个模型之间也难以量化对比。每一个测评集都不一样，进而导致了结论的不一样，也无法达成共识，目前唯一的共识可能就是chatgpt和gpt4比较强，其他的各说其词。

2023-08-16 15:17:19 2104

原创友盟+、GrowingIO和神策数据对比

属于大数据的基础设施了，可以做数据驱动技术，千人千面的优化。GrowingIO，这个非常适合项目早期，团队内没人懂这个东西，看完增长黑客就想上手。这个真的是对比过的，我们小作坊的员工是能学会GrowingIO的，可以数据驱动运营。growingio也提供清单级数据的导出服务，不过另外收费，开通之后可以提供过去15天的清单级数据。所以说，看你接给谁用，如果是做开发，想要做大数据驱动，神策更合适。使用要求：操作上，涉及数据集、表的关联、看板等多个需要用户操作的环节，对应数据处理过程。适合给老板看个总和。

2023-08-03 15:32:43 1122

原创 Orange：一个基于 Python 的数据挖掘可视化平台

对于高级用户，可以通过开发自定义的组件（Widget）实现扩展的功能，或者在 Python 中利用 Orange 代码库编写数据挖掘脚本程序。为了方便初学者，Orange 提供了许多实用的工作流示例。打开 Orange 主界面，左侧显示了默认安装时提供的许多机器学习、预处理以及可视化的算法，这些功能被划分为 5 个组件集（数据、可视化、模型、评估以及无监督算法）。欢迎界面提供了新建、打开工作流（workflow）的快捷方式以及各种教程、示例和使用文档，关闭该界面就进入了 Orange 主界面。

2023-07-19 17:21:42 3717

原创 Prompt 技巧指南-让 ChatGPT 回答更准确

随着 ChatGPT 等大型语言模型 (LLM)的兴起，人们慢慢发现，怎么样向 LLM 提问、以什么技巧提问，是获得更加准确的回答的关键，也由此产生了提示工程这个全新的领域。提示工程(prompt engineering)是一门相对较新的领域，用于开发和优化提示以有效地将语言模型 (LM) 用于各种应用程序和研究主题。即时的工程技能有助于更好地理解LLM的功能和局限性。研究人员使用提示工程来提高 LLM 在广泛的常见和复杂任务（例如问题回答和算术推理）上的能力。

2023-07-19 10:52:35 1031

原创 Ubuntu18.04本地部署Stable-Diffusion-webui绘画

打开v2-1_768-ema-pruned.ckpt · stabilityai/stable-diffusion-2-1 at main（https://huggingface.co/stabilityai/stable-diffusion-2-1/blob/main/v2-1_768-ema-pruned.ckpt），下载训练模型(大小4.9G)。在左上角的文本框prompt输入提示词，点击Generate，等待数秒钟（我的电脑大概等待15s左右），就会生成一张图。

2023-06-30 15:58:09 3617 5

原创 Pytorch和CUDA版本对应关系

官方地址：https://pytorch.org/get-started/previous-versions/注意低版本的Pytorch是否向上支持更高版本的CUDA。使用nvidia-smi命令显示的cuda版本信息。高版本的Pytorch一般能兼容低版本CUDA。

2023-06-30 14:10:55 5987

原创产品运营如何与研发建立良好的合作

他们对业务也有自己的理解和想法，有时甚至能从别的角度给出更好的解决方案，前提是要让他们充分了解这个需求的来龙去脉，这个需求的背景，不仅仅是知道我们要做什么事，更重要的是我们为什么要做这个事：现在的这个产品需求是我运营经过调研分析确定的，我的解释是否能让你足够清楚明白了?如果是紧急的需求，或者重大的bug出现(比如用户无法登录了)，这种可以随时找研发处理，但是尽量不要零敲碎打地报需求，尤其是不要用即时沟通的方式，比如qq，电话给研发报需求，容易遗漏，不好统计和反馈，而且也给研发造成打扰。

2023-06-01 14:53:50 594

原创 NVDIA GPU参数列表： 3090，4090， A40， A30，V100， A100， A800性能参数

而据英伟达的说法，新的 A800 可以替代 A100，两者都是 GPU（图形处理单元）处理器。芯片经销商 OMNISKY 容天官网介绍的英伟达 A800 GPU 信息显示，新的芯片数据传输速率为每秒 400GB，低于 A100 的每秒 600GB，代表了数据中心的性能明显下降。NVIDIA A100 GPU采用全新Ampere安培架构的超大核心GA100，7nm工艺，542亿晶体管，826平方毫米面积，6912个核心，搭载5120-bit 40/80GB HBM2显存，带宽近1.6TB/s，功耗400W。

2023-05-25 11:21:54 17368

转载不错的ChatGPT Prompts/调教指南

首先ChatGPT它能干什么?类别描述学术论文它可以写各种类型的学术论文，包括科技论文、文学论文、社科论文等。它可以帮助你进行研究、分析、组织思路并编写出符合学术标准的论文。创意写作它可以写小说、故事、剧本、诗歌等创意性的文学作品，能够在描述情节和角色方面提供帮助。内容创作它可以写SEO文章、博客文章、社交媒体帖子、产品描述等各种类型的内容创作。它能够为你提供有趣、独特、易读的内容，帮助你吸引读者和提升品牌知名度。商业写作它可以帮助你编写商业计划书、市场调研报告、营销策略、商业简报、销售信件等。它可以用清晰

2023-03-21 14:51:17 20135

原创电商搜索入门

但是对短文本的提取，特别是字符小于10的文本提取关键词，行业上也没有比较好的解决办法，从目前的测试数据来看，TF-IDF算法比较好一些。商品经过分词搜索，再经过权重模型计算排序后，就会展示在前端给客户查看，但是系统查询的结果不一定就百分百是用户想要的，所以用户可以自己根据一定的规则再次进行筛选新排序，最终找到自己的想要搜索结果。当用户输入查询关键词时，也有可能输入了和关键词意思相近的词语，比如用户本来想要输入"三体"，但实际却输入成"3体"，这个时候系统就会将"3体"转换为"三体"，再进行下一步处理。

2023-02-28 17:07:45 2060

原创机器学习模型监控的 9 个技巧

如果您使用不同类型的特征（例如：词嵌入、地理位置坐标），您可能需要将它们解码（例如：分别解码为字符串和城市名称），以便您可以更轻松地分析报表和在绘图中的展示这些特征。这样做的原因是，许多数据问题对样例的某些子集具有关键影响，但它们在整个数据集的影响可能会“消失”，因为当您查看整个数据集的聚合值时，它们的绝对影响不足以感受到。您创建了一些实时警报（电子邮件、移动推送通知等），以在模型以意想不到的方式表现时提醒您，例如奇怪的特征值、缺失的特征、分数太高/太低，等等。监控使用模型做出的决策。

2023-02-22 15:53:43 743

转载 AUC的是如何计算的

metrics.roc_curve默认drop_intermediate为True，然后讲解sklearn包计算AUC的详细流程，并用代码自行实现AUC的计算。文章先介绍如何使用sklearn包计算AUC，这是实际中常用的方法。本文主要讲解AUC是如何计算的，通过本文了解AUC的具体计算过程。算出的fpr和tpr会删掉线性过渡点(即上面图中标黄的点)！从结果可见，自行计算结果与sklearn包运行结果一致。调用sklearn包计算AUC的代码。01.调用sklearn计算AUC。

2023-01-04 11:05:52 640

原创使用sklearn进行在线实时预测（构建可用模型）

前面说到的运行方式是在离线环境中运行，在真实世界中，我们很多时候需要在线实时预测，一种解决方案是将模型服务化，在我们这个场景就是，我告诉你一个鸢尾花的 sepal_length, sepal_width, petal_length, petal_width 之后，你能够快速告诉我这个鸢尾花的类型，借助 flask 等 web 框架，开发一个 web service，实现实时预测。上面的模型对鸢尾花数据进行训练生成一个模型，之后该模型对测试数据进行预测，预测结果为每条数据属于哪种类别。

2022-11-18 13:17:20 1789

转载数字化转型，需要什么样人才体系？

术业有专攻，尤其是传统行业的业务人员对数据的认知处于比较浅的层次，想要在转型过程中，数据团队不是闭门造车，而是深刻的理解了业务流程和痛点，就需要具备深厚的数据功底的“外交官”的角色，去不断深入业务过程，可以告诉业务数据能够带来哪些改变，现有哪些数据，还需要做哪些工作。既然数字化转型的终极目的是降本增效，以终为始，那就要先看目前的经营流程中，主要的“本”花在了哪里，这时涉及两个层面，一是要能够梳理清楚现有的核心业务流程，二是有没有完善的数据，可以去衡量这个成本。

2022-10-27 10:18:14 524

原创主流大数据调度工具对比(DolphinScheduler特点)

大数据环境下，调度工具比不可少，离线批任务和准实时任务都需要调度去驱动。支持暂停恢复操作. 支持多租户，更好的应对大数据的使用场景. 支持更多的任务类型，如 spark, hive, mr, python, sub_process, shell。DAG 监控界面，所有流程定义都是可视化，通过拖拽任务定制DAG，通过API方式与第三方系统对接, 一键部署。支持自定义任务类型，调度器使用分布式调度，调度能力随集群线性增长，Master和Worker支持动态上下线。

2022-09-20 13:25:23 1879

原创大数据中台技术组件

元数据管理：开源的Netflix的Metacat、Apache的Atlas，商业化的产品Cloudera Navigator。任务调度：Oozie，Azakaban，AirFlow，DolphinScheduler等。在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等。数据计算：MapReduce,Spark,Flink。资源调度：YARN，Mesos，Kubernetes。数据存储：HDFS，HBase，Kudu等。交互式查询：Impala,Presto。

2022-08-23 18:56:35 695

原创 ClickHouse用户路径分析原理及实现

若只有单条路径app_lunch也算）的所有session，app_lunch1表示以app_lunch为起始事件的session数共有3405，所有数据会分别流向app_lunch2、download2、#-1#2,分别为用户路径为app_lunch->app_lunch->xxx->xxx……如：用户路径为app_lunch->download->#-1#，则此路径内位于第二个节点的download为图中的download2事件,路径内位于第三个节点的#-1#为图中的#-1#3事件。...

2022-08-04 15:04:03 2037 1

原创 SQL常用语句

SELECT*FROMempWHEREdept_idIN(SELECTidFROMdeptWHERENAME='财务部'ORNAME='市场部');--按照性别分组。主要介绍排序查询、聚合函数、模糊查询、分组查询、分页查询、内连接、外连接、子查询。SELECTidFROMdeptWHERENAME='财务部'ORNAME='市场部';语法CREATEUSER'用户名'@'主机名'IDENTIFIEDBY'密码';...

2022-07-25 09:41:44 145 1

原创系统等保指的是信息系统的安全保护等级

三级等保是国家对非银行机构的最高级认证，4102属于“监管级别”，由国家信息安全监管部门进行监督、检查，认证测评内容分别涵盖5个等级保护安全技术要求和5个安全管理要求，包含信息保护、安全审计、通信保密等近300项要求，共涉及测评分类73类，要求十分严格。应用的安全评估（包括应用安全扫描、渗透测试及风险评估），应不存在中高级风险以上的漏洞（例如SQL注入、跨站脚本、网站挂马、网页篡改、敏感信息泄露、弱口令和口令猜测、管理后台漏洞等）；安全管理制度、安全管理机构、人员安全管理、系统建设管理、系统运维管理。...

2022-07-18 14:49:56 2545

原创 Linux ab 压力测试工具

在Apache服务器的套件中，有一个叫做 ab (ApacheBench) 的工具。ApacheBench 主要是用来测试Apache服务器执行效率用的ApacheBench 可以针对某个特定的 URL 仿真出连续的联机请求同时还可以仿真出同时间点数个相同的联机请求,因此利用 ApacheBench 可帮助我们在网站开发期间仿真实际上线可能的情况,利用仿真出来的数据做为调整服务器设定或程序的依据。ab 是 Apache 附带的接口压力测试功能，非常简单易用。在测试服务端程序自身运行时长和跨区测试接口反馈时长

2022-07-06 18:50:27 381

原创 Linux服务器安装FineBI分析工具

1.Linux 系统下安装步骤1.1 下载安装文件如果 Linux 连接外网的话，也可直接到官网下载 Linux版本的安装包。或者在 Linux 命令行下，使用：wget https://fine-build.oss-cn-shanghai.aliyuncs.com/finebi/5.1.3/stable/exe/spider/linux_unix_FineBI5_1-CN.sh回车开始下载1.2 安装 FineBI文件下载好后，在 Linux 命令行切换到该目录中，先给安装文件权限，如

2022-05-19 14:16:56 3290 4

原创用户运营指标体系搭建逻辑

一、指标的意义指标的四个价值点：表述业务场景的业务特征。表述业务场景的运营效果。表述业务场景的未来方向。表述业务场景的衍生价值。下图是一个常见的用户活跃指标体系，顶层指标即为北极星指标，拆解过程中产生的指标是汇总指标，最底层无法再拆解的是原子指标。指标体系包含2个核心概念：指标：具备业务意义，能准确反应业务情况的数据。必须具备清晰的业务意义只能是数字，不能是文本维度：描...

2022-03-24 18:53:04 5150

原创 hive中insert时使用日期分区获取分区的方法

hive中按日月年分区获取分区的方法1、按日分区比较简单直接将查询的日期作为分区即可insert overwrite table sale_store_timeline partition (inc_day)selectbusiness_date --营业日期,date_type ,avg_cus_price ,business_date as inc_day --日分区fromselect * from sale_store

2022-03-11 09:46:52 2188

转载程序员必备的学习网站推荐

注：我收集的网站很有限，可能有很多网站没有列出，希望大家可以通过评论告知我，我会尽快添加。一、资源导航网站Web前端导航（http://www.alloyteam.com/nav/）腾讯AlloyTeam团队的前端导航站二、开源代码托管平台1. GitHub（https://github.com）gitHub是一个面向开源及私有软件项目的托管平台，因为只支持git 作为唯一的版本库格式进行托管，故名gitHub。gitHub于2008年4月10日正式上线，除了git代码仓库托管及.

2022-02-09 09:51:30 3447

转载 C++实现tensorflow线上服务

tensorflow_servicetensorflow是被广泛应用的深度学习框架，提供丰富的API接口，可以省去很多自己的开发工作。python版本的tensorflow是被应用最多的。但是python的执行效率偏低。有很多公司后台是用C++编写的，为了更好的将深度模型应用到线上，通常需要进行模型在线inference。最近在做tensorflow模型的C++线上inference，模型训练仍然利用python tensorflow验证效果,实际上线时，采用更加高效的C++ API进行服务。将经

2022-01-30 14:02:58 910

Python深度学习（Deep Learning With Python中文版）

Spark大数据分析核心概念技术及实践OCR 中文

hadoop权威指南第二版中文

空空如也