辉腾网络科技 上蔡喇叭网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 122|回复: 0

数据科学家使用集成

[复制链接]

1

主题

1

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2025-3-5 15:24:21 | 显示全部楼层 |阅读模式
建模工作流用于访问和混合数据,然后通过数据可视化仪表板以交互方式检查数据。
完成后,数据科学家会构建自定义流程来准备数据分析过程。在此示例中,我们将更新所有列的域并将一些列从数字转换为分类。 部署捕获工作流,因为将来需要处理更多数据时将需要它。在我们的示例中,数据科学家随后打开一个交互式列过滤器组件。此视图允许快速删除列,由于所有正常原因(例如太多缺失、常量或唯一值),模型不应使用这些列(图 4)。


图 建模工作流程继续进行数据准备部分,该部分将被捕获以供稍后部署。另一个交互式视图用于在模型训练之前快速过滤掉不相关的列。此外,交互式过滤器也被捕获以供部署。
这位数据科学家正在处理大量的行数据。为了快速执行模型优化,她希望使用行采样节点对数据进行子采样,以便只使用 10%。

数据科学家知道她需要使用更多数据重 亚美尼亚电报数据 新训练所有内容才能获得准确的结果,但目前她对 10% 感到满意。将子采样数据拆分为训练集和测试集后,她训练了一个 XGBoost 模型和一个随机森林模型,并在其上进行了参数优化。为了稍后重新训练,数据科学家还通过集成部署捕获了这部分。在训练完这两个模型后,她使用另一个交互式视图来查看哪个模型更好(图 5)。所选模型是随机森林,由组件在工作流对象端口自动选择。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|辉腾网络科技 上蔡喇叭网

GMT+8, 2025-5-11 13:33 , Processed in 0.044493 second(s), 18 queries .

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表