数据科学家使用集成

asim5 · 发表于 2025-3-5 15:24:21

建模工作流用于访问和混合数据，然后通过数据可视化仪表板以交互方式检查数据。
完成后，数据科学家会构建自定义流程来准备数据分析过程。在此示例中，我们将更新所有列的域并将一些列从数字转换为分类。部署捕获工作流，因为将来需要处理更多数据时将需要它。在我们的示例中，数据科学家随后打开一个交互式列过滤器组件。此视图允许快速删除列，由于所有正常原因（例如太多缺失、常量或唯一值），模型不应使用这些列（图 4）。

图建模工作流程继续进行数据准备部分，该部分将被捕获以供稍后部署。另一个交互式视图用于在模型训练之前快速过滤掉不相关的列。此外，交互式过滤器也被捕获以供部署。
这位数据科学家正在处理大量的行数据。为了快速执行模型优化，她希望使用行采样节点对数据进行子采样，以便只使用 10%。

数据科学家知道她需要使用更多数据重亚美尼亚电报数据新训练所有内容才能获得准确的结果，但目前她对 10% 感到满意。将子采样数据拆分为训练集和测试集后，她训练了一个 XGBoost 模型和一个随机森林模型，并在其上进行了参数优化。为了稍后重新训练，数据科学家还通过集成部署捕获了这部分。在训练完这两个模型后，她使用另一个交互式视图来查看哪个模型更好（图 5）。所选模型是随机森林，由组件在工作流对象端口自动选择。

		自动登录	找回密码
密码			立即注册