Datahoop 平台指南

平台使用指南

页面介绍

用户注册及登录

快速入门

上传数据

数据加工

算法

分析报告

数据可视化

场景

平台指南 >

进入Datahoop后，界面如下图所示

序号	功能	详情
1	引入数据	为用户提供数据上传和数据获取入口，支持本地 Excel、TXT、CSV 上传和数据库接入。用户可将所需数据导入平台，作为后续数据分析基础数据源，无需复杂格式转换，确保数据顺畅接入分析流程。
2	数据处理	提供数据预处理工具，支持对导入数据进行多维度加工：包括数据清新、数据转换、数据规约、数据降维等经典算法，支持手动修改，在线编辑修改数据。
3	算法	整合平台内置算法与用户自建算法的综合资源库。包括统计分析、分类、回归、非监督学习、时间序列、文本处理等。同时支持用户新建算法，实现个性化分析需求，提升算法使用的灵活性与适配性。
4	数据可视化	提供多样化可视化工具，支持制作折线图、柱状图、饼图、散点图等图形。用户可通过拖拽、配置参数等简单操作，将分析结果转化为直观易懂的可视化内容，快速洞察数据规律与趋势，助力决策判断。
5	数据报告	自动整合分析过程中的关键数据、算法结果、可视化图表等内容，生成结构化的运行结果报告。用户可直接查看报告详情，包括评判标准、分析说明、智能分析、模型结果等，支持数据或报告的导出与分享，便于团队协作与成果展示。
6	场景	用户个人场景的存储与管理中心，集中存放所有已保存的历史分析场景。用户可随时查看、复用或修改历史场景，避免重复搭建，提升分析效率。
7	保存场景	支持将当前正在编辑的数据分析场景一键保存至 “场景” 模块。
8	清空场景	提供快速重置当前工作台的功能，可一键清除当前场景中的所有内容，使工作台恢复初始状态。适用于需要重新搭建分析场景的场景，保持工作区整洁，避免旧内容干扰新分析。
9	画布美化功能区	自动优化当前场景内各组件的布局与排列方式，使场景结构更清晰、视觉更规整，提升操作界面的美观度与易用性，便于用户快速定位所需组件。
10	画布	数据分析场景的核心搭建区域，为用户提供可视化的操作界面。用户可在此拖拽数据、算法、可视化等组件，通过连线配置组件间的逻辑关系，搭建完整的数据分析流程，直观呈现从数据导入到结果输出的全链路操作。
11	帮助中心	提供场景工作台的新手引导，帮助新用户快速熟悉操作逻辑，降低上手门槛。
12	状态显示栏	实时展示当前数据分析任务的运行状态及具体运行时间。用户可通过状态显示栏直观掌握任务进度，及时发现运行异常并排查问题，同时了解任务耗时，为优化分析流程提供参考。
13	智能助手	为用户提供实时的智能化辅助服务，可解答平台功能使用疑问、引导用户完成数据分析操作流程、推荐适配的功能或场景模板、提示操作中的注意事项等。通过自然语言交互，快速响应用户需求，降低平台使用门槛，提升用户操作体验。

Datahoop单击首页右上方“登录”，选择“立即登录”下方的“注册账号”，个人用户使用手机号码注册，获取验证码，认真阅读并勾选《Datahoop用户协议》，点击“立即注册”，即可成功注册。

（1）密码登录

Datahoop单击首页右上方“登录”，默认为用户名登录，输入个人手机号及密码，默认密码为：S654321s!，点击“立即登录”，即可成功登录。为保障账号安全，登录后请及时修改个人密码。

（2）验证码登录

Datahoop单击首页右上方“登录”，选择“验证码登录”，输入个人手机号，获取手机验证码，即可成功登录。

Datahoop场景工作台的数据分析操作共分为四个环节：引入数据 — 数据处理 — 算法运行 — 数据分析报告/数据可视化，“拖拉拽”即完成分析，下面以“鸢尾花数据”为例，跟小数一起开启Datahoop数据分析操作之旅。

首先登录Datahoop平台，打开场景工作台，进入数据分析页面。

• 使用组件：选择想要使用的组件，长按组件图表，将其拖拽至画布

• 连接组件：长按第一个组件的圆点，出现跟随鼠标的虚线，拖拽连接到第二个组件后放开，即可完成连接

• 取消连接：右击已经连接好的连线，点击“删除”，即可取消连接

• 删除组件：右击想要删除的组件，单击“删除”，即可删除组件

（1）上传新数据

• 单击左侧工具栏“引入数据”图标，将“上传文件”组件拖拽至画布，点击右下角“上传文件”

• 单击“上传文件”，在您的电脑文件中选中需要上传的数据文件，单击打开，并在对话框中单击“确定”，工作台上方弹出“上传成功”即可。

• 上传数据成功以后，数据将存放在犀数云数据库，用户可以在平台登录页面右上角“个人账号———个人专区———我的数据”中查看或修改该数据，同名数据不可重复上传。

（2）选择犀数云中的数据

如果用户使用犀数云中的数据进行分析，操作如下：

• 点开工作台左侧的“已上传数据文件”，选中 “已上传数据文件”长按拖拽至画布。在工作台右侧搜索框点击开“选择已上传数据文件”，此时犀数云中的文件以下拉的方式悉数展现，选择“鸢尾花案例数据”，单击即可，工作台右下方弹出“数据文件请求成功”。

（1）为使得数据满足建模的要求，需要对数据进行加工和预处理。操作如下：

• 准备好要加工的数据文件，如“鸢尾花案例数据”，点击“数据处理”，拖拽“手动修改”进入画布，连接数据和“手动修改”组件。点击右下角“手动修改”进入数据加工页面。

• 对数据进行适当的加工，如数据透视表、工具计算、缺失值的处理、大小写的转换等。

• 对加工好的数据进行保存，点击数据加工页面底端“另存为”按钮，填写文件名称，点击“保存”，注意与原始数据名称不能重复，默认保存当前sheet页面，点击“确定”，工作台上方弹出“保存成功”。工作台右下方弹出“保存成功”。

• 返回工作台，已保存的数据会置于当前组件中，也可通过“上传数据”中的“已上传数据文件”获取数据。

（2）数据预处理：

• 准备好要加工的数据文件，如“鸢尾花案例数据”，点击“数据处理”，拖拽预处理算法中的“标准化”组件进入画布，连接数据和“标准化”组件。点击右下角“手动修改”进入数据加工页面。

• 选中“标准化”组件，在工作台右侧中“选择字段”，将所有字段选入右侧字段框，单击确定，并设置参数，单击“执行算法”。

• 在工具栏点击“数据报告”，拖拽“分析报告”，连接“标准化”和“分析报告”，点击右下角“分析报告”，即可查看算法结果、分析说明和智能分析。

接下来对数据进行预处理。操作如下：

（1）描述性统计

• 点击左侧工具栏中的“算法”，然后在其右侧弹出的官方算法中找到“统计分析”中的“描述性统计”，将其拖拽至画布。

• 将“鸢尾花案例数据”与“描述性统计”建立连接，连线方向代表数据传输方向，方向不可逆，否则将报错。

• 选中“描述性统计”组件，在工作台右侧中“选择字段”，将所有字段选入右侧字段框，单击确定。单击“执行算法”

• 在工具栏右下角点击“分析报告”，即可查看算法结果。

（2）结果数据导出

如果想要获取“算法”执行后的数据结果进行其他分析，需利用“模型结果集”将“算法”执行后的数据进行导出，操作如下：

• 左侧工具栏中选择引入数据中的“模型结果集”组件拖拽至画布，连接“算法”与“模型结果集”组件，选中“模型结果集”组件，在最右侧下拉菜单中选择“data_模型结果”，此时“算法”执行后的模型结果就导出到“模型结果集”了。

如果想要获取“算法”执行后的模型训练文件进行其他分析，需利用“模型文件集”将“算法” 执行后的数据进行导出，操作如下：

• 左侧工具栏中选择引入数据中的 “模型文件集”组件拖拽至画布，连接“算法”与“模型文件集”组件，选中“模型文件集”组件，在最右侧下拉菜单中选择“model_预处理模型”，此时“算法”执行后的模型结果就导出到“模型文件集”。

• 选中“分析报告”组件，点击“数据分析报告”，即可查看当前算法结果。在报告页面上方可通过单击“下载Word”和“下载Excel”，将算法结果下载到本地。

场景工作台左侧“保存场景”和“清空场景”的图标按钮，选择“场景保存”图标则可以对场景进行命名后单击“确定”保存，保存后可以单击工作台左侧工具栏最后一项“场景”查看。

功能介绍：可以将excel、csv、txt文件上传至犀数云数据库中。

步骤：

• 单击左侧工具栏“引入数据”图标，将“上传文件”组件拖拽至画布，点击右下角“上传文件”

• 单击“上传文件”，在您的电脑文件中选中需要上传的数据，单击打开，并在对话框中单击“确定”，工作台上方弹出“上传成功”即可。

小数提示：

• 上传数据应为二维表格格式，列名不能为空

• 上传文件名和列名不能包含特殊符号

功能介绍：手动修改页面可以对数据进行清洗和预处理。对数据列进行加工，包括去除缺失值、数据类型转换、数据透视表、公式编辑、筛选排序、搜索替换等。

步骤：

• 准备好要加工的数据文件，点击“数据处理”，拖拽“手动修改”进入画布，连接数据和“手动修改”组件。点击右下角“手动修改”进入数据加工页面。

• 对加工好的数据进行保存，点击数据加工页面底端“另存为”按钮，填写文件名称，点击“保存”，注意与原始数据名称不能重复，默认保存当前sheet页面，点击“确定”，工作台上方弹出“保存成功”。

小数提示：

• 保存文件名不能与已有文件名重复，且不能包含特殊字符,不能为纯数字

• 数据加工之后返回工作台原数据表自动被新保存的加工后数据所覆盖

功能介绍：将数据以图表的形式进行展示。

步骤：

• 将左侧工具栏中的“数据可视化”拖拽至画布

• 将数据和可视化连接

• 右下角选择“数据可视化”按钮

• 选择合适的图表，拖拽至画布

• 配置相关图表参数，生成图表

• 单击“保存”，保存图表

小数提示：

定制化图表：在“定制化配置”可以选择喜欢的配色方案、百分比阈值、显示图例、图例的类型、方向、边距，标签标签类型、数字格式化、日期格式化、显示标签、外侧显示标签、标签线，饼图形状里可以更改边缘、圆环圈等让图表更加美观。

功能介绍：修改及删除已保存的可视化图表。

修改已保存可视化图表步骤：

• 单击左上角选项卡，在此可查看已保存的图表

• 单击已保存可视化图表的“编辑”按钮，打开“数据可视化编辑”界面，在“编辑图表”界面可以修改图表基本情况

删除已保存可视化图表步骤:

• 单击“删除”按钮，弹出“请确认”对话框

• 单击“删除”，出现提示删除成功

功能介绍：官方算法集包括预处理、统计分析、分类算法、回归模型、非监督学习、时间序列预测、文本分析等。

步骤：

• 点击“算法”，从弹出的选项卡中选择一级算法下的二级算法图标拖拽至画布

• 长按“已上传数据文件”组件的圆点，出现跟随鼠标的虚线，拖拽连接到“算法”组件后放开，完成连接

• 选择算法组间，在工作台右侧“选择字段”中选择合适的分析字段”并设置参数

• 单击“执行算法”，弹出提示“执行成功”

• 点击“分析报告”，查看分析结果，并通过结果界面进行word和excel报告的下载

小数提示：

• 选择算法后，右侧上方有注意事项，在公开资源的公开算法中有详细说明，可参考操作

• 自变量为模型需要的特征字段，因变量为预测的目标值

功能介绍：展示并下载算法的结果。

步骤：

• 点击工具栏右侧“分析报告”

• 单击报告上方 “下载Word”或“下载Excel”按钮，可将结果以Word或Excel文件形式导出。

功能介绍：连接多种常用数据库类型，覆盖主流数据库种类，满足多样化的数据连接需求。

步骤：

• 单击左侧工具栏“引入数据”图标，将“配置数据库”组件拖拽至画布，点击右下角“配置数据库”

• 单击“配置数据库”，填写数据库信息，点击“确定”，工作台上方弹出“连接数据库成功”即可。

功能介绍：获取犀数云数据库中已上传的数据文件。

步骤：

• 选中工作台左侧的“已上传数据文件”长按拖拽至画布。在工作台右侧搜索框点击开“选择数据集文件”，此时犀数云中的文件以下拉的方式悉数展现，选择选择想要分析的数据，单击即可，工作台上方弹出“数据文件请求成功”，即可完成数据获取。

• 工作台右侧选择“查看数据”，可查看文件数据详情

功能介绍：获取某算法后的数据结果进行其他分析，需利用“模型结果集”将数据结果进行导出。

步骤：

• 左侧工具栏中选择“模型结果集”组件拖拽至画布，连接执行完毕的算法与“模型结果集”组件，选中“模型结果集”组件，在最右侧下拉菜单中选择“模型结果”，此时执行后的算法模型结果就导出到“模型结果集”了。

功能介绍：获取某算法后的模型训练文件进行其他分析，需利用“模型文件集”将执行完毕的算法参数数据进行导出。

步骤：

• 左侧工具栏中选择“模型文件集”组件拖拽至画布，连接执行完毕的算法与“模型文件集”组件，选中“模型文件集”组件，在最右侧下拉菜单中选择算法模型参数，此时执行后的算法模型结果参数就导出到“模型文件集”了。

功能介绍：获取已连接的数据库中的数据表。

步骤：

• 选中工作台左侧的“已连接的数据库”长按拖拽至画布。在工作台右侧搜索框点击开“选择已连接的数据库名称”，选择选择想要分析的数据库，单击即可，同样操作选择已连接的数据库表，工作台上方弹出“数据获取成功”，即可完成数据获取。

• 工作台右侧选择“查看数据”，可查看文件数据详情。

功能介绍：官方算法集包括预处理、统计分析、分类算法、回归模型、非监督学习、时间序列预测、文本分析等。

步骤：

• 点击“算法”，从弹出的选项卡中点击“新建算法”，进入算法工作台

• 编辑完成后，点击“保存算法”，填写算法简介信息后，点击“确定”保存算法，保存至我的算法中的“算法草稿”

• 点击定义参数，点击“算法设置”，对算法的数据源模块和参数进行填写设置，并点击“保存”。

• 选择“数据集”、选择“字段”并设置“参数“，进行调试运行，运行成功后的算法会保存至我的算法中的“已完成算法”，同时可在场景工作台-算法-自建算法中找到该算法，可搭配其他算法组件使用，进行个性化场景搭建

功能介绍：在首页点击“个人中心”中的“算法与场景”，找到对应算法，点击“描述”，描述该算法的介绍、使用说明和注意事项等，点击“公开”，填写公开权限，点击“确定”，即可将算法公开到“公开资源“的公开算法中。

BaseAlgo 基类使用说明与算法编写规范

1.基类概述：BaseAlgo 是所有算法实现的抽象基类，提供了一套标准化的算法执行流程和结果处理机制。通过继承该基类，可以确保所有算法具有一致的接口和行为规范。.

主要特性：

标准化流程：定义了从数据验证到结果生成的完整执行流程

错误处理：内置异常捕获和错误信息记录

结果组织：统一的结果字典结构，支持多阶段结果合并

报告生成：可扩展的报告生成机制

类型提示：完善的类型注解

性能监控：算法每一步的运行时长监控，自动分析瓶颈

2.基类结构说明

2.1 核心方法

run(original_data, datax, datay, **kwargs)

• 功能：算法执行入口，定义了标准执行流程

• 参数：

original_data: 原始数据 (pd.DataFrame)

datax: 特征数据 (pd.DataFrame)

datay: 可选，标签数据 (pd.DataFrame)

**kwargs: 其他自定义参数

• 返回值：处理后的结果字典 (Dict[str, Any])

执行流程：

1.数据验证 (_validate_data)

2.数据处理 (_process_data)

3.组织处理结果 (_organize_process_results)

4.(可选) 模型训练 (_train_model)

5.(可选) 组织训练结果 (_organize_train_results)

6.(可选) 模型评估 (_evaluate)

7.(可选) 组织评估结果 (_organize_eval_results)

8.报告生成 (report_generator.generate)

2.2 结果字典结构

属性名	类型	说明
status	boolean	True/False
error	string	异常信息及异常堆栈，显示在页面运行状态栏中
data	字典	{key: value}，value为DataFrame类型，用于后续数据分析步骤的输入或显示在分析报告中
desc	字典	{key: value}，value为plot绘制的图表类型，用于显示在分析报告中
img	字典	{key: value} value为string类型，用于显示在分析报告中
model	字典	如果只有一个model，可以为对象类型。如果有多个模型，需组织为字典类型{key: value} value为model对象，key为数据的列名

3.算法实现规范

3.1 必须实现的方法

_validate_data(datax, datay, **kwargs)

• 职责：验证输入数据的有效性

• 要求：

检查必要列是否存在

验证数据类型是否符合预期

发现异常应抛出 ValueError

_process_data(original_data, datax, datay, **kwargs)

• 职责：核心数据处理逻辑

• 要求：

返回包含处理结果的字典

应保留原始数据的副本或引用（即不要直接在原始数据上修改）

3.2 可选实现的方法

_train_model(processed_data, **kwargs)

• 职责：模型训练逻辑（如有）

子算法类中必须要定义model属性并赋值，例如：

_evaluate(processed_data, **kwargs)

• 职责：模型评估逻辑（如有）

通过给result[‘data’]、result[‘img’]赋值来输出评估结果

最后通过self._organize_eval_results方法来合并评估结果到主干结果

_organize_eval_results()

• 职责：组织各阶段的结果到主结果字典

一般不用修改

report_generator.generate(result, **kwargs)

• 职责：根据算法结果生成分析报告

用法见章节三report_generator说明

3.3 推荐实践

数据处理：

始终创建数据的副本进行操作，避免修改原始数据

在 _process_data 中返回足够的信息供后续步骤使用

结果组织：

使用有意义的键名存储结果

为关键结果添加描述性说明

保持结果字典的结构清晰

错误处理：

在验证阶段尽早发现问题

提供明确的错误信息

文档：

为每个方法添加docstring说明

注明参数和返回值的类型及含义

4.示例算法解析

假如我现在想写一个数据处理算法，可以继承BaseAlgo类后，实现其中方法即可，可以引导用户轻松地编写健壮、清晰、结构化的算法。如图：

在首页点击“个人中心”中的“算法与场景”，找到对应场景，点击“描述”，描述该场景的介绍、使用说明和注意事项等，点击“公开”，填写公开权限，点击“确定”，即可将场景公开到“公开资源“的公开场景中。

1.概述：预处理框架包括 BaseProcessorAlgo类，BaseProcessorAlgo类是继承自 BaseAlgo 的预处理算法基类，为所有预处理算法提供统一的实现框架和标准接口，适合需要分训练集和测试集不同阶段的预处理算法（用训练集拟合的模型去转换测试集）。如果不需要分训练集和测试集的自写数据处理算法，参考《其他算法编写规范》。

2.核心特性：

2.1 继承自 BaseAlgo 的功能

• 标准化的算法执行流程 (run 方法)

• 统一的错误处理机制

• 结果字典结构 (data, img, desc 等)

• 报告生成器集成

2.2 继承自 BaseAlgo 的功能

• 少写重复代码：基类已封装通用逻辑

• 快速切换算法：工厂方法一键更换预处理器

• 训练预测分离：`step`参数自动区分阶段

3.使用方法

场景工作台-->算法-->新建算法-->引入模版查看

1.概述：回归框架包括 BaseRegressor类和RegressionReportGenerator类，BaseRegressor类是继承自 BaseAlgo 的回归算法基类，为所有回归算法提供统一的实现框架和标准接口。通过继承该类，可以快速开发符合规范的回归算法实现，RegressionReportGenerator类是报告生成器类，提供回归报表的形式化组织。

2.核心特性：

2.1 继承自 BaseAlgo 的功能

• 标准化的算法执行流程 (run 方法)

• 统一的错误处理机制

• 结果字典结构 (data, img, desc 等)

• 报告生成器集成

2.2 新增特性

• 自动数据校验（空值/数据类型/异常值等）

• 训练测试集自动拆分

• 回归指标计算（R2/MAE/MSE/RMSE/MAPE）

• 残差图自动生成

• 预测值-真实值对比图

• 回归系数统计（标准误/t值/p值/VIF）

• 特征重要性排序（支持树模型）

• 置信区间计算

3.基类提供的数据

4.使用方法

场景工作台-->算法-->新建算法-->引入模版查看

5.输出样例

class="center" style="color: #666;font-size: 16px;">{'status': True, 'error': None, 'data_训练集--回归指标': 调整R方 R2 MAE MSE RMSE MAPE 解释方差 0.9889 1.6083 4.1891 2.0467 3.38 0.9889, 'data_测试集--回归指标': 调整R方 R2 MAE MSE RMSE MAPE 解释方差 0.9896 1.5347 3.7945 1.9479 3.1808 0.9896, 'data_训练集--模型回归方程': 特征名称系数标准误差 t值 p值 VIF 置信区间下限置信区间上限常数项 -33.6962 NaN NaN NaN NaN NaN NaN Hours Studied 2.8219 0.0285 99.1040 0.0000 1.0061 2.7660 2.8778 Previous Scores 1.0234 0.0044 230.3615 0.0000 1.0913 1.0147 1.0321 Teachers -0.0703 0.0988 -0.7119 0.4767 1.0965 -0.2642 0.1236 Sleep Hours 0.4588 0.0437 10.5088 0.0000 1.0023 0.3731 0.5445 Question Papers Practiced 0.1829 0.0265 6.9160 0.0000 1.0017 0.1310 0.2349, 'str_训练集--回归指标-分析说明': '模型指标以及模型回归方程用来评价模型拟合效果：\n1、评估模型整体效果：调整R方\n调整R方：调整R方<0.5,表明弱拟合；0.5 ≤ 调整R方≤ 0.8,表明中度拟合；调整R方>0.8,表明强拟合。越接近于1，说明拟合结果越好，但并不代表模型效果很好，需要结合具体业务判断模型效果。\n2、综合分析训练集及测试集的模型指标，分析模型泛化能力：一般情况下，训练集调整R方小于0.5，表明模型存在欠拟合问题；训练集与测试集调整R方的差值大于0.1时，表明模型存在过拟合问题；除此之外，模型泛化能力较好。实际应用还需结合业务分析其他指标的情况。\n3、衡量预测值与真实值的差异：\n（1）平均绝对误差（MAE）：预测值与真实值绝对差的平均值，越小越好；\n（2）均方误差（MSE）：预测值与真实值平方差的平均值，对异常值敏感，越小越好；\n（3）均方根误差（RMSE）：MSE的平方根，与目标变量同单位，越小越好；\n（4）平均绝对百分比误差（MAPE）：预测误差相对于真实值的百分比，适用于比例分析；\n注意：MSE对异常值非常敏感，因为平方运算会放大误差。\n\n4、分析多重共线性：VIF值如果自变量的VIF值全部小于10，则说明模型多重共线性问题不严重；反之若VIF大于10说明模型存在较严重的多重共线性问题。', 'str_训练集--回归指标-智能分析': '1、训练集调整R方为0.9888，大于0.7，表明模型强拟合...\n2、训练集R2为0.9889，测试集R2为0.9896。模型泛化能力较好。\n3、误差指标分析：\n- MAE（平均绝对误差）: 1.6083\n- MSE（均方误差）: 4.1891\n- RMSE（均方根误差）: 2.0467\n- MAPE（平均绝对百分比误差）: 3.38%\n4、该模型线性回归方程为y = -33.6962 - 33.6962*常数项 + 2.8219*Hours Studied + 1.0234*Previous Scores - 0.0703*Teachers + 0.4588*Sleep Hours + 0.1829*Sample Question Papers Practiced\n5、变量的VIF值均小于10，表明该数据不存在严重的多重共线性问题', 'str_测试集--回归指标-智能分析': '1、测试集调整R方为0.9893，大于0.7，表明模型强拟合...\n2、训练集R2为0.9889，测试集R2为0.9896。模型泛化能力较好。\n3、误差指标分析：\n- MAE（平均绝对误差）: 1.5347\n- MSE（均方误差）: 3.7945\n- RMSE（均方根误差）: 1.9479\n- MAPE（平均绝对百分比误差）: 3.1808%', 'data_训练集--模型结果': Hours Studied Previous Scores Teachers Sleep Hours Sample Question Papers Practiced Performance Index y_predict 73 2 4 2 48 45.8961 79 3 8 3 56 53.9844 64 2 4 7 46 43.2438 85 1 6 5 72 73.8235 91 1 5 6 72 71.2225 ... ... ... ... ... ... 72 2 7 6 73 69.5561 47 2 5 1 27 28.0286 88 1 7 4 84 82.8134 65 2 9 4 40 43.1904 42 2 9 3 22 22.2906 x 7 columns], 'str_训练集--模型结果-分析说明': '模型结果用于查看特征列、目标列和预测值列', 'data_测试集--模型结果': Hours Studied Previous Scores Teachers Sleep Hours Sample Question Papers Practiced Performance Index y_predict 81 3 5 2 58 57.2939 87 1 8 8 61 63.2272 46 2 9 7 38 35.5818 92 1 9 0 69 70.1614 64 2 6 5 41 40.9736 ... ... ... ... ... ... 93 1 8 5 71 71.6408 87 3 8 5 58 62.5377 55 1 5 4 36 34.0133 79 2 7 2 64 67.5226 40 2 7 5 26 25.3359 x 7 columns], 'str_测试集--模型结果-分析说明': '模型结果用于查看特征列、目标列和预测值列', 'img_训练集--残差图':

, 'img_测试集--残差图':

, 'str_训练集--残差图-分析说明': '残差图用于查看预测值与实际值之间的差异。理想情况下，残差应该随机分布在0附近，没有明显的模式。', 'str_测试集--残差图-分析说明': '残差图用于查看预测值与实际值之间的差异。理想情况下，残差应该随机分布在0附近，没有明显的模式。', 'img_训练集--预测值 vs 真实值':

, 'str_训练集--预测值 vs 真实值-分析说明': '预测值与真实值对比图用于直观比较模型的预测效果。理想情况下，点应该紧密分布在45度线附近。', 'img_测试集--预测值 vs 真实值':

, 'str_测试集--预测值 vs 真实值-分析说明': '预测值与真实值对比图用于直观比较模型的预测效果。理想情况下，点应该紧密分布在45度线附近。', 'str_训练集--已选字段': 'Hours Studied,Previous Scores,Teachers,Sleep Hours,Sample Question Papers Practiced', 'model_训练模型': LinearRegression()}

1.概述：分类框架包括 BaseClassifier类和ClassfierReportGenerator 类，BaseClassifier类是继承自 BaseAlgo 的分类算法基类，为所有分类算法提供统一的实现框架和标准接口。通过继承该类，可以快速开发符合规范的分类算法实现，ClassfierReportGenerator 类是报告生成器类，提供分类报表的形式化组织。

2.核心特性：

2.1 继承自 BaseAlgo 的功能

• 标准化的算法执行流程 (run 方法)

• 统一的错误处理机制

• 结果字典结构 (data, img, desc 等)

• 报告生成器集成

2.2 新增特性

• 分类专用验证：强制要求标签数据 (datay)

• 数据分割：内置训练集/测试集分割功能，默认采用分层抽样，支持通过传入参数statify=False从而采用简单抽样

• 评估指标：标准分类评估流程 (准确率、AUC、混淆矩阵等)

• 参数过滤：模型参数白名单机制

• 可视化支持：ROC曲线、混淆矩阵等标准图表

• 灵活扩展：在通用的基础上，可针对某些分类算法进行快速扩展

4.使用方法

场景工作台-->算法-->新建算法-->引入模版查看

5.输出样例

{'status': True, 'error': None, 'data_训练集--模型指标1': Accuracy 0 0.9088, 'data_训练集--模型指标2': 类别 Precision Recall F1-score 样本数量 0 1 0.8844 0.9665 0.9236 269 1 0 0.9136 0.8346 0.8723 266 2 2 0.9316 0.9245 0.9280 265, 'str_训练集--模型指标-分析说明': '模型指标用于评价分类器效果：\n 1、分析Accuracy指标：衡量模型整体的分类准确率。Accuracy表示模型所有正确分类的样本数占总样本数的比例。Accuracy数值越接近1，表明模型整体的分类效果越好；\n 2、分析每一类别的Precision、Recall、F1-score及Support（样本数量）：\n Precision（精确率）是指对于某一类别而言，预测正确的样本数量与被预测为该类样本的样本数量之比，用于评价模型在该类样本上的分类准确率。Precision数值越接近1，表明模型在该类样本上的分类效果越好。\n Recall（召回率）是指对于某一类别而言，预测正确的样本数量与真实为该类样本的样本数据之比，用于评价模型对该类样本预测的全面性。Recall数值越接近1，表明模型对该类样本预测的越全面。\n F1-score是Precision 和 Recall 的调和平均值，用于衡量模型对该类别的综合分类效果。F1-score数值越接近1，表明模型的综合分类效果越好；\n Support（样本数量）是指该类别在数据集中的样本数量，用于评价类别均衡性。\n 注意：一般情况下，我们希望Precision和Recall都越大越好，但事实上两者在某些情况下是矛盾的，需要结合实际情况选择相应评价指标；如果无法判断，则可使用F1-score作为评价指标。\n 3、综合分析训练集及测试集的模型指标，分析模型泛化能力：一般情况下，训练集Accuracy小于0.6，表明模型存在欠拟合问题；训练集与测试集Accuracy的差值大于0.1时，表明模型存在过拟合问题；除此之外，模型泛化能力较好。实际应用还需结合业务分析Precision、Recall和F1-score的情况。', 'str_训练集--模型指标-智能分析': '从上表可知，在训练集中：\n1、Accuracy为0.9088，大于0.6，表明模型的分类效果较好，但需要结合实际业务综合评价模型情况。\n2、【1】类：模型预测的[1]类中，被模型正确预测成[1]类的比例为（0.8844）；实际为[1]类的样本中，被模型正确预测成[1]类的比例为（0.9665）；F1-score的值为（0.9236）；[1]类的样本数量为（269.0）；\n【0】类：模型预测的[0]类中，被模型正确预测成[0]类的比例为（0.9136）；实际为[0]类的样本中，被模型正确预测成[0]类的比例为（0.8346）；F1-score的值为（0.8723）；[0]类的样本数量为（266.0）；\n【2】类：模型预测的[2]类中，被模型正确预测成[2]类的比例为（0.9316）；实际为[2]类的样本中，被模型正确预测成[2]类的比例为（0.9245）；F1-score的值为（0.928）；[2]类的样本数量为（265.0）；\n3、训练集Accuracy为0.9088，测试集Accuracy为0.86。模型泛化能力基本较好，但需结合实际业务综合评判。', 'data_测试集--模型指标1': Accuracy 0 0.86, 'data_测试集--模型指标2': 类别 Precision Recall F1-score 样本数量 0 1 0.8077 0.9403 0.8690 67 1 0 0.8929 0.7576 0.8197 66 2 2 0.8939 0.8806 0.8872 67, 'str_测试集--模型指标-智能分析': '从上表可知，在测试集中：\n1、Accuracy为0.86，大于0.6，表明模型的分类效果较好，需要再结合实际业务评价模型情况。\n2、【1】类：模型预测的[1]类中，被模型正确预测成[1]类的比例为（0.8077）；实际为[1]类的样本中，被模型正确预测成[1]类的比例为（0.9403）；F1-score的值为（0.869）;[1]类的样本数量为（67.0）；\n【0】类：模型预测的[0]类中，被模型正确预测成[0]类的比例为（0.8929）；实际为[0]类的样本中，被模型正确预测成[0]类的比例为（0.7576）；F1-score的值为（0.8197）;[0]类的样本数量为（66.0）；\n【2】类：模型预测的[2]类中，被模型正确预测成[2]类的比例为（0.8939）；实际为[2]类的样本中，被模型正确预测成[2]类的比例为（0.8806）；F1-score的值为（0.8872）;[2]类的样本数量为（67.0）；\n3、训练集Accuracy为0.9088，测试集Accuracy为0.86。模型泛化能力基本较好，但需结合实际业务综合评判。', 'data_训练集--模型结果': feature_0 feature_1 feature_2 feature_3 feature_4 target y_predict 61 3.2380 -0.4862 -0.2294 0.2551 -0.9828 1 1 676 0.9541 -1.1422 -0.1744 -0.9768 0.8799 1 1 625 -0.2256 1.6115 -0.6173 1.6436 -1.7785 0 0 624 1.1289 -1.0836 -1.9197 -0.8737 0.7275 1 1 341 1.6018 -1.1691 -1.3386 -0.8517 0.6010 1 1 .. ... ... ... ... ... ... ... 474 0.4768 0.6305 0.3636 0.7769 -0.9666 0 0 849 0.3025 1.3094 1.6427 1.4505 -1.6778 0 0 579 3.1744 -1.4296 1.0519 -0.7535 0.1522 0 0 959 -0.5291 -0.2303 0.2956 -0.3679 0.5232 2 2 111 3.1031 -1.4699 -0.1394 -0.8128 0.2335 0 0 [800 rows x 7 columns], 'str_训练集--模型结果-分析说明': '模型结果用于查看特征列、目标列、预测类别列', 'data_测试集--模型结果': feature_0 feature_1 feature_2 feature_3 feature_4 target y_predict 87 0.1324 1.2519 -0.4532 1.3497 -1.5290 0 0 393 1.3678 0.2210 1.5334 0.5568 -0.9144 0 0 265 2.2094 -0.2691 -0.9812 0.2400 -0.7439 0 0 667 0.8207 -1.5546 1.4485 -1.4427 1.4265 1 1 498 1.7059 -1.1485 2.9853 -0.8053 0.5269 1 1 .. ... ... ... ... ... ... ... 819 -1.0459 1.0221 -0.2366 0.8286 -0.6953 2 2 346 1.0862 0.1943 -1.2576 0.4619 -0.7481 0 0 374 -1.1450 1.3372 -0.9365 1.1369 -1.0166 2 2 97 1.5447 -0.9289 0.9682 -0.6123 0.3471 1 1 443 -0.6775 0.5166 -2.9911 0.3835 -0.2801 2 2 [200 rows x 7 columns], 'str_测试集--模型结果-分析说明': '模型结果用于查看特征列、目标列、预测类别列', 'img_训练集--混淆矩阵':

, 'str_训练集--混淆矩阵-分析说明': '混淆矩阵用于查看分类模型的预测结果和实际结果之间的差异。', 'img_测试集--混淆矩阵':

, 'str_测试集--混淆矩阵-分析说明': '混淆矩阵用于查看分类模型的预测结果和实际结果之间的差异。', 'model_训练模型': DecisionTreeClassifier(criterion='entropy', max_depth=4)}

1.概述：聚类框架包括 BaseCluster类和ClusterReportGenerator类，BaseCluster类是继承自 BaseAlgo 的聚类算法基类，为所有聚类算法提供统一的实现框架和标准接口。通过继承该类，可以快速开发符合规范的聚类算法实现，ClusterReportGenerator类是报告生成器类，提供聚类报表的形式化组织。

2.核心特性：

2.1 继承自 BaseAlgo 的功能

• 标准化的算法执行流程 (run 方法)

• 统一的错误处理机制

• 结果字典结构 (data, img, desc 等)

• 报告生成器集成

2.2 新增特性

• 自动计算轮廓系数（平均/样本级）

• 计算SSE/簇内误方差（支持K-means类算法）

• 推荐最佳K值（肘部法则+轮廓系数）

• 生成聚类统计表（样本数/占比/中心点）

• 绘制SSE曲线和轮廓系数曲线

• 数值型特征自动校验

• 分簇描述性统计（均值/标准差等）

（注：具体功能是否生效取决于算法是否支持，如DBSCAN无中心点则相关功能自动禁用）

3.基类提供的数据

*号表示数字，聚成几类就有几个，如_1, _2, _3...

4.使用方法

场景工作台-->算法-->新建算法-->引入模版查看

5.输出样例

{'status': True, 'error': None, 'data_模型指标1': 平均轮廓系数聚簇个数簇内误方差(SSE) 推荐聚簇个数取推荐聚簇个数时的簇内误方差(SSE) 0 0.3572 3 37.9232 2 57.5888, 'str_模型指标1--分析说明': '模型指标用于评价聚类效果：\n1、分析平均轮廓系数及簇内误方差：\n平均轮廓系数：衡量聚类结果中聚类的紧密性和分离性。一般来说，整体平均轮廓系数越趋近于1，表示聚类模型的性能越好；越趋近于0，则表示聚类模型的性能越差；平均轮廓系数小于0，表示聚类有误。\n簇内误方差：衡量簇内数据点之间的集中程度。一般情况下，簇内误方差的值越小，聚类结果中簇内样本的差异性越小，簇间差异性越大，说明聚类效果越好。\n2、综合评判选择聚类个数：结合簇内误方差与簇数量的折线图以及实际业务意义，判断聚类个数。', 'str_模型指标1--智能分析': '从上表可知：\n该模型的平均轮廓系数为[0.3572]，大于0，聚类结果有效。模型的簇内误方差为[37.9232]，需要结合实际业务综合判断聚类效果。\nDatahoop推荐聚类个数为[2.0]，相应的簇内误方差为[57.5888]。', 'img_簇内误方差':

, 'data_聚类类别表': 聚类类别类中心点坐标样本个数百分比(%) 0 cluster_0 (6.231, 2.858, 4.833, 1.647) 36 40.0% 1 cluster_1 (6.889, 3.078, 5.826, 2.093) 27 30.0% 2 cluster_2 (5.533, 2.644, 3.97, 1.237) 27 30.0%, 'str_聚类类别表--分析说明': '聚类类别表用于查看每类的类中心点坐标、样本数量及样本数量所占百分比，并分析聚类结果的类别均衡性。', 'str_聚类类别表--智能分析': '使用聚类分析方法对样本进行分类，结果如下：\n类别(cluster_0)的类中心点为(6.231, 2.858, 4.833, 1.647)，样本数量为36个，样本数量所占百分比为40.0%。\n类别(cluster_1)的类中心点为(6.889, 3.078, 5.826, 2.093)，样本数量为27个，样本数量所占百分比为30.0%。\n类别(cluster_2)的类中心点为(5.533, 2.644, 3.97, 1.237)，样本数量为27个，样本数量所占百分比为30.0%。\n每类样本数量比值为：（36:27:27），需结合实际业务评价类别均衡性。', 'data_cluster_0描述性统计': 样本片长片宽瓣长瓣宽类型 count count 36.0000 36.0000 36.0000 36.0000 36.0000 36.0000 mean mean 96.1667 6.2306 2.8583 4.8333 1.6472 0.5556 std std 31.1609 0.3259 0.2677 0.2878 0.2699 0.5040 min min 50.0000 5.6000 2.2000 4.3000 1.2000 0.0000 25% 25% 72.7500 6.0000 2.7000 4.6000 1.4000 0.0000 50% 50% 86.5000 6.2500 2.8500 4.8000 1.6000 1.0000 75% 75% 123.7500 6.4250 3.0000 5.1000 1.8250 1.0000 max max 149.0000 7.0000 3.4000 5.6000 2.4000 1.0000, 'data_cluster_1描述性统计': 样本片长片宽瓣长瓣宽类型 count count 27.0000 27.0000 27.0000 27.0000 27.0000 27.0 mean mean 125.8889 6.8889 3.0778 5.8259 2.0926 0.0 std std 13.9789 0.5094 0.3017 0.4848 0.2368 0.0 min min 103.0000 6.2000 2.5000 5.1000 1.6000 0.0 25% 25% 115.5000 6.4500 2.9000 5.5000 1.8500 0.0 50% 50% 128.0000 6.7000 3.0000 5.7000 2.1000 0.0 75% 75% 138.0000 7.2500 3.2000 6.0500 2.3000 0.0 max max 148.0000 7.9000 3.8000 6.9000 2.5000 0.0, 'data_cluster_2描述性统计': 样本片长片宽瓣长瓣宽类型 count count 27.0000 27.0000 27.0000 27.0000 27.0000 27.0000 mean mean 78.1111 5.5333 2.6444 3.9704 1.2370 0.9630 std std 16.1158 0.3246 0.2708 0.3940 0.1843 0.1925 min min 53.0000 4.9000 2.0000 3.0000 1.0000 0.0000 25% 25% 63.0000 5.4500 2.5000 3.8500 1.1000 1.0000 50% 50% 80.0000 5.6000 2.7000 4.0000 1.3000 1.0000 75% 75% 92.5000 5.7000 2.8500 4.2000 1.3000 1.0000 max max 106.0000 6.1000 3.0000 4.5000 1.7000 1.0000, 'img_聚类个数与轮廓系数':

, 'data_模型结果': 样本片长片宽瓣长瓣宽类型类别轮廓系数 0 55 5.7 2.8 4.5 1.3 1 2 0.156 1 89 5.5 2.5 4.0 1.3 1 2 0.558 2 70 5.9 3.2 4.8 1.8 1 0 0.422 3 123 6.3 2.7 4.9 1.8 0 0 0.540 4 60 5.0 2.0 3.5 1.0 1 2 0.479 .. ... ... ... ... ... .. .. ... 85 148 6.2 3.4 5.4 2.3 0 1 0.062 86 133 6.3 2.8 5.1 1.5 0 0 0.498 87 68 6.2 2.2 4.5 1.5 1 0 0.164 88 139 6.9 3.1 5.4 2.1 0 1 0.292 89 143 6.8 3.2 5.9 2.3 0 1 0.476 [90 rows x 8 columns], 'str_模型结果--分析说明': '模型结果用于查看特征列、聚类类别以及轮廓系数', 'model_训练模型': KMeans(n_clusters=3, n_init=10, random_state=1)} {'status': True, 'error': None, 'data_模型指标1': 平均轮廓系数聚簇个数簇内误方差(SSE) 推荐聚簇个数取推荐聚簇个数时的簇内误方差(SSE) 0 0.3572 3 37.9232 2 57.5888, 'str_模型指标1--分析说明': '模型指标用于评价聚类效果：\n1、分析平均轮廓系数及簇内误方差：\n平均轮廓系数：衡量聚类结果中聚类的紧密性和分离性。一般来说，整体平均轮廓系数越趋近于1，表示聚类模型的性能越好；越趋近于0，则表示聚类模型的性能越差；平均轮廓系数小于0，表示聚类有误。\n簇内误方差：衡量簇内数据点之间的集中程度。一般情况下，簇内误方差的值越小，聚类结果中簇内样本的差异性越小，簇间差异性越大，说明聚类效果越好。\n2、综合评判选择聚类个数：结合簇内误方差与簇数量的折线图以及实际业务意义，判断聚类个数。', 'str_模型指标1--智能分析': '从上表可知：\n该模型的平均轮廓系数为[0.3572]，大于0，聚类结果有效。模型的簇内误方差为[37.9232]，需要结合实际业务综合判断聚类效果。\nDatahoop推荐聚类个数为[2.0]，相应的簇内误方差为[57.5888]。', 'img_簇内误方差':

1.概述：其他框架包括 BaseAlgo类，BaseAlgo是最基础基类，为所有算法提供统一的实现框架和标准接口。通过继承该类，可以快速开发符合规范的算法实现。

2.核心特性：

2.1 遵循BaseAlgo规范的优势

• 标准化流程 - 统一的数据验证、处理、训练、评估流程

• 错误隔离 - 自动捕获异常并结构化错误输出

• 结果兼容 - 标准化结果字典结构，确保与下游系统兼容

• 可扩展性 - 通过继承实现不同算法，保持接口一致性

• 监控支持 - 自动记录各阶段执行耗时

• 文档友好 - 内置类型提示和文档规范

3.使用方法

场景工作台-->算法-->新建算法-->引入模版查看

平台使用指南

页面介绍

用户注册及登录

快速入门

上传数据

数据加工

算法

分析报告

数据可视化

场景

提示信息