产品手册>
产品概述
Datahoop是由北京犀数科技有限公司自主研发的大数据智能分析平台,集海量算法和丰富的业务
场景于一体、零代码的拖拽式操作助力数据分析师实现业务分析全流程,为CPDA数据分析人才提供日
常培训、上机考试和自我提升大数据分析能力及商业分析项目的服务,已辅助数据分析行业数万名CPD
A数据分析师成功取得CPDA认证。
• 支持算法自建,实现个性化的业务需求
• 支持多种数据源接入,个人数据库接入及在线编辑
• 在线实时操作,无需下载安装
• 丰富的可视化图表,满足业务需求
• 采用腾讯云专业级别数据库,库站分离,企业级别安全防御
首页
用户登录Datahoop后,界面如下图所示
序号 |
功能 |
详情 |
1 |
分析工作台 |
鼠标悬停在分析工作台自动弹出下拉框:“分析工作台”按钮,单击按钮可进入分析工作台主页面搭建数据分析场景。 具体功能详情见:分析工作台 |
2 |
算法与场景 |
鼠标悬停在“数据可视化”,自动弹出下拉框:“自建算法”和“自建场景”按钮,单击按钮即可进入相应页面。用户可根据自己的个性化需求编写算法、搭建场景。 |
3 |
公开资源 |
鼠标悬停在“数据可视化”,自动弹出下拉框:“数据”、“算法”和“场景”按钮,单击按钮即可进入相应页面。用户可根据自身需求在此查找数据、查看算法介绍及数据分析业务场景。 |
4 |
网课中心 |
鼠标悬停在“数据可视化”,自动弹出下拉框:“我要选课”、“我要学习”和“学习反馈”按钮,单击按钮即可进入相应页面。用户可根据自身需求在“我要选课”中购买数据分析课程;购买后的课程可在“我要学习”中进行学习。如果在学习或使用Datahoop平台过程中存在问题,可在学习反馈中进行提问,专业老师会在48小时内进行解答。 |
5 |
产品手册 |
帮助新用户了解Datahoop界面、操作方式、功能介绍等。 |
6 |
消息 |
单击“消息”按钮可进入我的消息。 |
7 |
用户名 |
鼠标悬停在“数据可视化”,自动弹出下拉框:“续费”、“个人中心”、“我的订单”、“帮助中心”和“退出账号”按钮。 |
分析工作台
Datahoop分析工作台界面如下图所示
序号 |
功能 |
详情 |
1 |
上传数据 |
上传用户所需数据,支持excel、txt和csv文件,单次数据上传行数不超过十万行且数据大小不超过10M |
2 |
数据库接入 |
接入用户所需数据库,支持通过URI地址接入MySQL数据库,单次数据库接入的数据不超过十万行且数据大小不超过10M |
3 |
数据集 |
获取用户犀数云中的数据表及算法中间结果数据 |
4 |
数据加工 |
对用户数据进行加工、查看数据信息、对数据进行归类统计、缺失值处理等 |
5 |
可视化 |
制作可视化图形,如饼图、折线图、柱状图、雷达图等 |
6 |
算法集 |
预处理、统计分析、分类、回归、预测、时间序列、文本处理等 |
7 |
结果展示 |
查看运行结果 |
8 |
历史场景 |
存放用户保存的场景 |
9 |
运行状态显示栏 |
查看运行状态及运行时间 |
10 |
展开状态栏 |
展开查看运行状态及运行时间 |
11 |
清空状态栏 |
清除状态栏的所有信息 |
12 |
横向排列场景 |
将当前场景横向排列整齐 |
13 |
纵向排列场景 |
将当前场景纵向排列整齐 |
14 |
保存场景 |
将当前场景保存到历史场景 |
15 |
清除场景 |
清空当前场景 |
16 |
新手引导 |
查看工作台新手引导 |
17 |
问题反馈 |
可将遇到的问题反馈到平台 |
18 |
关闭工作台 |
关闭分析工作台 |
19 |
画布 |
场景搭建区域 |
联系我们
办公地址:
北京犀数科技有限公司
地址:北京市朝阳区朝外大街乙 6 号朝外 SOHO, C 座 930.
联系电话:数动专员:17310228230
用户注册
Datahoop单击首页右上方“注册”,个人用户使用手机号码注册,获取验证码,认真阅读并勾选
《Datahoop用户协议》,即可成功注册。
用户登录
(1)手机登录
单击首页右上方“您好,请登录”,使用手机登录,输入个人手机号,获取验证码即可成功登录。
(2)用户名登录
单击“用户名登录”,输入个人手机号及密码,即可成功登录。首次登陆默认密码为s654321s,
登录后请及时修改个人密码。
操作说明
Datahoop分析工作台的数据分析操作共分为四个环节:数据准备 — 数据处理 — 数据建模 — 结
果展示。“拖拉拽”即完成分析,下面以“父子身高数据”为例,跟小数一起开启Datahoop数据分析
操作之旅。
首先登录Datahoop平台,打开分析工作台,进入分析页面。
• 使用组件:
选择想要使用的组件,长按组件图表,将其拖拽至画布
• 连接组件:
单击第一个组件,出现跟随鼠标的虚线,单击第二个组件即可完成连接
• 取消连接:
双击已经连接好的连线,即可取消连接
• 删除组件:
右击想要删除的组件,单击“删除”,即可删除组件
数据准备
(1)上传新数据
• 单击左侧工具栏“上传数据”,长按拖拽至画布松开,右击该组件,选择“上传数据”,打开“上传文件”对
话框
• 单击左下角“选择文件”,在电脑文件中寻找“父子身高数据”,选中文件,单击打开,并在对话框中单击“
确定”,工作台右下方弹出“上传成功”
• 上传数据成功以后,数据将存放在犀数云数据库,用户可以在平台登录页面右上角“个人账号” — “个人中
心” — “我的数据”中查看或修改该数据,同名数据不可重复上传
(2)选择犀数云中的数据
如果用户使用犀数云中的数据进行分析,操作如下:
• 选择工作台左侧工具栏中的“数据集”,长按拖拽至画布。右击该组件,单击 “选择文件”,此时犀数云中
的文件在右侧悉数展现,选择“父子身高数据”,单击即可,工作台右下方弹出“数据文件请求成功”
数据处理
为使得数据满足建模的要求,需要对数据进行预处理。
(1)描述性统计
• 在左侧工具栏中找到“算法集”,将鼠标悬停在算法集上,然后在弹出的算法集中找到“统计分析”中的“描
述性统计”,将其拖拽至画布
• 将“父子身高数据”与“描述性统计”建立连接,单击“父子身高数据”拉出一条线再单击“描述性统计”即
可建立连接,连线方向不可逆,否则将报错
• 右击“描述性统计”组件,单击“选择字段”,将“父身高”和“子身高”单击选入右侧字段框,单击确定。
右击“描述性统计”组件,单击“执行”
• 将左侧工具栏“结果展示”工具拉入画布,将“描述性统计”与“结果展示”建立连接,右击“结果展示”组
件,单击“查看”,即可查看算法结果
(2)标准化
• 在左侧工具栏“算法集”中找到“预处理”组中的“标准化”拖拽至画布
• 将“父子身高数据”与“标准化”建立连接。右击“标准化”组件,单击“选择字段”,将“父身高”和“子
身高”单击选入右侧字段框,单击“确定”。右击“标准化”组件单击“执行”
• 将左侧工具栏“结果展示”工具拖拽至画布,与“标准化”组件建立连接,右击“结果展示”图表,单击“查
看”
(3)标准化结果数据导出
• 如果想要获取“标准化”后的结果数据进行回归分析,需利用“数据集”组件将标准化后的数据进行导出
• 左侧工具栏中选择“数据集”组件拖拽至画布,连接“标准化”与“数据集”组件,在最右侧下拉菜单中选择
“模型结果”,此时标准化后的模型结果就导出到“数据集”了
• 若在预处理环节对数据做了加工处理,则需将结果导出之后进行后续操作。结果导出时,务必选择“模型结果
”,为后续建模做准备
数据建模
在“算法库”中寻找“回归模型”组中的“线性回归”,并将其拖拽至画布,与上一步导出的数据
结果建立起连接,连接方向不能出错。
右击“线性回归”组件,单击“选择字段”,右侧自变量选择“父身高”字段,因变量选择“儿子
身高”字段。参数设置:置信度0.95,选择自变量方法—混合逐步—执行。
结果展示
左侧工具栏选择“结果展示”工具拖拽至画布,与“线性回归”组件建立连接,右击“结果展示”
,单击查看。在结果展示页面可通过单击右上角“下载”,将算法结果下载到本地。
场景保存、删除与图标的排列
分析工作台右上角有场景“保存”和“删除”的图标按钮,选择“保存”图标则可以对场景进行命
名后单击“确定”保存,保存后可以单击左下角时钟样式的按钮查看。
上传数据的使用
功能介绍:可以将excel、csv、txt文件上传至犀数云数据库中。
步骤:
• 找到左侧工具栏中的“上传数据”,长按并拖拽至画布
• 右击,在下拉栏中选择“上传数据”,或直接在最右侧工具栏单击“选择数据”
• 在弹出页面中选择文件格式,并选择文件分隔符,默认为‘,’,单击“选择文件”,选择本地想要上
传的文件,单击“确定”
• 右下角出现上传成功代表成功上传,可重复上传数据
• 上传成功后可右击“查看”数据,检查数据是否完整
小数提示:
• 单次上传数据不超过十万行且文件大小不超过10M
• 上传文件名不能包含特殊符号
• 上传文件名不能为纯数字
进入数据库页面
功能介绍:连接MySQL数据库
连接MySQL数据库步骤:
• 找到左侧工具栏中的“数据库接入”,长按并拖拽至画布
• 右击,在下拉栏中选择“连接数据库”
• 单击右上角“+数据库”,添加本地数据库
• 选择MySQL数据库
• 在SQLALCHEMY URI中输入对应数据库URI路径
• 单击“测试连接”,右下角出现测试连接成功,即可直接连接数据库
在线编辑数据库
(1)在线编写sql语句
功能介绍:在线编写sql查询语句。
步骤:
• 鼠标停留在sql工具箱上,单击sql编辑器,进入sql编辑
• 可选择数据库,并对数据库进行相应的查询操作
• 可选择数据库中的表,单击表名,左下方出现数据表所有字段,右下角出现表的预览情况
• 编写sql语句之后,选中对应sql语句,单击“运行选定的查询”,即可运行sql语句
• 在limit下拉栏中,可选择最大显示行数
(2)保存sql语句及查询结果
功能介绍:保存sql语句及查询结果。
步骤:
• 单击右上“保存”,可保存查询语句
• 设定要保存的语句名称,单击“保存”,右下角出现“您的查询已保存”
• 单击右下角“保存”,可将查询结果保存到犀数云中
• 为查询结果命名,单击“确定”,上方弹出“保存成功”
• 单击“已保存查询”,可查看已保存的sql语句
• 单击“查询预览”,可查看保存的sql语句,
• 单击“在sql工具箱中打开”,可以进入sql语句编辑
• 单击“编辑查询”,可直接进入sql工具箱编辑
• 单击“删除”即可删除指定sql语句
• 单击“删除查询”,弹出“确定删除查询?”对话框, 单击“删除”即可删除已保存查询
小数提示:
• 保存数据表时,表名均为字符串类型。
• 保存数据表时,表名不能包含数字。
(3)查看历史查询
功能介绍:查看历史编写的sql语句运行情况。
步骤:
• 单击“历史查询”,可查看所有运行的查询
• 单击“在sql工具箱中打开查询”,可跳转到sql工具箱进行修改编辑
修改及删除已连接数据库
功能介绍:修改及删除已连接的数据库。
修改已连接数据库步骤:
• 单击已连接数据库的“编辑”按钮,打开“编辑数据库”界面
• 在“编辑数据库”界面可以修改数据库名及连接地址
删除已连接数据库步骤:
• 单击“删除”按钮,弹出“确定删除数据库?”对话框
• 单击“删除”,右下角出现提示删除成功,表示数据库已成功删除
小数提示:
• 犀数云数据库为默认数据库,包含所有上传及保存的数据表,不可删除。
数据集的使用
功能介绍:获取犀数云数据库中的数据表以及算法执行的中间结果。
获取犀数云数据库中的数据表步骤:
• 找到左侧工具栏中的“数据集”,长按并拖拽至画布
• 右击“数据集”,选择“选择文件”,或在右侧单击下三角,选择想要分析的数据,右下角出现“成
功”,表示成功选择
• 右击选择“查看文件”,可查看文件数据详情
获取算法执行的中间结果步骤:
• 将运行成功的算法与数据集连接
• 右击选择“选择文件”,可以选择算法执行结果或模型指标数据
进入数据加工页面
功能介绍:数据加工页面可以对数据进行预处理。
步骤:
• 找到左侧工具栏中的“数据加工”,长按并拖拽至画布
• 将数据集或上传数据与数据加工连接
• 右击选择“数据加工”,即可跳转到数据加工页面
数据加工页面功能
功能介绍:对数据列进行加工,包括去除缺失值、填充空值、数据类型转换等。
步骤:
• 单击数据列右侧“倒三角”按钮,可以对数据列进行修改
• 单击“重置”,可将数据表还原
• 单击“保存”,可将修改好的数据保存成新的数据表
小数提示:
• 保存文件名不能与已有文件名重复,且不能包含特殊字符,不能为纯数字
• 数据加工之后不能连接任何模块
进入数据可视化页面
功能介绍:将数据以图表的形式进行展示。
步骤:
• 将左侧工具栏中的“可视化”拖拽至画布
• 将数据和可视化连接
• 右击“可视化”选择“数据可视化”按钮
制作图表
功能介绍:制作并保存可视化图表。
步骤:
• 选择合适的图表,单击“创建新图表”按钮
• 配置相关图表参数,单击“执行”按钮,生成图表
• 单击“保存”,保存图表
小数提示:
• 定制化图表:在“定制化配置”可以选择喜欢的配色方案、百分比阈值、显示图例、图例的类型、方
向、边距,标签标签类型、数字格式化、日期格式化、显示标签、外侧显示标签、标签线,饼图形状里可以更
改边缘、圆环圈等让图表更加美观。
修改及删除已保存图表
功能介绍:修改及删除已保存的可视化图表。
修改已保存可视化图表步骤:
• 单击“图表”选项卡,在此可查看已保存的图表
• 单击已保存可视化图表的“编辑”按钮,打开“编辑图表属性”界面
• 在“编辑图表属性”界面可以修改图表基本情况
删除已保存可视化图表步骤:
• 单击“删除”按钮,弹出“请确认”对话框
• 单击“删除”,右下角出现提示删除成功
制作可视化看板
功能介绍:利用已保存的图表,制作可视化看板。
步骤:
• 在“看板”选项卡中,单击新建“看板”
• 在“组件”选项卡中,拖出标签、行列放入看板,对看板进行大体布局
• 在“图表”选项卡中,拖出创建好的图表放入看板中
• 单击右上角的“保存”,保存看板
• 单击右上角的“…”按钮,在下拉列表中选择“下载为图片”,可将看板保存到本地
小数提示:
• 在修改看板页面选项卡上有返回上一步,前进一步按钮,防止错误操作。
修改及删除已保存看板
功能介绍:修改及删除已保存的可视化看板
修改已保存看板步骤:
• 单击“看板”选项卡,在此可查看已保存的看板
• 单击“编辑”按钮,设置看板标题及配色方案
• 单击“保存”,右下角弹出“该看板以保存成功”
删除已保存看板步骤:
• 单击“删除”按钮,右下角弹出“已删除”,即删除成功
算法集
功能介绍:算法集包括预处理、统计分析、分类算法、回归模型、非监督学习、时间序列预测、
文本分析等。
步骤:
• 将鼠标悬停在“算法集”,从弹出的选项卡中选择“标准化”,将“标准化”节点拖拽至画布
• 单击“数据集”,出现连接虚线,将鼠标移动到“标准化”单击组件,完成连接
• 单击“执行”提示执行成功,弹出提示“执行成功”
• 执行成功的数据可以放在“数据集”里进行算法预测;从工具栏中拖出一个“数据集”,将“标准化”
与“数据集”连接,右击“数据集”选择文件“data_模型结果”
• 右击“数据集”,选择“查看文件”,展示标准化后的数据
• 将鼠标悬停在“算法集”,从弹出的选项卡中选择“线性回归”,将“data_模型结果”与“线性回归”
相连
• 数据源字段配置的参数,选择自变量字段、因变量字段。单击“执行”按钮,执行成功弹出“线性回归
算法,执行成功”
小数提示:
• 预处理的自变量为选择预处理的字段,右侧上方有注意事项
• 自变量为模型需要的特征字段,因变量为预测的目标值
结果展示
功能介绍:展示并下载算法的结果。
步骤:
• 从工具栏中将“结果展示”拖拽至画布,将“线性回归”和“结果展示”连接
• 右击“结果展示”,单击“查看”
• 单击右上角“下载”按钮,可将结果以excel文件形式导出