大家在使用大数据计算服务MaxCompute时,最头疼就是我现在已有的数据如何快速上云?我的日志数据如何采集到MaxCompute上?等等。。。具体详见《MaxCompute(原ODPS)开发入门指南——数据上云篇》。
但是数据在MaxCompute上了之后,问题又来了,我怎么基于上面进行快速的数据开发,构建大数据仓库。
本文就重点为大家推荐和介绍开发工具:① 大数据开发套件Data IDE; ② MaxCompute Studio。
大数据开发套件Data IDE
大数据开发套件基于MaxCompute强大的计算存储能力,提供多人协作开发能力且支持百万级别任务稳定调度系统的在线开发工具,在阿里巴巴集团内是建设大数据仓库平台的必备工具。
1.工作流设计器
通过拖拽式进行工作流任务的设计,包括上下游节点任务的依赖关系。包括SQL、MR、数据同步、机器学习、shell节点任务等。
2.数据集成
支持常见的数据源集成,提供可视化方式配置和脚本模式,开发者可以根据自己喜好进行选择。
例子:ftp数据同步到MaxCompute的可视化配置界面。如下:
例子:ftp数据同步到MaxCompute的脚本开发模式,包括reader和writer。如下:
3.调度系统
大数据开发套件Data IDE支持调度周期类型:**天、小时、分钟(5的倍数)、月、周**。也就是说在大数据开发套件中如果做数据集成,最小的数据周期颗粒度为5分钟一次。具体可以在调度配置中进行设置:
只需要进行下拉框配置即可设置工作流任务的调度周期和任务执行时间。
4.运维系统
提供可视化运维界面,完全解放数据开发运维的问题,包括任务的重跑、kill和补数据等操作。
5.数据管理
在大数据开发套件中也提供了表级/字段级的数据血缘管理。同时提供整个组织级别的空间表权限管理,包括权限申请、授权和收回。
详情可以进入了解大数据开发套件Data IDE!
MaxCompute Studio
不同于大数据开发套件Data IDE,MaxCompute Studio是阿里云数加MaxCompute提供的本地集成开发环境,MaxCompute Studio 基于 IntelliJ IDEA 平台提供了一套扩展插件,皆在提升MaxCompute 用户的开发体验,给到用户不同开发体验的多种选择。
详情可以进入了解MaxCompute Studio更多信息。
如下为我本地的开发环境界面:
具体的安装配置和使用可以查看如下短视频:
MaxCompute Studio安装配置视频
总结
工欲善其事必先利其器。在进行数据开发之前需要根据自己的业务情况、个人喜好来选择正确的大数据开发套件。那么讲这么多,这两个具体在数据开发过程中的差异在哪?
【相同点】
两者都是基于MaxCompute之上的开发者工具,为开发者提供友好的开发体验。
【差异点】
① 调度系统:Data IDE具有强大且稳定的调度系统,在阿里集团内部稳定保障数据产生多年。适合数据开发者进行搭建大型数据仓库。而MaxCompute Studio更偏向于本地开发和数据分析,是没有自己的调度系统。
② UDF/MR开发:Data IDE本身不支持UDF/UDF源码开发和编译,只接受jar包资源方式上传的执行;而Studio提供UDF开发、MR开发。
③ Data IDE大数据开发套件是在线的开发工具,用户只需要能够上网即可进行。而MaxCompute Studio需要安装在本地,故需要对本地的环境有要求。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。