批处理作业
企业日常运作中,经常需要重复性的处理大量历史数据。批处理任务的主要应用场景如下:
数据导入
DolphinDB拥有卓越的并行处理能力以及丰富的数据接口,用户可设定批处理任务将多种数据格式的大量数据方便的导入到DolphinDB中。目前DolphinDB支持MySQL、HDF5及文本文件等数据格式的导入。
批量数据复杂处理
企业级应用往往需要对大量数据进行自动化的复杂处理。这些任务可以是固定计划事件,如月度与年度统计;也可是事件驱动任务,如异常事件自动通知;或是重复性的业务逻辑如借款利率计算。
报表生成
企业报表的生成往往需要执行多个涉及到大量数据的SQL查询语句。用户可以并行运行多个查询语句,然后通过DolphinDB提供的各种编程接口,将结果导出到制定界面生成报表。例如可以通过Python或JSON API将计算结果导出到用户的web应用。
DolphinDB在设计中采用以下几点来确保批处理数据的能力:
并行处理数据
并行数据处理能力,对于快速完成批处理任务起到非常关键的作用。DolphinDB集分布式存储,查询与计算于一体,数量级的提升批处理任务的处理能力。在一个多节点,多物理存储的集群上,用户可以将历史数据分散到各个物理节点,然后同时向多个数据节点提交指令处理数据,从而充分利用系统资源,显著提高批量处理数据的速度。
作业管理
DolphinDB可以调度作业。用户可将批处理作业分发到数据节点,并监测作业进程。作业可以并行运行,也可以按依赖关系进行顺序处理。如果作业出现异常,可及时得到信息反馈。