腾讯云CKafka联合云函数重磅上线DataHub,让数据流转更简便

随着大数据时代的到来,各大互联网公司对于数据的重视程度前所未有,各种业务对数据的依赖也越来越重。有一种观点认为大数据存在“3V”特性:Volume,Velocity,Variety。这三个“V”表明大数据的三方面特征:量大,实时和多样。这三个主要特征对数据采集系统的影响尤为突出。多种多样的数据源,海量的数据以及实时高效的采集是数据采集系统主要面对的几个问题。

我们想要在数据上创造价值,首先要解决数据获取的问题。因为在互联网发展中,企业内或不同企业之间建立了各种不同的业务系统,这些系统产生的数据也都是互不相通的,要想实现数据的互通与融合,在数据的获取与处理上就需要下很大功夫。

01.

腾讯云CKafka重磅上线DataHub

腾讯云消息队列CKafka正式上线数据中心接入服务模块DataHub。DataHub具有强大的数据接入及分析处理的功能,可以从App、Web、MongoDB等数据源中进行持续不断的数据采集,存储和处理,并得到各种实时的数据处理结果,可用于日志分析、网页活动追踪、IoT分析应用等。

现今数据处理系统大体上可分为离线处理系统和在线处理系统。CKafka推出Datahub数据中心接入服务模块,负责直接从业务数据源获取数据,进行一些数据预处理工作,分发给离线/在线处理平台,构建数据源和数据处理系统间的桥梁,将数据处理系统同业务侧的数据源解耦。

02.

DataHub产品优势

DataHub基于CKafka的数据处理能力,具有高稳定、实时性、高扩展性、高安全性等优势:

·高稳定

基于消息队列CKafka分布式的部署,稳定性有很好的保障。

·实时性

数据采集实时高效的同时还可以进行实时处理。

·高扩展性

支持集群水平扩容,实例无缝升配,底层系统根据业务规模自动弹性伸缩,上层业务无感知。

·高安全性

不同租户间网络隔离,实例的网络访问在账户间天然隔离。支持管理流的CAM鉴权及数据流的SASL权限控制,严格控制访问权限。

·上下游生态融合

支持与EMR、COS、容器、流计算、云函数、日志服务等13+云上产品资源,实现快速一键部署。

·统一运维监控

提供腾讯云平台整套的运维服务,包括租户隔离、权限控制、消息堆积查询、消费者详情查看等多维度监控告警等运维服务。

03.

DataHub应用价值

CKafka是一个分布式、高吞吐量、高可扩展性的消息系统,基于发布/订阅模式,通过消息解耦,使生产者和消费者异步交互,具有数据压缩、同时支持离线和实时数据处理等优点。DataHub作为CKafka的一个功能模块,可以帮助用户以CKafka为入口,通过简单的界面化配置,即时连接到常用的数据源和接收器,打包各个场景的解决方案,实现实时数据通道、实时数据清洗和分析的功能。

在实际应用中,DataHub实时接入各种数据源产生的不同类型的数据,用户可以将多个数据源的数据投递到同一个Topic中,统一管理,经过简单的数据处理,并投递到下游的数据处理系统,形成清晰的数据流,更好地释放数据的价值。

640.webp.jpg

DataHub可以同时实现大数据系统与业务系统以及大数据系统各组件之间的解耦。

1.实时数据通道

我们都知道不同企业之间、不同业务之间数据互不相通,互不融合的数据在数据获取、传输上会遇到很多问题,比如可用性差、传输延迟等。业务层面,也会遇到旧业务数据系统迁移到新系统、不同系统数据整合过程中数据不可用等问题,进而影响业务的后续进行。

为了能够让数据更加实时高效地融合,DataHub利用数据接入能力,使业务数据能够实时融合进大数据系统,缩短数据分析周期,对于客户来说就是实时的数据通道,那DataHub又是如何实现数据接入能力的呢?

640.webp (1).jpg

从上图可以看出,DataHub的数据源可以分为:主动上报、服务类和日志类。

·主动上报类:App、Web、游戏等;

·服务类:MongoDB、COS、MySQL等;

·日志类:容器、网络流日志、CVM等。

数据接入的控制台界面如图所示,展示用户建立的数据接入任务列表。

640.webp.jpg

点击列表项可以查看每一条数据接入任务的详情,可以查看监控。

640.webp (1).jpg640.webp (2).jpg

数据接入具体操作主要分为以下两个部分:

1.主动上报:提供SDK,使用流程如下:

640.webp (3).jpg

·以HTTP上报为例:

640.webp (4).jpg640.webp (5).jpg

任务创建成功后会生成接入点,后续在任务详情中可以查看和复制该接入点。

640.webp (6).jpg

2.异步拉取

服务类、日志类、接口类,提供完整的产品化配置界面,用户无需关心底层实现。

·以MongoDB为例:

640.webp (7).jpg640.webp (8).jpg

2.实时数据清洗和分析

DataHub接入多种不同类型的数据后,通过数据流出和数据处理,对多种数据源的数据进行实时清洗、过滤、关联与转换,形成统一的结构化数据,实现各数据源不同类型数据的融合。

DataHub又是如何进行数据清洗和分析处理的呢?

1.数据流出

利用云函数SCF或者sink connector,分发数据到下游的各种云产品。

·新建数据流出任务

640.webp.jpg640.webp (1).jpg

点击提交后会在数据流出任务列表增加一条记录,可以查看任务详情和监控。

2.数据处理

DataHub延续了Kafka to Kafka的数据处理能力。

1640149407(1).png

点击“新建任务”,出现弹窗:

640.webp (3).jpg640.webp (4).jpg

以上是一些简单清洗规则界面化展示,更高级的清洗规则后续会支持编写函数进行配置。解析模式支持JSON、分隔符、正则表达式,点击测试可以验证上面设置的数据处理规则。

如下图所示,在消息队列CKafka控制台的侧边栏划分为消息平台和DataHub两个模块,查找使用更方便,目前DataHub已经上线,有需要使用数据接入与数据处理分析功能需求的用户,可以用起来啦!

640.webp (5).jpg

未来腾讯云消息队列产品的发展会在数据获取与数据处理方向做更深的探索,也会结合上下游产品,为用户提供更多符合场景的解决方案,DataHub未来可以发展为云上统一的数据接入服务,为各数据源数据的接入、分析与处理提供更稳定的平台。

04.

DataHub使用咨询

目前DataHub都已全面发布上线,前往腾讯云消息队列Ckafka控制台即可使用体验。

我们是设计师、工程师、梦想者,是您扬帆出海的私人顾问专家


相关内容:
[亚马逊开店深圳办事处地址在哪里]
[亚马逊开店深圳办事处地址在哪里]
亚马逊开店深圳办事处地址揭秘:一站式开店服务,轻松拥抱财富!各位亲爱的创业者们,你们好!今天要给大家带来一个好消息——亚马逊开店深圳办事处地址终于揭开了神秘面纱!在这里,
亚马逊开店卖翡翠怎么样?
亚马逊开店卖翡翠怎么样?
亚马逊开店卖翡翠:珠宝行业的巨大商机等你来挖掘!在炎热的夏季,一杯清凉的饮料、一本好书和一个精美的翡翠饰品,想必是很多人的首选。翡翠作为中国传统文化中的瑰宝之一,以其晶莹

TG客服:@SSjiejie — 官方频道:@SSwangluo

三生网络 © 2009-2023 超15年出海经验,跨境项目专家