植物百科网
当前位置: 首页 农业百科

大数据平台和方案(大数据在线离线一体化解决方案最佳实践)

时间:2023-06-28 作者: 小编 阅读量: 3 栏目名: 农业百科

网络探针互联网探针,侦听网络数据包的网络探针称为互联网探针。数据量计算较大且分析实时性要求较高的业务。实时计算延迟到秒级乃至毫秒级,单个作业吞吐量可达到百万级别。支持无缝对接各类数据源进行分析和查询,10亿数据聚合亚秒级响应。离线计算实施根据数据建模部分的设计,完成相关数据表创建。客户可以通过仪表板的数据,分析采集机网络流量情况,以上就是离线链路总体实施情况。

概述

本方案重点要落地的业务是中央网信办网络安全应急指挥中心相关业务,由于需要处理的网络数据流量巨大,而且对实时和离线大数据计算分析均有要求,所以提供此在线离线一体化解决方案。

混合云某项目主要业务简介如下:

  • 流量采集

流量采集技术是监控网络流量的关键技术之一,为流量分析提供数据来源。为了能够在复杂企业网中有效的分析网络流量。

  • 网络探针

互联网探针(NET probe),侦听网络数据包的网络探针称为互联网探针。数据包捕获、过滤、分析都能在“互联网探针”上实现。

本文主要针对流量采集业务来构建场景。

适用场景
  • 既要数据实时分析又要数据离线分析的业务。
  • 数据量计算较大且分析实时性要求较高的业务。
  • 需要备份长期大量数据且能支持查询的业务。
  • 数据来源多种多样需要进行大量同步和处理的业务。
技术架构

首先来看看业务架构:由于数据量比较庞大,涉及产品众多,数据链路也比较复杂。

本实践方案基于业务架构图抽象,得出如下图所示的技术架构和主要流程,并依据此编写操作步骤:

从抽象的业务流程图中,可以看出在线计算和离线计算两条主链路,因此可通过本文大数据在线离线一体化解决方案来实施。

方案优势
  • 支持离线EB量级数据计算,2w以上并发作业,支持灵活调度多任务并发。
  • 实时计算延迟到秒级乃至毫秒级,单个作业吞吐量可达到百万级别。
  • 支持冷热数据备份,降低运营成本。
  • 支持无缝对接各类数据源进行分析和查询,10亿 数据聚合亚秒级响应。
方案实施

数据建模

业务数据量比较庞大,为了便于处理和分析,首先进行数仓建模,并进行数据分层处理,方便实施多维分析并提升整个系统查询效率,降低查询穿透率。

雪花模型建模

根据对流量采集业务分析,比较适合数据仓库常用建模方法——雪花模型。依据业务特征和雪花模型建模原则,完成数仓建模,具体如下:

从以上模型看出,存在两个事实表,分别描述采集机流量信息和采集机规则事件信息,另外三个维度表分别记录运营商,采集机和地域维度,方便后续的业务分析。

数据分层

离线和在线引擎的数据量非常大,如果直接对接BI做数据分析,会导致查询效率很低。因此需要进行数据分层,将海量的数据来源经过ETL,清洗,根据数据域和应用域抽取到ADS层,交给BI做分析,通用方法如下图:

针对当前业务,可以进行数据分层,具体如下:

数据分层后,数据建模完成,后续重点用于离线链路实施中。

离线链路实施

本例中离线链路主要满足的应用域客户场景有以下两个:

  • 各个省每日的采集机事件总和统计线图。
  • 各运营商每日采集机字节速率平均值看板 (可通过下拉列表分别查看每个运营商的情况)。

离线链路主要针对大量数据进行批量处理和分析,并进行冷热数据存储,实时性要求不高。离线链路实施主要以base这个产品为核心来开发和串联,数据链路情况如下,本文通过自建数据来模拟datahub数据源。

具体实施步骤如下:

  1. 创建odps项目首先新建odps任务云账号和配额组,并创建odps项目。
  1. 创建base项目

创建base项目,创建工作空间,并绑定刚刚创建的odps项目。

  1. 离线计算实施
    1. 根据数据建模部分的设计,完成相关数据表创建。

由于要创建的表比较多,这里贴一个ods层事实表的ddl:

CREATE TABLE IF NOT EXISTS ods_wa_collector_flow_mpp(c_pcgINTCOMMENT '网络',c_pcINTCOMMENT '省',c_ispSTRINGCOMMENT 'isp',c_iaoINTCOMMENT '出入口',c_chBIGINTCOMMENT '采集机',c_ppsBIGINTCOMMENT '包速率',c_bpsBIGINTCOMMENT '字节速率',c_time TIMESTAMP COMMENT '时间') ;

接着用同样的方法依次创建各个数据层的数据表。

然后创建维度表,ddl示例如下:

CREATE TABLE IF NOT EXISTS dim_province(c_pcINTCOMMENT '省代码',c_name STRING COMMENT '省名称') ;

接着用同样的方法依次创建其他维度表。

b.通过数据加工,完成数据建模和数据分层首先通过数据清洗操作,对贴源层数据进行处理,代码示例如下:

INSERT OVERWRITE TABLE dwd_wa_collector_flow_mpp SELECTc_pcg,c_pc,c_isp,c_iao,c_ch,c_pps,c_bps,c_timeFROMods_wa_collector_flow_mppWHEREc_ch >= 0ANDc_pps >= 0ANDc_bps >= 0;

接下来针对dwd层的数据,完成数据汇聚,代码示例如下:

INSERT OVERWRITE TABLE dws_wa_union SELECTa.c_ch,c_pcg,c_pc,c_isp,c_iao,c_pps,c_bps,c_rule_id,c_events,a.c_timeFROM(SELECT c_pcg,c_pc,c_isp,c_iao,c_ch,c_pps,c_bps,c_time FROM dwd_wa_collector_flow_mpp WHERE c_time = cast(to_char(getdate(),'yyyy-mm-dd 00:00:00') as timestamp))aFULL OUTER JOIN (SELECT c_ch,c_rule_id,c_events,c_time FROMdwd_wa_collector_rule_event_mppWHERE c_time = cast(to_char(getdate(),'yyyy-mm-dd 00:00:00') as timestamp))bONa.c_ch = b.c_ch;

接下来构造应用域的数据表,用于应用域的分析和查询,示例为统计各个省采集机事件总数表:

INSERT OVERWRITE TABLE ads_province_rule_event SELECTc_ch,c_pc,c_rule_id,c_events,c_timeFROM dws_wa_union;SELECT * FROM ads_province_rule_event;

最后,通过离线同步将应用域的数据同步到交互引擎adb3.0中,如下:

完成后,通过base的工作流任务图将各个节点串联起来,点击run按钮即可触发实例运行,并生成应用域数据,用于后续分析和查询,具体任务图如下:

可以看到运行成功了,之后将该任务图提交到生产环境中,就可以做到每日自动生产数据用于生产分析了。

4.结果分析实施

最终产出的应用域数据,一般会离线同步到交互式引擎中用于查询分析,这里选择的交互式引擎是adb3.0。

a.配置数据源和数据集

数据源配置

数据集配置

可以看到,我们在数据集里面配置了维表和事实表的关联。b.生成仪表板图

基于配置的数据集,通过简单的配置便可以得出:各个省每日的采集机事件总和线图,各运营商每日采集机字节速率平均值看板。

客户可以通过仪表板的数据,分析采集机网络流量情况,以上就是离线链路总体实施情况。

实时链路实施

本例中实时链路主要满足的应用域客户场景如下:

每日实时采集机事件总和统计

区别于离线链路,实时链路重点满足客户对于信息处理分析的高时效性和可操作性的要求,例如客户就想看分钟级别的数据波动和数据大盘变化,方便及时做出决策,此时就需要实时计算来满足需求,实时计算链路大致如下图所示:

  1. 实时计算数据构造实时计算数据量相对离线计算要小一些,在本例中就不做复杂的数据建模了。
    1. datahub实时数据生成由于是实时链路,本文采用组内ase工具来持续生产实时数据传入datahub,并让flink订阅datahub的数据,进行实时计算,ase会自动创建一个datahub的topic(ase_dr_datahub_topic01)用于传输数据。如下图所示,ase_dr_datahub_topic01在持续的接收实时数据。

接下来需要再创建一个topic(ase_dr_datahub_topic02),用于接收flink处理后的数据。

    1. datahub实时数据订阅datahub的topic(ase_dr_datahub_topic01)建好并接收数据后,需要创建订阅来让其他应用实时获取datahub的数据。
  1. 实时计算实施接收到实时数据后,flink需要实时对数据进行计算处理,具体实施步骤如下:
    1. 创建flink作业进入realtime compute flink产品,新建实时计算作业。
    1. 实时计算通过flink对源数据进行计算处理,本例主要是完成数据清洗操作,相关代码如下:

create TEMPORARY TABLE datahub_source (c_chBIGINTCOMMENT '采集机',c_rule_id BIGINTCOMMENT '规则id',c_eventsBIGINTCOMMENT '事件数',c_timeBIGINTCOMMENT '时间') with ('connector' = 'datahub','endpoint' = 'https://datahub.xxxx.com','project' = 'ase_datahub_pj_61232508463140', 'topic' = 'ase_dr_datahub_topic01', 'accessId' = 'xxxx', 'accessKey' = 'xxxx','subId' ='xxxx');CREATE TEMPORARY TABLE datahub_des (c_chBIGINTCOMMENT '采集机',c_rule_id BIGINTCOMMENT '规则id',c_eventsBIGINTCOMMENT '事件数',c_timeBIGINTCOMMENT '时间')with ('connector' = 'datahub','endpoint' = 'https://datahub.xxxx.com','project' = 'ase_datahub_pj_61232508463140', 'topic' = 'ase_dr_datahub_topic02', 'accessId' = 'xxxx', 'accessKey' = 'xxxx');insert into odps_desselect * from datahub_source wherec_ch != 0andc_events >= 0;

接下来在ase_dr_datahub_topic02中创建同步任务,将实时计算的结果数据同步到ADB3.0中。

看到对应的交互引擎ADB3.0相应的表中存在数据,即说明同步成功。

3.结果分析实施

实时计算链路采用datav进行实时大屏展示和分析,进入datav产品界面。

    1. 添加数据源输入基本信息后,完成数据源的添加和数据集的创建。数据源添加:

数据集创建:

    1. 创建并配置应用大屏分析器通过创建和配置应用大屏分析器,可以绑定实时数据源,并配置大屏展现内容和形式。
    1. 切换到普通大屏模式,观察计算结果的实时变化在分析模式下完成数据源和展示内容配置后,切换到普通大屏模式进行展示配置,并设置实时刷新间隔。

接下来切换到预览模式下,就可以看到结果实时变化了,调试没问题后,点击发布即可。

以上就是大数据在线和离线两条最通用的计算链路,在实际客户场景下具体应用落地。

原文链接:http://click.aliyun.com/m/1000340194/

本文为阿里云原创内容,未经允许不得转载。

    推荐阅读
  • 空气含量中最多的气体(空气含量中最多的气体介绍)

    空气中含量最多的气体是氮气,氮气约占空气体积分数的百分比约为78%。通过实验测定,空气的成分按体积计算,氮气大约占78%、氧气占21%、稀有气体0.94%、二氧化碳0.03%、其他气体和杂质0.03%,也就是说空气中含量最多的物质是氮气。氮气化学性质很不活泼,在高温高压及催化剂条件下才能和氢气反应生成氨气;在放电的情况下才能和氧气化合生成一氧化氮;即使Ca、Mg、Sr和Ba等活泼金属也只有在加热的情形下才能与其反应。

  • 文思豆腐羹如何做好吃(文思豆腐羹用什么豆腐)

    文思豆腐是一道有名的淮扬菜,需要的就是精湛的刀工,这样做出的文思豆腐会有嫩滑的口感,打造入口即化的口感。文思豆腐羹如何做好吃文思豆腐羹材料和做法步骤一、文思豆腐羹材料准备好豆腐400克,鸡脯肉,火腿还有香菇,再有准备好生菜,冬笋,调料需要准备盐和味精。

  • 结构性存款可以买理财吗(结构性存款是存款吗)

    雪球产品就是今年年初监管向信托公司进行窗口指导,要求叫停的产品。简单的说,这是一种高风险的金融衍生品,它通过持有一定结构的金融衍生品,来实现在某一特定情况下获利。这样的投资结构就能保证我不论涨,还是跌,只要在一定幅度内都可以盈利。交易期权等金融衍生品,是非常高风险的投资。

  • 正言厉色意思(正言厉色的意思)

    下面内容希望能帮助到你,我们来一起看看吧!正言厉色意思正言厉色,汉语成语,拼音是zhènɡyánlìsè,意思是形容板着脸,神情非常严厉。出自《汉书·王莽传》。宝玉突然想出一个主意,一本正经地给她讲扬州黛山林子洞耗子精偷香芋的故事,黛玉见他正言厉色,以为真有其事,后来才发现原来是在取笑她。

  • 面谈调薪酬有什么技巧(跟老板谈调薪的技巧有哪些)

    如果你在老板心目中分量很大,一般老板都会给你加薪的。和老板谈加薪时目的一定要明确,让老板知道你只是为了加薪,而不是辞职走人。和老板谈加薪后,一定要给老板一个考虑的时间,不要咄咄逼人,逼着老板加薪。老板也要有足够的思考时间,来考虑你是否值得加薪,给你加薪后对公司有没有什么影响。不仅口头上要表示感谢,工作中要更加努力,让老板觉得给你加薪是值得的。

  • 杏花有没有香味(杏花闻起来会特别香吗)

    杏树是中国著名的观赏树木,可配植于庭前、墙隅、道路旁、水边,也可群植、片植于山坡、水畔,是春季主要的观赏树种。杏花直径2至3厘米,先于叶开放。花梗短,长1至3毫米,被短柔毛。花萼紫绿色,萼筒圆筒形,外面基部被短柔毛。萼片卵形至卵状长圆形,先端急尖或圆钝,花后反折。花瓣圆形至倒卵形,白色或带红色,具短爪。

  • 减肥减肚子的方法(怎么减肚子呢)

    减肥减肚子的方法食用健康食品:酸奶与发酵的牛奶能激活消化必须的物质,有助于改善肠道微生物系统,从而防止腹部隆起。走路、喝水、按摩:走路及喝水有利腹部扁平。

  • 新坑翡翠手镯多少钱(新坑翡翠手镯的价格)

    新坑翡翠手镯多少钱?新坑翡翠手镯多少钱翡翠手镯作为大件翡翠制品,用料特别多,只有大块、质量好的翡翠原石才能打造成手镯,因此翡翠手镯的价格都比较高,商家们拿到质量比较好的原石也尽可能打造成手镯。具体到新坑种翡翠,因为大多数新坑种翡翠透明度都不高,质地也不够细腻,因此种水一般都是以糯种或豆种为主,极少出现冰种或冰种以上的种水,这样的翡翠价格价格自然不会太高,一个品质比较好的糯种翡翠手镯大概在十万以内。

  • 宁波毛蚶做法水煮几分钟(毛蚶煮多长时间可以吃)

    宁波毛蚶做法水煮几分钟毛蚬是很多人喜欢吃的食物,不过建议大家在做之前都要先用开水煮以下。强精益气,提高精液质量,增强精子活力。适用于治疗肾阳虚所致的阳痿、腰痛、小便频数及补五脏之气不足。可治疗全身水肿,小便不利等。能软化和保护血管,有降低人体中血脂和胆固醇的作用。

  • 2022洛阳湿地公园最新名单 洛阳生态公园最新消息

    国家级湿地自然保护区河南黄河湿地国家级自然保护区,面积24000公顷。国家级湿地公园嵩县陆浑湖国家湿地公园,面积4222.39公顷伊川伊河国家湿地公园,面积1384.36公顷。