下战书好,我的网工朋侪。
广东电信那事儿,各人都听说了吧,这闹的,行业内无人不晓了吧。
昨天晚上有会餐,没来得及跟你们唠上这事儿,这会儿放工前,唠唠?
固然昨晚已经规复正常,但这事儿,还没完呢。
本日文章阅读福利:《思科技能资源合辑》
想要知道到底是不是和思科有关系?你总得先学好思科底子技能吧。
像cisco路由器设置(实战篇)、思科防火墙白皮书、思科CCNA题库(精选328页)、大神网络学习条记(思科版)……全都是相干资料。
私信我,发送暗号“思科”,获取资源,一起学技能。
01广东电信0608故障变乱回顾
故障主题:
关于广东IMS互联互通关口局IBCF到广东电信IBCF接通率降落转达
故障发生时间:
2023-6-814:15
故障发生地点:
广东
故障上报级别:
报团体总部
专业:
核心网
故障形貌:
网络监控发现广东固网IBCF网元到广东电信IBCF出局接通率出现大幅降落的环境,且连续时间高出10分钟,由正常环境下90%接通率左右降落至9%;接洽电信反馈电信其网络出现故障。
故障影响范围:
影响联通volte手机用户、IMS固话外呼广东电信手机号码不通,拨打广东电信固话正常。
02电信庞大故障,这波官方怎么说?
如今为止,你能看到的电信那边的官方回应,根本上就是这些,没有更多了。
故障缘故起因是什么?官方并没有给出说法。
一样平常环境下,这种事变不大概这么快就给你转达明白。
通常要颠末7天左右的多方研判,各方具名画押明白责任后才华公布。
那为什么说这事儿还没完,由于昨晚深夜,广东省通讯管理局,出动了。
按照电信部分规范性文件,固定电话或移动电话通讯阻断高出10万户*小时,就属于庞大变乱。
全省几个小时打不了电话,这事,没办法就这么已往了。
如今是官方了局的状态,要求广东电信查明网络停止缘故起因。
03电信故障缘故起因推测有哪些网传版本?
昨天广东电信这波就是庞大变乱,毫无疑问,不外具体故障的缘故起因,如今还没有个定论。
但是网友们众口纷纭,如今有几个网传版本,咱们一起来吃吃瓜:
网传版本1或为思科装备出现非常,导致数据包重传?
最多人热议的就是这个缘故起因了吧。
推测的缘故起因是这么说的:
LDA到HDA之间链路拥塞,链路拥塞缘故起因大概为思科数通装备出现非常,导致数据包重传,引起信令风暴。
广东电信两套HDRA(华为和复兴各1套)和两套LDRA(华为2套)之间存在消息拥塞,重传;
重传的承载装备为思科路由器;
在SBC摆设流控流程及思科路由器隔离。
这话一出就分为两大派了啊。
支持思科的兄弟,站队了一波:
跟着结论拉踩思科的兄弟,也站队了一波:
只能说,这还只是个推测,毕竟如今从转达来看,疑点还很多啊,看看一位理智的大兄弟发言:
为啥紧张省出口就只有一对?
正常省出题目,应该是广东省不能往外出而已,不应该本省都会互打会有影响,而且每个地市也是有一套分体系这种省级核心网应该有灾备,主备,灾备机房全堵塞了?
尚有关键一点,别人反馈了才知道出了故障,网络监控中心的人干嘛去了?
再说了应该是有网元监控体系,故障没上送吗?
SBC服务器,像这种单位不大概就1台大概2、3台,肯定有巨大的服务器集群,为何以障没及时上送监控中心?
怎么说,你站哪队?
网传版本2或为网络攻击、黑客入侵?
这个推测重要有两个部分。
一个是说,假如出题目的真是某路由器,无论是爱立信还是诺基亚,都完全有大概。
连合图中内容,或是其他国家连合爱立信发起的网络攻击?
这个发言,让人有点摸不着头脑,高深了。
尚有就是说,大概是黑客的入侵,利用弊端或后门,影响了电信网络的停止。
网传版本3或是一场应急测试实战演练?
尚有兄弟说,大概某几个部分在不关照部属省市及电信的环境下,举行内部应急测试,做实战演练。
这个料想,个人感觉有点扯。
固然说,万一有啥国家大事,广东省很有大概受到各范例攻击,但是无预警演练来搞应急预案,实战预案,真的有须要吗?
你怎么评价。
网传版本4或是人为因素导致的变乱?
尚有一些朋侪表现,人为故障的大概性非常大。
由于硬件bug的应急预案有很多,别的双活,乃至三活是大型网络办法的标配。
假如是简单的某一台呆板故障,直接拔掉电源就能规复,由于全部的大型网络底子办法在计划方案时都以装备会忽然破坏为条件举行计划。
这个题目推测,根本上是由于运营商员工举行了错误的管理、设置和操控,导致了变乱的发生。
四个网传版本,你方向哪个?
还是发起各人可以蹲一波官方告示的具体变乱缘故起因。
04着实环球范围内,这种电信网络变乱并不有数
着实在环球范围内,这种电信网络的庞大变乱并不有数。
比方自2018年以来,日本四大运营商相继发生庞大变乱,无一幸免。
先是软银发生了变乱,导致约3,000万移动用户断网,接着NTT举行了割接操纵,割接失败导致大量用户再次断网。
然后客岁7月,KDDI举行了骨干路由器的更换,这次更换操纵失败,导致整个网络出现故障,连续了高出60个小时。
背面两个月,乐天也遭遇了网络瓦解的环境。
本年年初,韩国第三大移动运营商LGU统共遭受了五次部分网络停止。离谱吧。
国内的断网也不少,21年中国电信甘肃省的部分用户网络通讯停止。
21年4月,湖南全省也是,网络通讯故障。
尚有客岁9月,长沙电信大厦火警,部分网络通讯受影响。
但总得来说,中国三大运营商出现庞大故障的次数还是少的。
一样平常来说,这种庞大故障一样平常就两大缘故起因:
一是装备变乱,二是运营变乱。
电信运营商必要采购华为、复兴、思科等很多装备制造厂商的装备。
假如故障是由这些装备出现题目导致的,那么装备制造商应该负担重要责任。
假如装备本身没题目,而是由于运营商员工在管理、设置和操纵方面出现错误,导致故障发生,那么责任则重要由运营商负担。
客岁7月发生的日本KDDI网络停止变乱是一个典范的运营变乱案例。
在举行核心路由器割接时,运营商没有设置须要的热备份步伐。
这导致旧路由器被堵截后,新路由器无法正常工作,网络遭受了严峻停止。
这就比如是做心脏移植手术时,没有搞体外循环,而是硬生生的割了旧心脏,把新心脏接上后发现不跳,这个错误令人不可思议。
一旦发现题目,体系被迫举行回退操纵。
但回退后的体系状态与变乱发生时的新数据变革不匹配,导致路由参数紊乱。
终极,这场变乱导致了3,915万用户断网长达60个小时的严峻结果。
各位可以关注一下,将来一周,广东电信肯定会搜集相干厂家研讨变乱缘故起因,固定证据,明白变乱责任,形成法律文书。
说不定还大概会开个发布会,讲下这三项内容:
一是变乱缘故起因。
重点就看是装备故障还是运营故障了。
假如是装备故障,按惯例也是不会点名的,毕竟都是国际大厂,还得长期相助,不能公开打脸。
二是相干职员处分。
纵然是装备故障,广东电信相干职员也有着不可推卸的责任,从前花巨资建立的灾备方案为什么没有起效?
三是补偿方案。
断网期间用户预交的费用,怎么搞,有没有赔付?固然这不是故意伤害,但是最好还是得有个说法吧。
总得来说,这次变乱,在中国电信业运营史上,黑白常有数的。
阐明白企业在工作结果陈诉中所提到的各种热备份冷切换等灾备步伐,在关键时间未必能用得上。
这事儿啊,各企业都应该深刻自查下,引以为戒。
你以为原形是什么?
原创:老杨丨10年资深网络工程师,更多网工提拔干货,请关注公众号:网络工程师俱乐部
我要评论