Chiphell - 分享与交流用户体验

 找回密码
 加入我们
搜索
      
查看: 5627|回复: 54

[系统软件] 工行内部通报6.23系统故障 系IBM软件缺陷引发

[复制链接]
发表于 2013-7-9 12:06 | 显示全部楼层 |阅读模式
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2013-7-9 12:09 | 显示全部楼层
我只能呵呵了
发表于 2013-7-9 12:15 | 显示全部楼层
神呐。。咱每个月那点工资全在工行里,别出问题了啊
发表于 2013-7-9 12:22 | 显示全部楼层
好在我不用工行啊,不过说真的现在有几个领导在意灾难恢复的,我们单位连服务器都是单一的
发表于 2013-7-9 12:24 | 显示全部楼层
还好, 我那个IBM的朋友不适负责DB这一块的支持.
发表于 2013-7-9 12:24 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2013-7-9 12:26 | 显示全部楼层
记者说风凉话都不腰疼,核心系统数据库版本回退你当那么容易。工行UAT压力测试没做好才是关键。
发表于 2013-7-9 12:29 | 显示全部楼层
这种大规模事故确实很罕见
还好是周末 。。。
发表于 2013-7-9 12:35 | 显示全部楼层
哈哈! 就是一烟雾,谁知道具体原因?
发表于 2013-7-9 12:38 | 显示全部楼层
IBM:怪我咯?
发表于 2013-7-9 12:45 | 显示全部楼层
感觉是运维失误吧。。谁知道呢
发表于 2013-7-9 12:49 | 显示全部楼层
灾难备份这码事,如果摊上个外行的领导,那真是不出事就不当回事。
发表于 2013-7-9 12:55 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2013-7-9 13:04 | 显示全部楼层
数据中心的的专业路过,表示真心数据中心这种东西,既然是银行用,必须要有冗余和高可用性啊,估计今年的可用性指标只有99.9%
发表于 2013-7-9 13:08 | 显示全部楼层
值班的都是临时工,出了事除了打电话报告领导,打电话通知报修,其他啥都不会
发表于 2013-7-9 13:15 | 显示全部楼层
linghan 发表于 2013-7-9 12:38
IBM:怪我咯?

IBM: 我愿意~
发表于 2013-7-9 13:16 | 显示全部楼层
sqjsw 发表于 2013-7-9 12:22
好在我不用工行啊,不过说真的现在有几个领导在意灾难恢复的,我们单位连服务器都是单一的 ...

其他银行的真实情况让你知道的话,更怕
发表于 2013-7-9 13:17 | 显示全部楼层
估计拍这张照片的员工摊上大事了,说就说了,还拍照片
发表于 2013-7-9 13:19 | 显示全部楼层
呵呵,和以前弟兄聊聊哪些行哪些机构出问题,一直是饭间主题,只不过外面不讨论罢了。不稀奇的,老外的服务也经常会有问题,
发表于 2013-7-9 13:25 | 显示全部楼层
银行已经很不错了,工商、税务、等一系列的政府信息化工程,哪家不是形象工程
发表于 2013-7-9 13:27 | 显示全部楼层
这下db2挂了
发表于 2013-7-9 13:29 | 显示全部楼层
有错肯认才是好企业。
发表于 2013-7-9 13:35 | 显示全部楼层
各种各样的理由推脱自己的责任呗。
发表于 2013-7-9 13:49 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2013-7-9 13:58 | 显示全部楼层
不坏 发表于 2013-7-9 13:25
银行已经很不错了,工商、税务、等一系列的政府信息化工程,哪家不是形象工程 ...

税务不是,现在都网页开票了
发表于 2013-7-9 14:03 | 显示全部楼层
adolfxitele 发表于 2013-7-9 13:08
值班的都是临时工,出了事除了打电话报告领导,打电话通知报修,其他啥都不会 ...

你觉得出了事正式工就能自己上了?一样是打电话报告领导,打电话通知报修,做甲方的嘛~这黑锅IBM不背谁背。。。
发表于 2013-7-9 14:09 | 显示全部楼层
工行cutover没有rollback plan的吗?
发表于 2013-7-9 14:19 | 显示全部楼层
转载的,来源http://www.zhihu.com/question/21242803,不确定是否靠谱,仅供参考

先来介绍下工商银行的数据中心,工行包括两个数据中心,北京一个,上海一个,还有一个容灾中心,在珠海。北京的称为北数,在西三旗建材城;上海的称为南数,在外高桥台南西路。其中南数是工行绝大部分数据库核心所在,北数大多数是周边业务居多。和其它大型国有银行一样,工行的核心业务系统运行在IBM db2 for zos, 非核心大部分是oracle,还有少量sql server。

上面有人提到,工行的运维和研发是分开的,跟其它大型银行一样,核心业务系统bancs并非自主研发,而是在国外成熟的银行核心业务系统之上改的。(中行曾经花了很大力气自主研发核心系统,但是最终还是流产,现在用的是印度tata consulting services的系统)。

银行,电信行业的核心数据库都是严重依赖IBM和Oracle的,而这两两种数据库非常庞大与复杂,事实绝对超出了大多数人的想象,我敢说数据库管理rdbms远比Linux内核复杂n倍。数据库的升级复杂性和windows/linux的升级根本不是一个概念,在核心数据库中打一个非常小的补丁都需要经过反复测试验证才能应用上线,更何况是升级?正是因为不可控的因素太多,所以有时候出问题甚至是不可避免的。

中国特色的系统往往都有一个特点: 用户并发数大的出奇,各种奇葩业务,新的业务需求源源不断。所以对于开发以及运维人员来说都是非常大的挑战,开发的工作就是天天改需求,运维的工作很大一部分都是耗费在高并发高压力系统的维护。(同样一段代码,一个人使用与一千万人同时使用,结果截然不同)。你以为工行会没有高可用,没有容灾,没有备份,没有测试? 高可用,容灾系统的建设多数厂商多少专家废了多少时间和心血?如果真的可以迅速切换他们不会切?测试是不可能测试到所有的场景的,有一些潜在的问题因为用户数量多会被无限放大。例如一条sql需要运行1s出结果,结果由于某种因素例如升级变慢了最后需要2s,全国几百万用户同时使用,瞬间就被放大了几百万倍,接着雪崩效应出现,骆驼被一个稻草压死。同样数据库升级完以后,并不意味着立马就能发现问题,很多问题只有到第二天正常业务时间才有可能发现。

不要以为工行的人运维的水平差,很多都是技术背景很资深的,犯低级错误的可能性很小。如果你有机会看过工行数据库升级的文档你就会发现一个事实:细致的程度令人发指。即使IBM/Oracle这样的厂商的资深工程师都很容易被一些细节问得哑口无言,事实也是如此,IBM/Oracle没有任何一名工程师很乐意去工行处理问题。工行内部实行的是问责制,问题最终追究责任到人,俗称“拍板子”。像这次这样的故障,估计最终被板子拍到的部门会“生不如死“。工”行运维人员很少,并且没有引入外包,所以每个人劳动强度非常大,几乎是天天加班,碰到重大的系统割接上线更是没日没夜,工作劳动强度大,压力责任大,所以私底下里骂娘的人一大片。为了把可能的影响降到最低,维护工作基本都是放在半夜或者周末,这些工程师的牺牲是非常大的。
发表于 2013-7-9 14:23 | 显示全部楼层
工行不容易,找十八摸索赔吧!
发表于 2013-7-9 14:29 | 显示全部楼层
不过世界上不少大银行都用IBM开发的系统,我不清楚是不是用的最多的,但谁也不能保证一个系统全无故障吧

其实IBM,还有Oracle,此类事件也有前科的,但总的来说可靠程度还是相当高的, 可以说是关系到每个人切身利益了;他们可以对其他公司说:你行你上啊
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

小黑屋|手机版|Archiver|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806

GMT+8, 2019-4-25 20:07 , Processed in 0.017472 second(s), 15 queries , Gzip On, Redis On.

Powered by Discuz! X3.1

© 2007-2019 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表