一提到可靠性,凡是接触过人都能从嘴里迸出一堆概念,容错性设计、热设计、裕度设计等等,但对于一个做基础工作的管理者和工程师来说,这些简直是一些非常正确的废话,可靠性这么阳春白雪的东西怎样与现实的下里巴人结合呢?生活中有哪些细节的可靠性设计方法和可靠性知识点呢?
我以一个经历讲给大家听,这个事情是我对可靠性认识的起源。我在航天系统工作的时候,曾经师从一位老专家(未征得本人同意,在此用Q代替)做技术工作,教我一个关于产品可靠性设计的核心理念,就是在细节上进行可靠性设计。
Q专家带我做一个项目,初出茅庐的我用了3天时间完成了电路原理图,Q专家居然用了两周,在这段时间里,我除了看其他的书就是暗自嘀咕,“这老人就是该退出江湖了,也不知道啥意思,老拖”,两周之后,老先生武断的否决了我的电路,强制我把他的原理图布成pcb板。虽然老大不情愿,我还是很认真地完成了,布线的过程中,也是满腹怨言可没敢说出口,因为电路上和我的设计好像没太大区别。
后来我遇到一个具体问题,如下图,LM324有4个运放单元,在这里作为驱动芯片使用,为D1-D8的指示灯提供电流(前面的电路省略了),我的设计方案如下图,其中M标注的发光二极管表示模式指示灯,用D标注的发光二极管表示治疗时间指示灯;但Q专家死活让我执行他的设计,我嘴上没说,就是暗暗地去找我俩设计的不同点,发现设计思路也没什么区别,都用LM324,电阻值也一样,唯一不同的是他的设计是把M1M2和M3M4换了个位置,其他完全一样,我是百思不得其解,反复计算也确认限流电阻都能保证运放能工作在允许值内,最后请教Q专家,他的解释是D1和M1按照常规设计思路,肯定是比较常用的模式和比较常用的工作时间,我们会根据被经常用到的程度,安排发光管的位置和表示含义,前面的用到的会比较多,这一点我很赞同,所以会出现一个问题D1/D2和M1/M2都是常用的,D3/D4、M3/M4都比较不常用,两个324芯片的工作时间就不一样了,假设在100小时的工作时间里,1号芯片工作了98小时,2号只工作了2小时,且持续的工作电流也差别很大,1号会因长期工作老化,2号又留了太大的裕度,如果以此计算机器的寿命,1号芯片的寿命相比较2号,就成了影响机器寿命的那块最短的木板。我无语,嘴上嘟囔“那能有多大影响呀”,但心里只有自己知道,我就是那汤锅里煮熟的一只鸭子。
图没贴进来,欲了解细节,请链接“rdcoo.chinardm.com”
没几天又发生了一件事情,开始组装联调一台样机,一个电源插座,220V三芯,零线、火线、地线,我随意就把它装了上去(如下图),Q专家又要求我改了,要求零线、火线在上面,地线在下面,我还是不明白,又去请教,答案是电源线的焊点通过的电流较大会发热,也许会焊接不牢,导致火线脱落,保护接地的焊点在下面,火线万一脱落后可能会掉到上面去,这样就保护了机器,也保护了操作者使用者,如果地线在上面,火线怎么着都不会飞上去的。还告诉我火线零线的焊点一定要用热缩绝缘套管,地线一定不要用绝缘套管。我嘟囔了一句,与上次不同的是,这次被他听到了,“成年累月的这种事能发生上一次吗?”,然后是给我一顿说,原话不记得了,大意是“如果本机型生产10年共1000台,每台被人操作或使用过500次,在10年里只要有一次这样的隐患能因为这个设计被避免的话就值得,况且又不增加什么成本,对于设计是来说这个概率很小,但对一个将来遭遇不幸的人或家庭来说,这就是100%的灾难”。哇,上纲上线了。后来缘分偏浅,没能更多地聆听老人家的教诲,导致今日才疏学浅追悔莫及。
曾经听到别的同事对老人家的一句评语,“老Q设计的机器两年没发生过一起因为主机故障的维修”(附带补充一句,主机以外是别人设计的),我想这个评价应该是对可靠性设计水平的最佳评语,老专家的设计里不知道蕴藏着多少这样的魔鬼般的细节和创意设计。