1. 序言
首先,笔者在此讨论的可靠性,是以机械为对象,而主要又以电子领域为中心做全面阐述的。记得在前年年底,针对机械结构体系,首次举办过结构体系安全性和可靠性方面的国内研讨会。与会代表分别就结构体系的安全性、可靠性的理论与应用、疲劳和破坏力学、耐震可靠性、风险率评价 - 诊断、最佳设计、寿命等最新领域的研究发表了见解。与会人员除了对以往有价值的研究成果做了介绍外,还就其中的应用手段、近年来模糊理论的应用以及支付额统计方法的应用等各抒己见。
笔者仅就最新获取的进展情况向读者做一介绍,并将“最新动向”专门作为一部分内容谈点见解。
2. 当前的可靠性技术
去年在东京,举办过质量管理国际会议。会议期间,美国的D · 拉赫雅博士以“2000年的可靠性”为主题发表了演讲。该文的大部分内容,最近由《可靠性评论》杂志收编刊出。这篇论文以电子领域为中心展开,不乏参阅价值。他在论文中涉及的内容有:
1)软件可靠性;2)试验能力;3)错误容差;4)系统综合化;5)过程可靠性;6)定性的可靠性解析技术;7)保管中的可靠性;8)可靠性鉴定试验。并对此做了简要说明。
软件可靠性 软件的可靠性模型,虽然上交的提案达30多个,但对“软件的可靠性”之定义仍没有固定的标准。或许可以将这句话作为定义,即“软件是在规定的期间内、在给定的条件下,完成能体现其主观机能的概率。”这一定义并没从是否适合硬件的角度来考虑。首先,没有考虑到产品的损耗和劣化因素,没有考虑在时间上是否不适合。受条件限制,说明书列出的操作方法往往不能使人一目了然和充分理解。再者,所采用的技术也没实现标准化。在多数计划中,均以独立的“综合评价”和“各种状态的评价”为手段,这似乎与硬件的要求有些格格不入。另外,目前仍在采用的FMECA(故障状态影响致命度分析)、FTA(树形故障分析图)和设计审查以及设计评估等方法,仍不尽人如意。今后,在软件与硬件接口装置的解析方面,有可能借助“软件故障树形图”和建立在诸多软件库基础上的“AI(人工智能)”,对解析逻辑和编码错误等推出解决的新办法。
试验能力 随着日益集成化的进展和HSIC(极高速集成电路)化的相继面世,以整体进行测试时恐怕得需要几百万个测试图案,甚至使自动测试这一目前采用的唯一方法也受到了限制,目前还没有先进的手段将能分析错误的功能量入芯片中。因为这要求将芯片输出与内部错误一对一地对应设计出来。从测试简便化的角度来考虑,有人同时也对软件提出了要求,即要求实现模块化并使之具备自动测试功能。
错误容差 这是不容忽视的重要问题。对于软件来说,它还包括了时间冗长在内的冗长技术以及错误检测-修正码的使用等,这一点目前越来越显得重要。另外,比如航天飞机发生灾难时,宇航员的自动脱离机构等的安全技术眼下也在致力研究。
系统综合化 不言而喻,软件、硬件、人工、操作顺序、环境等接口装置的重要性是无容置疑的。
过程可靠性 这意味着工程管理与可靠性的密切关系。由于美国的情况与日本截然不同,所以对此要特别强调。截至1987年,美国空军的工程不良率达10-3到1990年,要求达到10-4。
定性的可靠性解析技术 目前根据假设所进行的可靠性预测,未必令人信服(比如,如同设计指数分布时那种故障时间的假设条件)。系统变化是复杂的,不进行多层次的试验,预测也就变得毫无意义了。与空军关系十分密切的航空产业或其他产业,目前在设计阶段已采纳了FMECA,FTA和设计审查方法。预计到2000年,这些方法将成为所有产业的标准工具。
保管中的可靠性 在不存在理想保管状态的情况下,保管时可靠程度会下降。比如,刚刚生产出厂的轮胎不久就会出现4%的废品率。一年之后,有资料显示废品率达16%。某宇航公司对此专门设计推出了“反复筛选程序”。但这一领域仍存在着未知要素。再就是有不少企业恐怕必须进行库存备件的再筛选工作才能确保质量。
可靠性鉴定试验 到2000年,预计对复杂产品进行鉴定试验恐怕仍会困难重重。对试验时确定什么程度的可靠性以及使用什么样的设计程序,这些都将成为问题。因为软件/硬件和接口装置越来越复杂化,所以上述问题也日益引起人们的强烈关注。现在对γHSIC(极高速集成电路)采用的鉴定程序,BADC(罗姆空军开发中心)已采取实际应用步骤。
将拉赫雅博士的观点归纳一下,即在系统设计复杂化方面,未来的可靠性与其说是应重视鉴定结果,倒不如说是更应重视定性设计过程和有效的制造过程。他所认为的系统,是以高度集成化的电子(包括软件)系统为中心的系统,而并没有就整个可靠性领域进行充分预测,仅仅展示了不远的将来,可靠性技术发展的一个方向。
拉氏的那篇论文,专门强调了建立在设计阶段预先解析法和原来TAAF(试验分析与定位)法基础上的ATAF(分析试验与定位)方法,他特别警告说,在美国是耗费了3年时间才制造出MTBF=104 H的产品。而与之相比的日本企业,仅仅耗用1年时间就制造出了廉价的2×104 H的产品。这意味着,日本的大多数支柱企业(如同美国那样,军地之间也没有根据合同制造的产品)的质量管理(包括可靠性),一般是通过发挥质量优势,并以设计、制造方面的重点目标和FMEA、FTA、设计审查作为质量保证措施的。他认为日本方面是从所谓的“源流管理”这一要点上狠下了功夫的。
拉氏强调,在用创造性方法制造产品时,程序的创新性同样显得重要。另外,软件与硬件的“分家”问题,即软件技术人员对硬件故障束手无策的问题,硬件技术人员对软件错误默然置之的问题。
3. fault与failure(错误与故障)
用语和定义的问题,似乎与可靠性技术没有什么关系。但在实践中,在建立评价不可靠原因和不可靠程度的所谓模型时,如果没有明确的语言来下定义,则将一事无成。然而,并不是所有的语言都是明确的。最近,人们广泛议论的课题,就是亟待明确fault(错误)与failure(故障)的差别。
迄今为止,人们一直在讨论与failure(故障)相关的defect(缺陷)、mulfunction(混乱功能)、imperfection(不完善)、error(误差)等用语之间的差别。但目前仍未将这些用语加以区别、赋予明确的定义。fault一词,自1971年以来就在FTC(错误网络计算)国际会议上被作为“公式”使用了。另外,早在1961年,在贝尔研究所研究与导弹的火箭安全性相关的课题时,也开发了FTA(树形错误分析)一词,并沿用至今。总之,过去无论是对fault还是failure的用法上,可以说都没太注意区别,而现在广为熟悉的软件可靠性和上述的FTC技术,则迫切需要将这些用语的差别予以明确。
关于可靠性、维护性方面的用语,在国际上,曾于IEC(国际电气标准会议)所属的技术委员会(Tc)56届年会上讨论过,并以IEC第271号出版物发刊。然而,如果从上述的例子来看,(重视这方面的用语)则是80年代前后的事。
根据IEC50(191)出版物,failure一词是指“目标物丧失了执行要求机能的能力”。它与fault是有区别的。另外,给fault. 下的定义是,“目标物所处的状态,是具有丧失完成要求机能能力的特征。”在这些注释中,一种fault错误),总是指目标物自身的一种故障结果。但也有原先根本不存在故障的情况。与故障相关的error(误差),定义为“在计算、观测或测定的数值或者条件确凿无误的情况下,指所出现的与规定或理论值或者条件存在偏差的一种状态。”注意:误差是由于目标物具有的错误)而引起的,比如,计算误差就是因为计算机所具有的错误而产生的。此外,mistake(过错)一词被定义为“引起不良结果的一种人为因素”。
软件的情况也如此,总是使用所谓“以ult(错误)”一词。比如,J. D. 穆萨等的软件可靠性观点;他们认为,“作为软件来说,将failure(故障)一词改用bug(故障)一词或许是一种更为贴切的语言,这样做有便于区别fault(错误)一词。fault(错误),指程序中的defect(缺陷),指在某一特定条件下执行程序时引起的故障。一个fault(错误),往往会变成一个以上的故障源,一个^ult(错误)出现时,往往会造成程序的error(误差)……。”
再谈谈硬件的情况。一只部件、一种材料的故障,不会立即构成整体故障,但会作为fault(错误)而潜伏下来。在偶然的条件下,需要发挥其机能时,首先会以整体故障的形式表现出来。比如,如同人造卫星测定器那样等到需要观测时,说不定在哪一道关口上就会触发该潜伏形态。当开关接通时,首当其冲的是仪器处于fault(错误)状态,作为一种事故而形成故障(failure)。
众所周知,解析可靠性采用的方法有FMTA,而FM(故障模型)则是failure modes(故障模型)的缩写词。因此,应对故障模型规定正确的方法相对TMEA的FTA方法,是以fault tree(树形错误分析阁)的形式出现的。在这一点上,两者在使用时没有什么区别。狭义说来,所谓“故障解析”一词,是指查明手头目标物故障发生原因的一种方法。其中包括在预防性设计阶段用FMEA和FTA等方法事前对故障效应进行评价的“事前解析”状况。
4. defect与risk(缺陷与风险)
如同前述那样,与“缺点”一词相对应的英语是“defect(缺陷)”、“fault(错误)”。但,“defect”一词,翻译成日语时,笔者认为译成“欠陷(缺陷)”一词似乎更为妥切些。
与“defect(缺陷)”相关的措词,在从事质量管理检查时,是把不合格的产品称为“defect(次品)”,将不合格率以所谓“%defective”一词表现出来。仅此一例,就在MIL-STD-105D和IEC出版物410文件中都曾出现过。但在近年来,“product liability(产品责任)”问题已成为备受各国关注的问题。作为具有权威性的法律用语,应该将“defect(缺陷)”与不合格的概念区别开来。用“non-conformity(不合格)”一词代替“不良(不合格)”这一用词,笔者认为是较妥的建议。在IEC/Tc56会议上,IEC曾就因缺陷产品造成的损害,要求会员国到1988^6月底,针对责任问题执行立法化制度。以上述要求为背景,各国都期望消除用语上的矛盾和隔阂,合法使用技术用语。会议把这一课题委托给美国法律专家霍夫曼教授来解决。
霍夫曼教授认为,大多数判例在引用法令时,还需将IEC,ISO,ANSI/ASQC(美国标准协会/美国质量管理学会)等的用语进行比较研究。对此,他提出了以下建议。
defect(缺陷),应这样定义:“没有在条款中规定合理的安全性,或者条款中的任何条件都不能满足性能或者满足购买者和用户的要求。这里所说的‘要求’,指在符合整体条件下提出的合理要求。”对此怎样理解呢?若从某种角度考虑的话,这里所说的“合理”,显然是指技术与法律之间交叉的问题了。
再谈defect(缺陷),它还可以分成三大类。一是设计缺陷:“在根据设计和/或规格制出的产品中,设计时没有考虑在符合总规定的情况下,采用合理技术手段而造成的一种缺陷。”二是制造缺陷:“在制造工序中,因被制造产品不符合设计和/或规格,从而产生不合理现象的一种缺陷。”三是信息缺陷:“在符合总规定的条件下,因对相应的目标安全、有效使用方法缺乏或者制订出不合理的规定和条件而造成的一种缺陷。”另外,给“nonconformity(不合格)”一词下的定义是,“产品不符合设计和/或规格的要求。”
defeet(缺陷)问题,同时也在与可靠性领域密切相关的交叉领域充分反映了出来。霍夫曼教授建议,应将上述的defect(缺陷)和nonconformity(不合格)用词这样定义,即“指不能满足规定的要求事项”。在考虑这些定义时,还应兼顾到其他团体的标准、法律用语、判例等等。
再补充说明一下,在IEC/Tc56届会议上,曾收到加拿大代表的提案,探讨了与risk assessment(风险评估)相关的原则。这也是与可靠性工程密切相关的一个领域。根据加拿大的提案,在他们提出的定义中,hazard(危险)一词被定义为,“具有潜在的条件但却没有达到满意的结果,比如就化学物质来说,由于实质中存在的各种泄漏而造成的有害影响(adverse effect),这种有害影响具有潜在的危险。”另外,对risk(风险)一词下的定义是,“指给健康、资产或环境造成有害影响的概率或严酷性的评估标准。”在数学上,这一定义大多用“概率x结果的期待值”来表达。除非特殊情况,一般都用乘积的形式表达,在此予以说明。
5. 故障率与故障强度
在上述IEC Tc56届会议上,还应当指出最近专门强调的failure rate(故障率)与failure intensity function(故障强度函数)之间的差别。简而言之,故障率是与因寿命分布而采用的非修复体系(如部件、材料等)相关的一种概念,所谓bath-tub(巴斯-杜巴)曲线模型就属于这一观点。另外,故障强度,是将故障与修复重复出现的连锁事件连接成可见点过程的一种概念,这种概念是相对修复体系而采纳的。
6. 可靠性增强模型
在开发产品的过程中,为达到出厂产品的质量目的而引进和强化可靠程度以管理促进可靠性(改善设计、加工等,在某一期间内提高可靠性),这就是所谓可靠性增强管理的方法。这种方法目前已引入美国的军用产品说明书。随着产品开发的进展,为确定可靠性增强的强度,比如,根据试制、批量试产等的情况来制订试验计划,如根据试验来确认MTBF(倒数)的增加。在增强管理过程中,可以根据过去的经验等,相对预先限定的时间来绘制提高可靠性的“程序图”。边将试验结果与该图进行比较,边进行增强管理。这时,通常是以从初始到全部累积起来的试验时间内发生的故障总数和各种情况(各阶段的)之故障强度或其倒数(把倒数一般称为MTBF)等为指标的。我们把这种模型叫做“可靠性增强模型”。严格来讲,在可靠性增强模型中,每当各个阶段(各方面)改善(软件情况下,会引起故障)时,都应根据所谓的离散活动情况而建立离散模型,它是一种以累积的全部试验时间为横轴的连续模型。
在软件方面,目前正在研究设计、开发阶段的可靠程度增强模型。这时,无论是用日历的时间作为时间标准还是用处理器的执行时间,都会使事务处理的执行次数出现问题。此外,目前还在研究根据以后的误差发生概率来建立可靠性模型的课题。在这方面的理论研究目前之动向,通常是以完全修复发生的软件误差、杜绝误差再次复发为假定条件的。
[《机械の研究》(日)4992年,第5期]