1. 工业控制系统的几个指标:安全性,可靠性和可
安全性(safety):免除不可接受的风险影响的特性。我认为安全性来自两方面:系统在正常运行下的安全性(即逻辑上的错误,又叫功能安全)和故障(失效)下的安全性。安全控制系统中逻辑上的错误是要坚决杜绝的(百分之百没有也是不现实的),在铁路行业中有专门的检测机构进行测试,其实质是遍历测试,测试所有可能的情况;故障安全是指故障时设备应导向安全状态。
安全性是以防止人生伤亡和财产损失为目的。
安全性评价比较常用的是安全完整性等级(SIL),根据安全要求的不用共分为四个等级。国内石化行业用的是SIL3,铁路和轨道交通用的是SIL4。
在硬件上例如会采用动态电源、硬件表决、诊断、回采等技术来提高安全性;软件上例如软件表决(避错技术,例如三取二,二取二等)、通信数据的严格检验、命令间的相关性小、模拟量的裁决:平均值,平滑滤波等。
2. 可靠性(reliability):指系统或元件在规定条件下,规定时间内,完成规定功能的能力。
可靠性以维护系统的功能正常执行为目的。
对可靠性的评价一般用平均无故障时间(MBTF)。
质量是可靠性的基础,规范的质量检查及软件工程都是可靠性的重要保障。此外,
在硬件上应注意元器件的选择和使用、机械环境设计考虑、电磁兼容设计考虑等。
在软件上有N版本程序设计、恢复块等技术。
在系统级别有失效模式分析(FMEA),故障树(FTA)等技术。
3. 可用性(availability):在要求的外部资源得到保证的前提下,产品在规定的条件下和规定的时刻或时间区间内处于可执行规定或恢复功能的能力。
可用性以系统故障后(或局部故障)对业务的影响最小为目的。
对可用性的评价可用平均修复时间(MTRF)衡量。
最常用的提高可用性的方法为冗余(容错技术),例如三重表决系统(三取二)、二乘二取二等,这些系统兼顾了安全性和可用性。
这三个指标的关系:
下面通过几个假设再阐述一下这几个指标的关系:
上面已经提到安全性包括正常工作时的安全性和故障时的安全性,这里面只讨论故障安全,
1. 假设系统的可靠性为百分之百。这时即使系统故障不会导向安全,那也是安全的,所以说系统的可靠性越高,系统越安全(这只是一个相对概率);即使可用性差,即MTRF很大,那也没有问题,因为可靠性百分之百。
可靠性关注的是少出故障。
2. 假设系统的可用性是百分之百。那即使系统的可靠性不高对用户造成的影响也较小,例如通过冗余来提高系统可用性,即冗余的实现是百分之百OK的(因为可用性为百分之百),当系统出现可靠性问题(故障)时自动切换到冗余系统,不会影响用户的可用性,也相当于提高了整个系统的可靠性,当然,如果切换到冗余系统后原系统不修复的情况下发生故障则会导致系统瘫痪(即共模故障),所以说低可靠性会导致低可用性;同样,较好的可用性会提高系统的安全性。
可用性关注的是故障后对业务的影响程度。
3. 假设系统的安全性是百分之百。这时对可靠性的要求会有一定程度的降低,毕竟安全问题才是最大的问题。对可用性会提高,因为系统故障时带来的后悔严重程序较小。
安全性关注的是故障后的后果。
4. 其实这三个指标并不是所有时候都成正比关系的,有时会牺牲一个指标来满足另一个指标。例如在三取二系统中,降级模式有两种3-2-1-0和3-2-0,在第二种降级模式中,如果只有一个模块则系统是不能工作,因为已经无法表决了,即为了保证安全性降低了可用性;而第一种降级模式中则可工作,即牺牲了安全性降低了可用性。
5. 绝对(百分之百)可靠、可用和安全的系统是不存在的,所以在系统设计时要权衡这几着之间的关系。
2. 产品的可靠性指标有哪些
这是我以前的一个回答:
我只是个学生,只是喜欢找了些资料觉得还好,希望能对你有帮助
可靠性即产品在规定的条件下、在规定的时间内完成规定的功能的能力,是衡量产品品质的关键要素之一。H3C在该领域经过多年的实践和积累,教训很多收获更多。本文以H3C产品为例,就通信产品硬件工程类的可靠性保证作简要探讨,借此让大家对通信设备以及H3C产品从研发到量产的可靠性过程有个初步了解。
随着互联网的普及,网络正成为人们工作和生活越来越重要的组成部分。人们用它听歌看电影玩游戏,企业用它建立运营体系、存储数据、下发生产指令。试想某天当我们无法上网时,会是怎样的境况?你将无法在MSN上和好友畅聊,无法在Google地图上查找交通路线,无法在家了解股票行情……习惯依赖互联网的我们将不得不改变生活方式。对于企业来说,停机除造成直接的经济损失外,还可能引发社会影响和信任危机。美国Infonetics Research对80家大型企业调查发现,由网络故障造成的损失平均占年销售额的3.6%。
就像电话一样,人们希望网络也能“想用就用”,可靠性的专业术语就是“可用度高”。实现高可用网络的方法,除了像冗余备份、提高故障诊断能力、增加备件这些减少设备宕机时恢复时间的方法之外,还包括一个重要的指标就是设备的可靠性。
可靠性管理:可靠性保证和增长的基础
之所以把可靠性管理放在第一位,优先于可靠性设计、分析和试验,是因为我们认为后者都是具体的、细节的技术或方法,是可以短期内修正或完善的,而可靠性管理则代表了一个公司可靠性领域在流程和制度上的成熟度,需要时间、实践、经验和数据的积累和沉淀,可以说是员工心智和公司文化的体现。
H3C经过两年的实践摸索,于2005年正式将可靠性纳入公司的流程管理,作为产品开发过程中的重要一环。对于研发的每款产品,我们都会制定相应的可靠性规格和过程实施计划。可靠性规格是产品概念阶段在可靠性指标上的承诺,根据各方面的需求决定出要做什么样的产品。可靠性过程计划则明确定义什么阶段、由谁、完成哪些可靠性工作,达到什么目标,过程如何规范,交付哪些内容,在执行上保证了规格承诺的兑现。
举例来说,器件管理和优选便是可靠性管理体系中的重要组成部分。做过产品开发的人都知道,不同厂家的同型号器件,往往很难做到所有参数完全一致。当器件参数不一致时,产品在设计初期就需要考虑通过容差设计来兼容这些器件,这样就对设计和制造提出了更高的要求,一定程度上提高了设计制造的难度和成本。随着供应商和器件型号的增加,管理费用迅速上升,彼此沟通变成了一个费时费力而且低效的工作。另一方面,设计和制造也不断出现由“兼容设计”引起的问题,允许免检直接入库的器件变少。对于这种问题,在H3C,有专门的部门负责器件优选和认证管理工作,他们跟踪业界器件技术发展的动态,对制造、客户出现的器件问题进行跟踪和数据搜集,提供各类优选器件清单,使器件选型工作简单有效。当有器件需要替代时,必需经过足够的审核、测试和小批量验证才能被规模使用。
可靠性增长的一个重要方法是应用FRACAS系统(Failure Report Analysis and Corrective Action System),其原理是利用“故障反馈、闭环控制、预防再发生”,通过一系列规范化的工作程序,及时报告产品故障,分析故障根因并纠正,通过临时规避措施减少故障的影响,通过预防再发生的解决措施实现产品可靠性的增长。在H3C,从研发、试产、生产到客户现场,各环节不同程度都在实施故障报告和闭环。以HASA(Highly Accelerated Stress Audit,高加速应力稽核)流程为代表,该流程融入了FRACAS和8D的思路,对每一台HASA过程出现问题的设备,都建立流程跟踪,从条码记录、故障现象、故障风险分析、根本原因总结到解决措施、闭环实施,把各环节有机整合起来,实现发货前检验的高效率和问题闭环的有效性。将每个HASA失效都看作改进过程的机会,从而使解决问题的投入达到利益最大化。
有人说,世界上只有上帝可以不用数据说话。根据流程,我们把所有和可靠性相关的关键数据都集成到了QA系统的可靠性模块。在这里,可以查到某款产品在特定发货时间的市场失效情况,可以跟踪市场实际MTBF、累计失效率、制造批次相关的失效率等等。通过数据分析和同类产品比对,去发现设计、制造、管理各环节可以提高的机会,实现进一步的可靠性增长。
良好的可靠性管理通过建立一套严格的纪律,指导我们什么时候要做什么事情;可以让今天的教训成为明天的预防,在明天就“一次性把事情做对”;可以让我们“站在巨人的肩膀上”,做任何事情都不是从零开始。而所有的目的,只是为了实现可靠性目标的承诺,保证提供给客户的产品,在承诺的时间内是高可靠的、是满足客户要求的。
可靠性设计:关注细节,重在执行
谈到电子产品可靠性设计,我们几乎马上会想到热设计、元器件降额、容差容错设计、可靠性预计等等。就像小学作文,中心思想是确定的,关键看如何写这篇文章。可靠性设计是否成功,有两点必不可少,其一是执行,其二是细节。
我们先说执行。以降额设计为例,不少公司都有降额设计规范,看上去很美。但这个规范是否被严格执行了还是被束之高阁,超出降额的器件有没有被专业评估,降额要求是否根据制造/市场元器件的表现调整,不同产品是否需要分别对待实现全寿命成本最优,都是可靠性实现的关键。再如热设计,在H3C,热设计由可靠性工程师保证。每款产品,在开发初期,都会对散热进行评估和仿真,提前释放散热风险。在整个评估过程中,可靠性工程师和结构工程师、产品开发人员、互连设计工程师的沟通是非常紧密的。风险没有释放,就不能通过下一个技术评审点。
其次是细节。航空爱好者知道,1980年,阿丽亚娜火箭第二次试飞时,一名工作人员不慎碰落一个部件的商标,堵塞了发动机燃烧室的喷嘴,造成发射失败。1985年,美国发射“三叉戟”导弹,由于发动机燃烧室中剥落了一块黄豆大的绝缘层,结果高温火焰烧穿了那里的金属壁,燃气向外喷射,发动机爆炸。可靠性设计是一个需要注重细节的工作,所谓“千里之堤,溃于蚁穴”,“Paying attention to details”是直接写入到美军标338中的,或者这也是经验和思考的总结。
以H3C为例,热设计中的热仿真过程不但仿真常态情况,还会对风扇停转等异常状态进行仿真;在降额设计上,对各类器件电应力进行遍历审查,对不同风扇转速下热应力进行遍历测试,保证在规定环境下每个器件承受的应力满足降额要求;对易损耗的器件进行寿命评估,保证在规定时间内设备符合用户的要求;对关键电路进行容差设计和仿真,保证器件参数随环境应力、寿命漂移时,电路依然可以可靠工作。
可靠性分析:防患未然,心知肚明
可靠性分析主要包括三部分:可靠性预计、FMEA(故障模式影响分析)和FTA(故障树分析)。可靠性预计通过MTBF、返修率等指标作为维修、备件成本的预计,或整网可用度的评估,对设备可靠性增长贡献不多。FTA构造繁杂、对人员经验和技能要求高、容易出错。对于复杂产品,FMEA是一个防患未然的有效方法。举个简单的例子,我们有时会遇到十字路口红绿灯失效的情况,想想我们最不希望哪种失效现象出现?显然,当两条路上同时出现绿灯时交通事故隐患就被埋下了,这是我们最不希望发生的。那么在开展交通信号灯控制系统的FMEA分析时,就要关注哪些器件失效会出现绿灯同时点亮的情况,是否有解决方法。
在H3C,复杂系统会开展FMEA分析工作,从而对系统中可能出现的故障现象做到心知肚明,评估容错设计是否足够。对于冗余备份系统,保证失效发生时设备可以快速倒换,业务正常运行不受影响。
可靠性试验:真金不怕火炼
我们研发出来的每一款产品,都会经受可靠性试验的洗礼,其中最严酷的当属HALT试验(Highly Accelerated Life Test,高加速寿命试验)。
90年代HALT试验在国外获得推广,而国内企业由于各种限制起步相对较晚。与传统的施加模拟客户环境的应力来发现故障的环境试验不同,高加速应力是一种主动的试验。使用应力步进的方法,使设备不断接近极限应力,直到故障暴露。通过“暴露缺陷—不断改进—再试验—再改进”的方式,持续发现并解决设计、来料、工艺等相关问题,从而获得产品的快速稳定。这有点像运动员的训练,如果要参加100米短跑比赛,那么运动员平常训练时绝不会只是重复训练100米冲刺,力量和耐力的训练必不可少。同样道理对于产品来说,虽然标称工作环境是0~40/45℃,HALT试验过程中其实都会经受100℃高温和-40℃低温的极限考验。
到这里,可能你会提出两个问题:1,HALT试验做到-40℃和100℃有没有必要,室内应用的产品,怎么可能有这样的环境?经验告诉我们,非常必要且获益匪浅!按照H3C工程师的说法,现在不作HALT试验“心里没底”。2,厂家宣称的0~70℃的器件能在-40~100℃环境工作吗?实践表明,在可靠的电路设计下,器件完全可以承受比规格更高的应力(极少数器件例外)。
如果你是做可靠性的同行,或者正在经受HALT问题的煎熬,可能还有第3个疑问,为什么可以用环境应力暴露未来5年甚至10年可能出现的可靠性问题?研究一下元器件资料,看看容差设计的原理和品质管控方面的书籍,就会发现一个共同点:器件参数漂移。当一个器件在极限环境应力下参数漂移范围比工作5年参数漂移范围更宽时,只要该器件在电路环境中能承受极限应力,你就基本可以放心未来5年参数漂移引发失效的模式不会在电路中发生。其他原因如振动累计损伤、磨损引起的失效加速分析等,这里不再展开。
除了HALT试验,在H3C,我们还采用了一个时尚前卫的可靠性保证手段,那就是HASA筛选。
研发出来的产品,到量产后,由于器件批次间的参数离散、工艺控制的原因,可靠性有可能会降低。HASA利用温度、振动、电应力、数据流量等多应力同时施加的方式,有效筛选出故障设备,从而实现量产产品在质量和可靠性上的快速稳定。我们通常的HASA筛选应力远超出设备工作应力,比如温变率,典型应用环境温变率不会超过0.5℃/分钟,H3C筛选应力是40℃/分钟。
其他常规试验如温湿度类试验、机械类试验、EMC的浪涌/静电/抗干扰试验,都是H3C产品的必检项,通不过这些试验,产品是无法到达客户手中的。
结语
行文至此,相信你已对通信设备以及H3C产品可靠性保证体系有了简单了解。钢铁铸就源于千锤百炼,打造质量卓越的产品永远是我们孜孜以求的目标。参考资料:钢铁是怎样炼成的?——浅谈通信产品的可靠性保证
3. 可靠性指标MTBF怎么计算啊
有数据了?
产品在规定条件下和规定时间内完成规定功能的能力;反之,产品或版其一部分不能或权将不能完成规定的功能是出故障。概括地说,产品故障少的就是可靠性高,产品的故障总数与寿命单位总数之比叫“故障率”(Failure rate),常用λ表示。例如正在运行中的100只硬碟,一年之内出了2次故障,则每个硬碟的故障率为0.02次/年。当产品的寿命服从指数分布时,其故障率的倒数就叫做平均故障间隔时间(Mean Time Between Failures),简称MTBF。即:
MTBF=1/λ
笔者最近看到一款可用于伺服器的WD Caviar RE2 7200 RPM 硬碟,MTBF 高达 120万小时,保修 5年。120万小时约为137年,并不是说该种硬碟每只均能工作137年不出故障。由MTBF=1/λ可知λ=1/MTBF=1/137年,即该硬碟的平均年故障率约为0.7%,一年内,平均1000只硬碟有7只会出故障。
4. 可靠性主要指标有哪些
一般分为内部可靠性和外部可靠性,有时也用平均可靠性和显著可靠性来度量。
5. 可靠性测试的两个关键的性能指标是什么
请看以下对产品可靠性的解释,相信你就知道了
产品在规定的条件下,使用规定的时间内,完成规定功能的概率称之为可靠性
即可靠性四要素:
规定条件
规定时间
规定功能
概率(即某事件发生之可能性)
而产品可靠性之好坏,是由三个因素影响,即功能正常,使用环境,使用期限
6. 可靠度公式各个字母代表什么意思
R(t)=e^(-λt)
R--可靠度:产品在规定的使用条件下、在规定的时间内、完成规定功能的概率;
t --时间;
λ--失效率。
7. 可靠性MTBF的指标是
有数据了?
产品在来规定自条件下和规定时间内完成规定功能的能力;反之,产品或其一部分不能或将不能完成规定的功能是出故障。概括地说,产品故障少的就是可靠性高,产品的故障总数与寿命单位总数之比叫“故障率”(failure
rate),常用λ表示。例如正在运行中的100只硬碟,一年之内出了2次故障,则每个硬碟的故障率为0.02次/年。当产品的寿命服从指数分布时,其故障率的倒数就叫做平均故障间隔时间(mean
time
between
failures),简称mtbf。即:
mtbf=1/λ
笔者最近看到一款可用于伺服器的wd
caviar
re2
7200
rpm
硬碟,mtbf
高达
120万小时,保修
5年。120万小时约为137年,并不是说该种硬碟每只均能工作137年不出故障。由mtbf=1/λ可知λ=1/mtbf=1/137年,即该硬碟的平均年故障率约为0.7%,一年内,平均1000只硬碟有7只会出故障。
8. 可靠性计算
根据你书本上的数据,然后再带入这个公司只会享受你想要的结果。
9. 系统的可靠性指标是从概率的角度来定义的.通常有哪三个指标
⒈ 字长
指计算机一次能够并行处理的二进制数据的位数,字长直接影响到计算机内的功能、用途及应用容领域。
⒉ 主频速度
指计算机的时钟频率,主频在很大程度上决定了计算机的运算速度。
⒊ 运算速度
指计算机每秒钟能执行的指令数。常用的单位有 MIPS (每秒百万条指令)。目前已达每秒 2 ~ 5 亿条指令。
⒋ 存储周期
指存储器连续两次读取(或写入)所需的最短时间,半导体存储器的存储周期约为几十到几百毫微秒之间。
⒌ 存储容量
指内存储器能够存储信息的总字节数。
⒍ 可靠性
指在给定时间内计算机系统能正常运转的概率,通常用平均无故障时间表示,无故障时间越长表明系统的可靠性越高。
⒎ 可用性
指计算机的使用效率,它以计算机系统在执行任务的任意时刻所能正常工作的概率表示。
⒏ 可维护性
指计算机的维修效率,通常用平均修复时间来表示。
其中,主频、运算速度、存储周期是衡量计算机速度的不同性能指标。此外,还有一些评价计算机的综合指标,例如性能价格比、兼容性、系统完整性、安全性等。
10. 产品可靠性的衡量指标有哪六种
产品可靠性的衡量指标有 可靠度、失效度、故障概率密度、故障率、平均寿命与可靠寿命、平均无故障工作时间 六种。
望采纳,谢谢!!!!