统计学基础知识回顾【一】

浏览: 3056

第一部分  预备知识

第一章    概  述

第一节  统计技术是质量管理体系的一项基础

   

统计技术在质量管理系统中是一项基础。它应用在质量管理的全过程中,即从产品设计开发到产品的试制、批量生产、市场销售、售后服务和用户的意见收集、反馈;直致产品的进一步改进的全过程中。也可以说统计技术反映在质量管理的整个P-D-C-A的循环中。它告诉我们如何在质量管理的每一个过程去找出存在问题和找出解决这些问题的最好方法,一句话它是发现问题和体系改进的手段,涉及到产品寿命期的各个阶段,质量管理的全过程。

在ISO9001:2008版中统计技术不是单独的一个要素,但是在组成“管理职责;资源管理;产品实现;测量、分析和改进”的四大版块中每一个地方都存有统计技术的踪迹。这反映了统计技术对质量体系在地位上的重要性和应用上的广泛性。

具体来说,统计技术在ISO9001标准的四大版块中都大有用武之地。这里仅列举数例:

⑴标准中第八章总则强调,“测量、分析和改进过程应包括统计技术在内的适用方法及其应用程序确定”。

⑵对产品质量而言,顾客关心的不仅是产品出厂时的质量状态,更关心产品在今后使用中能用多长时间不出故障,以及产品在不同使用或贮存的条件下质量特性值能否得以保持(即耐用性)。这就需要在产品的设计中、产品的开发中将以统计技术为基础的可靠性、维修的方便性等设计到产品中去。

⑶产品过程的监视和测量中要求:组织应采用适宜的方法对质量管理体系过程和产品特性进行监视和测量,以证实过程实现所策划结果的能力和验证产品要求得到满足。监视和测量的关键是识别和控制产品形成过程中的变异性质,即人、机、料、量、法、环等因素是否存在失控状态下的变异,并采取有针对性的纠正措施。统计过程控制是识别、分析和控制变异的重要手段。

⑷为确保监视和测量活动可行并与监视和测量要求相一致,这就必然涉及到准确度、精确度、不确定度等到误差分析方面的概念。统计技术则是误差分析技术的基础。

⑸当产品批量很大,特别是破坏性检验的情况下,产品验收通常采用抽样进行。这就存在着如何采用一个合理的抽样方案,使抽样风险性较小、抽样的保护性较高。

⑹纠正措施和预防措施是一个组织自我完善机制的重要内容,是完善和改进质量管理体系的重要途径。其目的是防止不合格重复发生或发生。但很多情况下,不合格原因,特别是潜在的不合格原因,是难以直接观察的,同样需要借助数据的分析和统计技术的应用。

⑺对于标准中述及的质量策划、需求分析、内部审核和风险分析等管理内容,可以采用排列图、因果图、直方图、构思图、分层法、时间序列分析法等简单图表、也可使用算术平均值、标准差等数据特征值来分析和比较同一性质不同时间、不同设备、不同单位的几组数据的平均水平和变异程度。

 第二节  统计在质量管理中的作用

 对于质量管理包含着二重含义。其一,对产品本身而言包含着具有像产品精度那样的定量质量、产品耐用性、可靠性、可操作性等的定性质量。其二,对包括技术管理、生产管理、销售管理、行政管理在内的定性管理质量。其质量的好坏受着“人、机、料、量、法、环”等因素的影响,只要任何一个环节从正常到异常的变化,变化大小的不同均会影响到上述所说的质量,进而影响产品的质量。那么,如何去通过监视上述“人、机、料、量、法、环”中的任何环节的变化去发现、控制、纠正上述的变异呢?这只有依靠统计技术。

那么为什么能用统计技术才能发现、控制、纠正质量的变异?又如何采用统计技术去发现、控制、纠正质量的变异?我们可以从以下四方面来解释。

⑴变异普遍存在于产品实现的各个阶段里和质量管理的全过程中。但客观存在的变异大多不是能直接观察到的,往往需要通过对反映这些特性值的数据进行分析来达到和识别。而统计技术恰恰是通过对相应特性值数据变化的分析来研究、控制、纠正变异的。

⑵经过数学研究和统计分析,所有的变异并非是杂乱无章的,反映变异的数据往往符合一定的统计规律,可建立一定的数学模型。因此更进一步的说明了为什么要依赖于统计技术去分析、控制、纠正变异的发生。

⑶对变异的进一步分析可对变异分为二种状态:受控状态下的变异即正常变异和非受控状态下的变异即非正常变异二种。通过数据的统计分析能更好地区分、理解变异的性质、变异的程度和原因。

⑷对组织而言,掌握统计技术也是为了解决本组织的问题和作出有效决策。其目的是提高管理效率并促进质量管理体系的持续改进和产品质量的不断提高。

 第三节   数据及其相关概念

1.数据的分类:

数据大体可分为二大类:计量型数据和计数型数据。除此之外,还有一种特殊的“量” ,称为官能量。

计量型数据:指作为连续量测得的质量特性。例:长度、重量、强度、化学成分、时间、电阻等。它属于连续概率分布,是最典型的正态分布。

计数型数据:是指按个数数得的非连续性取值的质量特性值。如铸件的疵点数、统计抽样中的不合格判定数、审核中的不合格项数等。它属离散型概率分布,其典型的是二项分布和泊松分布。

官能量:指依靠人的官能(视觉、听觉、味觉、嗅觉、触觉)来评定质量特性所得到的反映值。例:企业的质量方针、管理者的质量意识、电视机的清晰度、音响的音质等。这类量的评定多具有模糊性,其评定效果主要依靠评定人员的经验和专业技能。所以一般多采用头脑风暴法等方法来处理。必要时,也可采用合适的数量化方法进行评定。

2.数据的要求

   针对性:针对要控制或解决的某一问题去收集数据。

完整性:要求数据反映的过程要完整。记录的数据应能追溯,即对数据的背景资料(时间、地点、责任者、设备号)要作记载。以便解决问题时能正确切入。

准确性:数据就能真实反映生产过程和体系运行的实际情况。一个不真实、或者不准确的数据,不仅不能起到应有的作用,而且还可能导至一个错误的结论。因此就对数据包括修约原则在内的准确性,决不能人为地篡改。

及时性:质量信息有很强的时间性,即使是很重要的信息,一旦机会错过,就会失去使用价值,甚至于造成严重后果。

连续性:为了掌握产品或体系的动态变化规律,必须保持数据的连续性。不连续的数据,可能会失去很多有用的信息,从而影响数据分析的结果。严重的会造成错误的结果。

统一性:全部数据必须从位数(有效数据的位数——见下面的举例)、修约原则(四舍五入等)表达方式等保持一致。

3.异常数据的判定和剔除

即使是在同样的生产条件下的一组数据,其中的个别数据也可能不“合群”的,即不符合这组数据应符合的固有分布规律。一般而言,一组数据中的最大值或最小值成为异常驻数据的可能性最大,判为正常数据的风险也最大。所以只要对一组数据的二头,特别是离群明显的一头进行检验并按规定剔除异常驻数据,就可以提高数据的可信性。

判定和剔除异常数据的方法很多,目前最常用的是:格拉布斯方法。下表是格拉布斯检验简表。表中规定了不同的第一类错判率(=0.05;0.025;0.01)下剔除标准。

格拉斯检验简表

Clipboard Image.png

注:⑴表中N为相同生产条件下抽取的样本数,Tα为第一类错判率下的剔除标准。

⑵该表的使用前提是数据服从正态分布。

 

举例:为验证某批外套的重量抽查了9只,测得零件重量与该类零件的标准重量(单位:克)差别为:

0.695, 0.720, 0.725, 0.740, 0.746, 0.752, 0.760, 0.780, 0.847,试检验上述数据有无异常?

取α=0.05 

(说明:为什么没有将外套标准重量标出来?因为其外套的重量是:2.003克(5ml)或3.160克(10ml)或其他,但是与标准重量之差是上面这些数据,注意这些数据可能是‘+’或者是‘-’)

解: ⑴将数据按大小排列;

⑵计算数据(差值)的平均值和标准差:

平均值:

统计学基础知识回顾【一】   X=(0.695+0.720+0.725+0.740+0.746+0.752+0.76+0.780+0.847)÷9 = 0.752

标准差(平方根——数的平方后再开方):

S=[(0.695-0.752)2+(0.720-0.752)2+(0.725-0.752)2+(0.740-0.752)2+

(0.746-0.752)2+(0.752-0.752)2+(0.76-0.752)2+(0.78-0.752)2+(0.847-0.752)2]1/2 = 0.0434

⑶因数据二头为异常数据的可能性最大,因此计算最大数据和最小数据。

统计学基础知识回顾【一】TN=(XN-X)/S=(0.847-0.752)/0.0434=2.19

统计学基础知识回顾【一】T1=(X-X1)/S=(0.752-0.695)/0.0434=1.31

注意:在最大数据和最小数据中,一般应先检查最大数据和其相邻的数据差值和最小数据和其相邻数据的差值。选其中差值最大的数据先进行检查。

即在此例中,0.847-0.780=0.067       0.720-0.695=0.025

而0.067>0.025    故应先检查最大数据,也可以说这里最大数据为异常数据的可能性最大。

⑷将计算出的T和上表中的相应Tα作比较,如T1>T0.05α则为异常应剔除。此例,查上表得α=0.05时Tα=2.11

所以 TN=2.19>2.11   属异常数据,因此0.847这个数据应剔除。

T1= 1.31<2.11  属正常数据,因此0.695这个数据应保留。

          ⑸ 剔除异常数据以后,按以上方法,检查余下的数据直到无异常数据为止。

 

第四节  数理统计的有关概念

1.数理统计与统计技术

⑴数理统计与统计技术内涵和作用:

传统的数理统计技术是指“数理统计”也叫概率统计。它是建成立在概率论基础上的一门数学分支。是研究如何有效的去收集、整理和分析受到随机性影响的数据,以便借此对所观察的问题作出推断、预测、直至给采取决策及行动提供依据。

⑵统计技术的分类;一般分为二类:

推断型统计技术:主要解决从样本如何推断总体。(这是要掌握的重点内容!也是下面要讲解重点!)

描述型统计技术:主要利用数据的特征值或有关图表去描述事物。(这是运用统计技术的初级阶段!)

2.总体、个体和样本

⑴总体与个体:

总体也称母体,是研究对象的全体。组成总体的每项一个单元你个体。个体可以是一件产品、一道工序或一项产品的包装单位、也可以是在体系审核中观察到的一个具体现象。(也是常讲的提交产品检验批!)

总体可以是有限的,也可以是无限的。有限总体是指组成总体的个体数量是有限的,如一批产品,无限总体是指组成总体的个体数量是无限的。如一个阶段中的产品质量处势。

⑵样本

当产品的批量很大、破坏性试验或无限总体情况下,很难或根本不可能对总体中的每一个体进行全检验。通常的做法是:从总体中抽取部份个体,并依据部份个体的检验结果,去推断总体的质量水平。在这里,从总体中抽取的部份个体的全部称为样本,组成样本的每一个个体称为样品,样本中包含样品数量的多少称样本容量或样本大小。

抽取样本过程称抽样。所谓统计推断,就是依据对样本的检测或观察结果去推断总体的状况。

Clipboard Image.png


3.生产批与检验批

⑴生产批

   正常情况,即过程在受控状态下连续生产的一批产品,称为一个生产批,组成一批产品的单位个数称为批量。比如:三鑫公司是以一个工作日作为一个生产批。

⑵检验批

  待检验的一批产品称为检验批。一般而言,一个生产批就是一个检验批。但在某些情况下,如生产批量过大,生产周期限过长,产品某项性能重要(或风险大)可以将一个生产批划分为若干检验批,其条件是:

A 、有证据证明生产过程是稳定的,连续的。

B、检验批的划分不是随意的,而是有一定根据的。

C、为保证检验批的代表性,任何情况下都有不能将两个生产批合并为一个检验批。

4.事件

体系运行中过程中或在产品生产实现的各个阶段中出现的各种现象、状态或结果,在统计技术中统称为事件。事件又进一步分为必然事件、不可能事件和随机事件。

⑴必然事件:指在一定条件下,事件必然会发生的事件。如物体的速度达到第二宇宙速度这个条件,物体成为人造行星就必然会发生;在一批全部合格的产品中任抽一件产品均为合格品,这也是必然事件。

⑵不可能事件:指在一定条件下,事件不可能发生的事件。如物体的速度达不到第二宇宙速度这个条件,物体不可能成为人造行星;在一批全部合格的产品中,抽取一件不全格产品的事件,就是不可能事件。

⑶随机事件:一定条件下可能发生,也可能不发生的事件称随机事件。例如,在一批待检产品中,可能有合格品,也可能有不合格品,如从中任抽一件产品,可能是合格品,也可能是不合格品的事件均为随机事件。随机事件也可称为偶然事件,统计技术主要的就是研究随机事件。

5.频数、频率和概率

         ⑴频数(记为ni)

           随机事件在一组数据中或多次试验中出现的次数,或不同数据落在某区间的个数称频数。例如有3个外套重量落在3.150--3.165区间,即外套重量在3.150--3.165间的这一事件的频数为3。

⑵频率(记为fi)

随机事件发生的个数(次数)在总数据中或总试验数中、总观察次数中所占的比率称频率。如上例,外套重量是在总数为100个相同外套中抽取的,则事件落在3.150--3.165区间的频率是

fi=3/100=0.03(3%)。

⑶概率。记为P(A)

         概率的含义为频率的稳定值。例如一枚硬币,如投掷次数少,出现正面或反面的频率波动很大,但这些波动会随着投掷次数的增加而减少,如果投上上万次,我们会发现出现正面和反面的频率几乎相等即fi=0.5。这时我们可以说投掷硬币出现正面或反面的概率是0.5。

在这里,我们要知道,必然事件的概率为1;不可能事件的概率为0;随机事件出现的概率小于1而大于0。

⑷小概率事件

当某一事件发生的概率很小时(通常是小于0.05)我们称为小概率事件。小概率事件不是不可能事件。一般情况下,我们对小概率事件是可以忽略不计的。但是,如果在正常情况下或者说在各项条件均受控的情况下,在我们的统计结果中发生了小概率事件则可以说明此时的生产正处在一种不稳定状态即异常状态,从而提示我们分析原因,采取措施。

6.系统误差和随机误差

         产品误差是指产品特性的目标值(也可叫规定值)和实测值之差。误差由二部份组成。特性值的总体平均值与目标值之差称为系统误差。特性值与总体平均值之差称为随机误差。

在前面的异常数据剔除例子中,0.695, 0.720, 0.725, 0.740, 0.746, 0.752, 0.760, 0.780,0.847这一组数据是零件重量和标准值之差,这就是误差。

统计学基础知识回顾【一】经计算其X=(0.695+0.720+0.725+0.740+0.746+0.752+0.76+0.780+0.847)÷9=0.752

则标准重量和0.752之差就是系统误差。(如:外套重量为3.160克)

而0.752和这组数据中的每一个样品实测值之差就是随机误差。

一般说来,系统误差往往是因生产条件变化引起的,这类误差的出现较有规律,原因也较易分析,可以通过生产条件的调整使之变小甚至于消除。随机误差一般是由于对特性值影响甚微但数量众多的因素综合影响的结果。

在统计技术中,为了识别生产过程是否正常,或将随机误差控制在一定范围以内,人们更多的是利用正常误差(随机误差)和条件误差来区分误差的性质。条件误差是指由于人、机、料、法、测、环中一个或多个因素发生变化而引起的偏差。正常误差(随机误差)是指生产过程中,在受控状态下由于材料的性能的微量变化等其它不确定因素的影响而造成的误差。该类误差通常由零件公差来保证。

各项统计技术的实质是要通过对数组或图表的研究去区分产品的质量变异是条件因素影响,还是偶然因素影响。而在出现质量问题前及时发现什么条件因素出了异常,且通过对相应条件的控制去事先预防质量事故的发生。

这就是我们所反复强调的质量管理从纠正向预防转变需要做的事情,学会对测量数据进行统计分析,运用统计技术的道理所在!

 

 

第二章  数据的整理和分析

第一节  数据的离散性和规律性

实践证明,由于变异的存在,无论采取什么措施,都无法生产出二件完全相同的零件,零件之间,不论在尺寸上、性能上都会出现或大或小的离散(波动)。

为了进一步了解数据的离散性和规律性下面我们举一例来说明之。

例:吊瓶生产车间,250mL刻度滴管注塑检验规定要求:每一个工作班次都要进行巡检,抽取10个滴管,按照图纸进行壁厚尺寸检验。如有一个不合格,则加倍抽样试验(即抽20个;这是我们形成的简单数字加倍,即可得到更好的可信信息的错误观点。),如不合格总数超过2个则该批判为不合格。试分析该检验要求存在的问题。

分析: ⑴规范中末规定要记录壁厚数据,只判定产品合格与否,将失去很多有用信息,也无法判定产品离散情况。

⑵没有要求按规定时间间隔抽取产品,无法分析尺寸指标随时间变化的情况。

⑶无法比较不同班次间数据的变化情况。

⑷抽样方案本身不够合理。

为了改进,企业对规范进行了修订,要求:

⑴每一班次检验员必须按规定时间间隔和顺序抽样。

⑵将实测壁厚数据记录在规定的表格中,并向下一班交接。

⑶表格上增加记录每天的最大值XU及最小值XL,以了解数据的离散范围。

按上述要求,该车间收集了10个班次,100个数据如下:(每次测量4个方向数值,选最小值)

Clipboard Image.png


单位:㎜

从该表中可以看出:

⑴离散性:从10个班总体来说滴管壁厚在0.752—1.017间波动;从每一班来说它也有各自的波动范围,且各不相同。

⑵规律性:这些数据虽有波动但都在0.752—1.017范围之间;而且较多的在0.850-0.950之间。如果生产条件不变,再抽一批做试验,我们将发现壁厚的波动与前一批数据大致相似。如果生产条件变化,波动范围也会相应变化。这说明这些数据的波动是有规律的。

⑶从上述表中还可以看出,其一数据多数在0.850-0.950之间一个小范围内波动,说明这个生产过程的条件控制是正常的、符合正态分布;其二对每一个班来说,它们的波动范围是不一样的,也就是说如果工艺条件和方法都一样的话,那么就是“人”的环节的问题(如熟炼程度、操作的正确性……)。因此,统计技术的主要任务是:首先要正确并客规的记录生产各阶段的数据;其次要整理和分析数据、用恰当的方法揭示规律,最后运用这个规律去达到控制产品质量、预防问题发生和达到质量改进的目的。

 

第二节  数据的特征值

   从前述例子中,我们可以从数据中得到产品生产过程受控的大致情况,但无法定量的得到信息。特别是比较二组以上数据分布时,无法定量的表征它们之间的差别。为了解决这个问题,我们常用以下二种统计量来表征。

1.数据的位置特征值

  用表示数据的中心趋向的位置特征的值有平均值、中位值、中值及众数四种。

统计学基础知识回顾【一】   ⑴平均值  X:

 式中:N-----数据个数

                    XI----第I个数据数。

          ∑----求和

   ⑵中位数:

有时,为了减少计算,将数据按大小次序排列,用居正中的那个数据或中间两个数的平均值(当数据为偶数时)表示数据的总体平均水平。

⑶中值M:

一组数据的最大值XMAN和最小值XMIN的平均值,用M表示。

   M=(XMAN+XMIN)÷2

⑷众数:

在用频数分布表示测定值时,频数最多的值即为众数。

如测定值按区间做频数分布时,则取频数最多区间的中间值作为众数。

2.数据的离散特征值

先看二组数字:32;38;34;39;37和27;29;35;42;47

X1=(32+38+34+39+37)/5=36

X2=(27+29+35+47)/5=36

这二组数字的平均值相等,但从右图可

以看到二组数字的离散程度相差很大。后一组

比第一组离散程度要大得多。显然,仅有一个

反映数据位置的特征值是不够的,还必须有一

个反映数据离散程度的特征值。

   常用的特征值有:极差(R);偏差平方和(S);无偏方差(S2);和标准偏差(s)

⑴极差(R)

 数据组中最大值和最小值之差。R=XMAX-XMIN

上例中两组均值相等的数据其极差分别为:R1=39-32=7;R2=47-27=20

通常,极差用于数据组数据N小于10的场合,当N大于10时,一般用标准偏差S 表示离散程度。

⑵偏差平方和(S)

统计学基础知识回顾【一】 数据组中各个数据和平均值X的差称为偏差。各个偏差的平方和称偏差平方和,简称平方和。用S表示。

设各个数据(测定值)为:X1,X2,X3,…Xn

其平均值为:S=(X1-X)2+(X2-X)2+(X3-X)2+……+(Xn-X)2

⑶无偏方差(S2)

数据组中各个数据的偏差平方和除以数据总数减1(N-1)后所得的值称为无偏方差(简称方差),用S2表示。S2= S ÷( n-1)

⑷标准偏差(s)

方差S2的平方根为标准偏差(简称标准差)

3.变异系数

  以上反映的数据离程度的特征值,只反映产品质量的绝对波动大小。在工程实践中,我们都有知道,测量较大的产品,绝对误差一般较大;测量较小的产品,绝对误差一般较小。因此,还应考虑相对波动的大小,在统计技术上用变异系数CV平表达。

CV=σ/μ  近似等于s / X

其中:σ为总体均值;μ为总体标准差。当过程受控状态下,且样本容量较大时可用样本标准差s和样本均值X进行估算。

第三节  数据的频数分布和直方图

1.数据的频数分布表

  以滴管壁厚的的100个数据为例:其步骤是:

⑴计算数据的变化范围(极差)。

 R=1.019-0.752=0.265

⑵根据样本大小确定组数。按下表选K=9。

Clipboard Image.png

⑶计算组距h

     h=R/K=2.94     取3

⑷确定边界值:为避免数据落在边界上,可取测量单位的1/2。

⑸用唱票的方法统计出每一数据的位置,写入频数分布表。

                         频数分布表

Clipboard Image.png

2.频数直方图

  为更直观,可用频数直方图代替频数分布表,可以认为,频数直方图是频数分布表的图示形式。频数直方图是在频数分布表的基础上作出的。以各组边界值画横轴,纵轴为频数,组距h为宽,频数为高的直方,就成直方图。

3.频率直方图                                   

  频率直方图的基本作法与频数直方图的作法相同。其作法是:

⑴横轴仍采用以各边界值分组的数轴。

⑵纵轴以频率取代频数直方图中的频数。

⑶图中的直方仍以组距为宽,但以每组

的频率为画出。

频率直方图能使我们直观的了解,数据在每一组中所占比例的变化情况。

4.利用直方图对过程状态分析

   如果随机从同一生产条件下再抽100件产品,虽然各组的频数(或频率)会有变化,不一定相同。但直方图的图形大致相同。如二个直方图的图形相差很大,则应怀疑生产条件发生了变化。因此可利用直方图来监视生产条件的变化情况,预防质量事故的出现。

5.直方图图形变化的含义简介

为了更进一步弄清直方图图形的变化之含义,下面将生产中常出现的直方图形式作一介绍:

⑴正常型:特点是中间高,二边低,左右基本对称。这是数据服从正态分布的特征,也是大多数产品质量稳定时所呈现的特性。

⑵偏向型 :仍以中间高,二边低为特征,但高峰偏向一侧,形成不对称的形状。这种情形还可分为左向型和右向型。可能是人为有意识的对生产过程进行干扰造成的。如机械加工中为了避免报废,一般孔的尺寸偏听偏信向于孔尺寸的下限,而轴的尺寸往往偏向尺寸上限。

⑶双峰型:特点是二个高峰。这往往是由于来自两个意体的数据混在一起所致。

⑷孤岛型:在远离主分布的地方出现小的直方形,有如一个小孤岛。可能是由于过程中有一个时期过程条件产生了明显的变化,如原材料混杂,操作大意等。

⑸低峰型:由于生产过程中某些倾向性因素缓慢作用的结果。

⑹高峰型:数据已经过筛选。如有些高可靠性要求的元器件筛选后再使用。

⑺锯齿型:特点是直方图内各直方高低参差不齐。其原因是直方图分组不当,过多或测量误码率差过大所致。

 

 

推荐 0
本文由 面包君 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册