
第二节 实验数据的记录和处理
一、误差
计量或测定中的误差是指测定结果与真实结果之间的差值,是客观存在的。在化学中,所用的数据、常数大多来自实验,通过计量或测定得到,即使用最可靠的分析方法,使用最精密的仪器,由很熟练的分析人员进行测定,也不可能得到绝对准确的结果。同一个人对同一样品进行多次测定,所得结果也不尽相同。在化学的计算中还常会有许多近似处理,这种近似处理所求得的结果与精确计算所得的结果之间也存在一定的误差。另外,化学计量的最终结果不仅表示了具体数值的大小,而且还表示了计量本身的精确程度。因此,有必要了解实验过程中,特别是物质组成的定量测定过程中误差产生的原因及其出现的规律,学会采取相应措施减小误差,以使测定结果接近客观真实值。
1.误差的分类
根据产生的原因与性质,误差可以分为系统误差、偶然误差及过失误差三类。
(1)系统误差 系统误差是指在一定的实验条件下,由于某个或某些经常性的因素按某些确定的规律起作用而形成的误差。系统误差的大小、正负在同一实验中是固定的,会使测定结果系统偏高或系统偏低,其大小、正负往往可以测定出来。产生系统误差的主要原因是:①方法误差;②仪器误差;③试剂误差;④主观误差。系统误差又称为可测误差。
(2)偶然误差 亦称随机误差,是由于在测定过程中一系列有关因素微小的随机波动而形成的具有相互抵偿性的误差。其大小及正负在同一实验中不是恒定的,并很难找到产生的确切原因,故又称为不定误差。产生偶然误差的原因有许多,在操作中难以觉察、难以控制、无法校正,因此不能完全避免。偶然误差符合正态分布规律。
(3)过失误差 在测定过程中,由于操作者粗心大意或不按操作规程办事而造成的测定过程中溶液的溅失、加错试剂、看错刻度、记录错误,以及仪器测量参数设置错误等不应有的失误。
2.误差的表示方法
(1)误差与准确度 误差可以用来衡量测定结果准确度的高低。准确度是指在一定条件下,多次测定的平均值与真实值的接近程度。误差越小,说明测定的准确度越高。误差可以用绝对误差和相对误差来表示:
绝对误差
相对误差
RE=E/xT
式中,为多次测定的算术平均值;xT为真实值。为了避免与物质的质量分数相混淆,相对误差一般常用千分率(‰)表示。
(2)偏差与精密度 偏差又称为表观误差,是指各次测定值与测定的算术平均值之差。偏差可以用来衡量测定结果精密度的高低。精密度是指在同一条件下,对同一样品进行多次重复测定时各测定值相互接近的程度。偏差越小,说明测定的精密度越高。偏差同样可以用绝对偏差和相对偏差来表示。
偏差
相对偏差
平均偏差
相对平均偏差
(3)准确度与精密度的关系 系统误差是主要的误差来源,它决定了测定结果的准确度;而偶然误差则决定了测定结果的精密度。评价一项分析结果的优劣,应该从测定结果的准确度和精密度两个方面入手。如果测定过程中没有消除系统误差,那么测定结果的精密度即使再高,也不能说明测定结果是准确的,只有消除了测定过程中的系统误差之后,精密度高的测定结果才是可靠的。
3.误差的减免
系统误差可以采用一些校正的办法或制定标准规程的办法加以校正,使之减免或消除。采取适当增加测定次数,取其平均值的办法减小偶然误差。
二、有效数字
有效数字是指实际能够测量到的数字。也就是说,在一个数据中,除了最后一位是不确定的或是可疑的外,其他各位数字都是确定的。
有效数字的位数应与测量仪器的精度相对应。
必须运用有效数字的修约规则进行修约,做到合理取舍,既不无原则地保留过多位数使计算复杂化,也不随意舍弃任何尾数而使结果的准确度受到影响。目前所遵循的数字修约规则多采用“四舍六入五成双”规则。
有效数字的运算规则是:当测定结果是几个测量数据相加或相减时,所保留的有效数字的位数取决于小数点后位数最少的那个,即绝对误差最大的那个数据。当测定结果是几个测量数据相乘或相除时,所保留的有效数字的位数取决于有效数字位数最少的那个,即相对误差最大的那个数据。
三、实验数据的处理
分析化学中广泛地采用统计学的方法来处理各种分析数据,以便更科学地反映研究对象的客观实在。在统计学中,人们把所要分析研究的对象的全体称为总体或母体。从总体中随机抽取一部分样品进行平行测定所得到的一组测定值称为样本或子样。每个测定值称为个体。样本中所含个体的数目则称为样本容量或样本大小。
一般在表示测定结果之前,首先要对所测得的一组数据进行整理,排除有明显过失的测定值,再对有怀疑但又没有确凿证据的与大多数测定值差距较大的测定值,采取数理统计的方法决定取舍,最后进行统计处理,计算数据的平均值、各数据对平均值的偏差、平均偏差和标准偏差,最后按照要求的置信度求出平均值的置信区间,计算出结果可能达到的准确范围。
1.测定结果的表示
通常报告分析测定结果应包括测定的次数、数据的集中趋势以及数据的分散程度等几个部分。
(1)数据集中趋势的表示 对于无限次测定,可以用总体平均值μ来衡量数据的集中趋势。对于有限次测定,一般有两种表示方法。
①算术平均值
②中位数 将数据按大小顺序排列,位于正中的数据称为中位数。当n为奇数时,居中者即是;而当n为偶数时,正中两个数的平均值为中位数。
一般情况下,数据的集中趋势以第一种方法表示较好。只有在测定次数较少,又有大误差出现或是数据的取舍难以确定时,才以中位数表示。
(2)数据分散程度的表示
①样本标准差
②变异系数 单次测量结果的相对标准差称为变异系数。
③极差与相对极差
极差R=xmax-xmin
④平均偏差与相对平均偏差
。
报告分析结果时,要体现出数据的集中趋势和分散情况,一般只需报告下列三项数值,就可进一步对总体平均值可能存在的区间作出估计:测定次数n;平均值,表示集中趋势(衡量准确度);标准偏差S,表示分散性(衡量精密度)。
2.置信度与平均值的置信区间
由有限的测定数据所得到的算术平均值总带有一定的不确定性,因此,在实际工作中估计算术平均值与总体平均值的近似程度是很有意义的。测定值在一定范围内出现的概率就称为置信度或置信概率,以P表示;把测定值落在一定误差范围以外的概率(1-P)称为显著性水准,以α表示。
对于有限次测定,置信区间是指在一定置信度下,以平均值为中心、包括总体平均值μ在内的范围,即
此式表明真值与平均值的关系,说明平均值的可靠性。式中,S为标准偏差;n为测定次数;tα,f为在选定的某一置信度下的概率系数。tα,f可查表得到,一般是取P=95%时的t值,当然有时也可采用P=90%或P=99%时的t值。tα,fS称为误差限或估计精度,这个范围就是平均值的置信区间。
3.显著性检验
从随机误差的分布规律可知,误差通常较小,小误差出现的概率大。当测量值与真值之间存在较大的即显著的差异时,就可以认为可能存在明显的系统误差。有没有系统误差就需要进行显著性检验。常用的显著性检验法是t检验法和F检验法。
(1)t检验 不知道σ,检验与μ,
与
①比较平均值与标准值,统计量
②比较与
,统计量
,
,t>t表,有显著差异,否则无。
(2)F检验 比较精密度,即方差S1和S2,统计量。F>F表,有显著差异,否则无。
4.异常值的取舍
一组平行测定的数据中,个别数据与其他数据相差较大,离群较远,是舍弃还是保留,必须严谨慎重。如果是过失造成的,舍弃。不知原因不能任意取舍。异常值的取舍对最后结果的平均值影响很大,故必须按科学的统计方法来解决取舍。
(1)4法(简单,但误差大) 求出平均偏差
。
,则测定值x可以舍去。
(2)格鲁布斯(Grubbs)法
步骤:a.数据由小到大排列,x1,x2,…,xn,并求出与S。
b.统计量T (x为可疑值)
c.将T与表值Ta,n比较,T>Ta,n,舍去。
(3)Q检验法
步骤:a.数据由小到大排列。
b.计算统计量(xn为可疑值),
(x1为可疑值)
c.比较Q和Q表,若Q>Q表,舍去,反之保留。
5.常用数据处理与记录
实验数据处理,就是以测量为手段,以研究对象的概念、状态为基础,以数学运算为工具,推断出某量值的真值,并导出某些具有规律性结论的整个过程。因此,对实验数据进行处理,可使人们清楚地观察到各变量之间的定量关系,以便进一步分析实验现象,得出规律,指导生产与设计。数据处理的常用方法有三种:列表法、图示法和回归分析法。
(1)列表法 将实验数据按自变量和因变量的关系,以一定的顺序列出数据表,即为列表法。列表法有许多优点,如为了不遗漏数据,原始数据记录表会给数据处理带来方便;列出数据使数据易比较;形式紧凑;同一表格内可以表示几个变量间的关系等。列表通常是整理数据的第一步,为标绘曲线图或整理成数学公式打下基础。设计实验数据表应注意的事项如下。
①表格设计要力求简明扼要,一目了然,便于阅读和使用。记录、计算项目要满足实验需要,如原始数据记录表格上方要列出实验的有关常数项。
②表头列出物理量的名称、符号和计算单位。符号与计量单位之间用斜线“/”隔开。斜线不能重叠使用。计量单位不宜混在数字之中,造成分辨不清。
③注意有效数字位数,即记录的数字应与测量仪表的准确度相匹配,不可过多或过少。
④物理量的数值较大或较小时,要用科学记数法表示。以“物理量的符号×10±n/计量单位”的形式记入表头。注意:表头中的10±n与表中的数据应服从下式:物理量的实际值×10±n=表中数据。
⑤为便于引用,每一个数据表都应在表的上方写明表号和表题(表名)。表号应按出现的顺序编写并在正文中有所交代。同一个表尽量不跨页,必须跨页时,在跨页的表上须注“续表×××”。
⑥数据书写要清楚整齐。修改时宜用单线将错误的划掉,将正确的写在下面。各种实验条件及作记录者的姓名可作为“表注”,写在表的下方。
(2)图示法 实验数据图示法就是将整理得到的实验数据或结果标绘成描述因变量和自变量的依从关系的曲线图。该法的优点是直观清晰,便于比较,容易看出数据中的极值点、转折点、周期性、变化率以及其他特性,准确的图形还可以在不知数学表达式的情况下进行微积分运算,因此得到广泛的应用。实验曲线的标绘是实验数据整理的第二步,为得到与实验点位置偏差最小而光滑的曲线图形,正确作图必须遵循如下基本原则:
①坐标系的恰当选择 常用的坐标系为直角坐标系、单对数坐标系和对数坐标系。
②坐标纸的恰当选择 常用的坐标纸为直角坐标纸、单对数坐标纸和对数坐标纸。
③坐标分度的恰当选择 即选择适当的坐标比例尺。
具体作图时应注意的事项如下。
①对于两个变量的系统,习惯上选横轴为自变量,纵轴为因变量。在两轴侧要标明变量名称、符号和单位。尤其是单位,初学者往往因受纯数学的影响而容易忽略。
②坐标分度要适当,使变量的函数关系表现清楚。
③实验数据的标绘。若在同一张坐标纸上同时标绘几组测量值,则各组要用不同符号(如:⚪、△、×等)以示区别。若n组不同函数同绘在一张坐标纸上,则在曲线上要标明函数关系的名称。
④图必须有图号和图题(图名),图号应按出现的顺序编写,并在正文中有所交代。必要时还应有图注。
⑤图线应光滑。利用曲线板等工具将各离散点连接成光滑曲线,并使曲线尽可能通过较多的实验点,或者使曲线以外的点尽可能位于曲线附近,并使曲线两侧的点数大致相等。
(3)回归分析法 目前,在寻求实验数据各变量关系间的数学模型时,应用最广泛的一种数学方法即回归分析法。用这种数学方法可以从大量观测的散点数据中寻找到能反映事物内部的一些统计规律,并可以用数学模型形式表达出来。回归分析法与计算机相结合,已成为确定经验公式最有效的手段之一。回归也称拟合。对具有相关关系的两个变量,若用一条直线描述,则称一元线性回归,用一条曲线描述,则称一元非线性回归。对具有相关关系的三个变量,其中一个因变量、两个自变量,若用平面描述,则称二元线性回归,用曲面描述,则称二元非线性回归。以此类推,可以延伸到n维空间进行回归,则称多元线性回归或多元非线性回归。处理实验问题时,往往将非线性问题转化为线性来处理。建立线性回归方程的最有效方法为线性最小二乘法,以下主要讨论用最小二乘法回归一元线性方程。
在科学实验的数据统计方法中,通常要从获得的实验数据(xi,yi,i=1,2,…,n)中,寻找其自变量xi与因变量yi之间的函数关系y=f(x)。由于实验测定数据一般都存在误差,因此,不能要求所有的实验点均在y=f(x)所表示的曲线上,只需满足实验点(xi,yi)与f(xi)的残差di=yi-f(xi)小于给定的误差即可。此类寻求实验数据关系近似函数表达式y=f(x)的问题称为曲线拟合。曲线拟合首先应针对实验数据的特点,选择适宜的函数形式,确定拟合时的目标函数。例如在取得两个变量的实验数据之后,若在普通直角坐标纸上标出各个数据点,如果各点的分布近似于一条直线,则可考虑采用线性回归求其表达式。
设给定n个实验点(x1,y1),(x2,y2),…,(xn,yn),可以利用一条直线来代表它们之间的关系:
y'=a+bx
式中 y'——由回归式算出的值,称回归值;
a,b——回归系数。
其中
引入相关系数r对回归效果进行检验,相关系数r是说明两个变量线性关系密切程度的一个数量性指标。若回归所得线性方程为:y'=a+bx,则相关系数r的计算式为:
r的变化范围为-1≤r≤1,其正、负号取决于,与回归直线方程的斜率b一致。当r=±1时,即n组实验值(xi,yi),全部落在直线y=a+bx上,此时称完全相关。当0<|r|<1时,代表绝大多数的情况,这时x与y存在着一定线性关系。当r>0时,y随x增加而增加,此时称x与y正相关。当r<0时,y随x增加而减少,此时称x与y负相关。|r|越小,散点离回归线越远,越分散。当|r|越接近1时,即n组实验值(xi,yi)越靠近y=a+bx,变量与x之间的关系越接近于线性关系。当r=0时,变量之间就完全没有线性关系。没有线性关系,并不等于不存在其他函数关系。
(4)实验数据的记录
①实验数据的记录应有专门的、预先编有页码的实验记录本。记录实验数据时,本着实事求是和严谨的科学态度,对各种测量数据及有关现象,认真并及时准确地记录下来。切忌夹杂主观因素随意拼凑或伪造数据。绝不能将数据记录在单片纸或记在书上、手掌上等。
②实验开始之前,应首先记录实验名称、实验日期、实验室气候条件(包括温度、湿度和天气状况等)、仪器型号、测试条件及同组人员姓名等。
③实验过程中测量数据时,应根据所用仪器的精密度正确记录有效数字的位数。用万分之一分析天平称量时,要求记录至0.0001g;移液管及吸量管的读数应记录至0.01mL;用分光光度计测量溶液的吸光度时,如吸光度在0.6以下,读数记录至0.001,大于0.6时,读数记录至0.01。
④实验过程中的每一个数据都是测量结果,重复测量时,即使数据完全相同,也应认真记录下来。
⑤记录过程中,对文字记录,应整齐清洁;对数据记录,应采用一定表格形式,当发现数据算错、测错或读错需要改动时,可将该数据用双斜线划去,在其上方书写正确的数字,并由更改人在数据旁签字。
⑥实验完毕,将完整实验数据记录交给实验指导教师检查并签字。
(5)实验数据的处理和结果表达 实验数据的处理是将测量的数据经科学的数学运算,推断出某量值的真值或导出某些具有规律性结论的整个过程。通常包括实验数据的表达、数据的统计学计算和结果表达。
(6)实验数据的表达 数据表达可用列表法、图解法和数学方程式表示法显示实验数据间的相互关系、变化趋势等相关信息,清楚地反映出各变量之间的定量关系,以便进一步分析实验现象,得出规律性结论。
①列表法 列表法是将有关数据及计算按一定形式列成表格,具有简单明了、便于比较等优点。实验的原始数据一般用列表法记录。
②图解法 图解法是将实验数据各变量之间的变化规律绘制成图,能够把变量间的变化趋向,如极大、极小、转折点、周期性以及变化速率等重要特性直观地显示出来,便于进行分析研究。该法现在主要通过计算机相关处理软件进行绘图。
③数学方程式表示法 仪器分析实验数据的自变量与因变量之间多呈直线关系,或是经过适当变换后,使之呈现直线关系,通过计算机相关处理软件处理后便得到相应的数学方程式(也叫回归方程)。许多分析方法利用这一特性由数学方程式计算出待测组分的含量。
(7)数据的统计学处理 在仪器分析实验中主要涉及的统计学处理有可疑值的取舍、平均值、标准偏差和相对标准偏差等,有关计算方法参阅相关教材内容。对于分析结果,当含量大于1%且小于10%时,用3位有效数字表示;当含量大于10%时,则用4位有效数字表示。
根据测量仪器的精密度和计算过程的误差传递规律,正确地表达分析结果,必要时还要表达其置信区间。对于方法的正确性,要从精密度和准确度两个方面进行评价。精密度可以用重复性实验进行评价,即在一个相当短的时间内,用选用的方法对同一份样品进行多次(一般最多20次)重复测定,要求其变异系数(相对标准偏差)小于5%;准确度可用回收实验进行评价,即将被测物的标准溶液加入待测试样中作为回收样品,原待测试样中加入等量的无被测物的溶剂作为基础样品,然后同时用选用方法对两试样进行测定,通过以下公式计算出回收率:
要求回收率应为95%~105%。