近红外光谱分析技术的数据处理方法

来源:百度文库 编辑:神马文学网 时间:2024/04/18 20:50:39
引言
近红外是指波长在780nm~2526nm范围内的光线,是人们认识最早的非可见光区域。习惯上又将近红外光划分为近红外短波(780nm~1100nm)和长波(1100 nm~2526 nm)两个区域.近红外光谱(NearInfrared Reflectance Spectroscopy,简称NIRS)分析技术是一项新的无损检测技术,能够高效、快速、准确地对固体、液体、粉末状等有机物样品的物理、力学和化学性质等进行无损检测。它综合运用了现代计算机技术、光谱分析技术、数理统计以及化学计量学等多个学科的最新研究果,并使之融为一体,以其独有的特点在很多领域如农业、石油、食品、生物化工、制药及临床医学等得到了广泛应用,在产品质量分析、在线检测、工艺控制等方面也获得了较大成功。近红外光谱分析技术的数据处理主要涉及两个方面的内容:一是光谱预处理方法的研究,目的是针对特定的样品体系,通过对光谱的适当处理,减弱和消除各种非目标因素对光谱的影响,净化谱图信息,为校正模型的建立和未知样品组成或性质的预测奠定基础;二是近红外光谱定性和定量方法的研究,目的在于建立稳定、可靠的定性或定量分析模型,并最终确定未知样品和对其定量。
1工作原理
近红外光谱区主要为含氢基团X-H(X=O,N,S,单健C,双健C,三健C等)的倍频和合频吸收区,物质的近红外光谱是其各基团振动的倍频和合频的综合吸收表现,包含了大多数类型有机化合物的组成和分子结构的信息。因为不同的有机物含有不同的基团,而不同的基团在不同化学环境中对近红外光的吸收波长不同,因此近红外光谱可以作为获取信息的一种有效载体。近红外光谱分析技术是利用被测物质在其近红外光谱区内的光学特性快速估测一项或多项化学成分含量。被测样品的光谱特征是多种组分的反射光谱的综合表现,各组分含量的测定基于各组分最佳波长的选择,按照式(1)回归方程自动测定结果:组分含量=C0+C1(Dp)1+C2(Dp)2+…+Ck(Dp)k(1)式中:C0~k为多元线性回归系数;(Dp)1~k为各组分最佳波长的反射光密度值(D=-lgp,p为反射比)。该方程准确的反映了定标范围内一系列样品的测定结果,与实验室常规测定法之间的标准偏差SE为:SE=[Σ(y-x)2/(n-1)]1/2(2)式中:x表示实验室常规法测定值,y表示近红外光
谱法测值,n为样品数。
2光谱数据的预处理
仪器采集的原始光谱中除包含与样品组成有关的信息外,同时也包含来自各方面因素所产生的噪音信号。这些噪音信号会对谱图信息产生干扰,有些情况下还非常严重,从而影响校正模型的建立和对未知样品组成或性质的预测。因此,光谱数据预处理主要解决光谱噪音的滤除、数据的筛选、光谱范围的优化及消除其他因素对数据信息的影响,为下步校正模型的建立和未知样品的准确预测打下基础。常用的数据预处理方法有光谱数据的平滑、基线校正、求导、归一化处理等。
2.1数据平滑处理
信号平滑是消除噪声最常用的一种方法,其基本假设是光谱含有的噪声为零均随机白噪声,若多次测量取平均值可降低噪声提高信噪比。平滑处理常用方法有邻近点比较法、移动平均法、指数平均法等。
2.1.1邻近点比较法
对于许多干扰性的脉冲信号,将每一个数据点和它旁边邻近的数据点的值进行比较可以测得其存在。如果与邻近点的数值相差太大,超过给定的阈值,便可认为该数据是一个脉冲干扰,并通过邻近数据点的平均值来取代这一数据点值,就可以把这一干扰脉冲去掉,这样不影响信号的其它部分。在这一数据点处理过程中,需注意选择调节参数,也就是考虑邻近数据点值,以及判断一个数据点和邻近数据点之间不同的阈值。这个阈值一般定义为噪音测量偏差的倍数,以免把必要的有用信号去掉。这一方法有时也称为邻近点平滑法,也叫做单点平滑法。
2.1.2移动平均法
由于平滑是通过对信号进行平均而减小噪音,因而多点平滑效果更好。移动平均法是多点平滑中最简单的一种。先选择在数据序列中相邻的奇数个数据点,这奇数个数据点即构成一个窗口。计算在窗口内奇数个数据点的平均值,然后用求得的平均值代替奇数个数据点中的中心数据点的数据值,这样我们就得到了数据平滑后的一个新的数据点。接着去掉窗口内的第一个数据点,并添加上紧接着窗口的下一个数据点,形成移动后的一个新窗口,其中的总数据个数不变。同样地,用窗口内的奇数个数据点求平均值,并用它来代替窗口中心的一个数据点.如此移动并平均直到最后。
2.1.3指数平均法
指数平均法是计算在一个具有m个数据点的移动窗口中的各数据点的加权平均.在窗口的最后一个点p1即为要平滑的点,它的权重最大,而前面的每个点分配到的权重依次递减。权重系数由平滑时间常数为T的指数函数e-ji(j标志i前面第j个点,即j=-(m-1),-(m-2),…,-1,0(要平滑的点i的j=0)的形状来决定。p1后点的权重为0,这一过滤函数是用点i前面的点对第i个数据点进行平滑。这一过程和用电子RC滤波器(阻容滤波器)的实时平滑类似。由于该平滑函数是不对称的,故在平滑后的数据中引入了单向失真,这一点也和实时RC滤波器一样。除了获得期望的信噪比降低外,指数平均的结果是峰的最大值下降,同时发生移动。由于用平滑常数T对峰值进行指数平滑和具有时间常数Tx=T的仪器测量该峰的效果相同,因此T和峰宽比值函数的强度下降值从实验测量和理论计算都可得到。
2.2基线校正
由于仪器背景、样品粒度和其它因素的影响,近红外分析中常常出现基线漂移和倾斜现象。采用基线校正可有效地消除这些影响。操作时可选用峰谷点扯平、偏移扣减、微分处理和基线倾斜等方法,其中最常用的是一阶微分和二阶微分,但在微分处理时,要注意微分级数和微分数据点的选择。
2.3数据求导处理
近红外分析中,对于样品不同组分之间的相互干扰导致吸收光谱谱线重叠的现象,可采用求导的方法进行处理。其中常用的是一阶导数和二阶导数。一阶导数表示为:yi′=yi+g-yi-g二阶导数表示为:yi″=yi+2g-2yi+yi-2g式中:g为光谱间隔,大小可视具体情况设定。对光谱求导一般有两种方法:直接差分法和Savitzky Golay求导法。对于分辨率高、波长采样点多的光谱,直接差分法求取的导数光谱与实际相差不大,但对于稀疏波长采样点的光谱,该方法所求的导数则存有较大误差,这时可采用Savitzky Golay卷积求导法计算。
2.4归一化处理
用于消除光程变化或样品稀释等变化对光谱产生的影响。有三种光谱归一化方法:最小/最大归一化、矢量归一化、回零校正。其中常用的是矢量归一化,它是先计算出光谱的y平均值,再用光谱减去该平均值,这样光谱的中值为零,计算所有的y值的平方和,然后用光谱除以该平方和的平方根,结果光谱的矢量归一化是1。回零校正是将光谱减去最小的y值,使得最小y值变为0。
3近红外光谱分析常用的数据处理方法
样品的近红外光谱包含了物质的组成和结构信息。而物质质量参数(如成分含量)也与其组成结构相关。应用化学计量学方法对两者进行关联,就可确定这两者间的定性或定量关系,即定标模型。建立定标模型后,只要测出未知样品的近红外谱,根据标模型就可以预测样品的质量参数。近红外光谱分析常用的计量方法有:主成分分(PrincipalComponentAnalysis,PCR),偏最小二乘法(PartialLeast Squares,PLS)和人工神经网络法(Artificial
Neural Network,ANN)等。它们都是常用的化学计量学方法,有着各自的优点和局限。
3.1主成分分析法(PCR)
主成分分析法是使用最为广泛的线形降维方法之一,该方法概念简单易懂,实现算法高效,因而在许多降维处理中应用都很广泛。主成分分析法将方差的大小作为衡量信息量多少的标准,认为方差越大提供的信息越多,反之提供的信息就越少。其基本思想是通过线形变换保留方差大、含信息多的分量,丢掉信息量少的方向,从而降低数据的维数。降维后每个分量是原变量的线形组合,因此,主成分分析方法本质上是一种线形降维的方法。其计算步骤一般分为以下四步:
1)对原始数据样本集合进行标准化处理。
2)计算标准化后的数据矩阵的协方差矩阵,并对其进行正交分解,得出主成分分量。
3)计算各主成分的累计贡献量,根据要求的贡献率阈值选取主成分。
4)针对选取的主成分建立主成分方程,计算主成分值。
PCR把原自变量映射为含绝大部分信息的少数潜变量,再用线性的最小二乘确定这些潜变量系数,建立潜变量和因变量的回归方程后再转换为原自变量和因变量的回归方程。其压缩自变量的效率极高,但其映射过程和因变量无关,因而其预测精度也难达
到很高。
3.2偏最小二乘法(PLS)
偏最小二乘法(Partial least squares regression,简称PLS)将因子分析和回归分析结合的方法,很好地解决了许多以往用普通多元线性回归难以解决的问题。用近红外光谱数据来预测样品的组成含量时,作为解释变量的近红外反射光谱的波长有几百个甚至几千个,往往超过了样本的个数,造成多重相关,难用普通的多元线性回归方法来建立稳健、精度较高的
数学模型。PLS通过因子分析将光谱(多维空间数据,维数相当于波长数目)压缩为较低维空间数据,其方法是将光谱数据向协方差最大方向投影,将原近红外光谱分解为多种主成分光谱,不同近红外光谱的主成分分别代表不同组分和因素对光谱的贡献,通过对主成分的合理选取,去掉代表干扰组分和干扰因素主成分,选用有用的主成分参与回归。为了建立由各因素构成的数据矩阵X与由各目标构成的数据矩阵Y之间的关系,其中X包含p个变量,Y包含pi个变量,样本数为m,用PLS方法处理时,首先将X矩阵作为双线性分解,即X=TPT+F,其中矩阵T含有两两正交的隐变量。PLS方法与主成分分析方法的不同之处在于,主
成分分析法要求分解后得到的隐变量t的方差为最大,而不考虑矩阵Y的关系,而用PLS方法时,需要用到矩阵Y中的信息,矩阵Y也可作双线性分解,即Y=UQT+E。其中U矩阵包含Y的隐变量u,即u为矩阵Y中变量的线性组合,E为残差阵。PLS方法要求X分解得到的隐变量t与Y分解得到的隐变量u为最大重叠或相关性最大,因此有u=vt+e,式中e为残差矢量,系数v根据最小二乘确定。所以PLS是一种具有较好发展前景的新型数据处理方法,是近年来因实际需要而产生和发展的一个广泛使用的多元统计数据分析方法。例如:王宏等将遗传算法应用于无创伤人体血糖浓度光学检测的基础研究中,在偏最小二乘法校正模型的波长优化选择中具有显著的效果。将遗传算法作为模块循环运行,能更快达到最优解,有效提高测量精度。Bangalore等以LAIRS测量水中有机物含量为例,研究了遗传算法用于优化PLS建立多元校正模型的波长和特征变量数。张大仁、赵立新将遗传算法和偏最小二乘法结合应用于定量结构活性关系研究中,得到较好的QSAR模型。
3.3人工神经网络法(ANN)
ANN始于20世纪40年代初。它的基本思想是模拟人脑细胞(神经元)工作原理,以建立模型进行分类和预测的。人工神经网络的最大优点是它的抗干扰、抗噪音能力和它的非线性转换能力。ANN用于非线性模型(也可用于线性模型),其缺点是学习时间较长,但只要得到模型参数,进行预测时能立即得到结果。神经网络的连接方式有很多种,使用较多的是反向传输模型,即BP(back-propagation)模型,在1986年由Rumelhart,Hinton和Williams等人提出。该模型可以实现数据处理的定量预测,也可以用于模式识别。在近红外光谱的光谱数据处理中,无论是对样品的组成、质量指标预测,还是模式识别分类,都可以人工神经网络在近红外光谱分析中有着不可替代的作用,特别是在解决非线性数据处理方面优势明显。例如:Tanabe等利用神经网络系统对1129个红外谱图进行识别,系统由两部分组成,能在0.1s内鉴别未知谱。王志有等采用BP人工神经网络光度法对复合维生素片中的VB1,VB2,VB6和VPP进行了同时测定,得到了较为准确的结果。张卓勇等论述了人工神经网络在光谱分析重叠信号解析中的应用,将基于计算最大差异光谱的目标转换因子分析法,用于解析混合物的红外光谱和从混合物的红外光谱中解析出纯组分光谱,得到了满意的结果。
以上几种红外光谱的数据处理方法可根据建模模型以及实际情况灵活选择。主成分回归方法可有效解决譬如共线问题、变量数使用限制问题并在一定程度上解决了噪音滤除问题,缺点是不能保证参与回归的主成分一定与被测组分的性质有关。偏最小二乘法把数据分解和回归融合在一起,得到的特征值向量直接与被测组分或性质有关,适于非线性数据的建模,缺点是建模过程复杂。对谱峰重叠严重、有用信号较弱、噪音较大的谱图,可用人工神经网络法建模。4结语数据处理和分析方法是现场光谱技术三大技术主题之一。若没有有效的数据处理和分析方法,即使仪器质量再好,得出的谱图再清晰、准确,这些数据也不能直接给出任何面向最终应用的有用信息.更何况,在现场的恶劣条件下,得到的谱图必然包含各种噪音和干扰信号,若不进行适当的预处理和分析,则良莠不齐的数据势必使最终结论的可靠性和准确性大打折扣。对于每一种化学计量学方法而言,它们都有各自的优缺点。因此,将各种方法联合使用,相互取长补短,将是今后发展的方向。