网站首页 > 文章精选 正文
撸陆知识小课堂,每周都有干货内容等着大家!
摘要
微塑料(MPs)污染是一个全球性且具有挑战性的问题,需要制定有效的分析策略来检测它们以监测其对环境的影响。
本研究旨在确定一种通过高光谱成像 (HSI) 表征 MP 的最佳分析方案,比较基于空间分辨率、光谱范围和分类模型的不同设置。所研究的 MP 包括环境中常见的聚合物,例如聚苯乙烯 (PS)、聚丙烯 (PP) 和高密度聚乙烯 (HDPE),细分为三个尺寸等级(1000-2000 μm、500-1000 μm、250-500 μm)。此外,还评估了直径从 30 到 250 μm 的 MP 颗粒,以确定不同配置的检测限 (LOD)。高光谱图像以两种空间分辨率(150 和 30 μm/像素)和两种光谱范围(1000-1700 nm(NIR)和 1000-2500 nm(SWIR))获取。在获取的图像上测试了三种分类模型,即偏最小二乘判别分析 (PLS-DA)、误差修正输出编码支持向量机 (ECOC-SVM) 和神经网络模式识别 (NNPR)。通过预测图和统计参数 (召回率、特异性和准确度) 评估这些模型的正确性。结果表明,对于大于 250 μm 的 MP 颗粒,最佳设置为空间分辨率为 150 μm/像素,光谱范围为 1000–1700 nm,使用线性分类模型 (如 PLS-DA)。这种方法可以提供准确的预测,同时节省时间和成本。对于小于 250 μm 的 MP,更高的空间分辨率 (30 μm/像素),光谱范围为 1000–2500 nm,以及非线性分类方法 (如 ECOC-SVM) 是可取的。对于 150 μm/像素分辨率,LOD 为 250 μm;对于 30 μm/像素分辨率,LOD 范围为 100 至 200 μm。这些发现为选择合适的 HSI 采集条件和数据处理方法以最佳地表征不同尺寸的 MP 提供了宝贵的指导。
引言
微塑料(MP)可定义为粒径在 5,000 至 0.1 μm 之间的原生或次生塑料颗粒,在过去的一个世纪里,许多海洋和陆地环境中的 MPs 污染显著增加,甚至在人类身上也检测到了它们。出于这些原因,作为一种新兴的普遍污染物,MPs 受到全球越来越多的关注,需要找到有效、快速和准确的方法来检测和分析不同环境基质中的这些颗粒。
近年来,已经开展了多项用于检测和量化 MP 的分析技术研究。然而,MP 的尺寸、形状和成分种类繁多,因此识别它们仍是一项非常复杂的挑战。在这种情况下,能够识别聚合物类型的分析方法是 MP 研究的重要组成部分。
近年来,高光谱成像(HSI)已成为分析环境样品中 MP 的有力技术。这种先进的传感技术将数字成像的空间信息与光谱的光谱信息相结合,以高光谱分辨率收集所研究波长范围内所获取图像的每个像素的光谱特征。所获取的三维数据集通常称为超立方体,并通过化学计量逻辑对其进行处理以提取所需信息。
在 NIR-SWIR 区域(1000–1700 和 1000–2500 nm)工作的 HSI 已成功应用于回收行业中按聚合物识别塑料废物。由于 HSI 具有从宏观到微观尺度的灵活性,可以根据所分析样本的大小修改视野和像素分辨率,因此这种经过验证的能力可以转移到应对微塑料分析日益严峻的挑战。此外,HSI 技术由于采集 MP 所需的样品制备极少而极具吸引力。尽管 HSI 在 MP 鉴定方面具有巨大优势,尤其是与通常应用的最流行技术(例如 FT-IR 和拉曼光谱)相比,它缩短了分析时间,但仍需要定义一个标准化的 HSI MP 分析协议。为定义标准化方法,必须更好地研究的主要方面是适当选择:1) 空间分辨率(即图像像素大小);2) 光谱范围和 3) 数据处理的分类模型。
高光谱成像系统中的空间分辨率是指传感器区分所获取图像中的空间细节的能力。它由传感器中像素的大小决定,影响图像的清晰度和细节。空间分辨率越高,可以分辨的细节越小。然而,增加空间分辨率往往会降低传感器的光谱分辨率或灵敏度。更高的空间分辨率意味着每个像素检测到的能量分布在较小的区域上,这会降低信噪比,从而降低图像质量。HSI 设备的空间分辨率选择对于定义 MP 粒子检测极限 (LOD) 至关重要,确保系统针对检测最小粒子进行优化,同时便于比较不同研究的结果。需要强调的是,空间分辨率通常与 LOD 不一致,因为粒子可能需要多个像素才能提供显著的光谱特征 。
从经济和技术角度来看,光谱范围的选择都很重要。在 1000–1700 nm 光谱范围内工作的 HSI 传感器成本较低,广泛应用于各个领域的塑料识别。然而,将光谱范围扩大到 2500 nm 可以显著提高塑料识别率,特别是在信噪比较低的情况下。通过评估和比较 HSI 在 NIR 和 SWIR 范围内分别识别 MP 所获得的结果,可以评估根据其典型光谱特征在两个光谱范围内区分不同聚合物的能力,还可以确定每个光谱范围内 MP 颗粒的 LOD。根据结果,可以确定是否必须包括 1700-2500 nm 的波长范围以实现最佳分类,并根据所研究的 MP 样本选择最具成本效益的解决方案。
最后,选择最合适的分类模型是 HSI 材料识别的关键方面。线性模型(例如偏最小二乘判别分析 (PLS-DA))简单、训练速度快且易于解释。然而,它们在处理高光谱数据的复杂性方面受到限制,因为变量之间的关系可能是非线性的。非线性模型(例如非线性支持向量机或神经网络)在捕捉这些复杂性方面提供了更大的灵活性,并提高了识别准确性。然而,非线性模型的训练过程可能更复杂,如果高光谱数据具有线性趋势,则会增加过度拟合的风险。对数据处理的不同分类模型进行比较,有助于根据 MPs 粒子的大小确定哪种模型提供最可靠的结果,从而找到计算复杂性和准确性之间的平衡,并以此减少分析时间。
因此,本研究的主要目的是调查上述方面,以便定义一种有价值的协议,用于通过 HSI 表征 MP,作为一种快速、非侵入性和非破坏性的分析方法。该协议旨在提供有关基于 HSI 的分析程序的有价值的信息,以提高不同大小 MP 识别的计算和仪器效率。比较和讨论了通过不同的基于 HSI 的分析设置获得的 MP 分类结果,参考选择两种不同的空间分辨率和光谱范围以及三种分类模型,并根据预测图和统计参数(召回率、特异性和准确性)评估了其效率。最后,对不同的设置进行了 LOD 分析,确定了 30 至 250 μm 范围内 MP 颗粒的最佳分析条件。
材料与方法
2.1微塑料样品制备
所研究的 MP 样品是从消费后塑料包装的粉碎物中获得的,这些塑料包装是从环境中最普遍的聚合物中选择出来的,例如 PS、PP 和 HDPE。使用切割机(SM 2000,Retsch GmbH,德国)进行尺寸减小过程。对于每种研究的聚合物,使用堆叠筛制备 3 个尺寸等级,即尺寸 1:-2000 μm +1000 μm;尺寸 2:-1000 μm +500 μm;尺寸 3:-500 μm + 250 μm。将每种尺寸等级的三种聚合物的选定 MPs 颗粒分散和散布在黑色背景上,以构建校准数据集(图 1a ) 和行 (图 1b) 建立验证数据集,增强最小颗粒的辨别能力,并考虑与其三维性质相关的方差以及由于颗粒接近而引起的信号干扰。
图 1.选定的三种聚合物(PS、PP 和 HDPE)的 MP,按大小分类(大小 1:-2000 μm +1000 μm;大小 2:-1000 μm +500 μm;大小 3:-500 μm +250 μm)放置在黑色背景上,以分散和批量方式排列,构建校准数据集(a),并按线排列,创建验证数据集(b)。
此外,在立体显微镜下选择直径为 30 至 250 μm 的 MPs 颗粒(图 2) 来评估不同 HSI 架构设置的 LOD(就研究的光谱范围、空间分辨率和分类模型而言)。
图 2 .用于 LOD 评估的三种聚合物的选定 MP,直径范围约为 30 至 250 μm。
2.2分析方法
2.2.1 .高光谱成像架构设置
图像采集使用推扫式传感器Specim SWIR进行,该传感器嵌入了ImSpectorTM N25E(Specim(R),芬兰),工作在SWIR范围(1000-2500 nm),配有MCT相机(320×240像素),位于罗马Sapienza大学化学工程、材料与环境系(DICMA)的原材料实验室(RawMaLab)。采集的光谱带数量为240,光谱分辨率为10 nm。使用两个不同的物镜以两种不同的空间分辨率采集高光谱图像:1)31 mm 镜头,覆盖 5 cm 视场(FOV),对应于空间分辨率为 150 μm/像素,扫描速度为 17.35 mm/s; 2)微距镜头,覆盖 1 cm 视场,对应空间分辨率为 30 μm/像素,扫描速度为 2.55 mm/s。采用漫射线照明装置,优化各种表面的成像。超立方体的反射率由内部标准参考目标自动设置。
2.2.2高光谱数据处理与分析
考虑到所研究的三个尺寸类别(尺寸 1、2 和 3),以两种不同的空间分辨率(分别为 150 μm/像素和 30 μm/像素)获取了包括 PS、PP 和 HDPE 颗粒在内的 MP 的不同高光谱图像,并采用了两种不同的颗粒分组(即分散和块状),以创建校准和验证数据集。数据集是在 1000–2500 nm 的光谱范围内获取的,然后将其缩小以获得 1000–1700 nm 的范围,从而为两个光谱范围中的每一个产生不同的数据集。
生成了两个马赛克校准数据集(图 S1),每个空间分辨率一个,包含 18 张高光谱图像(即 3 种聚合物 × 3 种尺寸类别 × 2 种不同的粒子组)。以 150 μm/像素获取的马赛克校准数据集的尺寸为 710 × 2611 像素,1000–2500 nm 范围内的数据集大小为 3.8 GB,1000–1700 nm 范围内的数据集大小为 1.7 GB。以 150 μm/像素获取的马赛克校准数据集的尺寸为 2017 × 2880 像素,1000–2500 nm 范围内的数据集大小为 11.95 GB,1000–1700 nm 范围内的数据集大小为 5.3 GB。
此外,还创建了一个马赛克验证数据集,该数据集由 9 张高光谱图像(即:3 种聚合物 × 3 个尺寸类别)组成,适用于两种空间分辨率,包含排列成行的选定 MP 颗粒,用于评估分类器在识别不同尺寸 MP 方面的预测性能。在 150 μm/像素下获取的马赛克验证数据集的尺寸为 748 × 367 像素,1000–2500 nm 范围内的数据集大小为 544.5 MB,1000–1700 nm 范围内的数据集大小为 242.96 MB。在 30 μm/像素下获取的马赛克验证数据集的尺寸为 1597 × 1491 像素,1000–2500 nm 范围内的数据集大小为 4.9 GB,1000–1700 nm 范围内的数据集大小为 2.2 GB。
最后,为了评估 MP 粒子的 LOD,对尺寸范围为 30 至 250 μm 的单个粒子进行了特定测试。应用所有开发的模型在两个考虑的空间分辨率和光谱范围内对这些粒子进行分类。
HSI 数据处理使用在 MATLAB(R) 环境(版本 R2022b,The Mathworks, Inc.,美国马萨诸塞州纳蒂克)中运行的不同工具进行,即:用于 PCA 和 PLS-DA 的 PLS 工具箱(版本 9.2 Eigenvector Research, Inc.,美国华盛顿州韦纳奇)以及用于 ECOC-SVM 和 NNPR 的统计和机器学习工具箱TM。
2.2.2.1 .图像预处理
预处理算法是从最适用于 NIR 数据的算法中选择的,包括与塑料样品相关的。 特别是,标准正态变量(SNV)的组合、一阶导数(Savitzky 和 Golay,1964 年)(15 个点的窗口)和平均中心 (MC)用于突出所研究聚合物类别之间的光谱差异并去除异常值。SNV 可以解决由于路径长度和散射效应、检测器变化或其他仪器灵敏度效应而导致的缩放或增益效应。导数是一种用于从数据中去除不重要的基线信号的算法。MC 用于将数据居中,实际上它是一种用于消除方差数据解释不感兴趣的数据偏移的方法。
2.2.2.2 .主成分分析(PCA)
PCA 用于探索目的,根据所考虑类别(即背景、PS、PP 和 HDPE)得分图中的分离情况评估最佳预处理策略,并降低 ECOC-SVM 和 NNPR 分类器中的数据维数。PCA 是一种无监督方法,可以压缩数据维数,同时将信息损失降至最低,将样本投影到较低维子空间中,其中称为主成分 (PC) 的轴指向最大方差方向。载荷向量是每个主成分中原始变量的系数,表示每个特征对 PC 的贡献,从而有助于理解数据的底层结构。查看 PCA 得分图,可以检测到样本之间的相似性:它们分组越多,它们的光谱行为就越相似。
2.2.2.3 .分类模型
选择了三类四类(背景、PS、PP 和 HDPE)分类模型,其特点是数据处理和方法不同:PLS-DA、ECOC-SVM 和 NNPR。具体来说,PLS-DA 被选为基于数据协方差的最常见分类模型(Ballabio 和 Consonni,2013 年)。PLS-DA 是一种监督方法,需要事先了解数据,将样本分类为预定义和已知类别(Barker 和 Rayens,2003 年;Ballabio 和 Consonni,2013 年)是一种将偏最小二乘回归特征与判别能力相结合的分类方法。为了评估模型复杂度并选择适当数量的潜在变量(LV),每个PLS-DA模型都使用连续块方法进行交叉验证。之所以选择ECOC-SVM,是因为它具有将样本非线性映射到高维空间的优点,可以处理观测值与类别之间的非线性关系(Mishra 等人,2018 年ECOC-SVM 是一种分类方法,由两部分组成。第一部分称为“ECOC”,它是一种编码方法,将每个二分类模型视为传输通道,并通过输出代码将样本转换为正确的类别,从而将多类问题转化为多个二分类问题。第二部分称为“SVM”,它表示二分类,它在样本响应之间创建边界,以根据从每个样本可用信息生成的分类函数提供类区域。然后,这些函数和边界可以预测新样本(Deng 等,2017 年;Duan 等人,2021 年最终,NNPR 被选为基于深度学习的方法之一,该方法在高维数据(如高光谱图像)上取得了良好的性能(Hu 等,2015 年NNPR是模式识别领域的一个新兴研究方向,与传统的模式识别方法相比,它具有鲁棒性、高效容错、自学习等优点(周等,2016)。一般来说,一个完整的NNPR架构分为三层,即输入层、隐藏层和输出层。这些神经元通过具有权重的链接连接,这些权重的选择是为了满足输入和输出神经元之间的预期关系(Li 等,2014 年;Chang 等人,2013 年)。这里使用 Matlab 中定制的“ Patternnet ”网络,使用两级前馈网络解决模式识别问题。对于权重初始化,使用 Nguyen-Widrow 初始化算法。前馈的激活函数和训练算法分别是切线 S 形和 Levenberg-Marquardt 方法。对于 NNPR 模型,通过 PCA 进行降维降低了对超参数变化的敏感性,例如神经元数量和学习率,从而简化了其构造并减少了计算负荷。为了优化超参数,将校准数据集分成 70% 用于训练,30% 用于验证。使用交叉熵误差评估模型性能,该误差衡量预测概率和实际类概率之间的差异,层大小设置为 30。最后,在外部数据集上验证模型,使用与 PLS-DA 和 ECOC-SVM 相同的方法。
2.2.2.4 .绩效指标
在 4 类分类模型中,通过将一个类视为正类而将所有其他类视为负类来计算每个类的真正类 (TP)、真阴性类 (TN)、假阳性类 (FP) 和假阴性类 (FN)。TP 指的是正确分类到当前类中的实例,TN 是属于其他类并被正确排除在当前类之外的实例,FP 是错误地归类为属于当前类的其他类的实例,FN 是错误地归类为属于其他类的当前类的实例。从 TP、TN、FP 和 FN 的值可以得出召回率(或二元分类中的敏感度)、特异性和准确度。召回率定义为 TP 的数量除以 TP 和 FN 的总和。特异性是 TN 的数量除以 TN 和 FP 的总和。准确率是正确分类的实例(TP 和 TN)占实例总数(TP、TN、FP、FN)的比例,代表分类模型的整体有效性(特征向量,2018)。这些指标的范围从 0 到 1,其中 1 表示理想值。每个开发的分类模型的参数性能都是使用基于像素的方法计算的,考虑了训练集的校准 (Cal) 和交叉验证 (CV),以及验证集的预测 (Pred)。
欲知后事如何,请听下回分解
信撸陆 不迷路
- 上一篇: 锂离子电池剩余使用寿命预测方法综述
- 下一篇: 基于混合重采样的非平衡数据SVM训练方法
猜你喜欢
- 2025-01-21 生成式模型与判别式模型对比
- 2025-01-21 【A/B实验常见问题】实验异常值应该如何处理?
- 2025-01-21 数据异常值检测方法汇总and异常值处理
- 2025-01-21 在用油运动粘度测量
- 2025-01-21 基于混合重采样的非平衡数据SVM训练方法
- 2025-01-21 锂离子电池剩余使用寿命预测方法综述
- 2025-01-21 最重要的机器学习算法
- 2025-01-21 一文解释支持向量机
- 2025-01-21 当支持向量机遇上神经网络:SVM、GAN距离之间的关系
- 2025-01-21 支持向量机(SVM)简介
- 最近发表
- 标签列表
-
- newcoder (56)
- 字符串的长度是指 (45)
- drawcontours()参数说明 (60)
- unsignedshortint (59)
- postman并发请求 (47)
- python列表删除 (50)
- 左程云什么水平 (56)
- 计算机网络的拓扑结构是指() (45)
- 编程题 (64)
- postgresql默认端口 (66)
- 数据库的概念模型独立于 (48)
- 产生系统死锁的原因可能是由于 (51)
- 数据库中只存放视图的 (62)
- 在vi中退出不保存的命令是 (53)
- 哪个命令可以将普通用户转换成超级用户 (49)
- noscript标签的作用 (48)
- 联合利华网申 (49)
- swagger和postman (46)
- 结构化程序设计主要强调 (53)
- 172.1 (57)
- apipostwebsocket (47)
- 唯品会后台 (61)
- 简历助手 (56)
- offshow (61)
- mysql数据库面试题 (57)