论文咨询热线:
15889410801
你好,欢迎来到高端论文网
搜索
化学论文:血清拉曼光谱区分乙肝和丙肝的可行性
作者:管理员    发布于:2020-12-26 01:13:57    文字:【】【】【
摘要:摘 要: 本研究利用血清拉曼光谱结合模式识别技术直接对乙肝和丙肝进行分类。实验中测量了480名乙肝患者和346名丙肝患

 摘 要: 本研究利用血清拉曼光谱结合模式识别技术直接对乙肝和丙肝进行分类。实验中测量了480名乙肝患者和346名丙肝患者的血清样本用于分析。通过基线校正对采集到的原始光谱进行预处理,然后使用主成分分析技术(PCA)降低光谱数据维度提取有效的光谱数据特征,最后使用支持向量机(SVM)等算法评估乙肝与丙肝之间的差异。本文研究了粒子群优化(PSO)和网格寻优(GS)两个不同寻优算法的支持向量机模型对乙肝患者和丙肝患者分类,此外还通过学习矢量量化(LVQ),极限学习机(ELM),线性判别分析(LDA)等模式识别算法对乙肝和丙肝分类与支持向量机模型进行了对比。在当前的研究中,PSO-SVM算法模型取得了最佳的分类性能,准确率达到96.74%。本研究结果表明,血清拉曼光谱技术结合PCA-PSO-SVM算法用于区分乙型肝炎和丙型肝炎具有很大的潜力,该技术可用于乙肝和丙肝的区分。

  关键词: 拉曼光谱; 乙肝; 丙肝; 主成分分析; 粒子群优化; 支持向量机;

  Abstract: In this study,serum Raman spectroscopy combined with pattern recognition technology was used to classify hepatitis B and C directly.Serum samples from 480 hepatitis B patients and 346 hepatitis C patients were measured for analysis.The collected original spectra were preprocessed by baseline correction,and then Primary Conponent Analysis(PCA) was used to reduce the spectral data dimension to extract effective spectral data features.Finally,Support Vector Machine(SVM) and other algorithms were used to evaluate the difference between hepatitis B and C.This paper studies the support vector machine with two different optimization algorithms of Particle Swarm Optimization(PSO) and Grid Search(GS) to classify hepatitis B patients and C patients.Additionally,Learning Vector Quantization(LVQ),Extreme Learning Machine(ELM),Linear discriminant Analysis(LDA) and other pattern recognition algorithms were used to compare the classification of hepatitis B and C with the SVM model.In the current study,the PSO-SVM algorithm model achieved the best classification performance,and the accuracy of the model reached 96.74%. The results obtained in this work suggest that serum Raman spectroscopy combined with the PCA-PSO-SVM algorithm has great potential for distinguishing between hepatitis B and C.This technique can be used to distinguish between hepatitis B and C.

  Keyword: Raman spectroscopy; hepatitis B; hepatitis C; primary conponent analysis; particle swarm optimization; support vector machine;

  1 、引 言

  病毒性肝炎是由多种肝炎病毒引起的肝脏病变为主的一种传染病,是影响人类健康的严重威胁之一[1]。其中乙型肝炎和丙型肝炎是导致肝硬化和肝细胞癌变的主要原因,据世界卫生组织统计,全世界有3.5亿人患有慢性乙型肝炎病毒(HBV),1.7亿人患有慢性丙型肝炎病毒(HCV)[2]。为了降低这两种肝炎恶化的概率必须尽早对其进行治疗,但是针对这两种病毒的治疗方案差异很大[3],要想选择针对性的治疗方案必须提前对两种肝炎病毒进行区分,而两者在临床上的症状非常相似[4],仅凭患者的临床症状难以将乙肝患者和丙肝患者区分开来。目前针对乙肝丙肝诊断的研究中,Saranjam Khan进行了乙型肝炎病毒感染的诊断的研究[5],Marcio Cesar Reino Gaggini进行了丙型肝炎病毒感染的诊断的研究[6],但他们的研究并未涉及到乙肝和丙肝的区分,而Shahzad Anwar的研究证明了拉曼光谱可以用于区分乙肝患者和丙肝患者,但是样本量仅26例,且未从诊断的角度对其进行分析,很难实现实际应用[7]。因此本论文从快速诊断的角度利用拉曼光谱结合模式识别算法对乙肝和丙肝进行区分。

血清拉曼光谱区分乙肝和丙肝的可行性

  拉曼光谱是一种基于非弹性散射的光学分析技术,具有创伤小,灵敏度高等优点[8]。已被广泛用于甲状腺[9],高度肾素高血压[10], 前列腺癌[11],胃癌[12]等疾病的诊断。拉曼光谱提供了分子水平上血清的化学组成的详细信息[13],这为乙肝患者和丙肝患者的区分提供了基础。然而乙肝患者与丙肝患者的光谱差异较小,难以通过视觉观察实现高准确度的区分。因此,为了能够高效快速区别乙肝和丙肝,需要进一步建立高效的数学模型对两组样本进行分类。

  本篇论文通过多种分类算法对PCA处理后的数据进行分类[14],然后将不同模型的准确度进行比较,选出最佳模型。本论文的目的是探讨使用血清拉曼光谱直接区分乙肝和丙肝的可行性,通过这种方法我们可以准确的为患者选择针对性的治疗方案。

  2、 材料与方法

  2.1 、样品采集

  在我们的实验中,获得了来自感染HBV患者的480个新鲜血液样品和来自感染HCV患者的346个新鲜血液样品。从每个样本中获取3 mL新鲜血液,不加任何抗凝剂,将样品放在4 ℃下用高速离心机(4 000 r/min)离心20 min,提取最上层的清液即获得血清,并将获取的血清分装于离心管中并保存于-20 ℃的冰箱中以备实验使用。所有血清样本均来自新疆医科大学第一附属医院。

  2.2 、拉曼光谱数据采集

  在环境温度22 ℃下,用毛细管吸取每个血清样本15微升,通过激光拉曼光谱仪(LabRAM HR Evolution RAMAN SPECTROMETER,HORIBA Scientific Ltd.)记录血清拉曼光谱,激光激发波长为532 nm,激光功率为40mW。用50×物镜在15 s内获得光谱数据,光谱范围从500 cm-1至3 000 cm-1。 并应用LabSpec6软件对获取的原始光谱进行背景扣除,对每个样本不同的位置,测试三次,取平均值,并以平均光谱作为分析光谱,用于进一步分析。

  3、 结 果

  3.1、 光谱分析

  图1显示了感染HBV患者和感染HCV患者血清样本在500 cm-1至3 000 cm-1范围内的标准化平均血清拉曼光谱。图中三组拉曼图谱分别表示感染HBV血清和感染HCV血清样品的平均拉曼光谱以及两者之间的差异比较。可以看出,感染HBV血清与感染HCV血清拉曼光谱的峰值仍较类似,只是存在峰强度差异。从图一中观察到两组血清的拉曼峰分布在877 cm-1,957 cm-1,1 002 cm-1,1 155 cm-1,1 283 cm-1,1 447 cm-1,1 515 cm-1,1 654 cm-1等处。其中,最强的强度位于1 002 cm-1,1 155 cm-1,和1 515 cm-1处。从底部的差异比较图中可以看出,1 002 cm-1,1 155 cm-1和1 515 cm-1处,感染HBV的样本血清的拉曼峰的归一化强度明显高于感染HCV的。而在877 cm-1,957 cm-1,1283 cm-1,1447 cm-1,1654 cm-1处两者峰值没有明显差异。

  基于现有文献[6,15,16,17],如表1标明了拉曼峰的位置及对应的物质。由光谱分析可知,两组血清的拉曼峰在877 cm-1,957 cm-1,1 002 cm-1,1 155 cm-1,283 cm-1,1 447 cm-1,1 515 cm-1,1 654 cm-1等处均有分布。分析原因,由于HBV感染组与HCV感染组的血清在病理,生理上存在一定关联,因而两者血清拉曼光谱特点存在交叉,拉曼峰出现的位置相同,仅强度存在差异,不易区分。而在1002 cm-1,1155 cm-1和1515 cm-1处,感染HBV的样本血清的拉曼峰的归一化强度明显高于感染HCV的,表明感染HBV的血清中的苯丙氨酸,细胞色素,胞嘧啶的含量高于感染HCV的,因而可以利用血清拉曼光谱来区分乙肝患者和丙肝患者。

  因此,在拉曼光谱水平上感染HBV血清和感染HCV血清之间生物分子水平的差异是我们之后通过模式识别算法区分乙肝和丙肝的坚实基础。

  图1 感染HBV患者和感染HCV患者的血清样品之间归一化平均光谱的比较
图1 感染HBV患者和感染HCV患者的血清样品之间归一化平均光谱的比较

  Fig.1 Comparison of normalized mean spectra of serum samples from patients with hepatitis B and hepatitis C.

  (阴影区代表平均值的标准偏差, 底部表示两者之间的差异比较)

  (The shaded area represents the standard deviation of the mean,and the bottom represents the difference between the two)

  表1 人血清主要拉曼带的峰位和暂定指定
表1 人血清主要拉曼带的峰位和暂定指定

  3.2、PCA特征提取

  PCA是一种能够进行降维处理的多元统计方法,它可以有效地从过于丰富的数据信息中获取最重要的元素和结构,去除数据的噪音和冗余,揭示复杂数据背后的简单结构[12]。在本研究中,为了提高各种分类算法的诊断精度,将经过预处理的拉曼光谱数据进行归一化操作,归一化后的数据作为特征提取算法PCA的输入。通常预测精度随着PC值的增加而增加[18]。在本文中,前9个PCs的贡献率占总贡献率的96.7%,前9个PCs被选择用于构建分类模型。

  如图2所示,三维散点图是基于PC1,PC2,PC3绘制的。从图2可以清楚地看出,虽然乙肝患者和丙肝患者之间存在部分重叠,但这两组可以进行区分。乙肝患者空间分布相对分散,而丙肝患者则相对集中。结果表明PCA能初步区分乙肝患者和丙肝患者。因此为了进一步提高分类效果需要功能更加强大的分类器完成对乙肝患者和丙肝患者的分类。

  图2 降维后的散点图:(黑球代表感染HBV患者,灰球代表感染HCV患者)
图2 降维后的散点图:(黑球代表感染HBV患者,灰球代表感染HCV患者)

  Fig.2 Scatter diagram after dimensionality reduction: (The black ball represents patients with hepatitis B and the gray ball represents patients with hepatitis C)

  3.3、 样本划分

  如表2所示,在这项研究中对提取特征后的480个感染HBV患者和346个感染HCV患者样本数据进行划分,其中611例训练集包括350例感染HBV患者和261例感染HCV 患者,测试集215例包括130例感染HBV患者和感染85例HCV患者。

  3.4、 粒子群优化支持向量机模型及算法比较

  为区分乙肝患者和丙肝患者,建立了基于SVM的分类模型。支持向量机(support vector machine)是应用最广泛的分类算法之一,该方法的核心思想是在特征空间寻找最优超平面将两类样本分开,且使分类间隔最大[19]。本研究中,SVM模型中选择径向基函数(RBF)作为SVM的核函数,输入了3.3节经PCA特征提取且被划分测试集与训练集的826个数据的特征,根据训练集训练模型,然后使用模型预测测试集样本。SVM的参数C和g的取值会影响最终建模的效果[20]。因此选择合适的C和g是十分重要的。本研究利用粒子群优化(PSO)和网格寻优(GS)优化惩罚参数C和核参数g并评估了模型性能。

  其中,PSO是一种从随机解出发,通过迭代寻找最优解的进化计算技术。PSO具有不容易陷入局部最小、算法简单和计算量小的优点,大大减少了参数寻优的时间[9]。其中PSO的参数设置如下:参数C的设定范围为[10-1,102],参数g的设定范围为[10-2,103]。局部搜索的能力设置为1.5;全局搜索的能力设定为1.7;最大进化量(maxgen)为200;最大种群数(sizepop)为20。在前六个PCs下,当C=23.425 7,g=8.454 1时分类效果最好,分类准确率达到96.74%。

  在一定的空间范围内,GS通过遍历网格中的所有点来搜索网格的参数[21]。GS的参数设置如下:参数C的设定范围为[2-20,220],参数g的设定范围为[2-20,220],步长设置为1。在前六个PCs值下,分类准确率达到93.95%。

  类似的,采用ELM,LVQ对不同PC值的光谱数据的分类。ELM是一种单隐层前馈神经网络(SLFNs)学习算法,它无需迭代调优,而且理论上不需要用户进行干预[22]。ELM对应于前7个PCs值的准确率最高,准确率为76.63%。LVQ神经网络是一种训练神经网络进行模式分类的方法[23]。本研究LVQ参数设置如下:学习速率设置为0.01,学习函数设置为learnlv1。LVQ对应于前3个PCs值的准确率最高,准确率为62.33%。

  LDA是一种常用的基于判别线与样本点距离的线性判别分类方法。该判别函数通过创建超平面来进行分类[24]。本研究以前9个PCs的数据为基础,建立LDA分类模型。LDA对应于前3个PCs值的准确率最高,准确率为74.88%。

  图3显示了不同PC值(从PC1到PC9)的五种算法模型的准确度曲线,可以看出,ELM,LVQ,LDA对两组光谱数据有着一定的分类能力但分类效果不如PSO-SVM。

  4、 结 论

  在本研究中,我们证明了血清拉曼光谱结合模式识别算法可用于区分乙肝患者和丙肝患者。基于苯丙氨酸,细胞色素,胞嘧啶等生物分子的光谱差异,使用模式识别算法提取有效的光谱数据信息对样本进行分类,经过比较,本研究使用PCA-PSO-SVM模式识别算法区分乙肝患者和丙肝患者的准确度最高,说明了使用血清拉曼光谱区分乙肝患者和丙肝患者的潜力。近年来,随着高灵敏度、高分辨率便携式拉曼光谱仪的发展,这项研究有望为乙肝患者和丙肝患者的治疗提供准确的指导。

  图3 对应于不同主成分数的五个分类器的分类精度变化图
图3 对应于不同主成分数的五个分类器的分类精度变化图

  Fig.3 A graph of classification accuracy changes of five classifiers corresponding to different principal component values

  参考文献

  [1] Ji F,Yeo Y H,Wei M T,et alSustained virologic response to direct-acting antiviral therapy in patients with chronic hepatitis C and hepatocellular carcinoma:A systematic review and meta-analysis,J.Hepatol,2019,71(3):473-485.
  [2] Aghemo A,Lampertico P,Colombo M.Assessing long-term treatment efficacy in chronic hepatitis B and C:between evidence and common sense,J Hepatol,2012,57(6):1326-1335.
  [3] Fan H,Lin L,Jia S,et al.Interferon alpha treatment leads to a high rate of hepatitis B surface antigen seroconversion in Chinese children with chronic hepatitis B,J Viral Hepat 26 Suppl 1,2019,77-84
  [4] Li T,Su S,Zhao Y,et al.Barriers to the Prevention and Control of Hepatitis B and Hepatitis C in the Community of Southwestern China:A Qualitative Research,Int J Environ Res Public Health,2019,16(2).
  [5] Khan S,Ullah R,Khan A,et al.Analysis of hepatitis B virus infection in blood sera using Raman spectroscopy and machine learning,Photodiagnosis Photodyn Ther 23,2018,89-93.
  [6] Gaggini M C,Navarro R S,Stefanini A R,et al.Correlation between METAVIR scores and Raman spectroscopy in liver lesions induced by hepatitis C virus:a preliminary study,Lasers Med Sci.,2015,30(4):1347-55.
  [7] Anwar S,Firdous S.Optical diagnostic of hepatitis B (HBV) and C (HCV) from human blood serum using Raman spectroscopy,Laser Physics Letters,2015,12(7).
  [8] Liu S,Huang J,Chen Z,et al.Raman spectroscopy measurement of levofloxacin lactate in blood using an optical fiber nano-probe,Journal of Raman Spectroscopy,2015,46(2):197-201.
  [9] Chen C,Du G,Tong D,et al.Exploration research on the fusion of multimodal spectrum technology to improve performance of rapid diagnosis scheme for thyroid dysfunction,J Biophotonics,2019,13(2):e201900099.
  [10] Zheng X,Lv G,Zhang Y,et al.Rapid and non-invasive screening of high renin hypertension using Raman spectroscopy and different classification algorithms,Spectrochim Acta A Mol Biomol Spectrosc,2019,215:244-248.
  [11] Magalhaes F L,Machado A M C,Paulino E,et al.Raman spectroscopy with a 1 064 nm wavelength laser as a potential molecular tool for prostate cancer diagnosis:a pilot study,J Biomed Opt.,2018,23(12):1-6.
  [12] Naseer K,Saleem M,Ali S,et al.Identification of new spectral signatures from hepatitis C virus infected human sera,Spectrochim Acta A Mol Biomol Spectrosc,2019,222:117181
  [13] Vargas-Obieta E,Martinez-Espinosa J C,Martinez-Zerega B E,et la.Breast cancer detection based on serum sample surface enhanced Raman spectroscopy,Lasers Med.Sci.,2016,31(7):1317-24.
  [14] Wang H,Shangguan L,Guan R,et al.Principal component analysis for compositional data vectors,Computational Statistics,2015,30(4):1079-1096.
  [15] Movasaghi Z,Rehman s,Rehman I U.Raman spectroscopy of biological tissues,Applied Spectroscopy Reviews,2007,42(5):493-541.
  [16] Shetty G,Kendall C,Shepherd N,et al.Raman spectroscopy:elucidation of biochemical changes in carcinogenesis of oesophagus,Br.J.Cancer,2006,94(10):1460-1464.
  [17] Huang H,Shi H,Feng S,et al.Confocal Raman spectroscopic analysis of the cytotoxic response to cisplatin in nasopharyngeal carcinoma cells,Anal.Methods,2013,5(1):260-266.
  [18] Li X,Yang T,Li S,et al.Different classification algorithms and serum surface enhanced Raman spectroscopy for noninvasive discrimination of gastric diseases,Journal of Raman Spectroscopy,2016,47(8):917-925.
  [19] Zhang C S,Liu C C,Zhang X L,et al.Almpanidis,An up-to-date comparison of state-of-the-art classification algorithms,Expert Systems with Applications,2017,82:128-150.
  [20] Lin S W,Ying K C,Chen S C,et al.Particle swarm optimization for parameter determination and feature selection of support vector machines,Expert Systems with Applications,2008,35(4):1817-1824.
  [21] Wang X,Zhang F,Kung X T,et al.Latif,Extracting soil salinization information with a fractional-order filtering algorithm and grid-search support vector machine (GS-SVM) model,International Journal of Remote Sensing,2019,41(3):953-973
  [22] Ding S,Xu X,Nie R.Extreme learning machine and its applications,Neural Computing and Applications,2013,25(3-4):549-556.
  [23] Wang Q,Wei J C,Chen Z P,et al.Establishment of multiple diagnosis models for colorectal cancer with artificial neural networks,Oncol.Lett.,2019,17(3):3314-3322.
  [24] Liu W,Sun Z,Chen J,et al.Raman spectroscopy in colorectal cancer diagnostics:comparison of PCA-LDA and PLS-DA models,Journal of Spectroscopy,2016,1-6.

Copyright © 2016-2021 高端论文网  版权所有  鄂ICP备19030629号-1 
                                                                                           联 系 人:桂老师       联系电话:15889410801