Application of Multimodal Transformer Model in Intelligent Agricultural Disease Detection and Question-Answering Systems
多模态 Transformer 模型在智能农业病害检测和问答系统中的应用
中国农业大学,北京 100083,中国
应联系的作者。
投稿接收:2024 年 1 月 30 日 / 修订:2024 年 3 月 22 日 / 接受:2024 年 3 月 24 日 / 发布:2024 年 3 月 28 日
(本文属于特刊:农业人工智能与传感器系统未来发展)
Abstract 摘要
本研究提出了一种基于多模态数据和 Transformer 模型的创新方法,旨在解决农业病害检测和问答系统中的挑战。该方法有效整合了图像、文本和传感器数据,利用深度学习技术深入分析和处理复杂的农业相关问题。本研究取得了技术突破,为智能农业的发展提供了新的视角和工具。在农业病害检测任务中,所提出的方法表现出卓越的性能,其精确率、召回率和准确率分别达到 0.95、0.92 和 0.94,显著优于其他传统深度学习模型。这些结果表明该方法在识别和准确分类各种农业病害方面的有效性,尤其擅长处理细微特征和复杂数据。在从农业图像生成描述性文本的任务中,该方法也表现出令人印象深刻的性能,其精确率、召回率和准确率分别达到 0.92、0.88 和 0.91。这表明该方法不仅能够深入理解农业图像的内容,还能生成准确且丰富的描述性文本。目标检测实验进一步验证了我们方法的有效性,该方法的精确率、召回率和准确率分别达到 0.96、0.91 和 0.94。这一成就突出了该方法在复杂环境中准确定位和识别农业目标的能力。总的来说,本研究中的方法不仅在农业病害检测、图像描述和目标检测等多项任务中表现出卓越的性能,还展示了多模态数据和深度学习技术在智能农业应用中的巨大潜力。
关键词:农业大模型;深度学习;智慧农业;Transformer 模型;农业病害检测
1. Introduction 1. 引言
信息技术和人工智能的快速发展已成为推动现代农业发展的重要驱动力 [ 1],尤其是在植物病害检测与管理方面,技术创新和应用是确保农业生产效率和食品安全的关键 [ 2, 3]。传统的植物病害检测方法,依赖于农业专家的经验和判断 [ 4],不仅耗时耗力,而且其准确性和效率受限于专家知识和经验的局限性 [ 5]。
Ray, Monalisa 等人 [ 6] 讨论的植物真菌病原体检测,需要微生物学专业知识,并且总是受到个人经验的影响。Vadamalai Ganesan 等人 [ 7] 采用植物遗传学和生理学进行病害检测,利用蛋白质组学分析病原体对宿主植物的影响;然而,他们的方法的准确性无法得到保证。为了提高精度,Das Debasish 等人 [ 8] 利用各种特征提取技术对不同类型的叶片病害进行分类。他们尝试了支持向量机 (SVM)、随机森林和逻辑回归方法,发现 SVM 最为有效。然而,他们的模型仅限于将番茄叶片二元分类为健康或患病,未能满足实际需求。
针对这些挑战,引入智能技术以实现植物病害的准确快速检测的紧迫性显而易见 [ 9]。在此背景下,本研究引入了一种基于多模态和大语言模型技术的病害检测与农业问答系统 [ 10],旨在提升农业生产智能化水平,并为农业工作者提供有效的决策支持。
几位研究人员做出了重要贡献。例如,Deepalakshmi P 等人 [11] 使用 CNN 从输入图像中提取特征,以识别不同植物的病叶和健康叶片,他们的模型平均用时 3.8 秒进行疾病检测,并达到了 94.5% 的准确率。Sharma, Parul 等人 [12] 将 CNN 应用于植物病害检测,达到了 98.6% 的准确率,但他们的方法在具有多种病害症状的区域可能会失效。Bedi Punam 等人 [13] 使用卷积自编码器 (CAE) 网络和 CNN 的混合模型进行桃树病害检测,在测试中达到了 98.38% 的准确率,但数据集规模较小限制了模型的鲁棒性。考虑到 CNN 模型可能丢失重要信息,De Silva Malithi 等人 [14] 将 CNN 与 ViT 结合,达到了 83.3% 的准确率。为了提高准确率,Parez Sana 等人 [15] 提出了绿色视觉 Transformer 技术,利用 ViT 减少模型参数并提高准确率,展示了实时处理能力。Thai Huy-Tan 等人 [16] 设计了基于 ViT 的 FormerLeaf 模型用于植物病害检测。他们还提出了 LeIAP 和 SPMM 算法用于模型优化。他们的实验结果显示推理速度提高了 15%,但他们指出对于复杂背景图像,模型准确率有所降低,并且实验中使用的数据集不平衡。
本研究采用卷积神经网络(CNN)[17]和 YOLO(you only look once)[18]等先进计算机视觉模型,以及 GPT[19]和 BERT[20]等大型语言模型,以有效检测植物病害并准确回答农业相关问题。本研究的核心在于提出并实现一种创新的多模态数据处理方法和相应的系统架构。设计了一种基于多 Transformer 的架构,能够高效处理和整合图像、文本和知识图谱等不同模态的数据,从而在植物病害的识别和分类方面比传统方法实现更高的准确性和效率。这对于农业病害的快速识别和处理以及减少作物损失具有重要意义。此外,还构建了一个农业领域的专用问答系统,结合大型语言模型和专家知识图谱,以理解复杂的农业问题并提供准确、基于事实和数据的答案。为了训练和验证我们的模型,收集并构建了一个包含丰富图像和文本数据的综合多模态数据集。这不仅为本研究提供了强有力的支持,也为未来相关领域的研究提供了宝贵的资源。
2. Related Works 2. 相关工作
2.1. Application of Multimodal Data in Agriculture
2.1. 多模态数据在农业中的应用
多模态技术在农业领域取得了广泛应用,尤其是在病害检测和农业问答系统中 [ 21]。多模态技术是指整合和分析来自不同模态的数据,例如图像、文本和声音。在农业中,这主要涉及图像和文本数据的结合。图像数据通常来源于田间照片或卫星图像,而文本数据可能包括专业文献或详细描述作物种植和病害的农业数据库。从结构上看,多模态模型通常包含两个主要组成部分:从不同模态中提取特征和多模态融合。对于图像数据,卷积神经网络(CNN)[ 22, 23] 或更先进的模型如 YOLO [ 24, 25] 通常用于空间特征提取。另一方面,文本数据则使用自然语言处理技术(例如 Transformer 模型 [ 26])进行处理,以提取语义特征。特征提取之后,多模态融合技术有效地结合了来自不同模态的特征,以促进更准确的分类、预测或生成。基于矩阵的方法是此过程中的核心技术,涉及对来自不同模态的数据进行数学融合。矩阵分解是多模态融合中一种常用技术,它分解来自每个模态的特征矩阵,以揭示共享的潜在特征。假设存在两种模态的数据,分别由矩阵 和 表示,矩阵分解旨在识别两个低秩矩阵 、 和一个共享潜在特征矩阵 V,满足以下关系:
其中, 和 分别代表两种模态的特征空间,而 V 是共享的潜在特征表示。另一种方法,典型相关分析(CCA),旨在最大化两种模态特征向量之间的相关性。给定来自两种模态的特征 X 和 Y,CCA 旨在找到向量 和 ,以最大化 X 和 Y 之间的投影相关性:
其中,包含 和 项是为了进行归一化,确保结果不受数据尺度的影响。联合因子分析(JFA)是一种矩阵分解技术,可同时分析多个数据源。假设存在 n 种模态,数据矩阵为 ,JFA 旨在找到一组因子矩阵 和一个共享潜在特征矩阵 V,使得
在此表达式中,每个 代表第 th 模态的特征空间,而 V 是跨模态共享特征表示。
在水稻、小麦、马铃薯和棉花等作物的病害检测应用中,多模态技术发挥着重要作用 [ 27, 28]。例如,在水稻病害检测中,结合田间图像数据和病害文献描述 [ 29] 使多模态模型能够更准确地识别和分类不同类型的病害。这不仅提高了病害检测的精度,还有助于农民及时采取有效措施减少损失。对于农业问答系统,多模态技术也展现了其强大的能力。通过整合图像识别和自然语言处理,此类系统可以提供更准确、更全面的答案。例如,农民可以上传作物图片并询问病害。系统通过分析图像并查阅相关农业知识库,可以提供具体的病害信息和防治建议。此外,多模态技术在处理复杂数据时也展现出其独特的优势。在农业领域,环境条件多样且复杂,单一模态往往无法提供足够的信息进行准确判断 [ 30]。多模态技术通过结合不同类型的数据,提供了更全面的视角,增强了模型的泛化能力和鲁棒性。在实际应用中,多模态技术面临的挑战包括有效整合来自不同模态的数据,以及设计适用于各种作物和病害类型的通用模型。
2.2. Application of Large Language Models in Agriculture
2.2. 大型语言模型在农业领域的应用
大型语言模型,例如 GPT 和 BERT [ 20],在各个领域都取得了显著进展,包括在农业病害检测和问答系统中的应用 [ 31, 32]。这些模型以其强大的语义理解和生成能力而闻名,为自然语言处理提供了有效的工具。首先,大型语言模型的结构特征值得关注。这些模型通常基于深度学习,特别是 Transformer 架构 [ 33],通过大量数据预训练学习丰富的语言表示和知识。在模型内部,多层 Transformer 网络通过自注意力机制有效地捕获文本中的长距离依赖关系,从而实现对复杂语言结构的理解和生成。Transformer 的关键组成部分如下:自注意力机制是 Transformer 的核心,它允许模型关注输入序列中的不同位置。对于给定的输入序列,自注意力机制会计算序列中每个元素相对于其他元素的注意力分数,如图 1 所示。
图 1。BERT 模型的结构图,展示了输入如何通过嵌入层并经过多层 Transformer 网络结构进行处理。这包括多头注意力机制、前馈神经网络以及位置编码的添加。
这可以表示为 [ 34]
其中,Q、K 和 V 分别代表查询(query)、键(key)和值(value)矩阵,它们通过不同的权重矩阵变换从输入矩阵中得到。 是一个缩放因子,用于防止点积后数值过大。为了使模型能够同时关注来自不同子空间的信息,Transformer 引入了多头注意力机制[ 34]。在该机制中,注意力操作被分成多个头,每个头独立计算注意力分数,然后将它们拼接起来。这可以表示为
其中,每个 代表一个独立的注意力机制,而 、 、 和 是模型学习到的参数。由于 Transformer 本身不具备像 RNNs 那样的序列顺序处理能力,因此添加了位置编码,以提供序列中元素的位置信息[ 34]。位置编码通常是一个可学习的参数,被添加到输入序列的嵌入中,为模型提供位置信息[ 34]。位置编码的一种常见形式是
其中, 是位置,是维度,而 是模型的维度。Transformer 的每个编码器和解码器层都包含一个前馈网络。该网络在每个位置应用相同的操作[ 34],通常包括两个线性变换和一个激活函数,表示为
其中, 、 、 和 是网络参数[ 34]。
在水稻、小麦、马铃薯和棉花等作物的病害检测以及农业问答系统等具体应用中,Transformer 模型利用其强大的语义理解能力,分析文本信息[ 34],例如疾病描述和农业实践指南[ 35]。这种分析能力对于提高疾病诊断的准确性和回答农业相关问题至关重要。在农业领域,特别是在水稻、小麦、马铃薯和棉花等作物的病害检测和问答系统中,大型语言模型的应用尤为重要。例如,在病害检测中,模型可以通过分析农业文本资料,如疾病描述和治疗方法[ 27],提供对疾病的深入理解和建议。此外,大型语言模型还可以与图像识别技术结合,通过分析与疾病相关的图像及其描述,提供更准确的疾病诊断。在农业问答系统中,大型语言模型的作用不可或缺。它们不仅能够理解用户的查询,还能生成信息丰富、准确的回答。这对于需要专业知识的农业相关查询尤为关键。例如,农民可能会询问识别或治疗特定作物病害的方法,而大型语言模型可以根据其广泛的知识库提供专业且具体的答案[ 36]。
2.3. Application of Computer Vision Techniques in Agriculture
2.3. 计算机视觉技术在农业中的应用
计算机视觉模型,特别是卷积神经网络(CNN)和 YOLO(You Only Look Once)的应用,如图 2 所示,在农业领域中得到了越来越多的应用,特别是在病害检测和农业问答系统中[12, 37]。
图 2. YOLOv5 目标检测模型的结构图,详细说明了从输入层到预测层的数据流,包括输入处理、骨干网络、特征金字塔网络(neck),以及预测每个阶段中使用的不同类型的神经网络模块。
CNNs,专为处理图像等网格状结构数据而设计,是以卷积层为核心的深度神经网络。这些层通过卷积操作从图像中提取局部特征,其数学表达式为
这里,表示输入图像,K 表示卷积核, 表示卷积输出。该公式表明,卷积层通过在图像上滑动卷积核,计算卷积核与图像局部区域的点积来提取特征。除了卷积层,CNN 通常还包括激活层和池化层。激活层,例如 ReLU 函数,引入非线性,使网络能够捕获更复杂的特征。另一方面,池化层减少了特征的空间维度,增强了模型的泛化能力。一种常见的池化操作,最大池化,其数学表达式为
这里, 表示池化输出,k 表示池化窗口的大小。这些模型的核心优势在于它们能够高效地处理和分析大量图像数据,从而识别特定的模式和对象。例如,在水稻、小麦、马铃薯和棉花等作物病害检测中,CNN 首先对输入的作物图像进行特征提取。利用这些特征,CNN 可以识别不同类型的作物病害。例如,在水稻病害检测中,提取的特征可能包括叶片上斑点的大小、形状和颜色 [ 38]。
YOLO 是一种流行的单阶段目标检测模型,它将目标检测概念化为一个回归问题。与传统的逐步方法(例如先生成候选区域再分类)不同,YOLO 在一个网络中直接预测目标的类别和位置。在 YOLO 模型中,输入图像被划分为一个 网格,每个网格单元负责预测该区域内的目标。YOLO 的输出可以表示为一个向量,包含类别概率、边界框坐标和置信度分数。每个边界框的数学表示为
其中 是边界框中心的坐标, 是其宽度和高度,C 是边界框包含目标的置信度分数。YOLO 模型的损失函数,包括类别损失、定位损失和置信度损失,是一个关键组成部分。损失函数可以表示为
这里, 和 是权重系数, 表示目标的存在, 是预测的边界框参数, 是实际的边界框参数, 是预测的置信度分数, 是实际的置信度分数, 是类别 c 的概率。YOLO 模型在实时疾病检测方面表现出色,能够迅速定位和分类图像中的疾病。在棉花病害检测中,YOLO 可以快速识别受影响区域,帮助农民及时干预 [ 39]。农业问答系统可以利用 CNN 或 YOLO 模型分析用户上传的作物图像,然后将分析结果与历史数据结合,提供专业的建议。最初,系统通过视觉模型分析上传的小麦叶片图像,随后将分析结果与农业知识库整合,以提出可能的病害原因和推荐的治疗方法。
3. Results and Discussion
3. 结果与讨论
3.1. Disease Detection Results
3.1. 病害检测结果
本实验的主要目的是比较和分析各种深度学习模型在农业病害检测任务中的性能,包括 AlexNet [ 40]、GoogLeNet [ 41]、VGG [ 22]、ResNet [ 23] 以及本研究提出的方法。实验结果使用精确率、召回率和准确率这些评估指标来展示每个模型的性能。实验结果如表 1 所示。
作为深度学习领域早期的里程碑模型,AlexNet 结构相对简单,由五个卷积层和三个全连接层组成。尽管它在早期图像处理任务中取得了显著突破,但在处理更复杂的农业病害检测任务时,其性能相对较弱。这主要是由于 AlexNet 的特征提取能力有限,尤其是在捕捉细微特征方面,例如疾病的早期迹象。因此,AlexNet 在精确率、召回率和准确率方面表现出最不理想的性能。GoogLeNet 引入了 Inception 模块,在同一层中使用不同大小的卷积核,使其能够捕获不同尺度的特征。这种设计使得 GoogLeNet 在特征提取方面比 AlexNet 更强大,尤其是在处理具有多尺度特征的农业图像时。因此,在实验中,GoogLeNet 的性能有所提升,但由于其相对简单的网络结构,在处理极其复杂的农业数据时仍存在局限性。VGG 通过更深的网络结构(多达 19 层)和小型卷积核,显著增强了模型的特征提取能力。在农业病害检测任务中,VGG 能更好地捕捉复杂的病害特征,例如微小的斑点或变色。然而,VGG 的一个主要缺点是其庞大的网络结构和大量的参数,导致训练和推理的计算效率较低。ResNet 通过引入残差连接解决了深层网络中的梯度消失问题,使得网络可以在不损失训练效率的情况下加深(ResNet 的版本可达 152 层)。这种深度和残差结构的结合使 ResNet 在捕获复杂、分层特征方面表现出色。因此,在农业病害检测任务中,ResNet 在精确率、召回率和准确率方面显著优于之前的模型。例如,[ 4]中提出的 MAF-ResNet50 通过设计并行激活函数层来增强 ResNet50 的模型表达能力,以提高玉米病害识别的准确性。然而,它在四种玉米病害样本上只能达到高于 95%的识别准确率,这仍然落后于本文所提出方法的泛化能力。本文提出的方法在这些模型的基础上进行了进一步的创新和优化。具体细节可能包括更复杂的网络结构、更有效的特征融合机制以及专门针对农业病害检测任务优化的算法。这些创新使得所提出的方法在处理多模态数据时,能够更有效地整合来自不同来源的信息,并捕获更详细的病害特征。 因此,在实验中,所提出的方法在所有评估指标上均表现出最优性能。
3.2. Agricultural Image Captioning Experiment Results
3.2. 农业图像描述实验结果
本实验旨在评估和比较各种深度学习模型在从农业图像生成描述性文本任务中的性能。该任务涉及从农业图像自动生成描述性文本,这对于提高农业管理的自动化和智能化水平具有重要意义。通过比较不同模型的精确率、召回率和准确率,可以深入了解每个模型理解和描述农业图像的能力。在以下实验结果中,展示了 BLIP [ 42]、mPLUG-Owl [ 43]、InstructBLIP [ 44]、CLIP [ 45]、BLIP2 [ 46]以及本文提出的方法在农业图像字幕任务上的性能。实验结果如表 2 所示。
BLIP (bootstrap your own latent) 是一种较早的深度学习模型,在处理图像和文本融合方面具有一定能力,但由于其相对简单的网络结构和训练策略,在复杂的农业图像字幕任务中表现平平。这体现在其较低的精确率、召回率和准确率。mPLUG-Owl 作为多模态学习模型的改进版本,在处理图像和语言融合方面表现出增强,尤其是在理解图像内容和生成相关文本方面。然而,由于特征提取和关联学习的局限性,mPLUG-Owl 在农业图像字幕任务中的表现仍然有限。InstructBLIP 模型引入了更先进的训练策略和网络结构,尤其在图像和文本融合任务中,擅长理解图像内容并生成准确的描述。这一改进可归因于其增强的特征提取能力和文本生成策略,从而显著提升了农业图像字幕任务的性能。CLIP (contrastive language-image pretraining) 模型通过对比学习在大型数据集上进行预训练,增强了模型理解图像内容和相关文本的能力。这种训练方法赋予 CLIP 在理解复杂农业图像和生成准确描述方面的优势,从而在所有评估指标中表现出色。BLIP2 作为 BLIP 的高级版本,在网络结构和训练策略上进行了进一步优化。这些改进使 BLIP2 在处理复杂的图像和文本融合任务时更高效,尤其擅长理解农业图像的细节并生成精确的描述。
3.3. Results for Object Detection
3.3. 目标检测结果
本研究中进行的目标检测实验旨在评估和比较各种深度学习模型在农业病害检测任务中的性能。这项任务对精准农业和智能农业管理具有重要意义。通过比较不同模型的精确率、召回率和准确率,评估了 SSD [ 47]、RetinaNet [ 48]、CenterNet [ 49]、YOLOv8 [ 50]以及本文提出的方法在农业病害检测任务中的性能。实验结果显示在表 3 和表 4 中。
SSD(单阶段多框检测器)是一种单阶段目标检测模型,以其速度快和实现简单而闻名。SSD 直接在特征图上预测物体的类别和位置,无需额外的候选区域生成步骤。然而,由于其相对简单的网络结构,SSD 在处理复杂和小尺度目标时,其精度和召回率相对较低,这体现在其较低的实验分数上。RetinaNet 引入了焦点损失(focal loss)来解决类别不平衡问题,这在负样本数量庞大的场景中尤其有效。与 SSD 相比,其性能有所提升,表现为精度和召回率的提高。然而,RetinaNet 的计算复杂度相对较高,这可能会限制其实际应用。CenterNet 采用基于关键点的目标检测方法,通过检测物体的中心点并回归其尺寸来进行目标定位。与传统的边界框预测方法相比,这种方法更直接、更高效。CenterNet 在精度和召回率方面均优于 SSD 和 RetinaNet,表明其在定位小目标和处理复杂场景方面具有更好的能力。YOLO 系列以其速度快和性能好而闻名,其中 YOLOv8 作为其最新版本,在网络结构和算法上引入了多项创新,进一步增强了模型的检测能力。YOLOv8 在农业病害检测任务中表现出色,其高精度和高召回率证明了其卓越的目标定位和分类能力。例如,[51] 中讨论的基于 YOLO 的目标检测模型在 Kaggle 提供的麦子数据集上实现了 0.6991 的 mAP。这一性能与我们论文中提出的方法存在显著差异。其原因是,引文中的方法仅在单阶段目标检测网络的基础上对损失函数进行了微调,并未利用注意力机制或来自其他模态的数据来增强模型。另一方面,我们的方法通过整合最新的深度学习技术并针对农业病害检测任务进行专门优化,在所有评估指标上均取得了最佳性能。这归因于更有效的特征提取机制、更精细的目标定位策略和更高效的分类算法。我们方法的高精度、高召回率和高准确率证明了其在识别各种农业病害方面的显著优势。
3.4. Multimodal Dataset Ablation Experiment
3.4. 多模态数据集消融实验
本文的多模态数据集消融实验部分旨在探讨不同数据模态(图像、文本、传感器数据)对模型性能的影响。该实验通过比较模型在不同数据模态组合下的精确率、召回率和准确率,旨在揭示各种数据模态对模型性能的贡献及其相互作用。实验结果如表 5 所示。
当模型同时使用所有模态数据(图像、文本和传感器数据)时,它表现出最佳性能,其精确率、召回率和准确率分别为 0.96、0.93 和 0.94。这表明这三种数据模态的结合为模型提供了最丰富和最全面的信息,极大地提高了模型识别和分类疾病的准确性。图像数据提供直观的视觉信息,文本数据提供描述性和背景信息,而传感器数据则提供额外的环境和条件信息。这些数据的整合使模型能够更全面地理解和分析农业疾病。当仅使用传感器数据时,所有性能指标均显著下降,其精确率、召回率和准确率分别为 0.24、0.21 和 0.23。这表明仅依靠传感器数据不足以完成复杂的农业疾病检测任务。在[ 52]中,这种现象也得到了体现;其中提出的多模态数据集展示了传感器数据的使用如何增强人工智能技术在农业自动化场景中的应用。尽管传感器数据可以提供环境条件信息,但它们缺乏特定疾病的直接描述性特征,从而限制了模型在识别特定疾病方面的性能。当仅使用文本数据时,模型的性能有所改善,但仍不如全模态数据,其精确率、召回率和准确率分别为 0.78、0.73 和 0.75。这表明文本数据通过提供疾病描述和背景信息辅助了模型,但缺乏图像数据的直观性和传感器数据的环境信息。当仅使用图像数据时,性能显著提高,其精确率、召回率和准确率分别为 0.92、0.90 和 0.91。这表明图像数据在农业疾病检测中起着至关重要的作用,其中视觉信息对于疾病识别和分类非常有效。然而,如果没有文本和传感器数据的辅助,模型仍然缺乏对疾病的全面性和上下文理解。多模态数据集消融实验的结果得出结论,不同的数据模态对农业疾病检测任务的贡献不同。图像数据在提供直观视觉信息方面发挥核心作用,文本数据在提供背景和描述信息方面贡献显著,而传感器数据则提供有价值的环境和条件信息。这些数据的整合使模型能够充分理解并准确识别农业疾病,表现出卓越的性能。因此,多模态数据的融合对于提高农业疾病检测的准确性至关重要。
3.5. Different Loss Function Ablation Experiment
3.5. 不同损失函数消融实验
本研究中关于不同损失函数的消融实验旨在探究各类损失函数对病害检测、农业图像描述和目标检测任务性能的影响。损失函数在深度学习模型的训练过程中起着关键作用,它决定了模型如何评估预测结果与实际结果之间的差异。不同类型的损失函数可能使模型侧重于不同方面,从而影响最终性能。实验考察了三种损失函数:合页损失、均方误差(MSE)损失和多模态损失,以及它们在三种不同任务中的表现。实验结果如表 6 所示。
在疾病检测任务中,多模态损失函数表现最佳(精确率:0.95,召回率:0.92,准确率:0.94),其次是 MSE 损失函数,而合页损失函数表现最差。合页损失函数是一种用于分类任务的损失函数,旨在最大化正确分类和错误分类之间的间隔。尽管在某些分类任务中有效,但对于复杂的疾病检测任务可能不够充分,尤其是在涉及多个类别和细微特征的情况下。MSE 损失函数计算预测值和实际值之间的平方差,通常用于回归任务。在疾病检测中,它可能比合页损失函数更好地捕捉细微差异,从而提高模型的精确率和召回率。多模态损失函数专为本研究设计,考虑了不同模态数据的特征,使模型能够更有效地从多模态数据中学习。这种设计使得多模态损失函数在疾病检测任务中优于其他方法,反映了其在处理复杂数据方面的有效性。在农业图像字幕生成任务中,多模态损失函数也表现最佳,其次是 MSE 损失函数,而合页损失函数表现最弱。这一结果进一步证实了多模态损失函数在处理复杂、多样化数据方面的有效性。农业图像字幕生成不仅涉及图像理解,还涉及生成语义准确的描述,这要求损失函数同时考虑图像内容和文本生成质量。在目标检测任务中,多模态损失函数优于其他两种损失函数,表现出 0.96 的精确率、0.92 的召回率和 0.94 的准确率。目标检测不仅需要准确识别目标,还需要精确的定位,这要求损失函数能够处理这两个方面。多模态损失函数可能更好地平衡了这些要求,从而提高了整体性能。
3.6. Limitations and Future Work
3.6. 局限性与未来工作
本研究提出了一种基于多模态数据和 Transformer 模型的综合方法,以解决农业病害检测和问答系统中的关键挑战。尽管实验结果表明我们的方法在多项任务中表现出色,但仍存在一些局限性,需要在未来的工作中进一步改进和扩展。
首先,关于数据局限性。尽管实验中使用了包括图像、文本和传感器数据在内的多模态数据集,但这些数据的多样性和覆盖范围仍然有限。例如,在图像数据方面,虽然收集了多种作物的各种病害图像,但可能未能涵盖所有类型的作物和所有可能的病害情况。此外,文本数据主要来源于现有的农业文献和报告,这可能限制了模型处理非标准文本或口语化描述的能力。至于传感器数据,实验主要依赖于特定环境的数据,这可能未能充分代表所有农业环境的复杂性和多样性。其次,关于模型局限性。尽管我们的多模态 Transformer 模型在处理多模态数据方面表现出色,但仍存在潜在问题。例如,Transformer 模型在处理长序列数据方面具有优势,但其计算复杂度较高,可能不适用于资源受限的环境。此外,尽管多模态对齐模块能够有效整合来自不同模态的数据,但其对齐机制可能仍需改进,以更好地处理不同模态之间的异质性和复杂交互。在损失函数方面,尽管我们设计的多模态损失在多项任务中表现良好,但其设计和优化需要进一步研究。特别是在平衡不同模态数据的贡献以及适应不同任务的需求方面,可能需要更多的实验和理论分析来指导。
未来工作方向主要包括以下几个方面。首先,计划进一步扩展数据多样性和覆盖范围。将收集更多样化的农业数据,包括更广泛的作物类型、来自不同地区和环境条件的数据,以及更丰富的文本描述和传感器数据。这将有助于提高模型的泛化能力和实用性。其次,计划进一步优化模型性能。未来的工作将侧重于降低 Transformer 模型的计算复杂度,使其更适用于资源受限的环境。此外,将探索更高效的多模态数据对齐和融合机制,以更好地处理不同模态数据之间的异构性和复杂关系。计划对多模态损失进行深入研究,包括探索不同任务对损失函数的影响、如何更好地平衡不同模态数据的贡献,以及如何适应不同任务的特点和需求。还将努力将模型应用于真实的农业环境,进行大规模的现场测试和验证。这将有助于评估模型的实用性和有效性,并为进一步优化提供真实的反馈。
4. Materials and Methods
4. 材料与方法
4.1. Dataset Collection 4.1. 数据集收集
4.1.1. Corpus Construction
4.1.1. 语料库构建
在本研究的语料库构建过程中,首先明确了数据获取的来源、数量和方法。主要目标是收集涵盖广泛农业知识的文本数据,特别是与水稻、小麦、马铃薯和棉花等作物疾病相关的数据。数据来源包括各类农业研究机构的数据库、农业技术网站、专业论坛以及科研论文库。同时,还访问了国家农业信息平台和农业科技期刊数据库。通过这些渠道,共收集了超过十万条记录,涵盖作物栽培、病害识别、治疗方法和预防策略等主题。使用这些数据的理由是多方面的。首先,它们涵盖了从基础农业知识到高级技术专长的广泛信息,这对于构建一个全面的农业问答系统至关重要。其次,这些数据来源于权威可靠的平台,确保了其准确性和专业性。最后,这些文本数据在语言表达和结构上的多样性有助于增强我们模型的泛化能力。在数据标注方面,我们采用了半自动化方法。首先,利用自然语言处理技术对数据进行预处理,包括分词、词性标注、句法分析等。这些步骤有助于更好地理解文本的结构和语义。随后,利用基于规则的方法自动标注数据中的关键信息,如作物名称、病害类型和症状描述。这个过程可以用以下公式表示:
其中,W 代表预处理后的文本词语,T 代表标注标签,而 代表标注规则集。然而,自动标注无法完全取代人工标注的准确性。因此,组织了一支专业的标注团队,对自动标注的结果进行审查和修正。在语料库构建过程中,采用了文本向量化技术,将文本转换为机器学习模型可处理的格式。具体来说,使用了 Word2Vec 和 BERT 等词嵌入技术,将文本中的每个词语转换为高维空间中的向量。此过程可表示为:
其中,V 代表词向量,W 代表词语,而 则代表词嵌入模型的参数。通过这种方法,捕获了词语之间的语义关系和上下文信息,这对于后续的模型训练和知识提取至关重要。最终的语料库不仅包含了大量的标注文本,而且通过词嵌入技术被转换成适合机器学习的格式。该语料库作为训练我们农业问答系统和疾病识别模型的基础数据集,其全面性和准确性对系统性能的提升具有决定性影响。
4.1.2. Knowledge Graph Construction
4.1.2. 知识图谱构建
知识图谱的构建是本研究的核心组成部分,涉及细致而系统的工作,旨在为农业问答系统和病害检测模型提供坚实而全面的知识基础。知识图谱构建过程不仅侧重于数据的收集和整理,还侧重于其深度处理和智能应用。最初,数据来源包括上述已标注语料库数据集,并从农业技术论坛和社区收集了额外数据,其中涉及农民关于作物病害的实际问题和讨论。目标是收集超过一百万条独立数据记录,以形成一个全面的知识系统,如图 3 所示。
图 3. 棉花生长与病害关系知识图谱,展示了棉花生长过程中的典型症状、可能发生的病害、相关害虫以及相应的治疗方法。
在数据标注过程中,结合使用了自然语言处理技术和人工智能。文本分析工具自动识别了文本中的关键实体和概念,例如病害名称、症状描述和管理方法。然而,考虑到农业领域的特殊性和复杂性,还邀请了农业专家进行人工审查和补充标注。这一过程确保了数据标注的准确性和专业性。标注过程可以用以下公式表示:
其中,R 代表实体之间的关系,E 代表实体,而 代表标注规则集。通过这种方法,知识图谱中的信息得以确保其准确性和全面性。接下来是知识图谱的构建过程。在定义了实体和关系的类型之后,使用了图数据库技术来存储和组织这些信息。这一步,作为构建知识图谱的核心,不仅涉及数据存储,还涉及这些数据的有效组织和检索。构建过程可以用以下公式概括:
其中,G 代表知识图谱,E 和 R 分别代表实体和关系集合。目标是构建一个知识图谱,它不仅能反映实际农业知识,还能支持高效的查询和分析。通过上述步骤,构建了一个涵盖广泛农业知识、结构清晰并能动态更新的知识图谱。该图谱不仅为农业问答系统提供了强大的知识支持,也为病害检测模型提供了必要的背景信息。它的构建极大地提升了这些系统的性能,使其能够更准确、高效地服务于农业生产和研究。
4.1.3. Sensor Data Collection
4.1.3. 传感器数据采集
在本研究中,传感器数据采集对于构建全面的农业知识图谱和提高病害检测系统的准确性至关重要。我们收集的传感器数据源自智能农业监测设备,例如土壤测试传感器和植物生长监测设备,它们可以提供关于土壤 pH 值、电导率、养分含量以及植物生理指标的详细数据。这些设备部署在田间的关键位置,并定期收集数据,以监测和评估作物生长状况及潜在的病害风险。所有收集到的传感器数据都经过了严格的数据清洗和预处理,以确保数据质量符合后续分析的要求。在数据预处理过程中,我们剔除了异常值、填充了缺失值,并对数据进行了归一化,以便它们在后续数据分析中得到有效利用。
4.1.4. Image Data Collection
4.1.4. 图像数据收集
在本研究中,图像数据的收集对于建立高效的病害检测模型和提升农业问答系统的性能至关重要。图像数据的内容、来源、数量和获取方法是构建准确、全面模型的基础。首先,图像数据的内容主要包括水稻、小麦、马铃薯和棉花等主要作物的健康和患病植物图像,如表 7 所示。
这些图像包括作物的不同生长阶段以及各种常见和罕见疾病的表现。对于水稻,收集了健康水稻、患有稻瘟病、黄叶病及其他病害状况的图像。对于每种作物,努力确保图像涵盖从早期症状到严重感染的各个阶段。此外,数据来源多样,主要采自中国农业大学西校区植物园。此外,还有一定数量的图像来源于互联网上的公共资源,这些图像代表了来自不同地区和不同气候条件下的作物。使用这些图像数据的理由是,丰富多样的图像数据集是构建高效疾病检测模型的关键。作物类型、疾病类型和疾病发展阶段的多样性显著增强了模型的泛化能力和准确性。此外,不同光照条件和拍摄角度下的图像有助于训练模型更好地适应实际应用中的各种情况。标注过程包括识别图像中的病害区域并分配正确的疾病类别标签。对于一些复杂的图像,采用了专家知识进行精确标注,如 Figure 4 所示。
图 4. 数据集标注界面的截图,展示了在一个农业病害检测数据集中,使用标注工具对单个植物叶片上的病害病斑进行精确标注。此举旨在创建用于机器学习模型训练的标注数据集。
4.2. Data Preprocessing 4.2. 数据预处理
4.2.1. Preprocessing of Corpus Data
4.2.1. 语料数据预处理
在本研究中,语料数据的预处理是构建高效农业问答系统和病害检测模型的关键步骤。预处理涉及将原始文本数据转换为更适合计算机处理的格式,以便进行后续的机器学习和自然语言处理任务。采用了一系列预处理技术来优化语料数据,确保数据质量和处理效率。最初,从农业论文、技术报告、在线论坛和问答等各种渠道获取的原始语料数据,在结构和格式上存在显著差异。为了使机器学习模型能够有效处理,进行了基本的数据清洗。这包括删除不相关信息(如广告、无意义字符)、标准化数据格式(如日期、单位)以及纠正明显错误。随后,文本数据进行了分词处理。分词是将文本中的长句或段落分割成单个词语的过程,这对于中文文本尤为关键,因为中文词语之间没有明确的分隔符。使用基于统计和机器学习的工具进行了高效的分词。在本文中,文本序列化操作利用了现有的分词工具 Jieba 进行分词,并结合了 Word2Vec 模型。此外,文本数据还进行了词性标注和句法分析。词性标注涉及为文本中的每个词语分配一个语法角色(如名词、动词等),而句法分析则探讨句子中词语之间的依存关系。这些步骤对于理解文本的语义结构至关重要。为了提高模型性能和准确性,文本数据进一步进行了向量化处理。文本向量化涉及将文本中的词语转换为计算机可处理的数值向量。为此,采用了词嵌入技术[20]。词嵌入技术能够捕捉词语之间的语义关系,并将其转换为高维空间中的向量,如图 5 所示。
图 5. 文本嵌入在三维空间中的示意图,展示了文本数据如何被映射到由三个基向量 、 和 形成的嵌入空间中的点上。
词向量化过程可表示为
其中,V 代表词向量, 是词嵌入函数,而 表示词嵌入模型的参数。这一步至关重要,因为它直接影响了后续模型的性能。通过这些预处理步骤,原始文本数据被转换成适合机器学习和自然语言处理的格式。这些预处理技术不仅提高了数据的质量和一致性,还为后续的模型训练和分析奠定了坚实的基础。
4.2.2. Preprocessing of Image Data
4.2.2. 图像数据预处理
本文讨论了三种图像数据预处理方法:基本增强、Cutout 和 Cutmix,如图 6 所示。
图 6. 图像增强技术在农业病害检测中的应用示例:(A) 图像显示了使用 Cutout 技术增强的植物图像,(B) 图像显示了使用 Cutmix 技术增强的植物图像(红色框表示添加部分),(C) 图像展示了通过颜色和亮度调整增强的植物图像。
这些方法被广泛用于增强图像数据,从而提高深度学习模型的性能。Cutout [ 53] 是一种图像数据增强技术,它通过遮挡图像的一部分来引入随机性,从而减轻过拟合并增强模型的泛化能力。其概念是在图像的随机位置绘制一个黑色方块,随机消除部分图像信息。这有助于模型学习更鲁棒的特征。每次应用 Cutout 都会遮挡图像的不同部分,有助于模型更好地泛化。定义一个图像,其像素值由矩阵 P 表示,维度为 ,其中 W 和 H 是图像的宽度和高度,C 是通道数。一个二值掩码 M 表示 Cutout 操作,其维度与 P 相同,其中 表示位置 处的通道 c 是否被遮挡。M 中为 1 表示保留像素值,为 0 表示遮挡。Cutout 操作可以表示为
此处,⊙ 表示逐元素乘法。将图像的像素值与掩码相乘,即可得到图像的遮蔽部分 。
Cutmix [ 54] 是另一种图像数据增强方法,与 Cutout 不同,它通过合并两张图像来引入更多多样性。Cutmix 的概念是随机选择一个图像块并将其插入到另一张图像中,同时生成一个与插入图像块对应的掩码,从而实现图像合成。Cutmix 的主要特点包括多样性和引入类别标签。Cutmix 通过合并不同图像的特征来引入更多多样性,有助于模型学习更丰富的特征。它还混合了两张图像的类别标签,增加了标签的多样性。假设两张输入图像 和 ,它们的像素值分别由矩阵 和 表示。还有两个对应的标签 和 ,分别代表这两张图像的类别。以下公式可以生成 Cutmix 图像 :
其中,M 是一个与图像尺寸相同的掩码,其值介于 0 和 1 之间,表示图像块的选择。M 通过随机选择一个矩形区域生成,将对应像素值设为 1,其他像素值设为 0。这个掩码也可以用于混合类别标签:
其中, 是一个随机生成的权重,用于控制标签混合的程度。
4.3. Proposed Method 4.3. 提出方法
4.3.1. Multi-Transformer Overview
4.3.1. 多 Transformer 概述
本研究提出了一种基于多模态和大型 Transformer 模型的综合方法,以有效处理农业领域的病害检测和问答任务。该方法融合了先进的多模态技术、深度学习和自然语言处理,构建了一个全面高效的农业智能系统。我们的方法主要依赖于一种多 Transformer 架构,该架构能够处理和分析来自不同模态(如图像、文本)的数据。该架构的核心在于将各种类型的数据输入转换为统一的格式,从而促进有效的学习和推理。
在此框架下,来自不同模态的数据首先通过多模态对齐模块进行融合和同步,随后使用基于 Transformer 的推理模型对这些融合数据进行深入分析,最后通过特别设计的多模态损失函数优化整体模型性能。该方法流程设计包括几个关键步骤。首先,在多模态对齐模块中,来自不同来源的数据得到处理和统一。对于图像数据,采用卷积神经网络(CNN)提取特征;对于文本数据,使用自然语言处理(NLP)技术进行词嵌入和语义分析。接着,来自不同模态的特征被整合到一个统一的框架中,确保不同类型数据在后续处理中有效结合。其次,Transformer 推理模型利用 Transformer 模型的强大能力来处理融合后的多模态数据。Transformer 模型以其高效的并行处理和长距离依赖捕获能力而闻名,在处理复杂序列数据方面表现出色。在这一步中,模型不仅学习数据的内部特征,还探索不同模态特征之间的关系。最后,设计了一个特殊的多模态损失函数,以有效训练这个复杂系统并优化其性能。该损失函数全面考虑了不同模态数据的特性和重要性以及它们在最终任务中的作用,确保模型在学习过程中充分考虑多模态数据的特点。从理论上讲,我们的方法基于这样的观点:不同模态的数据(如图像和文本)在农业病害检测和问答系统中提供互补信息。通过结合这些不同的数据源,我们的系统可以获得比单一模态系统更丰富、更全面的理解。例如,在疾病检测中,图像提供直观的疾病特征,而文本则提供关于疾病的详细描述和背景信息。这种信息的结合使系统能够更准确地识别和分类疾病。采用多 Transformer 架构是因为 Transformer 模型在处理序列数据,尤其是在捕获长距离依赖方面的优势。
4.3.2. Multimodal Alignment Module
4.3.2. 多模态对齐模块
在本研究中,多模态对齐模块是核心组件之一,负责有效融合来自不同模态的数据(包括图像、文本和传感器数据),以提升农业病害检测与问答系统的性能。多模态对齐模块的设计旨在解决不同模态数据之间特征空间和语义层面的差异,为后续处理和分析提供统一协调的数据表示。多模态对齐模块的输入主要包括图像和文本数据。图像数据通常通过卷积神经网络(CNN)处理以提取视觉特征,而文本数据则利用自然语言处理技术(如 BERT)处理以提取语言特征。多模态对齐模块的目标是将这两种不同模态的数据特征转换为统一的特征表示,以便在后续处理中有效整合,如图 7 所示。
图 7. 多模态数据处理框架示意图,展示了温度传感器数据和文本数据如何通过特定编码器进行编码,以及图像数据如何通过图像编码器进行处理。它还说明了如何将来自每个源的编码数据结合起来,生成一个全面的特征表示。
在处理流程中,首先对图像和文本数据进行了初步特征提取。对于图像数据,使用 CNN 模型(ResNet50 [ 23])提取了视觉特征 :
此处, 表示 ResNet50 的参数。对于文本数据 T,使用 BERT 模型提取得到语言特征 :
这里, 代表 BERT 模型的参数。关键步骤是特征融合,其中视觉特征 和语言特征 被结合以生成统一的多模态特征 。这个过程可以通过融合函数 F: 来实现:
这里, 表示融合函数的参数。在多模态对齐模块中,特征融合的关键是找到一种有效的方法来整合来自不同模态的特征。采用了加权融合方法,其中融合权重是数据驱动的,并在模型训练期间自动学习。加权融合可以表示为
在这里, 是一个学习到的权重,用于平衡来自不同模态特征的重要性。这种方法的优势在于它能够根据不同任务的需求,自动调整视觉和语言特征的贡献。多模态对齐模块在农业病害检测与问答系统中的应用带来了显著优势。首先,它使系统能够同时利用图像中的视觉信息和文本中的语义信息,从而提高了病害检测的准确性和问答的相关性。其次,多模态对齐模块的灵活性使得系统能够根据不同任务的特点,调整来自不同模态数据的贡献,精准满足各类任务的需求。最后,该方法具有强大的泛化能力,能够适应不同类型和来源的数据,增强了系统在实际应用中的稳定性和可靠性。
4.3.3. Transformer Inference Model
4.3.3. Transformer 推理模型
在本研究中,Transformer 推理模型作为核心组件之一,承担了处理和分析融合多模态数据的关键任务。Transformer 模型凭借其卓越的性能和灵活性,已成为自然语言处理领域处理复杂序列数据的首选。在我们的研究中,Transformer 模型被用于从融合的多模态数据中提取深层特征并进行有效推理,如图 8 所示。Transformer 模型的核心是其自注意力机制,该机制允许模型在处理序列时同时考虑序列中的所有位置,从而捕获复杂的上下文关系。
图 8. 多模态数据低秩融合模型的示意图,描绘了图像数据、传感器数据和文本数据(知识图谱)如何通过特定的函数映射转换到低秩空间。这些低秩表示随后被联合用于预测任务,以生成最终的任务输出。
在本研究的推理模型中,输入是来自多模态对齐模块的融合特征。融合特征首先通过一系列 Transformer 编码层,每个编码层都包含一个自注意力机制和一个前馈神经网络。自注意力机制的工作原理可以用公式 (4) 表示。该机制使模型能够关注输入序列不同部分之间的关联。通过自注意力机制后,数据进入前馈神经网络进行进一步处理。整个过程可以表示为
其中, 是多模态对齐模块的输出, 表示前馈神经网络。Transformer 模型在处理序列数据方面具有显著优势。特别是,其自注意力机制可以有效处理长距离依赖问题,这对于理解和分析复杂的多模态数据至关重要。此外,Transformer 模型的并行处理能力使其在处理大规模数据时更高效。从数学角度来看,Transformer 模型的优势在于其自注意力机制能够动态地对序列的不同部分进行加权。通过调整权重,模型可以更灵活地捕获序列中的重要特征,从而提高推理的准确性。Transformer 推理模型在农业病害检测和问答系统中的应用带来了以下几个优势:Transformer 模型可以从融合的多模态数据中提取丰富而深层的特征,这对于理解复杂的农业问题至关重要。在处理描述性文本和图像标签等长序列数据时,Transformer 模型可以有效捕获长距离依赖关系。Transformer 模型的并行处理能力使其在处理大量多模态数据时更高效,这对于构建实用的农业智能系统尤为重要。
4.3.4. Multimodal Loss Function
4.3.4. 多模态损失函数
本研究中,设计了一种专门的多模态损失函数,用于优化和评估基于多模态数据的 Transformer 推理模型。该多模态损失函数考虑了不同模态数据的特征及其在模型中的重要性,确保模型在处理多模态数据时获得最佳学习效果。多模态损失函数的设计认识到不同模态数据在多模态学习任务中于模型内扮演的独特角色。通过引入模态特定的损失函数,模型能够确保在学习过程中充分考虑每种模态的特征,从而增强其处理多模态数据的能力。多模态损失函数的设计原则基于这样一个理念:不同模态对模型的贡献不同,且这些贡献可能随任务而异。例如,在某些场景中,图像数据可能比文本数据提供更直观的信息,而在另一些场景中,文本中的语义信息可能更为关键。因此,我们的损失函数设计旨在动态平衡这些不同的模态贡献,以提升模型的整体性能。该多模态损失函数结合了传统的分类损失(如交叉熵损失)与模态特定的损失。其数学表达式可表示为
这里, 表示总损失, 是分类任务的交叉熵损失, 和 代表与不同模态相关的损失(例如,图像的特定损失和文本的特定损失)。 、 和 是用于平衡来自不同部分的损失的权重系数。交叉熵损失是分类任务中常用的损失函数,用于衡量模型预测的概率分布与实际标签分布之间的差异。其数学公式如下:
其中, 是实际标签的概率分布,而 是模型的预测概率分布。对于模态特定的损失,可以根据任务设计不同的损失函数。例如,对于图像模态,可以使用与图像重建或特征匹配相关的损失函数;对于文本模态,可以使用与语义相似性或句子生成质量相关的损失函数。多模态损失函数在农业病害检测和问答系统中的应用具有多项优势。通过平衡不同模态数据的贡献,多模态损失函数可以提高模型处理多模态数据的准确性。不同的任务可能需要对不同模态数据给予不同程度的关注。多模态损失函数的设计允许模型根据任务的特点自动调整不同模态数据的重要性。通过结合分类损失和模态特定损失,多模态损失函数可以优化模型性能。
4.4. Experimental Configuration
4.4. 实验配置
4.4.1. Hardware Platform 4.4.1. 硬件平台
硬件平台是深度学习实验的基础,对于多模态病害检测和农业问答系统的研究至关重要。本节详细介绍了硬件平台的配置,包括 GPU、CPU、内存等方面。在我们的硬件平台中,选择 NVIDIA GeForce RTX 3090 作为主要的 GPU。这款 GPU 基于 NVIDIA 的 Ampere 架构,拥有大量的 CUDA 核心和充足的内存容量,非常适合处理多模态数据和大型模型。另一方面,CPU(中央处理器)在数据预处理、模型部署和某些计算密集型任务中发挥着重要作用。我们的硬件平台选择了一台配备 32 核 CPU 的服务器。这款 CPU 拥有多个物理和逻辑核心,能够处理多线程任务并支持高性能计算。在多模态任务中,数据集通常很大,需要充足的内存用于数据加载和处理。因此,配置了 128 GB 的 RAM,以确保模型训练和推理有足够的内存。大规模数据集需要高速存储设备来加速数据加载和保存。因此,选择高性能固态硬盘(SSD)作为主要存储设备,以提供快速数据访问。
4.4.2. Software Configuration and Hyperparameter Settings
4.4.2. 软件配置与超参数设置
深度学习研究中,适当的软件配置和超参数设置对于训练多模态疾病检测和农业问答系统中的模型至关重要。本节详细介绍了软件配置和各种超参数设置,包括深度学习框架、操作系统、学习率、批量大小等。在多模态任务中,选择合适的深度学习框架对于模型训练和性能至关重要。当前最流行的深度学习框架之一是 PyTorch,它以其广泛的库支持、动态计算图和用户友好的 API 而闻名。PyTorch 因其在多模态任务中的出色表现和强大的社区支持而被选作主要的深度学习框架。选择合适的操作系统也是一个关键的决定。Linux 操作系统因其对深度学习工具和库的良好支持,在深度学习研究和开发中被广泛使用。在我们的实验中,选择了流行的 Linux 发行版 Ubuntu,以确保与深度学习工具的兼容性。学习率是深度学习中的一个关键超参数,它决定了模型在每次参数更新时的步长。学习率的选择直接影响模型的收敛速度和性能。在我们的实验中,初始学习率设置为 0.001。我们尝试了不同的学习率设置,并根据在验证集上的表现选择了最佳设置。批量大小是指一次性输入到模型的训练样本数量。批量训练有助于加快训练过程并提高内存效率。批量大小的选择取决于模型的架构和硬件资源。较大的批量大小可以加速训练,但同时也需要更多的内存。在硬件资源有限的情况下,可能需要选择较小的批量大小。因此,在这种情况下,批量大小设置为 128。在实验过程中,对批量大小进行了调整和优化,以实现最佳性能。为了防止模型过拟合,我们应用了正则化技术,包括 L2 正则化和 dropout。正则化有助于模型泛化到新数据。此外,我们选择了合适的优化器 Adam 来更新模型参数。模型参数初始化也是一个重要方面。我们使用预训练模型权重进行初始化。预训练模型通常在大规模数据集上进行训练,具有更好的初始特征表示。对于多模态任务,我们选择了预训练的文本和图像模型,并将它们组合成一个多模态模型。在我们的实验中,使用了超参数搜索方法来寻找最佳的超参数组合,包括搜索最佳学习率、批量大小、正则化参数等。 采用了网格搜索、随机搜索和贝叶斯优化等技术来寻找最佳超参数设置。超参数搜索是一个迭代过程,需要反复试验不同的超参数组合,并以验证集上的性能为指导。
4.4.3. Dataset Training 4.4.3. 数据集训练
在深度学习任务中,恰当地划分数据集用于训练、验证和测试至关重要。数据集划分和交叉验证的方法直接影响模型的性能评估和泛化能力。本文讨论了数据集划分、K-Fold 交叉验证以及其他与训练相关的细节。数据集划分是机器学习实验中的主要步骤之一。适当的数据集划分方法确保模型在训练、验证和测试过程中能够充分利用数据。在多模态疾病检测和农业问答系统任务中,存在一个包含大量数据的综合数据集,需要将其划分为三个关键部分。训练集占总数据集的 70%,是模型训练的基础,模型在此学习捕获数据的模式和特征。验证集占总数据集的 15%,用于模型的超参数调优和性能评估。在验证集上进行多次验证,以选择最佳的模型超参数设置,例如学习率和正则化参数。测试集包含数据集的剩余 15%,用于最终评估模型的性能。模型在测试集上的性能评估是衡量模型在真实世界数据上表现的最终指标。划分数据集时,确保每个部分都包含来自不同类别或样本的数据至关重要,以保证模型的泛化能力。采用随机抽样进行划分,以保持数据的均匀分布。此外,还使用了 K-Fold (k = 10) 交叉验证,这使得数据得到更充分的利用,并提供了可靠的性能评估。这种方法涉及将数据集划分为 K 个大小相等的子集,其中 K-1 个子集用于训练,剩余的一个用于验证。这个过程重复 K 次,每次都有一个不同的子集作为验证集,K 次验证分数的平均值被作为最终的性能指标。K-Fold 交叉验证的优点包括通过多次验证获得更准确的性能估计,减少随机性的影响,以及能够在每个验证折叠上尝试不同的超参数设置以选择最佳设置。
4.4.4. Model Evaluation Metrics
4.4.4. 模型评估指标
为了评估我们的病害检测与农业问答系统的有效性,我们采用了三项主要评估指标。
准确率是分类任务中常用的一个指标。它量化了模型在总样本数中正确分类的样本所占的百分比。简单来说,准确率可以描述为模型正确识别的样本数量与所检查的总样本数量之比。精确率衡量模型在识别正样本方面的准确性。具体来说,它计算了在模型标记为正的所有样本中,被准确预测为正的样本所占的百分比。这意味着精确率是通过将真阳性样本(那些被正确识别为正的)的数量除以模型预测为正的所有样本的数量来确定的。召回率,也称为敏感度,侧重于模型正确识别所有可能的正样本的能力。它表示在所有实际正样本中,被正确预测为正的样本所占的比例。换句话说,召回率是将真阳性样本的数量除以实际为正的总样本数量所得的商。
这些指标用于衡量模型在识别疾病和提供农业问题答案方面的准确性。准确率提供了模型整体性能的宏观视角,而精确率和召回率则深入揭示了其在数据分布可能存在偏差的场景中的有效性。
5. Conclusions 5. 结论
本研究提出了一种基于多模态数据和 Transformer 模型的综合方法,以解决农业病害检测和问答系统中的关键挑战。首先,在病害检测实验中,比较了 AlexNet、GoogLeNet、VGG、ResNet 等多种模型以及本文提出的方法。结果表明,本文提出的方法在精确率、召回率和准确率方面均取得了最高值,分别为 0.95、0.92 和 0.94,显著优于其他对比模型。这表明本文提出的方法在识别各种农业病害方面具有显著优势,尤其是在处理复杂数据和细微特征方面。其次,在农业图像字幕生成实验中,考察了 BLIP、mPLUG-Owl、InstructBLIP、CLIP、BLIP2 以及本文提出的方法的性能。在此任务中,本文提出的方法也表现出最佳性能,精确率、召回率和准确率得分分别为 0.92、0.88 和 0.91。这些结果表明,本文提出的方法能够有效理解农业图像内容并生成准确且丰富的描述性文本,这对于提升农业生产的智能化和自动化水平至关重要。在目标检测实验中,比较了 SSD、RetinaNet、CenterNet、YOLOv8 以及本文提出的方法。实验结果表明,本文提出的方法在精确率、召回率和准确率方面表现最佳,分别取得了 0.96、0.91 和 0.94 的得分。这一结果再次证实了本文提出的方法在处理复杂农业数据,尤其是在准确识别和定位农业病害方面的效率和准确性。此外,还进行了多模态数据集消融实验和不同损失函数消融实验。在多模态数据集消融实验中,发现当使用全模态数据(图像、文本和传感器数据)时,模型表现最佳,任何模态的缺失都会导致性能下降。这强调了多模态数据在提升模型性能方面的重要性。在不同损失函数消融实验中,发现多模态损失函数在所有任务中表现最佳,证明了其在处理多模态数据方面的有效性。
Author Contributions 作者贡献
概念化,Y.L.、X.L.和 C.L.;方法论,Y.L.和 S.C.;软件,Y.L.和 L.Z.;验证,L.Z.;正式分析,M.S.、S.C.和 B.C.;调查,X.L.;资源,M.S.和 T.W.;数据整理,X.L.、L.Z.、M.S.、B.C.和 T.W.;初稿撰写,Y.L.、X.L.、L.Z.、M.S.、S.C.、B.C.、T.W.、J.Y.和 C.L.;审阅与编辑,J.Y.和 C.L.;可视化,S.C.、B.C.、T.W.和 J.Y.;监督,C.L.;项目管理,J.Y.和 C.L.;资金获取,C.L.。所有作者均已阅读并同意手稿的发表版本。
Funding 资金
本研究由国家自然科学基金(项目编号 61202479)资助。
Data Availability Statement
数据可用性声明
本研究中提供的数据可应要求从通讯作者处获取。
Conflicts of Interest 利益冲突
作者声明不存在任何利益冲突。
References 参考文献
- Zhang, Y.; Wa, S.; Sun, P.; Wang, Y. Pear defect detection method based on resnet and dcgan. Information 2021, 12, 397. [Google Scholar] [CrossRef]
Zhang, Y.; Wa, S.; Sun, P.; Wang, Y. 基于 resnet 和 dcgan 的梨缺陷检测方法。Information 2021, 12, 397. [ Google Scholar] [ CrossRef] - Saleem, M.H.; Potgieter, J.; Arif, K.M. Automation in agriculture by machine and deep learning techniques: A review of recent developments. Precis. Agric. 2021, 22, 2053–2091. [Google Scholar] [CrossRef]
Saleem, M.H.; Potgieter, J.; Arif, K.M. 农业自动化:通过机器学习和深度学习技术实现——最新发展综述. Precis. Agric. 2021, 22, 2053–2091. [ Google Scholar] [ CrossRef] - Sujatha, R.; Chatterjee, J.M.; Jhanjhi, N.; Brohi, S.N. Performance of deep learning vs machine learning in plant leaf disease detection. Microprocess. Microsyst. 2021, 80, 103615. [Google Scholar] [CrossRef]
Sujatha, R.; Chatterjee, J.M.; Jhanjhi, N.; Brohi, S.N. 深度学习与机器学习在植物叶片病害检测中的性能表现。Microprocess. Microsyst. 2021, 80, 103615. [ Google Scholar] [ CrossRef] - Zhang, Y.; Wa, S.; Liu, Y.; Zhou, X.; Sun, P.; Ma, Q. High-accuracy detection of maize leaf diseases CNN based on multi-pathway activation function module. Remote Sens. 2021, 13, 4218. [Google Scholar] [CrossRef]
Zhang, Y.; Wa, S.; Liu, Y.; Zhou, X.; Sun, P.; Ma, Q. 基于多通路激活函数模块的玉米叶片病害 CNN 高精度检测。Remote Sens. 2021, 13, 4218. [ Google Scholar] [ CrossRef] - Li, L.; Zhang, S.; Wang, B. Plant disease detection and classification by deep learning—A review. IEEE Access 2021, 9, 56683–56698. [Google Scholar] [CrossRef]
Li, L.; Zhang, S.; Wang, B. 基于深度学习的植物病害检测与分类——综述。IEEE Access 2021, 9, 56683–56698. [ Google Scholar] [ CrossRef] - Ray, M.; Ray, A.; Dash, S.; Mishra, A.; Achary, K.G.; Nayak, S.; Singh, S. Fungal disease detection in plants: Traditional assays, novel diagnostic techniques and biosensors. Biosens. Bioelectron. 2017, 87, 708–723. [Google Scholar] [CrossRef]
Ray, M.; Ray, A.; Dash, S.; Mishra, A.; Achary, K.G.; Nayak, S.; Singh, S. 植物真菌病害检测:传统检测方法、新型诊断技术和生物传感器。生物传感器与生物电子学。2017, 87, 708–723. [ Google Scholar] [ CrossRef] - Vadamalai, G.; Kong, L.L.; Iftikhar, Y. Plant Genetics and Physiology in Disease Prognosis. In Plant Disease Management Strategies for Sustainable Agriculture through Traditional and Modern Approaches; Springer: Berlin/Heidelberg, Germany, 2020; pp. 15–25. [Google Scholar]
Vadamalai, G.; Kong, L.L.; Iftikhar, Y. 植物遗传学与生理学在疾病预后中的应用。载于:通过传统和现代方法实现可持续农业的植物病害管理策略;Springer:德国柏林/海德堡,2020;页 15–25. [ Google Scholar] - Das, D.; Singh, M.; Mohanty, S.S.; Chakravarty, S. Leaf disease detection using support vector machine. In Proceedings of the 2020 International Conference on Communication and Signal Processing (ICCSP), Chennai, India, 28–30 July 2020; pp. 1036–1040. [Google Scholar]
Das, D.; Singh, M.; Mohanty, S.S.; Chakravarty, S. 基于支持向量机的叶片病害检测。载于:2020 年通信与信号处理国际会议论文集,印度金奈,2020 年 7 月 28–30 日;页 1036–1040. [ Google Scholar] - Lin, X.; Wa, S.; Zhang, Y.; Ma, Q. A dilated segmentation network with the morphological correction method in farming area image Series. Remote Sens. 2022, 14, 1771. [Google Scholar] [CrossRef]
Lin, X.; Wa, S.; Zhang, Y.; Ma, Q. 农田图像序列中结合形态学校正方法的膨胀分割网络. Remote Sens. 2022, 14, 1771. [ Google Scholar] [ CrossRef] - Zhang, Y.; Yang, X.; Liu, Y.; Zhou, J.; Huang, Y.; Li, J.; Zhang, L.; Ma, Q. A time-series neural network for pig feeding behavior recognition and dangerous detection from videos. Comput. Electron. Agric. 2024, 218, 108710. [Google Scholar] [CrossRef]
Zhang, Y.; Yang, X.; Liu, Y.; Zhou, J.; Huang, Y.; Li, J.; Zhang, L.; Ma, Q. 一种用于视频中猪采食行为识别和危险行为检测的时间序列神经网络. Comput. Electron. Agric. 2024, 218, 108710. [ Google Scholar] [ CrossRef] - Deepalakshmi, P.; Lavanya, K.; Srinivasu, P.N. Plant leaf disease detection using CNN algorithm. Int. J. Inf. Syst. Model. Des. (IJISMD) 2021, 12, 1–21. [Google Scholar] [CrossRef]
Deepalakshmi, P.; Lavanya, K.; Srinivasu, P.N. 使用 CNN 算法的植物叶片病害检测. Int. J. Inf. Syst. Model. Des. (IJISMD) 2021, 12, 1–21. [ Google Scholar] [ CrossRef] - Sharma, P.; Berwal, Y.P.S.; Ghai, W. Performance analysis of deep learning CNN models for disease detection in plants using image segmentation. Inf. Process. Agric. 2020, 7, 566–574. [Google Scholar] [CrossRef]
Sharma, P.; Berwal, Y.P.S.; Ghai, W. 深度学习 CNN 模型在植物病害检测中基于图像分割的性能分析。《农业信息处理》 2020, 7, 566–574. [ Google Scholar] [ CrossRef] - Bedi, P.; Gole, P. Plant disease detection using hybrid model based on convolutional autoencoder and convolutional neural network. Artif. Intell. Agric. 2021, 5, 90–101. [Google Scholar] [CrossRef]
Bedi, P.; Gole, P. 基于卷积自编码器和卷积神经网络的混合模型在植物病害检测中的应用。《人工智能农业》 2021, 5, 90–101. [ Google Scholar] [ CrossRef] - De Silva, M.; Brown, D. Multispectral Plant Disease Detection with Vision Transformer–Convolutional Neural Network Hybrid Approaches. Sensors 2023, 23, 8531. [Google Scholar] [CrossRef]
De Silva, M.; Brown, D. 采用视觉 Transformer-卷积神经网络混合方法的植物多光谱病害检测。《传感器》 2023, 23, 8531. [ Google Scholar] [ CrossRef] - Parez, S.; Dilshad, N.; Alghamdi, N.S.; Alanazi, T.M.; Lee, J.W. Visual intelligence in precision agriculture: Exploring plant disease detection via efficient vision transformers. Sensors 2023, 23, 6949. [Google Scholar] [CrossRef]
Parez, S.; Dilshad, N.; Alghamdi, N.S.; Alanazi, T.M.; Lee, J.W. 精准农业中的视觉智能:通过高效视觉 Transformer 探索植物病害检测。Sensors 2023, 23, 6949. [ Google Scholar] [ CrossRef] - Thai, H.T.; Le, K.H.; Nguyen, N.L.T. FormerLeaf: An efficient vision transformer for Cassava Leaf Disease detection. Comput. Electron. Agric. 2023, 204, 107518. [Google Scholar] [CrossRef]
Thai, H.T.; Le, K.H.; Nguyen, N.L.T. FormerLeaf:一种用于木薯叶病害检测的高效视觉 Transformer。Comput. Electron. Agric. 2023, 204, 107518. [ Google Scholar] [ CrossRef] - Xie, L.; Yuille, A. Genetic cnn. In Proceedings of the IEEE International Conference on Computer Vision, Venice, Italy, 22–29 October 2017; pp. 1379–1388. [Google Scholar]
Xie, L.; Yuille, A. Genetic cnn. 载于:IEEE 国际计算机视觉会议论文集,意大利威尼斯,2017 年 10 月 22-29 日;第 1379–1388 页。[ Google Scholar] - Redmon, J.; Divvala, S.; Girshick, R.; Farhadi, A. You only look once: Unified, real-time object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 27–30 June 2016; pp. 779–788. [Google Scholar]
Redmon, J.; Divvala, S.; Girshick, R.; Farhadi, A. 你只看一次:统一的实时目标检测。载于《IEEE 计算机视觉与模式识别会议论文集》,美国内华达州拉斯维加斯,2016 年 6 月 27-30 日;第 779–788 页。[ Google Scholar] - Hu, Z.; Dong, Y.; Wang, K.; Chang, K.W.; Sun, Y. Gpt-gnn: Generative pre-training of graph neural networks. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, Virtual Event, 6–10 July 2020; pp. 1857–1867. [Google Scholar]
Hu, Z.; Dong, Y.; Wang, K.; Chang, K.W.; Sun, Y. Gpt-gnn:图神经网络的生成式预训练。载于《第 26 届 ACM SIGKDD 知识发现与数据挖掘国际会议论文集》,线上会议,2020 年 7 月 6-10 日;第 1857–1867 页。[ Google Scholar] - Devlin, J.; Chang, M.W.; Lee, K.; Toutanova, K. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv 2018, arXiv:1810.04805. [Google Scholar]
Devlin, J.; Chang, M.W.; Lee, K.; Toutanova, K. Bert:用于语言理解的深度双向 Transformer 预训练。arXiv 2018, arXiv:1810.04805。[ Google Scholar] - Trong, V.H.; Gwang-hyun, Y.; Vu, D.T.; Jin-young, K. Late fusion of multimodal deep neural networks for weeds classification. Comput. Electron. Agric. 2020, 175, 105506. [Google Scholar] [CrossRef]
Trong, V.H.; Gwang-hyun, Y.; Vu, D.T.; Jin-young, K. 多模态深度神经网络的后期融合用于杂草分类. 计算机与电子农业. 2020, 175, 105506. [ Google Scholar] [ CrossRef] - Simonyan, K.; Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv 2014, arXiv:1409.1556. [Google Scholar]
Simonyan, K.; Zisserman, A. 用于大规模图像识别的极深卷积网络. arXiv 2014, arXiv:1409.1556. [ Google Scholar] - He, K.; Zhang, X.; Ren, S.; Sun, J. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 27–30 June 2016; pp. 770–778. [Google Scholar]
He, K.; Zhang, X.; Ren, S.; Sun, J. 用于图像识别的深度残差学习. 载于:IEEE 计算机视觉与模式识别会议论文集, 美国内华达州拉斯维加斯, 2016 年 6 月 27-30 日; pp. 770–778. [ Google Scholar] - Singh, S.; Ahuja, U.; Kumar, M.; Kumar, K.; Sachdeva, M. Face mask detection using YOLOv3 and faster R-CNN models: COVID-19 environment. Multimed. Tools Appl. 2021, 80, 19753–19768. [Google Scholar] [CrossRef]
Singh, S.; Ahuja, U.; Kumar, M.; Kumar, K.; Sachdeva, M. 使用 YOLOv3 和 Faster R-CNN 模型进行口罩检测:COVID-19 环境下。Multimed. Tools Appl. 2021, 80, 19753–19768. [ Google Scholar] [ CrossRef] - Wu, W.; Liu, H.; Li, L.; Long, Y.; Wang, X.; Wang, Z.; Li, J.; Chang, Y. Application of local fully Convolutional Neural Network combined with YOLO v5 algorithm in small target detection of remote sensing image. PloS ONE 2021, 16, e0259283. [Google Scholar] [CrossRef]
Wu, W.; Liu, H.; Li, L.; Long, Y.; Wang, X.; Wang, Z.; Li, J.; Chang, Y. 局部全卷积神经网络结合 YOLO v5 算法在遥感图像小目标检测中的应用。PloS ONE 2021, 16, e0259283. [ Google Scholar] [ CrossRef] - Bertasius, G.; Wang, H.; Torresani, L. Is space-time attention all you need for video understanding? In Proceedings of the 38th International Conference on Machine Learning, ICML, Virtual Event, 18–24 July 2021; Volume 2, p. 4. [Google Scholar]
Bertasius, G.; Wang, H.; Torresani, L. 时空注意力是你进行视频理解所需要的一切吗?载于第 38 届国际机器学习大会(ICML)论文集,虚拟会议,2021 年 7 月 18-24 日;第 2 卷,第 4 页。 [ Google Scholar] - Patil, R.R.; Kumar, S. Rice-fusion: A multimodality data fusion framework for rice disease diagnosis. IEEE Access 2022, 10, 5207–5222. [Google Scholar] [CrossRef]
Patil, R.R.; Kumar, S. Rice-fusion:一种用于水稻病害诊断的多模态数据融合框架。IEEE Access 2022, 10, 5207–5222. [ Google Scholar] [ CrossRef] - Dandrifosse, S.; Carlier, A.; Dumont, B.; Mercatoris, B. Registration and fusion of close-range multimodal wheat images in field conditions. Remote Sens. 2021, 13, 1380. [Google Scholar] [CrossRef]
Dandrifosse, S.; Carlier, A.; Dumont, B.; Mercatoris, B. 田间条件下近距离多模态小麦图像的配准与融合。Remote Sens. 2021, 13, 1380. [ Google Scholar] [ CrossRef] - Anandhi, D.R.F.R.; Sathiamoorthy, S. Enhanced Sea Horse Optimization with Deep Learning-based Multimodal Fusion Technique for Rice Plant Disease Segmentation and Classification. Eng. Technol. Appl. Sci. Res. 2023, 13, 11959–11964. [Google Scholar] [CrossRef]
Anandhi, D.R.F.R.; Sathiamoorthy, S. 增强型海马优化结合基于深度学习的多模态融合技术用于水稻病害分割与分类。Eng. Technol. Appl. Sci. Res. 2023, 13, 11959–11964. [ Google Scholar] [ CrossRef] - Gadiraju, K.K.; Ramachandra, B.; Chen, Z.; Vatsavai, R.R. Multimodal deep learning based crop classification using multispectral and multitemporal satellite imagery. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, Virtual Event, 6–10 July 2020; pp. 3234–3242. [Google Scholar]
Gadiraju, K.K.; Ramachandra, B.; Chen, Z.; Vatsavai, R.R. 基于多模态深度学习的作物分类,使用多光谱和多时相卫星图像。载于第 26 届 ACM SIGKDD 知识发现与数据挖掘国际会议论文集,虚拟会议,2020 年 7 月 6 日至 10 日;第 3234–3242 页。[ Google Scholar] - Qing, J.; Deng, X.; Lan, Y.; Li, Z. GPT-aided diagnosis on agricultural image based on a new light YOLOPC. Comput. Electron. Agric. 2023, 213, 108168. [Google Scholar] [CrossRef]
Qing, J.; Deng, X.; Lan, Y.; Li, Z. 基于新型轻量级 YOLOPC 的 GPT 辅助农业图像诊断。Comput. Electron. Agric. 2023, 213, 108168. [Google 学术] [交叉引用] - Cao, Y.; Sun, Z.; Li, L.; Mo, W. A study of sentiment analysis algorithms for agricultural product reviews based on improved bert model. Symmetry 2022, 14, 1604. [Google Scholar] [CrossRef]
Cao, Y.; Sun, Z.; Li, L.; Mo, W. 基于改进 BERT 模型的农产品评论情感分析算法研究。Symmetry 2022, 14, 1604. [Google 学术] [交叉引用] - Zhang, Y.; Lv, C. TinySegformer: A lightweight visual segmentation model for real-time agricultural pest detection. Comput. Electron. Agric. 2024, 218, 108740. [Google Scholar] [CrossRef]
Zhang, Y.; Lv, C. TinySegformer:一种用于实时农业害虫检测的轻量级视觉分割模型。Comput. Electron. Agric. 2024, 218, 108740. [Google 学术] [交叉引用] - Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A.N.; Kaiser, Ł.; Polosukhin, I. Attention is all you need. Adv. Neural Inf. Process. Syst. 2017, 30, 198–214. [Google Scholar]
Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A.N.; Kaiser, Ł.; Polosukhin, I. 注意力就是你所需要的一切. 神经信息处理系统进展. 2017, 30, 198–214. [ Google Scholar] - Shen, Y.; Wang, L.; Jin, Y. AAFormer: A multi-modal transformer network for aerial agricultural images. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, LA, USA, 18–24 June 2022; pp. 1705–1711. [Google Scholar]
沈, Y.; 王, L.; 金, Y. AAFormer: A multi-modal transformer network for aerial agricultural images. 载于 IEEE/CVF 计算机视觉与模式识别会议论文集, 美国路易斯安那州新奥尔良, 2022 年 6 月 18–24 日; 第 1705–1711 页. [ Google Scholar] - Fountas, S.; Espejo-Garcia, B.; Kasimati, A.; Mylonas, N.; Darra, N. The future of digital agriculture: Technologies and opportunities. IT Prof. 2020, 22, 24–28. [Google Scholar] [CrossRef]
Fountas, S.; Espejo-Garcia, B.; Kasimati, A.; Mylonas, N.; Darra, N. 数字农业的未来:技术与机遇. IT Prof. 2020, 22, 24–28. [ Google Scholar] [ CrossRef] - Lippi, M.; Bonucci, N.; Carpio, R.F.; Contarini, M.; Speranza, S.; Gasparri, A. A yolo-based pest detection system for precision agriculture. In Proceedings of the 2021 29th Mediterranean Conference on Control and Automation (MED), Puglia, Italy, 22–25 June 2021; pp. 342–347. [Google Scholar]
Lippi, M.; Bonucci, N.; Carpio, R.F.; Contarini, M.; Speranza, S.; Gasparri, A. 一种基于 YOLO 的精准农业病虫害检测系统. 载于 2021 年第 29 届地中海控制与自动化会议 (MED) 论文集, 意大利普利亚, 2021 年 6 月 22–25 日; pp. 342–347. [ Google Scholar] - Lu, J.; Tan, L.; Jiang, H. Review on convolutional neural network (CNN) applied to plant leaf disease classification. Agriculture 2021, 11, 707. [Google Scholar] [CrossRef]
Lu, J.; Tan, L.; Jiang, H. 卷积神经网络 (CNN) 在植物叶片病害分类中的应用综述. 农业 2021, 11, 707. [ Google Scholar] [ CrossRef] - Zhang, Y.; Yang, G.; Liu, Y.; Wang, C.; Yin, Y. An improved YOLO network for unopened cotton boll detection in the field. J. Intell. Fuzzy Syst. 2022, 42, 2193–2206. [Google Scholar] [CrossRef]
Zhang, Y.; Yang, G.; Liu, Y.; Wang, C.; Yin, Y. 田间未开裂棉铃检测的改进 YOLO 网络. J. Intell. Fuzzy Syst. 2022, 42, 2193–2206. [ Google Scholar] [ CrossRef] - Krizhevsky, A.; Sutskever, I.; Hinton, G.E. Imagenet classification with deep convolutional neural networks. In Proceedings of the Advances in Neural Information Processing Systems, Lake Tahoe, NV, USA, 3–6 December 2012; Volume 25. [Google Scholar]
Krizhevsky, A.; Sutskever, I.; Hinton, G.E. 采用深度卷积神经网络的 ImageNet 分类。载于:神经信息处理系统进展会议录,美国内华达州太浩湖,2012 年 12 月 3-6 日;第 25 卷。[ Google Scholar] - Szegedy, C.; Liu, W.; Jia, Y.; Sermanet, P.; Reed, S.; Anguelov, D.; Erhan, D.; Vanhoucke, V.; Rabinovich, A. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Boston, MA, USA, 7–12 June 2015; pp. 1–9. [Google Scholar]
Szegedy, C.; Liu, W.; Jia, Y.; Sermanet, P.; Reed, S.; Anguelov, D.; Erhan, D.; Vanhoucke, V.; Rabinovich, A. 深入卷积. 选自:IEEE 计算机视觉与模式识别会议论文集, Boston, MA, USA, 2015 年 6 月 7–12 日; 页码 1–9. [ Google Scholar] - Li, J.; Li, D.; Xiong, C.; Hoi, S. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In Proceedings of the International Conference on Machine Learning, PMLR, Baltimore, MD, USA, 17–23 July 2022; pp. 12888–12900. [Google Scholar]
Li, J.; Li, D.; Xiong, C.; Hoi, S. Blip: 用于统一视觉-语言理解和生成的语言-图像自举预训练。载于:国际机器学习会议录,PMLR,美国马里兰州巴尔的摩,2022 年 7 月 17-23 日;第 12888–12900 页。[ Google Scholar] - Ye, Q.; Xu, H.; Xu, G.; Ye, J.; Yan, M.; Zhou, Y.; Wang, J.; Hu, A.; Shi, P.; Shi, Y.; et al. mplug-owl: Modularization empowers large language models with multimodality. arXiv 2023, arXiv:2304.14178. [Google Scholar]
Ye, Q.; Xu, H.; Xu, G.; Ye, J.; Yan, M.; Zhou, Y.; Wang, J.; Hu, A.; Shi, P.; Shi, Y.; et al. mplug-owl: 模块化赋予大型语言模型多模态能力。arXiv 2023, arXiv:2304.14178。[ Google Scholar] - Dai, W.; Li, J.; Li, D.; Tiong, A.; Zhao, J.; Wang, W.; Li, B.; Fung, P.; Hoi, S. InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning. arXiv 2023, arXiv:2305.06500. [Google Scholar]
Dai, W.; Li, J.; Li, D.; Tiong, A.; Zhao, J.; Wang, W.; Li, B.; Fung, P.; Hoi, S. InstructBLIP:基于指令微调的通用视觉-语言模型. arXiv 2023, arXiv:2305.06500. [ Google Scholar] - Radford, A.; Kim, J.W.; Hallacy, C.; Ramesh, A.; Goh, G.; Agarwal, S.; Sastry, G.; Askell, A.; Mishkin, P.; Clark, J.; et al. Learning transferable visual models from natural language supervision. In Proceedings of the International Conference on Machine Learning. PMLR, Virtual, 18–24 July 2021; pp. 8748–8763. [Google Scholar]
Radford, A.; Kim, J.W.; Hallacy, C.; Ramesh, A.; Goh, G.; Agarwal, S.; Sastry, G.; Askell, A.; Mishkin, P.; Clark, J.; et al. 从自然语言监督中学习可迁移的视觉模型. 收录于国际机器学习会议论文集. PMLR, Virtual, 2021 年 7 月 18–24 日; 页码 8748–8763. [ Google Scholar] - Li, J.; Li, D.; Savarese, S.; Hoi, S. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. arXiv 2023, arXiv:2301.12597. [Google Scholar]
Li, J.; Li, D.; Savarese, S.; Hoi, S. Blip-2:结合冻结图像编码器和大型语言模型的自举语言-图像预训练. arXiv 2023, arXiv:2301.12597. [ Google Scholar] - Liu, W.; Anguelov, D.; Erhan, D.; Szegedy, C.; Reed, S.; Fu, C.Y.; Berg, A.C. Ssd: Single shot multibox detector. In Proceedings of the Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, 11–14 October 2016; pp. 21–37. [Google Scholar]
Liu, W.; Anguelov, D.; Erhan, D.; Szegedy, C.; Reed, S.; Fu, C.Y.; Berg, A.C. Ssd: 单次多框检测器. 载于 计算机视觉–ECCV 2016: 第 14 届欧洲会议, 荷兰阿姆斯特丹, 2016 年 10 月 11–14 日; 第 21–37 页. [ Google Scholar] - Lin, T.Y.; Goyal, P.; Girshick, R.; He, K.; Dollár, P. Focal loss for dense object detection. In Proceedings of the IEEE International Conference on Computer Vision, Venice, Italy, 22–29 October 2017; pp. 2980–2988. [Google Scholar]
- Zhou, X.; Wang, D.; Krähenbühl, P. Objects as points. arXiv 2019, arXiv:1904.07850. [Google Scholar]
- Zhang, L.; Ding, G.; Li, C.; Li, D. DCF-Yolov8: An Improved Algorithm for Aggregating Low-Level Features to Detect Agricultural Pests and Diseases. Agronomy 2023, 13, 2012. [Google Scholar] [CrossRef]
- Zhang, Y.; Wang, Y. High-precision wheat head detection model based on one-stage network and GAN model. Front. Plant Sci. 2022, 13, 787852. [Google Scholar] [CrossRef]
- Bender, A.; Whelan, B.; Sukkarieh, S. A high-resolution, multimodal data set for agricultural robotics: A Ladybird’s-eye view of Brassica. J. Field Robot. 2020, 37, 73–96. [Google Scholar] [CrossRef]
- DeVries, T.; Taylor, G.W. Improved regularization of convolutional neural networks with cutout. arXiv 2017, arXiv:1708.04552. [Google Scholar]
- Yun, S.; Han, D.; Oh, S.J.; Chun, S.; Choe, J.; Yoo, Y. Cutmix: Regularization strategy to train strong classifiers with localizable features. In Proceedings of the IEEE/CVF International Conference on Computer Vision, Seoul, Republic of Korea, 27 October–2 November 2019; pp. 6023–6032. [Google Scholar]
图 3. 棉花生长与病害关系知识图谱,展示了棉花生长过程中的典型症状、可能的病害、相关害虫以及相应的治疗方法。
表 1. 病害检测性能比较。
| Model | Precision 精确率 | Recall 召回率 | Accuracy 准确率 |
|---|---|---|---|
| AlexNet | 0.83 | 0.81 | 0.82 |
| GoogLeNet | 0.86 | 0.84 | 0.85 |
| VGG | 0.89 | 0.87 | 0.88 |
| ResNet | 0.92 | 0.90 | 0.91 |
| Proposed Method 所提出的方法 | 0.95 | 0.92 | 0.94 |
表 2. 农业图像字幕生成性能比较。
| Model | Precision 精确率 | Recall 召回率 | Accuracy 准确率 |
|---|---|---|---|
| BLIP | 0.78 | 0.74 | 0.75 |
| mPLUG-Owl | 0.80 | 0.76 | 0.77 |
| InstructBLIP | 0.84 | 0.80 | 0.82 |
| CLIP | 0.86 | 0.82 | 0.85 |
| BLIP2 | 0.89 | 0.85 | 0.88 |
| Proposed Method 所提出的方法 | 0.92 | 0.88 | 0.91 |
| Model | Precision | Recall | Accuracy |
|---|---|---|---|
| SSD | 0.82 | 0.80 | 0.81 |
| RetinaNet | 0.85 | 0.83 | 0.84 |
| CenterNet | 0.89 | 0.87 | 0.88 |
| YOLOv8 | 0.93 | 0.90 | 0.92 |
| Proposed Method | 0.96 | 0.91 | 0.94 |
| Crop | Disease | Precision | Recall | Accuracy |
|---|---|---|---|---|
| Rice | Rice Blast | 0.97 | 0.92 | 0.95 |
| Sheath Blight | 0.95 | 0.93 | 0.94 | |
| Rice False Smut | 0.92 | 0.90 | 0.91 | |
| Bacterial Leaf Blight | 0.87 | 0.85 | 0.86 | |
| Downy Mildew | 0.97 | 0.94 | 0.96 | |
| Wheat | Rust | 0.98 | 0.93 | 0.95 |
| Powdery Mildew | 0.96 | 0.94 | 0.95 | |
| Fusarium Head Blight | 0.95 | 0.91 | 0.93 | |
| Loose Smut | 0.78 | 0.76 | 0.77 | |
| Sheath Blight | 0.97 | 0.92 | 0.94 | |
| Potato | Early Blight | 0.96 | 0.91 | 0.93 |
| Late Blight | 0.95 | 0.92 | 0.94 | |
| Leafroll Disease | 0.94 | 0.90 | 0.92 | |
| Wilt Disease | 0.96 | 0.94 | 0.95 | |
| Black Scurf | 0.97 | 0.93 | 0.95 | |
| Cotton | Wilt Disease | 0.95 | 0.92 | 0.94 |
| Yellow Wilt | 0.93 | 0.90 | 0.92 | |
| Verticillium Wilt | 0.96 | 0.94 | 0.95 | |
| Blight | 0.94 | 0.91 | 0.93 | |
| Anthracnose | 0.97 | 0.95 | 0.96 | |
| Corn | Rust | 0.95 | 0.93 | 0.94 |
| Northern Corn Leaf Blight | 0.96 | 0.92 | 0.94 | |
| Common Smut | 0.97 | 0.94 | 0.95 | |
| Southern Corn Leaf Blight | 0.74 | 0.70 | 0.72 | |
| Leaf Spot Disease | 0.98 | 0.96 | 0.97 |
| Image Data | Text Data | Sensor Data | Precision | Recall | Accuracy |
|---|---|---|---|---|---|
| ✓ | ✓ | ✓ | 0.96 | 0.93 | 0.94 |
| ✗ | ✗ | ✓ | 0.24 | 0.21 | 0.23 |
| ✗ | ✓ | ✗ | 0.78 | 0.73 | 0.75 |
| ✓ | ✗ | ✗ | 0.92 | 0.90 | 0.91 |
| Task | Loss Function | Precision | Recall | Accuracy |
|---|---|---|---|---|
| Disease Detection | Hinge Loss | 0.90 | 0.85 | 0.86 |
| MSE Loss | 0.93 | 0.87 | 0.91 | |
| Multimodal Loss | 0.95 | 0.92 | 0.94 | |
| Agricultural Image Captioning | Hinge Loss | 0.84 | 0.79 | 0.82 |
| MSE Loss | 0.89 | 0.83 | 0.86 | |
| Multimodal Loss | 0.92 | 0.8 | 0.89 | |
| Object Detection | Hinge Loss | 0.88 | 0.84 | 0.85 |
| MSE Loss | 0.91 | 0.87 | 0.89 | |
| Multimodal Loss | 0.96 | 0.92 | 0.94 |
| Crop | Disease | Number |
|---|---|---|
| Rice | Rice Blast | 768 |
| Sheath Blight | 1095 | |
| Rice False Smut | 677 | |
| Bacterial Leaf Blight | 1135 | |
| Downy Mildew | 983 | |
| Wheat | Rust | 690 |
| Powdery Mildew | 734 | |
| Fusarium Head Blight | 918 | |
| Loose Smut | 1129 | |
| Sheath Blight | 885 | |
| Potato | Early Blight | 921 |
| Late Blight | 1079 | |
| Leafroll Disease | 776 | |
| Wilt Disease | 698 | |
| Black Scurf | 993 | |
| Cotton | Wilt Disease | 874 |
| Yellow Wilt | 903 | |
| Verticillium Wilt | 1005 | |
| Blight | 1297 | |
| Anthracnose | 793 | |
| Corn | Rust | 754 |
| Northern Corn Leaf Blight | 913 | |
| Common Smut | 952 | |
| Southern Corn Leaf Blight | 1045 | |
| Leaf Spot Disease | 1176 |
Disclaimer/Publisher’s Note: The statements, opinions and data contained in all publications are solely those of the individual author(s) and contributor(s) and not of MDPI and/or the editor(s). MDPI and/or the editor(s) disclaim responsibility for any injury to people or property resulting from any ideas, methods, instructions or products referred to in the content. |
© 2024 by the authors. Licensee MDPI, Basel, Switzerland. This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution (CC BY) license (https://creativecommons.org/licenses/by/4.0/).
Share and Cite
Lu, Y.; Lu, X.; Zheng, L.; Sun, M.; Chen, S.; Chen, B.; Wang, T.; Yang, J.; Lv, C. Application of Multimodal Transformer Model in Intelligent Agricultural Disease Detection and Question-Answering Systems. Plants 2024, 13, 972. https://doi.org/10.3390/plants13070972
Lu Y, Lu X, Zheng L, Sun M, Chen S, Chen B, Wang T, Yang J, Lv C. Application of Multimodal Transformer Model in Intelligent Agricultural Disease Detection and Question-Answering Systems. Plants. 2024; 13(7):972. https://doi.org/10.3390/plants13070972
Chicago/Turabian StyleLu, Yuchun, Xiaoyi Lu, Liping Zheng, Min Sun, Siyu Chen, Baiyan Chen, Tong Wang, Jiming Yang, and Chunli Lv. 2024. "Application of Multimodal Transformer Model in Intelligent Agricultural Disease Detection and Question-Answering Systems" Plants 13, no. 7: 972. https://doi.org/10.3390/plants13070972
APA StyleLu, Y., Lu, X., Zheng, L., Sun, M., Chen, S., Chen, B., Wang, T., Yang, J., & Lv, C. (2024). Application of Multimodal Transformer Model in Intelligent Agricultural Disease Detection and Question-Answering Systems. Plants, 13(7), 972. https://doi.org/10.3390/plants13070972








