Application of Multimodal Transformer Model in Intelligent Agricultural Disease Detection and Question-Answering Systems
多模态 Transformer 模型在智能农业病害检测和问答系统中的应用
中国农业大学,北京 100083,中国
应联系的作者。
投稿接收:2024 年 1 月 30 日 / 修订:2024 年 3 月 22 日 / 接受:2024 年 3 月 24 日 / 发布:2024 年 3 月 28 日
(本文属于特刊:农业人工智能与传感器系统未来发展)
Abstract 摘要
本研究提出了一种基于多模态数据和 Transformer 模型的创新方法,旨在解决农业病害检测和问答系统中的挑战。该方法有效整合了图像、文本和传感器数据,利用深度学习技术深入分析和处理复杂的农业相关问题。本研究取得了技术突破,为智能农业的发展提供了新的视角和工具。在农业病害检测任务中,所提出的方法表现出卓越的性能,其精确率、召回率和准确率分别达到 0.95、0.92 和 0.94,显著优于其他传统深度学习模型。这些结果表明该方法在识别和准确分类各种农业病害方面的有效性,尤其擅长处理细微特征和复杂数据。在从农业图像生成描述性文本的任务中,该方法也表现出令人印象深刻的性能,其精确率、召回率和准确率分别达到 0.92、0.88 和 0.91。这表明该方法不仅能够深入理解农业图像的内容,还能生成准确且丰富的描述性文本。目标检测实验进一步验证了我们方法的有效性,该方法的精确率、召回率和准确率分别达到 0.96、0.91 和 0.94。这一成就突出了该方法在复杂环境中准确定位和识别农业目标的能力。总的来说,本研究中的方法不仅在农业病害检测、图像描述和目标检测等多项任务中表现出卓越的性能,还展示了多模态数据和深度学习技术在智能农业应用中的巨大潜力。
关键词:农业大模型;深度学习;智慧农业;Transformer 模型;农业病害检测
1. Introduction 1. 引言
信息技术和人工智能的快速发展已成为推动现代农业发展的重要驱动力 [ 1],尤其是在植物病害检测与管理方面,技术创新和应用是确保农业生产效率和食品安全的关键 [ 2, 3]。传统的植物病害检测方法,依赖于农业专家的经验和判断 [ 4],不仅耗时耗力,而且其准确性和效率受限于专家知识和经验的局限性 [ 5]。
Ray, Monalisa 等人 [ 6] 讨论的植物真菌病原体检测,需要微生物学专业知识,并且总是受到个人经验的影响。Vadamalai Ganesan 等人 [ 7] 采用植物遗传学和生理学进行病害检测,利用蛋白质组学分析病原体对宿主植物的影响;然而,他们的方法的准确性无法得到保证。为了提高精度,Das Debasish 等人 [ 8] 利用各种特征提取技术对不同类型的叶片病害进行分类。他们尝试了支持向量机 (SVM)、随机森林和逻辑回归方法,发现 SVM 最为有效。然而,他们的模型仅限于将番茄叶片二元分类为健康或患病,未能满足实际需求。
针对这些挑战,引入智能技术以实现植物病害的准确快速检测的紧迫性显而易见 [ 9]。在此背景下,本研究引入了一种基于多模态和大语言模型技术的病害检测与农业问答系统 [ 10],旨在提升农业生产智能化水平,并为农业工作者提供有效的决策支持。
几位研究人员做出了重要贡献。例如,Deepalakshmi P 等人 [11] 使用 CNN 从输入图像中提取特征,以识别不同植物的病叶和健康叶片,他们的模型平均用时 3.8 秒进行疾病检测,并达到了 94.5% 的准确率。Sharma, Parul 等人 [12] 将 CNN 应用于植物病害检测,达到了 98.6% 的准确率,但他们的方法在具有多种病害症状的区域可能会失效。Bedi Punam 等人 [13] 使用卷积自编码器 (CAE) 网络和 CNN 的混合模型进行桃树病害检测,在测试中达到了 98.38% 的准确率,但数据集规模较小限制了模型的鲁棒性。考虑到 CNN 模型可能丢失重要信息,De Silva Malithi 等人 [14] 将 CNN 与 ViT 结合,达到了 83.3% 的准确率。为了提高准确率,Parez Sana 等人 [15] 提出了绿色视觉 Transformer 技术,利用 ViT 减少模型参数并提高准确率,展示了实时处理能力。Thai Huy-Tan 等人 [16] 设计了基于 ViT 的 FormerLeaf 模型用于植物病害检测。他们还提出了 LeIAP 和 SPMM 算法用于模型优化。他们的实验结果显示推理速度提高了 15%,但他们指出对于复杂背景图像,模型准确率有所降低,并且实验中使用的数据集不平衡。
本研究采用卷积神经网络(CNN)[17]和 YOLO(you only look once)[18]等先进计算机视觉模型,以及 GPT[19]和 BERT[20]等大型语言模型,以有效检测植物病害并准确回答农业相关问题。本研究的核心在于提出并实现一种创新的多模态数据处理方法和相应的系统架构。设计了一种基于多 Transformer 的架构,能够高效处理和整合图像、文本和知识图谱等不同模态的数据,从而在植物病害的识别和分类方面比传统方法实现更高的准确性和效率。这对于农业病害的快速识别和处理以及减少作物损失具有重要意义。此外,还构建了一个农业领域的专用问答系统,结合大型语言模型和专家知识图谱,以理解复杂的农业问题并提供准确、基于事实和数据的答案。为了训练和验证我们的模型,收集并构建了一个包含丰富图像和文本数据的综合多模态数据集。这不仅为本研究提供了强有力的支持,也为未来相关领域的研究提供了宝贵的资源。
2. Related Works 2. 相关工作
2.1. Application of Multimodal Data in Agriculture
2.1. 多模态数据在农业中的应用
多模态技术在农业领域取得了广泛应用,尤其是在病害检测和农业问答系统中 [ 21]。多模态技术是指整合和分析来自不同模态的数据,例如图像、文本和声音。在农业中,这主要涉及图像和文本数据的结合。图像数据通常来源于田间照片或卫星图像,而文本数据可能包括专业文献或详细描述作物种植和病害的农业数据库。从结构上看,多模态模型通常包含两个主要组成部分:从不同模态中提取特征和多模态融合。对于图像数据,卷积神经网络(CNN)[ 22, 23] 或更先进的模型如 YOLO [ 24, 25] 通常用于空间特征提取。另一方面,文本数据则使用自然语言处理技术(例如 Transformer 模型 [ 26])进行处理,以提取语义特征。特征提取之后,多模态融合技术有效地结合了来自不同模态的特征,以促进更准确的分类、预测或生成。基于矩阵的方法是此过程中的核心技术,涉及对来自不同模态的数据进行数学融合。矩阵分解是多模态融合中一种常用技术,它分解来自每个模态的特征矩阵,以揭示共享的潜在特征。假设存在两种模态的数据,分别由矩阵 和 表示,矩阵分解旨在识别两个低秩矩阵 、 和一个共享潜在特征矩阵 V,满足以下关系:
其中, 和 分别代表两种模态的特征空间,而 V 是共享的潜在特征表示。另一种方法,典型相关分析(CCA),旨在最大化两种模态特征向量之间的相关性。给定来自两种模态的特征 X 和 Y,CCA 旨在找到向量 和 ,以最大化 X 和 Y 之间的投影相关性:
其中,包含 和 项是为了进行归一化,确保结果不受数据尺度的影响。联合因子分析(JFA)是一种矩阵分解技术,可同时分析多个数据源。假设存在 n 种模态,数据矩阵为 ,JFA 旨在找到一组因子矩阵 和一个共享潜在特征矩阵 V,使得
在此表达式中,每个 代表第 th 模态的特征空间,而 V 是跨模态共享特征表示。
在水稻、小麦、马铃薯和棉花等作物的病害检测应用中,多模态技术发挥着重要作用 [ 27, 28]。例如,在水稻病害检测中,结合田间图像数据和病害文献描述 [ 29] 使多模态模型能够更准确地识别和分类不同类型的病害。这不仅提高了病害检测的精度,还有助于农民及时采取有效措施减少损失。对于农业问答系统,多模态技术也展现了其强大的能力。通过整合图像识别和自然语言处理,此类系统可以提供更准确、更全面的答案。例如,农民可以上传作物图片并询问病害。系统通过分析图像并查阅相关农业知识库,可以提供具体的病害信息和防治建议。此外,多模态技术在处理复杂数据时也展现出其独特的优势。在农业领域,环境条件多样且复杂,单一模态往往无法提供足够的信息进行准确判断 [ 30]。多模态技术通过结合不同类型的数据,提供了更全面的视角,增强了模型的泛化能力和鲁棒性。在实际应用中,多模态技术面临的挑战包括有效整合来自不同模态的数据,以及设计适用于各种作物和病害类型的通用模型。
2.2. Application of Large Language Models in Agriculture
2.2. 大型语言模型在农业领域的应用
大型语言模型,例如 GPT 和 BERT [ 20],在各个领域都取得了显著进展,包括在农业病害检测和问答系统中的应用 [ 31, 32]。这些模型以其强大的语义理解和生成能力而闻名,为自然语言处理提供了有效的工具。首先,大型语言模型的结构特征值得关注。这些模型通常基于深度学习,特别是 Transformer 架构 [ 33],通过大量数据预训练学习丰富的语言表示和知识。在模型内部,多层 Transformer 网络通过自注意力机制有效地捕获文本中的长距离依赖关系,从而实现对复杂语言结构的理解和生成。Transformer 的关键组成部分如下:自注意力机制是 Transformer 的核心,它允许模型关注输入序列中的不同位置。对于给定的输入序列,自注意力机制会计算序列中每个元素相对于其他元素的注意力分数,如图 1 所示。
图 1。BERT 模型的结构图,展示了输入如何通过嵌入层并经过多层 Transformer 网络结构进行处理。这包括多头注意力机制、前馈神经网络以及位置编码的添加。
这可以表示为 [ 34]
其中,Q、K 和 V 分别代表查询(query)、键(key)和值(value)矩阵,它们通过不同的权重矩阵变换从输入矩阵中得到。 是一个缩放因子,用于防止点积后数值过大。为了使模型能够同时关注来自不同子空间的信息,Transformer 引入了多头注意力机制[ 34]。在该机制中,注意力操作被分成多个头,每个头独立计算注意力分数,然后将它们拼接起来。这可以表示为
其中,每个 代表一个独立的注意力机制,而 、 、 和 是模型学习到的参数。由于 Transformer 本身不具备像 RNNs 那样的序列顺序处理能力,因此添加了位置编码,以提供序列中元素的位置信息[ 34]。位置编码通常是一个可学习的参数,被添加到输入序列的嵌入中,为模型提供位置信息[ 34]。位置编码的一种常见形式是
其中, 是位置,是维度,而 是模型的维度。Transformer 的每个编码器和解码器层都包含一个前馈网络。该网络在每个位置应用相同的操作[ 34],通常包括两个线性变换和一个激活函数,表示为
其中, 、 、 和 是网络参数[ 34]。
在水稻、小麦、马铃薯和棉花等作物的病害检测以及农业问答系统等具体应用中,Transformer 模型利用其强大的语义理解能力,分析文本信息[ 34],例如疾病描述和农业实践指南[ 35]。这种分析能力对于提高疾病诊断的准确性和回答农业相关问题至关重要。在农业领域,特别是在水稻、小麦、马铃薯和棉花等作物的病害检测和问答系统中,大型语言模型的应用尤为重要。例如,在病害检测中,模型可以通过分析农业文本资料,如疾病描述和治疗方法[ 27],提供对疾病的深入理解和建议。此外,大型语言模型还可以与图像识别技术结合,通过分析与疾病相关的图像及其描述,提供更准确的疾病诊断。在农业问答系统中,大型语言模型的作用不可或缺。它们不仅能够理解用户的查询,还能生成信息丰富、准确的回答。这对于需要专业知识的农业相关查询尤为关键。例如,农民可能会询问识别或治疗特定作物病害的方法,而大型语言模型可以根据其广泛的知识库提供专业且具体的答案[ 36]。
2.3. Application of Computer Vision Techniques in Agriculture
2.3. 计算机视觉技术在农业中的应用
计算机视觉模型,特别是卷积神经网络(CNN)和 YOLO(You Only Look Once)的应用,如图 2 所示,在农业领域中得到了越来越多的应用,特别是在病害检测和农业问答系统中[12, 37]。
图 2. YOLOv5 目标检测模型的结构图,详细说明了从输入层到预测层的数据流,包括输入处理、骨干网络、特征金字塔网络(neck),以及预测每个阶段中使用的不同类型的神经网络模块。
CNNs,专为处理图像等网格状结构数据而设计,是以卷积层为核心的深度神经网络。这些层通过卷积操作从图像中提取局部特征,其数学表达式为
这里,表示输入图像,K 表示卷积核, 表示卷积输出。该公式表明,卷积层通过在图像上滑动卷积核,计算卷积核与图像局部区域的点积来提取特征。除了卷积层,CNN 通常还包括激活层和池化层。激活层,例如 ReLU 函数,引入非线性,使网络能够捕获更复杂的特征。另一方面,池化层减少了特征的空间维度,增强了模型的泛化能力。一种常见的池化操作,最大池化,其数学表达式为
这里, 表示池化输出,k 表示池化窗口的大小。这些模型的核心优势在于它们能够高效地处理和分析大量图像数据,从而识别特定的模式和对象。例如,在水稻、小麦、马铃薯和棉花等作物病害检测中,CNN 首先对输入的作物图像进行特征提取。利用这些特征,CNN 可以识别不同类型的作物病害。例如,在水稻病害检测中,提取的特征可能包括叶片上斑点的大小、形状和颜色 [ 38]。
YOLO 是一种流行的单阶段目标检测模型,它将目标检测概念化为一个回归问题。与传统的逐步方法(例如先生成候选区域再分类)不同,YOLO 在一个网络中直接预测目标的类别和位置。在 YOLO 模型中,输入图像被划分为一个 网格,每个网格单元负责预测该区域内的目标。YOLO 的输出可以表示为一个向量,包含类别概率、边界框坐标和置信度分数。每个边界框的数学表示为
其中 是边界框中心的坐标, 是其宽度和高度,C 是边界框包含目标的置信度分数。YOLO 模型的损失函数,包括类别损失、定位损失和置信度损失,是一个关键组成部分。损失函数可以表示为
这里, 和 是权重系数, 表示目标的存在, 是预测的边界框参数, 是实际的边界框参数, 是预测的置信度分数, 是实际的置信度分数, 是类别 c 的概率。YOLO 模型在实时疾病检测方面表现出色,能够迅速定位和分类图像中的疾病。在棉花病害检测中,YOLO 可以快速识别受影响区域,帮助农民及时干预 [ 39]。农业问答系统可以利用 CNN 或 YOLO 模型分析用户上传的作物图像,然后将分析结果与历史数据结合,提供专业的建议。最初,系统通过视觉模型分析上传的小麦叶片图像,随后将分析结果与农业知识库整合,以提出可能的病害原因和推荐的治疗方法。
3. Results and Discussion
3. 结果与讨论
3.1. Disease Detection Results
3.1. 病害检测结果
本实验的主要目的是比较和分析各种深度学习模型在农业病害检测任务中的性能,包括 AlexNet [ 40]、GoogLeNet [ 41]、VGG [ 22]、ResNet [ 23] 以及本研究提出的方法。实验结果使用精确率、召回率和准确率这些评估指标来展示每个模型的性能。实验结果如表 1 所示。
作为深度学习领域早期的里程碑模型,AlexNet 结构相对简单,由五个卷积层和三个全连接层组成。尽管它在早期图像处理任务中取得了显著突破,但在处理更复杂的农业病害检测任务时,其性能相对较弱。这主要是由于 AlexNet 的特征提取能力有限,尤其是在捕捉细微特征方面,例如疾病的早期迹象。因此,AlexNet 在精确率、召回率和准确率方面表现出最不理想的性能。GoogLeNet 引入了 Inception 模块,在同一层中使用不同大小的卷积核,使其能够捕获不同尺度的特征。这种设计使得 GoogLeNet 在特征提取方面比 AlexNet 更强大,尤其是在处理具有多尺度特征的农业图像时。因此,在实验中,GoogLeNet 的性能有所提升,但由于其相对简单的网络结构,在处理极其复杂的农业数据时仍存在局限性。VGG 通过更深的网络结构(多达 19 层)和小型卷积核,显著增强了模型的特征提取能力。在农业病害检测任务中,VGG 能更好地捕捉复杂的病害特征,例如微小的斑点或变色。然而,VGG 的一个主要缺点是其庞大的网络结构和大量的参数,导致训练和推理的计算效率较低。ResNet 通过引入残差连接解决了深层网络中的梯度消失问题,使得网络可以在不损失训练效率的情况下加深(ResNet 的版本可达 152 层)。这种深度和残差结构的结合使 ResNet 在捕获复杂、分层特征方面表现出色。因此,在农业病害检测任务中,ResNet 在精确率、召回率和准确率方面显著优于之前的模型。例如,[ 4]中提出的 MAF-ResNet50 通过设计并行激活函数层来增强 ResNet50 的模型表达能力,以提高玉米病害识别的准确性。然而,它在四种玉米病害样本上只能达到高于 95%的识别准确率,这仍然落后于本文所提出方法的泛化能力。本文提出的方法在这些模型的基础上进行了进一步的创新和优化。具体细节可能包括更复杂的网络结构、更有效的特征融合机制以及专门针对农业病害检测任务优化的算法。这些创新使得所提出的方法在处理多模态数据时,能够更有效地整合来自不同来源的信息,并捕获更详细的病害特征。 因此,在实验中,所提出的方法在所有评估指标上均表现出最优性能。
3.2. Agricultural Image Captioning Experiment Results
3.2. 农业图像描述实验结果
本实验旨在评估和比较各种深度学习模型在从农业图像生成描述性文本任务中的性能。该任务涉及从农业图像自动生成描述性文本,这对于提高农业管理的自动化和智能化水平具有重要意义。通过比较不同模型的精确率、召回率和准确率,可以深入了解每个模型理解和描述农业图像的能力。在以下实验结果中,展示了 BLIP [ 42]、mPLUG-Owl [ 43]、InstructBLIP [ 44]、CLIP [ 45]、BLIP2 [ 46]以及本文提出的方法在农业图像字幕任务上的性能。实验结果如表 2 所示。
BLIP (bootstrap your own latent) 是一种较早的深度学习模型,在处理图像和文本融合方面具有一定能力,但由于其相对简单的网络结构和训练策略,在复杂的农业图像字幕任务中表现平平。这体现在其较低的精确率、召回率和准确率。mPLUG-Owl 作为多模态学习模型的改进版本,在处理图像和语言融合方面表现出增强,尤其是在理解图像内容和生成相关文本方面。然而,由于特征提取和关联学习的局限性,mPLUG-Owl 在农业图像字幕任务中的表现仍然有限。InstructBLIP 模型引入了更先进的训练策略和网络结构,尤其在图像和文本融合任务中,擅长理解图像内容并生成准确的描述。这一改进可归因于其增强的特征提取能力和文本生成策略,从而显著提升了农业图像字幕任务的性能。CLIP (contrastive language-image pretraining) 模型通过对比学习在大型数据集上进行预训练,增强了模型理解图像内容和相关文本的能力。这种训练方法赋予 CLIP 在理解复杂农业图像和生成准确描述方面的优势,从而在所有评估指标中表现出色。BLIP2 作为 BLIP 的高级版本,在网络结构和训练策略上进行了进一步优化。这些改进使 BLIP2 在处理复杂的图像和文本融合任务时更高效,尤其擅长理解农业图像的细节并生成精确的描述。
3.3. Results for Object Detection
3.3. 目标检测结果
本研究中进行的目标检测实验旨在评估和比较各种深度学习模型在农业病害检测任务中的性能。这项任务对精准农业和智能农业管理具有重要意义。通过比较不同模型的精确率、召回率和准确率,评估了 SSD [ 47]、RetinaNet [ 48]、CenterNet [ 49]、YOLOv8 [ 50]以及本文提出的方法在农业病害检测任务中的性能。实验结果显示在表 3 和表 4 中。
SSD(单阶段多框检测器)是一种单阶段目标检测模型,以其速度快和实现简单而闻名。SSD 直接在特征图上预测物体的类别和位置,无需额外的候选区域生成步骤。然而,由于其相对简单的网络结构,SSD 在处理复杂和小尺度目标时,其精度和召回率相对较低,这体现在其较低的实验分数上。RetinaNet 引入了焦点损失(focal loss)来解决类别不平衡问题,这在负样本数量庞大的场景中尤其有效。与 SSD 相比,其性能有所提升,表现为精度和召回率的提高。然而,RetinaNet 的计算复杂度相对较高,这可能会限制其实际应用。CenterNet 采用基于关键点的目标检测方法,通过检测物体的中心点并回归其尺寸来进行目标定位。与传统的边界框预测方法相比,这种方法更直接、更高效。CenterNet 在精度和召回率方面均优于 SSD 和 RetinaNet,表明其在定位小目标和处理复杂场景方面具有更好的能力。YOLO 系列以其速度快和性能好而闻名,其中 YOLOv8 作为其最新版本,在网络结构和算法上引入了多项创新,进一步增强了模型的检测能力。YOLOv8 在农业病害检测任务中表现出色,其高精度和高召回率证明了其卓越的目标定位和分类能力。例如,[51] 中讨论的基于 YOLO 的目标检测模型在 Kaggle 提供的麦子数据集上实现了 0.6991 的 mAP。这一性能与我们论文中提出的方法存在显著差异。其原因是,引文中的方法仅在单阶段目标检测网络的基础上对损失函数进行了微调,并未利用注意力机制或来自其他模态的数据来增强模型。另一方面,我们的方法通过整合最新的深度学习技术并针对农业病害检测任务进行专门优化,在所有评估指标上均取得了最佳性能。这归因于更有效的特征提取机制、更精细的目标定位策略和更高效的分类算法。我们方法的高精度、高召回率和高准确率证明了其在识别各种农业病害方面的显著优势。
3.4. Multimodal Dataset Ablation Experiment
3.4. 多模态数据集消融实验
本文的多模态数据集消融实验部分旨在探讨不同数据模态(图像、文本、传感器数据)对模型性能的影响。该实验通过比较模型在不同数据模态组合下的精确率、召回率和准确率,旨在揭示各种数据模态对模型性能的贡献及其相互作用。实验结果如表 5 所示。
当模型同时使用所有模态数据(图像、文本和传感器数据)时,它表现出最佳性能,其精确率、召回率和准确率分别为 0.96、0.93 和 0.94。这表明这三种数据模态的结合为模型提供了最丰富和最全面的信息,极大地提高了模型识别和分类疾病的准确性。图像数据提供直观的视觉信息,文本数据提供描述性和背景信息,而传感器数据则提供额外的环境和条件信息。这些数据的整合使模型能够更全面地理解和分析农业疾病。当仅使用传感器数据时,所有性能指标均显著下降,其精确率、召回率和准确率分别为 0.24、0.21 和 0.23。这表明仅依靠传感器数据不足以完成复杂的农业疾病检测任务。在[ 52]中,这种现象也得到了体现;其中提出的多模态数据集展示了传感器数据的使用如何增强人工智能技术在农业自动化场景中的应用。尽管传感器数据可以提供环境条件信息,但它们缺乏特定疾病的直接描述性特征,从而限制了模型在识别特定疾病方面的性能。当仅使用文本数据时,模型的性能有所改善,但仍不如全模态数据,其精确率、召回率和准确率分别为 0.78、0.73 和 0.75。这表明文本数据通过提供疾病描述和背景信息辅助了模型,但缺乏图像数据的直观性和传感器数据的环境信息。当仅使用图像数据时,性能显著提高,其精确率、召回率和准确率分别为 0.92、0.90 和 0.91。这表明图像数据在农业疾病检测中起着至关重要的作用,其中视觉信息对于疾病识别和分类非常有效。然而,如果没有文本和传感器数据的辅助,模型仍然缺乏对疾病的全面性和上下文理解。多模态数据集消融实验的结果得出结论,不同的数据模态对农业疾病检测任务的贡献不同。图像数据在提供直观视觉信息方面发挥核心作用,文本数据在提供背景和描述信息方面贡献显著,而传感器数据则提供有价值的环境和条件信息。这些数据的整合使模型能够充分理解并准确识别农业疾病,表现出卓越的性能。因此,多模态数据的融合对于提高农业疾病检测的准确性至关重要。
3.5. Different Loss Function Ablation Experiment
3.5. 不同损失函数消融实验
本研究中关于不同损失函数的消融实验旨在探究各类损失函数对病害检测、农业图像描述和目标检测任务性能的影响。损失函数在深度学习模型的训练过程中起着关键作用,它决定了模型如何评估预测结果与实际结果之间的差异。不同类型的损失函数可能使模型侧重于不同方面,从而影响最终性能。实验考察了三种损失函数:合页损失、均方误差(MSE)损失和多模态损失,以及它们在三种不同任务中的表现。实验结果如表 6 所示。
在疾病检测任务中,多模态损失函数表现最佳(精确率:0.95,召回率:0.92,准确率:0.94),其次是 MSE 损失函数,而合页损失函数表现最差。合页损失函数是一种用于分类任务的损失函数,旨在最大化正确分类和错误分类之间的间隔。尽管在某些分类任务中有效,但对于复杂的疾病检测任务可能不够充分,尤其是在涉及多个类别和细微特征的情况下。MSE 损失函数计算预测值和实际值之间的平方差,通常用于回归任务。在疾病检测中,它可能比合页损失函数更好地捕捉细微差异,从而提高模型的精确率和召回率。多模态损失函数专为本研究设计,考虑了不同模态数据的特征,使模型能够更有效地从多模态数据中学习。这种设计使得多模态损失函数在疾病检测任务中优于其他方法,反映了其在处理复杂数据方面的有效性。在农业图像字幕生成任务中,多模态损失函数也表现最佳,其次是 MSE 损失函数,而合页损失函数表现最弱。这一结果进一步证实了多模态损失函数在处理复杂、多样化数据方面的有效性。农业图像字幕生成不仅涉及图像理解,还涉及生成语义准确的描述,这要求损失函数同时考虑图像内容和文本生成质量。在目标检测任务中,多模态损失函数优于其他两种损失函数,表现出 0.96 的精确率、0.92 的召回率和 0.94 的准确率。目标检测不仅需要准确识别目标,还需要精确的定位,这要求损失函数能够处理这两个方面。多模态损失函数可能更好地平衡了这些要求,从而提高了整体性能。
3.6. Limitations and Future Work
3.6. 局限性与未来工作
本研究提出了一种基于多模态数据和 Transformer 模型的综合方法,以解决农业病害检测和问答系统中的关键挑战。尽管实验结果表明我们的方法在多项任务中表现出色,但仍存在一些局限性,需要在未来的工作中进一步改进和扩展。
首先,关于数据局限性。尽管实验中使用了包括图像、文本和传感器数据在内的多模态数据集,但这些数据的多样性和覆盖范围仍然有限。例如,在图像数据方面,虽然收集了多种作物的各种病害图像,但可能未能涵盖所有类型的作物和所有可能的病害情况。此外,文本数据主要来源于现有的农业文献和报告,这可能限制了模型处理非标准文本或口语化描述的能力。至于传感器数据,实验主要依赖于特定环境的数据,这可能未能充分代表所有农业环境的复杂性和多样性。其次,关于模型局限性。尽管我们的多模态 Transformer 模型在处理多模态数据方面表现出色,但仍存在潜在问题。例如,Transformer 模型在处理长序列数据方面具有优势,但其计算复杂度较高,可能不适用于资源受限的环境。此外,尽管多模态对齐模块能够有效整合来自不同模态的数据,但其对齐机制可能仍需改进,以更好地处理不同模态之间的异质性和复杂交互。在损失函数方面,尽管我们设计的多模态损失在多项任务中表现良好,但其设计和优化需要进一步研究。特别是在平衡不同模态数据的贡献以及适应不同任务的需求方面,可能需要更多的实验和理论分析来指导。
未来工作方向主要包括以下几个方面。首先,计划进一步扩展数据多样性和覆盖范围。将收集更多样化的农业数据,包括更广泛的作物类型、来自不同地区和环境条件的数据,以及更丰富的文本描述和传感器数据。这将有助于提高模型的泛化能力和实用性。其次,计划进一步优化模型性能。未来的工作将侧重于降低 Transformer 模型的计算复杂度,使其更适用于资源受限的环境。此外,将探索更高效的多模态数据对齐和融合机制,以更好地处理不同模态数据之间的异构性和复杂关系。计划对多模态损失进行深入研究,包括探索不同任务对损失函数的影响、如何更好地平衡不同模态数据的贡献,以及如何适应不同任务的特点和需求。还将努力将模型应用于真实的农业环境,进行大规模的现场测试和验证。这将有助于评估模型的实用性和有效性,并为进一步优化提供真实的反馈。
4. Materials and Methods
4. 材料与方法
4.1. Dataset Collection 4.1. 数据集收集
4.1.1. Corpus Construction
4.1.1. 语料库构建
在本研究的语料库构建过程中,首先明确了数据获取的来源、数量和方法。主要目标是收集涵盖广泛农业知识的文本数据,特别是与水稻、小麦、马铃薯和棉花等作物疾病相关的数据。数据来源包括各类农业研究机构的数据库、农业技术网站、专业论坛以及科研论文库。同时,还访问了国家农业信息平台和农业科技期刊数据库。通过这些渠道,共收集了超过十万条记录,涵盖作物栽培、病害识别、治疗方法和预防策略等主题。使用这些数据的理由是多方面的。首先,它们涵盖了从基础农业知识到高级技术专长的广泛信息,这对于构建一个全面的农业问答系统至关重要。其次,这些数据来源于权威可靠的平台,确保了其准确性和专业性。最后,这些文本数据在语言表达和结构上的多样性有助于增强我们模型的泛化能力。在数据标注方面,我们采用了半自动化方法。首先,利用自然语言处理技术对数据进行预处理,包括分词、词性标注、句法分析等。这些步骤有助于更好地理解文本的结构和语义。随后,利用基于规则的方法自动标注数据中的关键信息,如作物名称、病害类型和症状描述。这个过程可以用以下公式表示:
其中,W 代表预处理后的文本词语,T 代表标注标签,而 代表标注规则集。然而,自动标注无法完全取代人工标注的准确性。因此,组织了一支专业的标注团队,对自动标注的结果进行审查和修正。在语料库构建过程中,采用了文本向量化技术,将文本转换为机器学习模型可处理的格式。具体来说,使用了 Word2Vec 和 BERT 等词嵌入技术,将文本中的每个词语转换为高维空间中的向量。此过程可表示为:
其中,V 代表词向量,W 代表词语,而 则代表词嵌入模型的参数。通过这种方法,捕获了词语之间的语义关系和上下文信息,这对于后续的模型训练和知识提取至关重要。最终的语料库不仅包含了大量的标注文本,而且通过词嵌入技术被转换成适合机器学习的格式。该语料库作为训练我们农业问答系统和疾病识别模型的基础数据集,其全面性和准确性对系统性能的提升具有决定性影响。
4.1.2. Knowledge Graph Construction
4.1.2. 知识图谱构建
知识图谱的构建是本研究的核心组成部分,涉及细致而系统的工作,旨在为农业问答系统和病害检测模型提供坚实而全面的知识基础。知识图谱构建过程不仅侧重于数据的收集和整理,还侧重于其深度处理和智能应用。最初,数据来源包括上述已标注语料库数据集,并从农业技术论坛和社区收集了额外数据,其中涉及农民关于作物病害的实际问题和讨论。目标是收集超过一百万条独立数据记录,以形成一个全面的知识系统,如图 3 所示。
图 3. 棉花生长与病害关系知识图谱,展示了棉花生长过程中的典型症状、可能发生的病害、相关害虫以及相应的治疗方法。
在数据标注过程中,结合使用了自然语言处理技术和人工智能。文本分析工具自动识别了文本中的关键实体和概念,例如病害名称、症状描述和管理方法。然而,考虑到农业领域的特殊性和复杂性,还邀请了农业专家进行人工审查和补充标注。这一过程确保了数据标注的准确性和专业性。标注过程可以用以下公式表示:
其中,R 代表实体之间的关系,E 代表实体,而 代表标注规则集。通过这种方法,知识图谱中的信息得以确保其准确性和全面性。接下来是知识图谱的构建过程。在定义了实体和关系的类型之后,使用了图数据库技术来存储和组织这些信息。这一步,作为构建知识图谱的核心,不仅涉及数据存储,还涉及这些数据的有效组织和检索。构建过程可以用以下公式概括:
其中,G 代表知识图谱,E 和 R 分别代表实体和关系集合。目标是构建一个知识图谱,它不仅能反映实际农业知识,还能支持高效的查询和分析。通过上述步骤,构建了一个涵盖广泛农业知识、结构清晰并能动态更新的知识图谱。该图谱不仅为农业问答系统提供了强大的知识支持,也为病害检测模型提供了必要的背景信息。它的构建极大地提升了这些系统的性能,使其能够更准确、高效地服务于农业生产和研究。
4.1.3. Sensor Data Collection
4.1.3. 传感器数据采集
在本研究中,传感器数据采集对于构建全面的农业知识图谱和提高病害检测系统的准确性至关重要。我们收集的传感器数据源自智能农业监测设备,例如土壤测试传感器和植物生长监测设备,它们可以提供关于土壤 pH 值、电导率、养分含量以及植物生理指标的详细数据。这些设备部署在田间的关键位置,并定期收集数据,以监测和评估作物生长状况及潜在的病害风险。所有收集到的传感器数据都经过了严格的数据清洗和预处理,以确保数据质量符合后续分析的要求。在数据预处理过程中,我们剔除了异常值、填充了缺失值,并对数据进行了归一化,以便它们在后续数据分析中得到有效利用。
4.1.4. Image Data Collection
4.1.4. 图像数据收集
在本研究中,图像数据的收集对于建立高效的病害检测模型和提升农业问答系统的性能至关重要。图像数据的内容、来源、数量和获取方法是构建准确、全面模型的基础。首先,图像数据的内容主要包括水稻、小麦、马铃薯和棉花等主要作物的健康和患病植物图像,如表 7 所示。
这些图像包括作物的不同生长阶段以及各种常见和罕见疾病的表现。对于水稻,收集了健康水稻、患有稻瘟病、黄叶病及其他病害状况的图像。对于每种作物,努力确保图像涵盖从早期症状到严重感染的各个阶段。此外,数据来源多样,主要采自中国农业大学西校区植物园。此外,还有一定数量的图像来源于互联网上的公共资源,这些图像代表了来自不同地区和不同气候条件下的作物。使用这些图像数据的理由是,丰富多样的图像数据集是构建高效疾病检测模型的关键。作物类型、疾病类型和疾病发展阶段的多样性显著增强了模型的泛化能力和准确性。此外,不同光照条件和拍摄角度下的图像有助于训练模型更好地适应实际应用中的各种情况。标注过程包括识别图像中的病害区域并分配正确的疾病类别标签。对于一些复杂的图像,采用了专家知识进行精确标注,如 Figure 4 所示。
图 4. 数据集标注界面的截图,展示了在一个农业病害检测数据集中,使用标注工具对单个植物叶片上的病害病斑进行精确标注。此举旨在创建用于机器学习模型训练的标注数据集。
4.2. Data Preprocessing 4.2. 数据预处理
4.2.1. Preprocessing of Corpus Data
4.2.1. 语料数据预处理
在本研究中,语料数据的预处理是构建高效农业问答系统和病害检测模型的关键步骤。预处理涉及将原始文本数据转换为更适合计算机处理的格式,以便进行后续的机器学习和自然语言处理任务。采用了一系列预处理技术来优化语料数据,确保数据质量和处理效率。最初,从农业论文、技术报告、在线论坛和问答等各种渠道获取的原始语料数据,在结构和格式上存在显著差异。为了使机器学习模型能够有效处理,进行了基本的数据清洗。这包括删除不相关信息(如广告、无意义字符)、标准化数据格式(如日期、单位)以及纠正明显错误。随后,文本数据进行了分词处理。分词是将文本中的长句或段落分割成单个词语的过程,这对于中文文本尤为关键,因为中文词语之间没有明确的分隔符。使用基于统计和机器学习的工具进行了高效的分词。在本文中,文本序列化操作利用了现有的分词工具 Jieba 进行分词,并结合了 Word2Vec 模型。此外,文本数据还进行了词性标注和句法分析。词性标注涉及为文本中的每个词语分配一个语法角色(如名词、动词等),而句法分析则探讨句子中词语之间的依存关系。这些步骤对于理解文本的语义结构至关重要。为了提高模型性能和准确性,文本数据进一步进行了向量化处理。文本向量化涉及将文本中的词语转换为计算机可处理的数值向量。为此,采用了词嵌入技术[20]。词嵌入技术能够捕捉词语之间的语义关系,并将其转换为高维空间中的向量,如图 5 所示。
4.2.2. Preprocessing of Image Data
4.3. Proposed Method
4.3.1. Multi-Transformer Overview
4.3.2. Multimodal Alignment Module
4.3.3. Transformer Inference Model
4.3.4. Multimodal Loss Function
4.4. Experimental Configuration
4.4.1. Hardware Platform
4.4.2. Software Configuration and Hyperparameter Settings
4.4.3. Dataset Training
4.4.4. Model Evaluation Metrics
5. Conclusions
Author Contributions
Funding
Data Availability Statement
Conflicts of Interest
References
- Zhang, Y.; Wa, S.; Sun, P.; Wang, Y. Pear defect detection method based on resnet and dcgan. Information 2021, 12, 397. [Google Scholar] [CrossRef]
- Saleem, M.H.; Potgieter, J.; Arif, K.M. Automation in agriculture by machine and deep learning techniques: A review of recent developments. Precis. Agric. 2021, 22, 2053–2091. [Google Scholar] [CrossRef]
- Sujatha, R.; Chatterjee, J.M.; Jhanjhi, N.; Brohi, S.N. Performance of deep learning vs machine learning in plant leaf disease detection. Microprocess. Microsyst. 2021, 80, 103615. [Google Scholar] [CrossRef]
- Zhang, Y.; Wa, S.; Liu, Y.; Zhou, X.; Sun, P.; Ma, Q. High-accuracy detection of maize leaf diseases CNN based on multi-pathway activation function module. Remote Sens. 2021, 13, 4218. [Google Scholar] [CrossRef]
- Li, L.; Zhang, S.; Wang, B. Plant disease detection and classification by deep learning—A review. IEEE Access 2021, 9, 56683–56698. [Google Scholar] [CrossRef]
- Ray, M.; Ray, A.; Dash, S.; Mishra, A.; Achary, K.G.; Nayak, S.; Singh, S. Fungal disease detection in plants: Traditional assays, novel diagnostic techniques and biosensors. Biosens. Bioelectron. 2017, 87, 708–723. [Google Scholar] [CrossRef]
- Vadamalai, G.; Kong, L.L.; Iftikhar, Y. Plant Genetics and Physiology in Disease Prognosis. In Plant Disease Management Strategies for Sustainable Agriculture through Traditional and Modern Approaches; Springer: Berlin/Heidelberg, Germany, 2020; pp. 15–25. [Google Scholar]
- Das, D.; Singh, M.; Mohanty, S.S.; Chakravarty, S. Leaf disease detection using support vector machine. In Proceedings of the 2020 International Conference on Communication and Signal Processing (ICCSP), Chennai, India, 28–30 July 2020; pp. 1036–1040. [Google Scholar]
- Lin, X.; Wa, S.; Zhang, Y.; Ma, Q. A dilated segmentation network with the morphological correction method in farming area image Series. Remote Sens. 2022, 14, 1771. [Google Scholar] [CrossRef]
- Zhang, Y.; Yang, X.; Liu, Y.; Zhou, J.; Huang, Y.; Li, J.; Zhang, L.; Ma, Q. A time-series neural network for pig feeding behavior recognition and dangerous detection from videos. Comput. Electron. Agric. 2024, 218, 108710. [Google Scholar] [CrossRef]
- Deepalakshmi, P.; Lavanya, K.; Srinivasu, P.N. Plant leaf disease detection using CNN algorithm. Int. J. Inf. Syst. Model. Des. (IJISMD) 2021, 12, 1–21. [Google Scholar] [CrossRef]
- Sharma, P.; Berwal, Y.P.S.; Ghai, W. Performance analysis of deep learning CNN models for disease detection in plants using image segmentation. Inf. Process. Agric. 2020, 7, 566–574. [Google Scholar] [CrossRef]
- Bedi, P.; Gole, P. Plant disease detection using hybrid model based on convolutional autoencoder and convolutional neural network. Artif. Intell. Agric. 2021, 5, 90–101. [Google Scholar] [CrossRef]
- De Silva, M.; Brown, D. Multispectral Plant Disease Detection with Vision Transformer–Convolutional Neural Network Hybrid Approaches. Sensors 2023, 23, 8531. [Google Scholar] [CrossRef]
- Parez, S.; Dilshad, N.; Alghamdi, N.S.; Alanazi, T.M.; Lee, J.W. Visual intelligence in precision agriculture: Exploring plant disease detection via efficient vision transformers. Sensors 2023, 23, 6949. [Google Scholar] [CrossRef]
- Thai, H.T.; Le, K.H.; Nguyen, N.L.T. FormerLeaf: An efficient vision transformer for Cassava Leaf Disease detection. Comput. Electron. Agric. 2023, 204, 107518. [Google Scholar] [CrossRef]
- Xie, L.; Yuille, A. Genetic cnn. In Proceedings of the IEEE International Conference on Computer Vision, Venice, Italy, 22–29 October 2017; pp. 1379–1388. [Google Scholar]
- Redmon, J.; Divvala, S.; Girshick, R.; Farhadi, A. You only look once: Unified, real-time object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 27–30 June 2016; pp. 779–788. [Google Scholar]
- Hu, Z.; Dong, Y.; Wang, K.; Chang, K.W.; Sun, Y. Gpt-gnn: Generative pre-training of graph neural networks. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, Virtual Event, 6–10 July 2020; pp. 1857–1867. [Google Scholar]
- Devlin, J.; Chang, M.W.; Lee, K.; Toutanova, K. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv 2018, arXiv:1810.04805. [Google Scholar]
- Trong, V.H.; Gwang-hyun, Y.; Vu, D.T.; Jin-young, K. Late fusion of multimodal deep neural networks for weeds classification. Comput. Electron. Agric. 2020, 175, 105506. [Google Scholar] [CrossRef]
- Simonyan, K.; Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv 2014, arXiv:1409.1556. [Google Scholar]
- He, K.; Zhang, X.; Ren, S.; Sun, J. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 27–30 June 2016; pp. 770–778. [Google Scholar]
- Singh, S.; Ahuja, U.; Kumar, M.; Kumar, K.; Sachdeva, M. Face mask detection using YOLOv3 and faster R-CNN models: COVID-19 environment. Multimed. Tools Appl. 2021, 80, 19753–19768. [Google Scholar] [CrossRef]
- Wu, W.; Liu, H.; Li, L.; Long, Y.; Wang, X.; Wang, Z.; Li, J.; Chang, Y. Application of local fully Convolutional Neural Network combined with YOLO v5 algorithm in small target detection of remote sensing image. PloS ONE 2021, 16, e0259283. [Google Scholar] [CrossRef]
- Bertasius, G.; Wang, H.; Torresani, L. Is space-time attention all you need for video understanding? In Proceedings of the 38th International Conference on Machine Learning, ICML, Virtual Event, 18–24 July 2021; Volume 2, p. 4. [Google Scholar]
- Patil, R.R.; Kumar, S. Rice-fusion: A multimodality data fusion framework for rice disease diagnosis. IEEE Access 2022, 10, 5207–5222. [Google Scholar] [CrossRef]
- Dandrifosse, S.; Carlier, A.; Dumont, B.; Mercatoris, B. Registration and fusion of close-range multimodal wheat images in field conditions. Remote Sens. 2021, 13, 1380. [Google Scholar] [CrossRef]
- Anandhi, D.R.F.R.; Sathiamoorthy, S. Enhanced Sea Horse Optimization with Deep Learning-based Multimodal Fusion Technique for Rice Plant Disease Segmentation and Classification. Eng. Technol. Appl. Sci. Res. 2023, 13, 11959–11964. [Google Scholar] [CrossRef]
- Gadiraju, K.K.; Ramachandra, B.; Chen, Z.; Vatsavai, R.R. Multimodal deep learning based crop classification using multispectral and multitemporal satellite imagery. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, Virtual Event, 6–10 July 2020; pp. 3234–3242. [Google Scholar]
- Qing, J.; Deng, X.; Lan, Y.; Li, Z. GPT-aided diagnosis on agricultural image based on a new light YOLOPC. Comput. Electron. Agric. 2023, 213, 108168. [Google Scholar] [CrossRef]
- Cao, Y.; Sun, Z.; Li, L.; Mo, W. A study of sentiment analysis algorithms for agricultural product reviews based on improved bert model. Symmetry 2022, 14, 1604. [Google Scholar] [CrossRef]
- Zhang, Y.; Lv, C. TinySegformer: A lightweight visual segmentation model for real-time agricultural pest detection. Comput. Electron. Agric. 2024, 218, 108740. [Google Scholar] [CrossRef]
- Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A.N.; Kaiser, Ł.; Polosukhin, I. Attention is all you need. Adv. Neural Inf. Process. Syst. 2017, 30, 198–214. [Google Scholar]
- Shen, Y.; Wang, L.; Jin, Y. AAFormer: A multi-modal transformer network for aerial agricultural images. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, LA, USA, 18–24 June 2022; pp. 1705–1711. [Google Scholar]
- Fountas, S.; Espejo-Garcia, B.; Kasimati, A.; Mylonas, N.; Darra, N. The future of digital agriculture: Technologies and opportunities. IT Prof. 2020, 22, 24–28. [Google Scholar] [CrossRef]
- Lippi, M.; Bonucci, N.; Carpio, R.F.; Contarini, M.; Speranza, S.; Gasparri, A. A yolo-based pest detection system for precision agriculture. In Proceedings of the 2021 29th Mediterranean Conference on Control and Automation (MED), Puglia, Italy, 22–25 June 2021; pp. 342–347. [Google Scholar]
- Lu, J.; Tan, L.; Jiang, H. Review on convolutional neural network (CNN) applied to plant leaf disease classification. Agriculture 2021, 11, 707. [Google Scholar] [CrossRef]
- Zhang, Y.; Yang, G.; Liu, Y.; Wang, C.; Yin, Y. An improved YOLO network for unopened cotton boll detection in the field. J. Intell. Fuzzy Syst. 2022, 42, 2193–2206. [Google Scholar] [CrossRef]
- Krizhevsky, A.; Sutskever, I.; Hinton, G.E. Imagenet classification with deep convolutional neural networks. In Proceedings of the Advances in Neural Information Processing Systems, Lake Tahoe, NV, USA, 3–6 December 2012; Volume 25. [Google Scholar]
- Szegedy, C.; Liu, W.; Jia, Y.; Sermanet, P.; Reed, S.; Anguelov, D.; Erhan, D.; Vanhoucke, V.; Rabinovich, A. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Boston, MA, USA, 7–12 June 2015; pp. 1–9. [Google Scholar]
- Li, J.; Li, D.; Xiong, C.; Hoi, S. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In Proceedings of the International Conference on Machine Learning, PMLR, Baltimore, MD, USA, 17–23 July 2022; pp. 12888–12900. [Google Scholar]
- Ye, Q.; Xu, H.; Xu, G.; Ye, J.; Yan, M.; Zhou, Y.; Wang, J.; Hu, A.; Shi, P.; Shi, Y.; et al. mplug-owl: Modularization empowers large language models with multimodality. arXiv 2023, arXiv:2304.14178. [Google Scholar]
- Dai, W.; Li, J.; Li, D.; Tiong, A.; Zhao, J.; Wang, W.; Li, B.; Fung, P.; Hoi, S. InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning. arXiv 2023, arXiv:2305.06500. [Google Scholar]
- Radford, A.; Kim, J.W.; Hallacy, C.; Ramesh, A.; Goh, G.; Agarwal, S.; Sastry, G.; Askell, A.; Mishkin, P.; Clark, J.; et al. Learning transferable visual models from natural language supervision. In Proceedings of the International Conference on Machine Learning. PMLR, Virtual, 18–24 July 2021; pp. 8748–8763. [Google Scholar]
- Li, J.; Li, D.; Savarese, S.; Hoi, S. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. arXiv 2023, arXiv:2301.12597. [Google Scholar]
- Liu, W.; Anguelov, D.; Erhan, D.; Szegedy, C.; Reed, S.; Fu, C.Y.; Berg, A.C. Ssd: Single shot multibox detector. In Proceedings of the Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, 11–14 October 2016; pp. 21–37. [Google Scholar]
- Lin, T.Y.; Goyal, P.; Girshick, R.; He, K.; Dollár, P. Focal loss for dense object detection. In Proceedings of the IEEE International Conference on Computer Vision, Venice, Italy, 22–29 October 2017; pp. 2980–2988. [Google Scholar]
- Zhou, X.; Wang, D.; Krähenbühl, P. Objects as points. arXiv 2019, arXiv:1904.07850. [Google Scholar]
- Zhang, L.; Ding, G.; Li, C.; Li, D. DCF-Yolov8: An Improved Algorithm for Aggregating Low-Level Features to Detect Agricultural Pests and Diseases. Agronomy 2023, 13, 2012. [Google Scholar] [CrossRef]
- Zhang, Y.; Wang, Y. High-precision wheat head detection model based on one-stage network and GAN model. Front. Plant Sci. 2022, 13, 787852. [Google Scholar] [CrossRef]
- Bender, A.; Whelan, B.; Sukkarieh, S. A high-resolution, multimodal data set for agricultural robotics: A Ladybird’s-eye view of Brassica. J. Field Robot. 2020, 37, 73–96. [Google Scholar] [CrossRef]
- DeVries, T.; Taylor, G.W. Improved regularization of convolutional neural networks with cutout. arXiv 2017, arXiv:1708.04552. [Google Scholar]
- Yun, S.; Han, D.; Oh, S.J.; Chun, S.; Choe, J.; Yoo, Y. Cutmix: Regularization strategy to train strong classifiers with localizable features. In Proceedings of the IEEE/CVF International Conference on Computer Vision, Seoul, Republic of Korea, 27 October–2 November 2019; pp. 6023–6032. [Google Scholar]
图 3. 棉花生长与病害关系知识图谱,展示了棉花生长过程中的典型症状、可能的病害、相关害虫以及相应的治疗方法。
表 1. 病害检测性能比较。
| Model | Precision 精确率 | Recall 召回率 | Accuracy 准确率 |
|---|---|---|---|
| AlexNet | 0.83 | 0.81 | 0.82 |
| GoogLeNet | 0.86 | 0.84 | 0.85 |
| VGG | 0.89 | 0.87 | 0.88 |
| ResNet | 0.92 | 0.90 | 0.91 |
| Proposed Method 所提出的方法 | 0.95 | 0.92 | 0.94 |
表 2. 农业图像字幕生成性能比较。
| Model | Precision 精确率 | Recall 召回率 | Accuracy 准确率 |
|---|---|---|---|
| BLIP | 0.78 | 0.74 | 0.75 |
| mPLUG-Owl | 0.80 | 0.76 | 0.77 |
| InstructBLIP | 0.84 | 0.80 | 0.82 |
| CLIP | 0.86 | 0.82 | 0.85 |
| BLIP2 | 0.89 | 0.85 | 0.88 |
| Proposed Method 所提出的方法 | 0.92 | 0.88 | 0.91 |
| Model | Precision | Recall | Accuracy |
|---|---|---|---|
| SSD | 0.82 | 0.80 | 0.81 |
| RetinaNet | 0.85 | 0.83 | 0.84 |
| CenterNet | 0.89 | 0.87 | 0.88 |
| YOLOv8 | 0.93 | 0.90 | 0.92 |
| Proposed Method | 0.96 | 0.91 | 0.94 |
| Crop | Disease | Precision | Recall | Accuracy |
|---|---|---|---|---|
| Rice | Rice Blast | 0.97 | 0.92 | 0.95 |
| Sheath Blight | 0.95 | 0.93 | 0.94 | |
| Rice False Smut | 0.92 | 0.90 | 0.91 | |
| Bacterial Leaf Blight | 0.87 | 0.85 | 0.86 | |
| Downy Mildew | 0.97 | 0.94 | 0.96 | |
| Wheat | Rust | 0.98 | 0.93 | 0.95 |
| Powdery Mildew | 0.96 | 0.94 | 0.95 | |
| Fusarium Head Blight | 0.95 | 0.91 | 0.93 | |
| Loose Smut | 0.78 | 0.76 | 0.77 | |
| Sheath Blight | 0.97 | 0.92 | 0.94 | |
| Potato | Early Blight | 0.96 | 0.91 | 0.93 |
| Late Blight | 0.95 | 0.92 | 0.94 | |
| Leafroll Disease | 0.94 | 0.90 | 0.92 | |
| Wilt Disease | 0.96 | 0.94 | 0.95 | |
| Black Scurf | 0.97 | 0.93 | 0.95 | |
| Cotton | Wilt Disease | 0.95 | 0.92 | 0.94 |
| Yellow Wilt | 0.93 | 0.90 | 0.92 | |
| Verticillium Wilt | 0.96 | 0.94 | 0.95 | |
| Blight | 0.94 | 0.91 | 0.93 | |
| Anthracnose | 0.97 | 0.95 | 0.96 | |
| Corn | Rust | 0.95 | 0.93 | 0.94 |
| Northern Corn Leaf Blight | 0.96 | 0.92 | 0.94 | |
| Common Smut | 0.97 | 0.94 | 0.95 | |
| Southern Corn Leaf Blight | 0.74 | 0.70 | 0.72 | |
| Leaf Spot Disease | 0.98 | 0.96 | 0.97 |
| Image Data | Text Data | Sensor Data | Precision | Recall | Accuracy |
|---|---|---|---|---|---|
| ✓ | ✓ | ✓ | 0.96 | 0.93 | 0.94 |
| ✗ | ✗ | ✓ | 0.24 | 0.21 | 0.23 |
| ✗ | ✓ | ✗ | 0.78 | 0.73 | 0.75 |
| ✓ | ✗ | ✗ | 0.92 | 0.90 | 0.91 |
| Task | Loss Function | Precision | Recall | Accuracy |
|---|---|---|---|---|
| Disease Detection | Hinge Loss | 0.90 | 0.85 | 0.86 |
| MSE Loss | 0.93 | 0.87 | 0.91 | |
| Multimodal Loss | 0.95 | 0.92 | 0.94 | |
| Agricultural Image Captioning | Hinge Loss | 0.84 | 0.79 | 0.82 |
| MSE Loss | 0.89 | 0.83 | 0.86 | |
| Multimodal Loss | 0.92 | 0.8 | 0.89 | |
| Object Detection | Hinge Loss | 0.88 | 0.84 | 0.85 |
| MSE Loss | 0.91 | 0.87 | 0.89 | |
| Multimodal Loss | 0.96 | 0.92 | 0.94 |
| Crop | Disease | Number |
|---|---|---|
| Rice | Rice Blast | 768 |
| Sheath Blight | 1095 | |
| Rice False Smut | 677 | |
| Bacterial Leaf Blight | 1135 | |
| Downy Mildew | 983 | |
| Wheat | Rust | 690 |
| Powdery Mildew | 734 | |
| Fusarium Head Blight | 918 | |
| Loose Smut | 1129 | |
| Sheath Blight | 885 | |
| Potato | Early Blight | 921 |
| Late Blight | 1079 | |
| Leafroll Disease | 776 | |
| Wilt Disease | 698 | |
| Black Scurf | 993 | |
| Cotton | Wilt Disease | 874 |
| Yellow Wilt | 903 | |
| Verticillium Wilt | 1005 | |
| Blight | 1297 | |
| Anthracnose | 793 | |
| Corn | Rust | 754 |
| Northern Corn Leaf Blight | 913 | |
| Common Smut | 952 | |
| Southern Corn Leaf Blight | 1045 | |
| Leaf Spot Disease | 1176 |
Disclaimer/Publisher’s Note: The statements, opinions and data contained in all publications are solely those of the individual author(s) and contributor(s) and not of MDPI and/or the editor(s). MDPI and/or the editor(s) disclaim responsibility for any injury to people or property resulting from any ideas, methods, instructions or products referred to in the content. |
© 2024 by the authors. Licensee MDPI, Basel, Switzerland. This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution (CC BY) license (https://creativecommons.org/licenses/by/4.0/).
Share and Cite
Lu, Y.; Lu, X.; Zheng, L.; Sun, M.; Chen, S.; Chen, B.; Wang, T.; Yang, J.; Lv, C. Application of Multimodal Transformer Model in Intelligent Agricultural Disease Detection and Question-Answering Systems. Plants 2024, 13, 972. https://doi.org/10.3390/plants13070972
Lu Y, Lu X, Zheng L, Sun M, Chen S, Chen B, Wang T, Yang J, Lv C. Application of Multimodal Transformer Model in Intelligent Agricultural Disease Detection and Question-Answering Systems. Plants. 2024; 13(7):972. https://doi.org/10.3390/plants13070972
Chicago/Turabian StyleLu, Yuchun, Xiaoyi Lu, Liping Zheng, Min Sun, Siyu Chen, Baiyan Chen, Tong Wang, Jiming Yang, and Chunli Lv. 2024. "Application of Multimodal Transformer Model in Intelligent Agricultural Disease Detection and Question-Answering Systems" Plants 13, no. 7: 972. https://doi.org/10.3390/plants13070972
APA StyleLu, Y., Lu, X., Zheng, L., Sun, M., Chen, S., Chen, B., Wang, T., Yang, J., & Lv, C. (2024). Application of Multimodal Transformer Model in Intelligent Agricultural Disease Detection and Question-Answering Systems. Plants, 13(7), 972. https://doi.org/10.3390/plants13070972








