【设备检修】文本数据处理工具+机组检修知识库问答
2025-07-02 16:34:16
博般数据
为提升机组检修效率与规范性,研究应用人工智能大模型和增强检索(RAG)技术,实现对检修问题的智能识别与拆解。同时,综合运用OCR、版面分析及表格提取技术,构建企业级机组检修知识库。此外,针对技术规范书编制与修订过程中普遍存在的文档版本管理及内容比对难题,亟需高效解决方案。
融合OCR、版面分析与表格重建技术,自动解析设备手册、检修记录等非结构化文档,精准提取机组型号、故障特征、工艺参数等数据。
通过向量检索和混合检索技术的深度融合,搭建了集文档统一存储、数据结构化处理与高效检索为一体的核心功能框架。
部署领域微调的大模型,自动识别用户提出的复合型检修问题,拆解为设备检测、参数比对、历史案例匹配等子任务链。
实现多模态输入解析,通过预训练语言模型与领域知识库的协同工作,通过流程引擎实现条款级差异检测。
本项目通过收集高质量文本数据包括论文、专业文档等,构造电力工业领域问答对形成数据集。并基于开源基座模型利用PEFT技术实现百亿级参数量大模型微调,以提高模型在电力工业领域的认知能力。最终从多方面维度评估大模型在通用领域和专业领域的性能,验证方案有效性。
部分截图: