大模型在工业领域探索仍处于初级阶段_速读
2023-07-06 11:10:52 人民邮电报


(资料图片)

图片来源:中国工业互联网研究院

近日,中国工业互联网研究院(以下简称“工联院”)针对人工智能大模型在中文工业领域的应用性能、技术架构、标准体系进行系统性评测,并发布系列报告。评测对象涵盖GPT-4、GPT-3.5、文心一言、ChatGLM等国内外具有代表性的头部大模型。

本次工业知识问答测试主要分为客观题与主观题两大类,总计超过1100个问题。主观题主要考察四大维度:基础能力、语句能力、概括能力和逻辑能力。评测结果显示,GPT-4表现最佳。国内头部大模型表现亮眼,整体与GPT-3.5相当。其中百度文心一言在国内大模型中排名第一。

在客观题方面,GPT-4与文心一言表现优于其他大模型。但评测结果也同时指出,大模型在准确率方面有较大的提升空间。在主观题方面,国内大模型的基础能力、语句能力与GPT-4接近,概括能力、逻辑能力与GPT-4存在一定差距。

评测数据集由工业领域八大行业的相关数据构成。包括电子设备制造业、装备制造业、钢铁行业、采矿行业、电力行业、石化化工行业、建材行业和纺织行业。工联院根据工业经验,结合外部数据源,按行业构建行业知识测试集。

从行业维度看,大模型在八个行业知识问答能力上差异明显,个别行业需进一步优化提升。其中,电子、装备行业评价指数较高,纺织、采矿行业综合评价指数相对较低。

分析大模型落地垂直行业痛点,丰富特定行业专业知识。虽然国内大模型在本次评测中表现较好,甚至在部分行业评分优于GPT-3.5,但工联院评测报告指出,国内外通用大模型在工业知识问答领域探索仍处于初级阶段,国内大模型与GPT-4有差距,行业间的泛化能力有待加强。对此,工联院评测报告给出的建议是进一步丰富相关专业领域的数据训练集,进行专业化的微调。 

热门推荐

文章排行

  1. 2023-07-06大模型在工业领域探索仍处于初级阶段_速读
  2. 2023-07-06云南年产鲜切花达180亿枝 出口40多个国家和地区
  3. 2023-07-06河南内黄:首届农机博览会开幕
  4. 2023-07-06微笑抑郁症如何发现 歌手李玟去世
  5. 2023-07-06超能世界神圣号角神器评测|即时
  6. 2023-07-06教大家怎么完全关闭花呗的办法_环球焦点
  7. 2023-07-06天天观焦点:一人一床一车,斯柯达学生打造纯电露营车Roadiaq
  8. 2023-07-05夏日炎炎相约“荷”处?众荷绽放美在泉城当夏|全球最资讯
  9. 2023-07-05一彬科技:公司及全资子公司宁波翼宇汽车零部件有限公司为2022年宁波市“专精特新”企业-每日速读
  10. 2023-07-05流动性与经典性不可兼得?——并与黎杨全《网络文学的经典化是个伪命题》一文商榷|世界热文
  11. 2023-07-05科瑞技术: 2023年股票期权与限制性股票激励计划之限制性股票授予登记完成的公告
  12. 2023-07-05快看:山东省交通运输厅开展货车跟车走访调研活动
  13. 2023-07-05ESG视角下 塑料行业再造绿色价值还面临哪些难点? 天天观天下
  14. 2023-07-05港股新矿资源急速拉升 一度涨超300%-当前信息
  15. 2023-07-05【新要闻】祝贺!213名教师在班主任基本功竞赛中获奖
  16. 2023-07-05供应商透露小米汽车最新进展:首款车型报价完毕|全球热头条
  17. 2023-07-05周伟丹 河南洛阳西工支行党委书记、行长
  18. 2023-07-05西安沙井村发生故意伤害案 警方通报:事因情感纠纷 热点
  19. 2023-07-05中信金属7月5日快速反弹_天天速看料
  20. 2023-07-05湖南省气候中心预测:今年盛夏降雨或将总体偏少|全球快播报