近日,我院韩璐副教授作为第一作者的合作论文Integrated Multivariate Segmentation Tree for Heterogeneous Credit Data Analysis in Small- and Medium-Sized Enterprises在国际顶级权威期刊《Expert Systems With Applications》在线发表。该期刊是中央财经大学AAA期刊,JCR一区期刊、中国科学院一区期刊,在计算机科学、人工智能、运筹学与管理科学领域具有重要的学术影响力。论文在线链接:https://doi.org/10.1016/j.eswa.2025.130389。
论文介绍
本论文提出一种名为集成多变量分割树(IMST)的机器学习框架,用于解决中小企业信用评估中的异构数据建模难题。传统方法依赖资产负债率、净利润率等结构化财务指标,虽具解释力,但难以全面反映企业运营状况与潜在风险。近年来,非结构化文本数据(如银行贷后记录、企业公告、新闻报道)因其蕴含的动态行为特征和软信息受到关注。然而,如何有效融合文本与数值数据,并构建兼具高精度与可解释性的模型,仍是关键挑战。
针对此问题,论文提出了IMST框架,系统整合异构数据并平衡预测性能与可解释性。方法分为三阶段:第一阶段将文本转化为低维语义表示。通过对1,428份中小企业审计文本预处理(去停用词、实体抽取、属性标注),构建文档-术语矩阵,并采用非负矩阵分解生成潜变量,实现文本结构化与高效计算。第二阶段优化财务特征选择。针对冗余且相关的财务比率(如流动资产/总资产、留存收益/总资产),使用Lasso回归进行变量筛选,通过L1正则化实现稀疏建模。第三阶段构建基于多变量联合分裂的决策树。IMST在每个节点综合多个变量,以基尼指数或信息熵为准则进行分割,提升划分精细度与鲁棒性。同时引入“最弱链接剪枝”机制,结合交叉验证防止过拟合,增强泛化能力。整体设计兼顾准确性、简洁性与可解释性,适用于金融风控等高透明度需求场景。
实验结果表明,IMST在真实城商行数据上准确率达88.9%,优于单变量决策树及SVM、朴素贝叶斯、神经网络等主流模型。尤其在识别高风险企业方面,准确率较基线提升超12个百分点。模型具备良好实用性:树形结构支持直观规则提取,便于信贷人员理解;训练快、参数少,适合部署于实时审批系统。多轮交叉验证显示其在不平衡数据与小样本条件下仍具稳健性。
本研究贡献有三:一是提出完整的文本与结构化数据融合方案,打破建模壁垒;二是创新决策树范式,结合特征选择与多变量分裂,提升表现力与效率;三是为中小企业信用评估提供高性能、高可解释的实用工具,推动智能风控落地。
作者简介
韩璐,管理科学与工程学院副教授、博士生导师,中国系统工程学会数据科学与知识系统工程专委会委员。长期从事数据科学、计算金融方面的研究,已在《Expert Systems With Applications》、《Engineering Applications of Artificial Intelligence》、《Knowledge and Information Systems》、《系统工程理论与实践》、《管理工程学报》等国内外知名期刊发表了学术论文40余篇,出版了《A Valuation of the Science and Technology Innovation Board in China》、《Modelling Consumer Financing Behaviour in China》等3部专著;主持和参与了10余项省部级以上课题;荣获过中央财经大学“驰望”一流学术成果奖、中央财经大学青年教师教学基本功大赛综合三等奖等荣誉奖励。
撰稿人:韩璐
审核人:刘志东