我国上市公司信息披露文本相似度研究引关注 23年数据揭示企业报告同质化现象

问题——叙述性信息可比性不足,研究与监管面临“文本难题”; 近年来,随着年报中管理层讨论与分析(MD&A)信息量持续增加,叙述性披露帮助投资者理解企业经营、风险与前景上的重要性不断上升。但实践中,部分披露存在表述趋同、模板化倾向,导致信息增量有限、可比性不足。对学界而言,如何量化不同公司MD&A文本的“相似”与“差异”,成为识别披露质量、比较信息含量、评估治理与创新行为的重要技术环节;对监管与市场机构而言,建立可复核的量化指标体系,有助于提升对披露合规与有效性的评估能力。 原因——标准化表达与成本约束叠加,推动文本同质化。 造成MD&A内容趋同的因素较为复杂:一上,信息披露规范、行业通用风险提示和审计合规要求,使企业关键风险、会计政策等内容上容易出现高度一致的表达;另一上,年报编制具有明显的成本约束与时间压力,部分企业倾向于沿用既有文本或参考同业表述以降低撰写成本。此外,宏观经济波动、监管政策调整等外部环境变化,也会同一年度内引发企业对类似事项的集中披露,继续抬升年度横向相似度。 影响——数据化度量有助于识别“模板化”与“信息含量”,但也需防范误读。 此次发布的资料覆盖2001年至2024年,样本约6.5万份、涉及5600余家上市公司,提供MD&A叙述性信息披露数据及文本相似度计算结果,并附带可用于复核的计算代码与最终输出,便于研究者进行验证与拓展。其核心思路是将MD&A文本向量化后开展同年度横向比较:先以向量空间模型将每份文本表示为高维向量,再计算文本之间夹角的余弦值作为相似度指标;同时引入TF-IDF机制,在词频基础上结合逆文档频率进行加权,降低高频通用词对相似度的“噪声”干扰,提升对具有区分度词项的识别能力;在指标构造上,以公司与同年度其他公司的相似度均值刻画总体相似水平。 此指标体系有望在多个场景发挥作用:其一,支持对披露质量与信息增量的量化研究,为理解创新活动、治理结构、融资约束等因素与披露策略的关系提供可检验证据;其二,为市场中介与投资者提供辅助信号,用于识别叙述性披露的独特性与可读性;其三,为监管部门开展风险提示一致性、重点事项披露充分性等分析提供基础数据。,业内人士也指出,相似度本质上是文本层面的统计度量,不能简单等同于“抄袭”或“违规”,仍需结合行业属性、会计准则变化与企业经营事项作综合判断。 对策——推动叙述性披露从“合规表达”走向“有效沟通”。 面向提升信息披露有效性的目标,专家建议从三上着力:一是强化披露的针对性与可验证性,围绕经营变化、风险成因、应对措施和关键指标给出更具公司特征的解释,减少泛化表述;二是提升可比性与一致性,在保持披露规范的同时,鼓励企业在行业共性内容之外,补充业务模型、竞争格局、现金流与研发投入等核心信息的结构化呈现;三是完善外部约束与激励,推动中介机构更关注叙述性披露的完整性与一致性,促使市场对“高质量叙述”形成正向定价。对研究与应用机构而言,应加强算法透明与可复核机制,明确分词、停用词处理、口径选择等关键环节,避免“指标黑箱”造成解释偏差。 前景——量化工具将加速叙述性信息研究落地,助推数据要素在资本市场治理中发挥更大作用。 随着年报文本数据规模持续扩张,基于长期序列的相似度指标将为识别披露风格变迁、行业周期冲击与政策效果评估提供更稳健的基础。特别是在注册制改革持续推进、信息披露从“形式合规”走向“内容可用”的背景下,叙述性披露的精细化评估需求日益突出。业内预计,未来此类数据资源将与财务指标、公告事件、舆情信息等进一步融合,推动形成更立体的公司信息画像,为投资决策、风险管理与监管科技应用提供支撑。资料所参考的有关研究亦显示,围绕创新行为与MD&A披露策略的关系,文本度量方法正在成为重要研究路径之一。

一组跨越二十余年的MD&A文本数据,折射的是资本市场治理逻辑的深层变化;只有把可验证的数据工具、可执行的披露规则和可追责的监管机制有机结合,才能真正让年报文字从“看起来完整”走向“用得上、信得过”,为市场长期稳定健康发展夯实信息基础。