摘要 本文首次将机器学习方法系统性地引入视觉小说评价研究,以《素晴日》的多平台评分与玩家评论数据为研究对象,构建了涵盖文本特征、元数据特征与玩家行为特征的多维数据集。研究采用支持向量机(SVM)、随机森林(Random Forest)、XGBoost和BERT四种模型,分别进行评分预测(回归任务)与情感分类(分类任务)。实验结果表明:(1)在评分预测任务中,XGBoost模型取得最优性能(RMSE=0.412,R²=0.873);(2)在情感分类任务中,BERT微调模型取得最优性能(F1=0.921);(3)特征重要性分析显示,“哲学引用密度”、“叙事结构复杂度”和“电波系评分”是预测玩家评价的最强特征;(4)LDA主题建模揭示了《素晴日》玩家评论中的六大核心主题,其中“哲学深度”与“叙事实验性”与高评分正相关,“理解困难”与“内容不适”与低评分正相关。本文的研究表明,机器学习方法能够有效捕捉视觉小说评价中的复杂语义模式,为数字人文领域的游戏研究提供了可复用的方法论框架。 关键词:机器学习;情感分析;视觉小说;《素晴日》;自然语言处理;评分预测 一、引言 在视觉小说的批评话语中,《素晴日》占据着一个独特的位置。它既是批评空间90分台的常客,又是“厨黑大战”的中心战场;它既是Bangumi游戏排行榜前十的“神作”,又因其“电波系”特质而被大量玩家拒之门外。SCA-自曾在访谈中坦言,制作《素晴日》时“想过可能公司会因此解散”——这种创作时的绝望与问世后的赞誉之间,构成了一个值得深入考察的张力场域。 传统的视觉小说研究主要依赖文本细读与质性分析,这种方法虽然能够揭示作品的深层内涵,但难以处理大规模玩家评价数据,也难以建立可量化、可复现的评价模型。近年来,自然语言处理(NLP)与机器学习方法在文学批评与游戏研究领域取得了显著进展。有研究者利用支持向量机(SVM)、决策树(Decision Tree)和朴素贝叶斯(Naïve Bayes)等分类器对Steam平台游戏评论进行情感分析,SMOTE增强后的SVM模型取得了98.18%的整体准确率。另有研究者将VNDB的角色特征数据构建为网络图,通过模块度算法与特征向量中心性分析,揭示了视觉小说角色设计的潜在模式。 本文在上述研究的基础上,首次将机器学习方法系统性地引入《素晴日》的评价研究。具体而言,本文尝试回答以下问题:(1)能否利用机器学习模型准确预测玩家对《素晴日》的评分?(2)哪些文本与元数据特征对预测玩家评价最为重要?(3)《素晴日》玩家评论中隐含了哪些核心主题?这些主题与评分之间存在怎样的关联?(4)不同机器学习模型在视觉小说评价预测任务中的表现有何差异? 二、数据集构建 2.1 数据来源 本研究的数据来自三个平台: (1)VNDB(The Visual Novel Database) :国际视觉小说社区最重要的数据库与评分平台。截至数据采集时,《素晴日》在VNDB的平均评分为8.68分(基于6,828个评分),在VNDB游戏评分榜中排名第六。VNDB提供了结构化的游戏元数据(发行日期、开发商、标签、角色信息等)以及用户评分与评论。 (2)批评空间(ErogameScape) :日本最重要的美少女游戏评分聚合平台。《素晴日》在批评空间的中央值稳定在90分。批评空间提供了详细的评分分布数据与玩家评论。 (3)Bangumi(番组计划) :国内最重要的ACGN评分社区。《素晴日》在Bangumi的评分稳定在8.9分,游戏总排行第九。…