你用实验证明结论,但是我不信,所以你是错的 (舞萌DX2022排行榜统计)

栏目:教育活动  时间:2023-06-25
手机版

  起这个标题是为了说明那些依靠自己的感受否定统计结果的行为意味着什么。比如说,在同一高度同时释放两个大小不同的铁球,发现它们下落得一样快,说明自由落体运动的速度与质量无关。但是这样的结论与很多人一开始的看法不同,那些认可实验方法的人会根据这一结果改变自己的看法,而其他人坚持自己的感觉,认为实验现象是人为操纵的。

  我这个人很悲观。也许你会觉得大部分人是理性的,认为他们通过长时间的学习,理解和认同调查,实验,分析等一系列科学研究方法,然而我并不会这样认为。在我看来,人类是普遍邪恶的,这里所谓的普遍是指一切抑制邪恶的力量都不能发挥任何实质性的作用。这就像一个闭区间上仅在一个零测集上大于零的非负函数的积分只能是零。邪恶的根源是对无知的放纵。也许你会觉得无知和傲慢是多么大的过错,然而这在以无知为自豪面前,实在是九牛一毛。

  本文将会介绍我利用排行榜研究舞萌 DX 2022 全体乐谱难度的方法和结果。就像在学校里做的科学实验那样,不论误差有多大,也不论结果有多么出人意料,都不能质疑结果本身,不能用没有事实依据的推测反驳结果。当然,这也并不是说要完全从统计结果出发预测一切,而是要在明确原理的前提下,应用统计结果指导我们对于乐谱难度的认识。

  音乐游戏的乐谱难度是一个广受关注的问题,但是大量纷争的来源。我们可以在社交平台上找到大量有关难度的讨论,但是它们很少有基于统计结果的。

  什么是难度?明确这一点是良性讨论的前提。不同于像乐器演奏这样难以标准化的领域,音乐游戏的成绩有明确的量化方式,让我们可以不依赖于任何主观成分,将成绩作为评价乐谱难度的唯一标准。

  可是要用什么样的成绩评价难度呢?对于不同的玩家,他们在每个乐谱的成绩排序一般是不同的,而它们也都是真实存在的成绩数据。因此,不存在一种评价难度的方式,对于所有玩家都绝对适用,找到一个尽可能有用的方式才是可行的想法。

  查分器提供了一个利用收集到的成绩数据计算拟合难度的结果,并且它的作者发布了用于计算结果的 Excel 文件,从中我们可以了解到计算方法。可以看到查分器计算拟合难度时仍然依赖于原始的等级,且对于不同等级使用不同的规则计算,而不是仅从乐谱的成绩出发计算的。我将要提出的计算方法不依赖于原先给出的等级,平等地看待所有的乐谱。

  也许读者会认为,因为不同的玩家倾向于游玩不同等级的乐谱,所以如果不区分等级地统计成绩,就会让结果严重失真,以至于让低等级乐谱变得远比高等级的更难。如果以平均成绩作为研究对象,的确会造成这样的失真。然而一方面是失真的成绩几乎只有较差的部分,另一方面是我们关心的成绩主要是较好的部分,仅统计以排行榜为代表的好成绩,就可以同时解决研究内容和准确性的问题。

  我收集了舞萌 DX 2022 的所有乐谱的完成率和 DX 分数排行榜,它们显示了服务器内这些乐谱的完成率和 DX 分数的前 100 名。由于信息来自仅支持在微信内部登录的网页,正常的计算机辅助收集数据的手段无法使用,只能依靠人工复制网页中的数据。我在 5 月 29 日至 6 月 6 日完成了所有的数据收集,并将它们储存在 Excel 中,这样做的好处是可以自动形成矩阵形式的数据,便于用其它软件整理。

  对于每个乐谱,将完成率和 DX 分数比例的前 100 名取以第 k 名的权为 101-k 的加权平均,再将完成率和 DX 分数比例的加权平均与 101% 和 100% 的差以 0.01% 和 1% 为单位长度取二范数,得到每个乐谱的成绩。例如若完成率和 DX 分数比例的加权平均为 100.97% 和 96% ,则成绩为 5 。将全部 3519 个乐谱的成绩从小到大排序,绘制成的图像如下。

  解释一下为什么要使用这个计算方式。一般来说,取得 100.95% 的完成率, 95% 的 DX 分数比例和 AP 的难度接近,而 AP 是我们特别关心的内容。另一方面,完成率的波动远比 DX 分数比例的波动大。对二元数据取二范数的特点是结果与两个自变量均有关,且两者的比值(大比小)越大,结果受较小者的影响越小。因此现在的计算方式可以使普遍的没有达到 AP 成绩的乐谱重视完成率,达到 AP 成绩的乐谱重视 DX 分数,实现自适应地考察成绩,而不依赖于原先给出的等级。

  将成绩第 k 大的乐谱赋予第 k 大的等级(对于 13+ 及以上的等级使用定数),就可以得到所有乐谱的计算等级。给出所有计算等级对应的最差成绩如下,从中就可以看到低等级主要关注 DX 分数,高等级主要关注完成率。读者可以由此大致了解目前排行榜成绩的情况。

  在这一部分,我们关注每个乐谱的等级和计算等级。首先给出全部乐谱的等级和计算等级的数量统计,其中每列是每个等级,每行是每个计算等级。

  接下来给出所有的等级或计算等级达到 14 的乐谱。

  计算等级为 15.0 的有 1 个。

  计算等级为 14.9 的有 5 个,其中 Alea jacta est! (白)的等级为 14.8 。

  计算等级为 14.8 的有 14 个,请留意它们的排序,以及其中等级小于 14.7 的四个:System "Z" (白)(14.0),Fragrance (白)(14.5),FFT (白)(14.5),AMAZING MIGHTYYYY!!!! (白)(14.5)。

  计算等级为 14.7 的有 10 个,请留意其中的花と、雪と、ドラムンベース。(紫)(14.3)和ジングルベル(白)(14.2),并特别留意アージェントシンメトリー(白)(13.9)。

  计算等级为 14.6 的有 10 个,请留意 Panopticon (白)(14.1)和 Outlaw's Lullaby (紫)(13.9)。

  计算等级为 14.5 的有 18 个,请留意 conflict (紫)(14.1),患部で止まってすぐ溶ける~狂気の優曇華院(白)(14.0),ロストワンの号哭 (白)(14.2), Sun Dance (白)(13.9), Beat Of Mind (白)(14.2), B.M.S. (紫)(14.2),特别留意 Burning Hearts ~炎のANGEL~ (白)(13.7),以及等级为 14.8 的 SILENT BLUE。

  计算等级为 14.4 的有 16 个,请留意 PANDORA PARADOXXX (红)(13.9),Nitrous Fury (紫)(13.9),JACKY [Remix] (白)(13.8),脳漿炸裂ガール(标准)(紫)(13.9),并特别留意 Danza zandA (紫)(13)。虽然 Glorious Crown (紫)的等级是 14.8, BREaK! BREaK! BREaK! (紫), GIGANT?MAKHIA (紫), Valsqotch 的等级是 14.7,但是它们的计算等级是 14.4 。

  计算等级为 14.3 的有 17 个,请留意 Ragnarok (紫)(14.0), Jack-the-Ripper◆ (紫)(13.9), オパ! オパ! RACER -GMT mashup- (紫)(13.7), Beat of getting entangled (紫)(13.7),特别留意 Danza zandA (白)(13), ファンタジーゾーン OPA-OPA! -GMT remix- (紫)(13),另外要注意 VIIIbit Explorer (紫)(14.7)。

  计算等级为 14.2 的有 18 个,请留意 FEEL ALIVE (紫)(13.8), We Gonna Party (白)(13.7), D?N’T ST?P R?CKIN’ (紫)(13.8),にじよめちゃん体操第一億(紫)(13.7)。另外,请特别留意 System "Z" (红)(12+)。

  计算等级为 14.1 的有 5 个。

  计算等级为 14.0 的有 15 个,请特别留意 DRAGONLADY (红)(12+)和夜咄ディセイブ (红)(12)。

  计算等级为 13.9 的有 16 个,请留意 Re:End of a Dream (紫)(14.4), ARAIS (紫)(14.4), BATTLE NO.1 (紫)(14.5),并特别留意 Our Wrenally (紫)(14.8)。

  计算等级为 13.8 的有 5 个,请留意 Falsum Atlantis. (紫)(14.5)和 Contrapasso -paradiso- (紫)(14.4)。

  计算等级为 13.7 的有 9 个,请留意 Raven Emperor (紫)(14.5),宿星審判 (紫)(14.3), MEGATON BLAST (紫)(14.3)。

  计算等级不超过 13 的有 6 个,请留意 ほしぞらスペクタクル (紫)(14.3)和 Trick tear (紫)(14.4)。

  等级和计算等级均小于 14 的仅列出少量特殊的。

  计算等级为 13.9 的 Night Fly (红)和 Space Harrier Main Theme [Reborn] (红)的等级为 11+, Brand-new Japanesque (红)的等级为 10+。

  计算等级为 13.8 的 Quartet Theme [Reborn] (红),采配の刻 Power of order (红)和 電車で電車でOPA!OPA!OPA! -GMT mashup- (红)的等级为 11+ , JACKY [Remix] (红)的等级为 11。

  计算等级为 13.7 的円舞曲、君に(红),幻想のサテライト(标准)(红),ソーラン☆節 (红), conflict (DX)(红), maiム?maiム feat.週刊少年マガジン(红)的等级为 11,タカハせ!名人マン(红)的等级为 9+ 。

  计算等级为 13 的 Prophesy One (绿), magician's operation (黄), 地上の戦士 (黄)的等级为 7+ , maiム?maiム feat.週刊少年マガジン(黄), Ignite Infinity (黄), 猛進ソリストライフ! (绿)的等级为 7 , Got more raves?的等级为 6 。

  计算等级为 9 的 マツヨイナイトバグ(紫)的等级为 13.8 。计算等级为 7.7 的 Last Samurai (紫)的等级为 13.9 。计算等级为 7 的 Never Give Up! (紫)的等级为 13.8 , LOSE CONTROL 的等级为 13.7 。计算等级为 5 的泥の分際で私だけの大切を奪おうだなんて,计算等级为 4 的 TwisteD! XD ,生命不詳, Back 2 Back ,计算等级为 3 的魔ジョ狩リ 的等级为 13.7 。

  在这一部分,我们从统计的角度出发,寻找感兴趣的结果。比起计算等级,成绩本身是更有意义的数据。

  以下是每个难度的平均完成率,DX 分数比例和成绩。黄谱的完成率明显低于绿谱,但是 DX 分数比例高于绿谱,所以黄谱的成绩好于绿谱。如果试图将它解释为黄谱更吸引高水平玩家,那么因为完成率比 DX 分数更容易通过多打而提高,所以这种解释不成立。而黄谱的 DX 分数比例高于绿谱是可以从理论上解释的,就是黄谱的星星比例更高,同时由于难度差异不大,黄谱和绿谱的准度拉不开差距。事实上,直到中等以下的红谱,都可以这样解释。

  以下是每个等级的平均完成率,DX 分数比例和成绩。可以看到完成率与等级有近乎全局的正相关,但是 DX 分数比例虽然在最低的等级中有正相关,但是在较大的低等级范围中没有正相关,以至于成绩与等级的关系也是如此。对于失去正相关的原因,可以用低等级的难度差别太小解释,而在最低等级中存在正相关,可以解释为物量太小,所以更容易刷出高分。

  以下是每个等级下,每个乐谱类型和难度的平均成绩。整体上,标准乐谱的成绩明显比 DX 乐谱差, 绿谱的成绩比同等级黄谱的成绩差,DX 黄谱和高等级标准黄谱的成绩比同类型同等级红谱的成绩差,红谱比同等级紫谱的成绩差,白谱也比同等级紫谱的成绩差。

  接下来解释为什么会发生这些情况。高等级绿谱包含一些速度很快的歌曲,当它们拥有不比其它乐谱更简单的节奏时,难度就会变得很大,例如 Got more raves?和 Prophesy One 。

  高等级黄谱的难度通常体现为高密度的音符。虽然高速歌曲更有可能会产生这个问题,例如 Garakuta Doll Play ,但是高速并不是必需的,中速的复杂节奏也会显著提高难度,例如 System "Z" 。速度和节奏的难度可以复合,例如 Jack-the-Ripper◆ 。

  需要注意的是,虽然同等级黄谱与红谱的难度差异在标准谱中并不像在 DX 谱中那么明显,但是这并不是因为高等级标准黄谱不够难,而是因为低等级标准红谱不够容易,例如 Love or Lies 和 Crush On You 。

  而造成红谱难度高于紫谱的原因就很复杂了。不论是在哪个等级的哪个类型,红谱都显著比紫谱更难。只说明一些重要的等级。

  等级 10+ 的一些乐谱有非常复杂的节奏,例如 Brand-new Japanesque ,有非常复杂的排列方式,例如 Burning Hearts ~炎のANGEL~。等级 10+ 的难度远高于更低等级。

  等级 11+ 同样是在节奏和排列方面设置难点,但是更倾向于让两者同时存在,例如 Night Fly 和 Space Harrier Main Theme [Reborn] 。等级 11+ 的标准红谱可能是最令人痛苦的存在。

  等级 12+ 的难点更加多样。在节奏和排列的基础上,密度也显著增大,加入了更多的技术环节。例如 System "Z" 的节奏非常复杂,同时它的排列对换手极为不利, DRAGONLADY 在复杂节奏和大位移的键盘的基础上,加入了星星的技术, Beat of getting entangled 是节奏,排列,密度难度的完美结合。

  白谱比紫谱难,主要体现在特殊的技术成分。即使是在较低的等级,白谱也体现出了非常高级的星星技术,例如 いーあるふぁんくらぶ 。

  来到 13 级,白谱在键盘和星星方面同时发力,并且常常会有更低的容错度,例如 Danza zandA 和 air's gravity 。

  而在更高的等级中,白谱也常常体现出与等级不符的综合与多变,例如 System "Z" 和 アージェントシンメトリー 。

  此外,白谱的成绩比紫谱差,使得越高的难度吸引越多的高水平玩家,从而同等级高难度乐谱成绩更好的观点失去了事实依据。

  除了等级,难度和乐谱类型,还可以研究歌曲分类,版本和乐谱作者对难度的影响。

  以下是各歌曲分类的平均完成率, DX 分数比例和成绩。流行与动漫分类的平均等级最小,但是平均完成率低于 niconico 分类。平均等级最大的是舞萌分类,其次是其他游戏分类,但是其他游戏分类的平均 DX 分数比例更低。

  以下是各版本的平均完成率, DX 分数比例和成绩。平均完成率最低的是 Finale ,Milk Plus 和 Pink Plus ,它们也是平均等级最高的版本。然而平均 DX 分数比例最低的版本是 Maimai Plus 和 Green ,并且后者的平均等级低于全体的。此外,Pink Plus 和 Murasaki 的平均 DX 分数比例也偏低。 DX 及以后版本的平均 DX 分数比例有超越等级因素的提高,这是由乐谱类型带来的。

  以下是拥有不少于 10 个独立创作乐谱的作者的平均完成率, DX 分数比例和成绩。チャン@DP皆伝和 Revo@LC 的平均完成率和 DX 分数比例均为最低。ぴちネコ和小鳥遊さん的平均完成率较低,譜面-100号,ニャイン, mai-Star , Techno Kitchen 的平均 DX 分数比例较低。可以看到完成率偏低的作者更多倾向于大物量, DX 分数比例偏低的作者更多倾向于小物量。

  任何用于评价乐谱难度的统计方法都不可能是完美的,我们也不应当直接认为以上得到的每个乐谱的计算难度都是它的真实难度。然而,应该如何认识计算得到的难度呢?我认为应该从对难度本身的认识和计算的原理出发。

  在第一部分已经提到了要以成绩为评价难度的唯一标准,然而成绩的内涵是所有的成绩。用数学的语言讲,就是每个玩家在一般情况下游玩一个乐谱的成绩可以看作是一个随机变量,所有玩家在这个乐谱对应的随机变量构成的整体是难度。然而这是一个无法测量的事物,我们用玩家的最好成绩作为代表,实际上是默认了他们会用同样的强度努力在每个乐谱取得好成绩,且每个乐谱通过反复尝试取得好成绩的难度相同。

  实际情况下,即便是以冲击排行榜为代表的高水平核心玩家,上面的假设也不成立。对于那些更容易取得好成绩的乐谱,尝试的强度自然会较低,这看似达成了一个平衡。然而即便如此,那些更容易的乐谱仍然会因为仅考虑最好成绩而被低估。

  请注意,这里所讲的更容易,是指更有可能用较少的次数取得好成绩,而非难度上的容易。从这个意义上讲,物量小,难点集中的乐谱是更容易的。此外,完成率比 DX 分数比例更容易。这样就可以解释最低等级乐谱的好成绩是怎么来的,以及为什么物量小会倾向于完成率较高和 DX 分数比例较低。

  也许上面的分析角度并不是你喜闻乐见的,但是这才是不依赖于其他因素,仅仅以评价难度为目标应该采取的角度。其他因素也许存在,但是我们无法拿出证据说明它们会的影响更大,反而可以拿出说明它们没有显著影响的证据。

  综上,评价乐谱的难度既不能任凭着感觉走,也不能完全依赖于某种基于统计的计算方式。用数据替代主观感受评价难度是方向,但是不断选择更好的数据也是重要的一环,这就指导我们在用数据评价难度的基础上,认识到所用的计算方式有什么缺点,正确地认识计算结果。

上一篇:李清照明目张胆抄袭欧阳修?开篇7字一模一样,结尾却别有意境
下一篇:德国慕尼黑工业大学TUM招收全奖博士一位

最近更新教育活动