北斗六星网

标题: 数据分析：评委打分精准度及权重失衡对获奖的影响 [打印本页]

作者: 公理力 时间: 2023-2-11 21:17
标题: 数据分析：评委打分精准度及权重失衡对获奖的影响
本帖最后由公理力于 2023-2-11 21:32 编辑

注意到有版友发帖，呼吁大家给4位评委的工作也打打分。此事当然可以有，怎奈，应者寥寥。

还有版友建议：评委们就自己工作中的遗憾和有待改进之处谈谈看法，亦未见回应。

无需多少想象力，参赛者，赛事组织者，也包括关心赛事的不少版友，应该也关注下面两个问题：

1）4位评委打分的精准度究竟如何？

2）由评委打分区间差异悬殊导致的权重失衡，对作品排名，特别是获奖等级的影响究竟有多严重？

事实上，早在赛事进行期间，darling小芳就曾专门发帖，提出了第二个问题，并恳请组织者采取必要措施。公某在被点名的情况下，也曾回应一帖，提出过改进建议。

赛事结束，小芳再次提到该问题，并点了公某的名。现在，就通过数据统计，专门分析一下上面两个问题。

重点是，数据分析是得以屏蔽任何主观影响的客观性手段，舍此，几乎没有得出明确、公正结论的方法。

（一）4位评委打分精准度数据分析

[attach]746791[/attach]

该表仅限于统计4位评委对12篇获奖作品的打分。计算评委对每篇作品打分与该作品平均得分之差，即打分偏差，然后统计4位评委各自对12篇作品的累计总偏差，就是各位评委打分精准度指标。

从该表不难看出，如果不是打分分布区间差异过于悬殊，这是一个相当不错的结果：4位评委的精准度都相当高，且差异不大，按顺序为：公孙小刀，黄河编辑，马缨花，道家传人。

应该指出的是，公孙和道人两位评委的12个偏差值各自在同一方向：公孙打分无一例外都偏低（红色）；而道人正相反，全部偏高（黑色）。

这个现象对打分准确度的影响是正面的。这意味着，该两评委各自的打分标准具有相当高的前后一致性。

值得特别注意的是，评委们对46号作品的打分。除了马花评委给出了12篇作品的个人最低分（7分），另外三位都给了全部65篇作品的个人最高分。

但由于马花的最低分偏差高达1.97（或许是看走眼了吧），导致这篇另3位评委一致认同的最佳作品，不仅无缘一等奖，二、三等奖也没份儿，仅获优秀作品奖。

从这一意外即可管窥：打分区间差异悬殊，所导致的评委间实际权重失衡有多么严重：一位评委的影响抵消了3位评委的最高分！

而这一最低分同时也影响到黄河和道人打分精准度：该两评委的最大偏差均出现于该作品（1.03和0.99）。

再仔细看一下马花的12个打分：5篇给了最高分（9.0），6篇给了次高分（8.5）。这与另外3位评委形成对比。

不应忽视的一个事实是，她是最早开始评论作品的，也最早开始受到质疑和批评。客观地看，这11个高分，显然是希望自己看好的作品都能获奖！这是出于缓解版友批评的目的吗？公某不猜测。

作者: 公理力 时间: 2023-2-11 21:17
本帖最后由公理力于 2023-2-11 21:21 编辑

（二）评委实际权重失衡，对作品排名及获奖等级的影响有多大？

没错，在规则和概念意义上，4位评委不会，也不该有高下或重要度的区分，每位评委权重都必然是25%。

但是，在规则自身存在漏洞或缺失的情况下，实际权重完全可能出现此消彼长而失衡。本次散文赛正是如此。除了满分10分，起评分5分，规则对评委具体打分分布区间等问题，并没有任何规定或要求。完全由各位评委自行裁量。

只要扫一眼主帖总表中各位评委打分区间一栏，即可立马儿发现不正常的一幕，不同评委的打分区间差异过于悬殊：

12篇获奖作品的最大分布区间是2.0，最小的只有0.3,两者间是近7倍的差距！

这一异常现象，势必导致评委间的实际权重严重失衡。

下面就来具体分析每位评委的实际权重影响。

A）马花评委的打分区间为2.0，其实际权重影响有多大？

解答该问题最简单的方法是，假设去掉她的评分，仅取其余3位评委的打分结果，统计获奖作品的假定排名，结果如下表：

[attach]746792[/attach]

该表显示，获奖作品及排名将发生很大变化。一等奖变成3位评委同时给出最高分的46号作品；没能入围的54号作品获三等奖；38号将入围优秀奖；13号由一等奖顺延为二等奖；34号由二等奖变为三等奖；而62、49号将失去获奖机会，等等。

一句话，所有获奖作品的排名100%发生改变。足见马花实际权重影响之大。

B）公孙评委的打分区间为0.3，其实际权重影响有多大？

同样假设去掉她的评分，仅统计其余3位评委的打分，结果如下表：

[attach]746793[/attach]

显见，一、二、三等奖均无任何变化。唯一的变化是由未入围的38号作品取代49号获优秀奖。换句话说，公孙小刀辛辛苦苦的打分，对这次征文赛的影响，几可忽略不计。

当时，因那位导演评委临时不能分身，公孙才救急递补。其实，只让那三位评委完成，影响也微乎其微。这一点恐怕是她自己也始料未及的。

如果容许脑洞再打开一点，或可理解为她有意为之，以彰显黄河、道人两位客座评委的重要性。

C）黄河评委的打分区间为2.0，其实际权重影响有多大？

假如去掉黄河评委的打分，征文赛结果如下表：

[attach]746794[/attach]

一等奖没有变化；两个二等奖被23号和49号取代；65号将由原二等奖变为优秀奖；而3位评委给最高分的46号作品将变成第14名，连一个优秀奖都拿不到！45号作品将获优秀奖。如果去掉道人的打分，结果也是如此。换句话说，这两位中任何一位都不可或缺。还有其它一些名次或获奖等级变化，就不一一罗列了。

总之，黄河评委的实际权重只略小于马花。综合4位评委的统计数据，各方面均无可挑剔，表现最好的正是黄河评委。他还是唯一一位敢于给自己最认可的作品打出满分10分的评委（另有两位评委也给同一作品打出最高分，但不是满分）。

最后，关于道家传人评委的权重，介于黄河与公孙之间，就不再赘述了。

作者: 公理力 时间: 2023-2-11 21:17
本帖最后由公理力于 2023-2-11 21:35 编辑

给诗意天涯的一个回帖，也贴在这里吧，应该有助于对评委实际权重失衡现象的理解。
----------------------

如果觉得，上面的解释还不够明晰，再举个具体例子。

公孙评委对12篇获奖作品的打分区间是0.3，马花评委给5篇作品最高分。
我们来假定另一场征文赛事，参赛作品超过120篇。某位评委很希望自己喜欢的作品都能获奖，比马花和公孙走得更远。于是，对12篇心目中的好作品都打出了个人最高分9分（占作品总数10%不到），这并不违犯现有规则。

再假如，这位评委如愿以偿，恰好这12篇作品就是最终的全部获奖作品。在这种情况下，这位评委在获奖作品中的实际权重是多少呢？

答案是零！—— 因为这位评委在获奖作品中的打分区间就是零。

换句话说，去掉这位评委的打分，获奖作品的等级和排名，没有丝毫变化。

一句话，评委间打分分布区间不统一，必然导致理论上完全相同的评委权重，出现不同程度的实际权重失衡！

作者: 知音 时间: 2023-2-11 21:41

要我看前12篇并列第一(o^^o)

作者: 知音 时间: 2023-2-11 21:42
分数都是凭感觉打出来的吧，有扣分标准吗？

作者: 知音 时间: 2023-2-11 21:43
你这个分析方法，我写报告统计民意调查问卷结果的时候能用得上，哈哈

作者: 公理力 时间: 2023-2-11 21:47

知音发表于 2023-2-11 21:42
分数都是凭感觉打出来的吧，有扣分标准吗？

公布的规则中，唯一的扣分标准是，字数超过2000，每超100字，扣一分。

其它方面，由评委自行掌握。

作者: 公理力 时间: 2023-2-11 21:49

知音发表于 2023-2-11 21:41
要我看前12篇并列第一(o^^o)

呵呵，这样的话，你这位评委的打分，其作用就是零

作者: 知音 时间: 2023-2-11 21:51

公理力发表于 2023-2-11 21:47
公布的规则中，唯一的扣分标准是，字数超过2000，每超100字，扣一分。

其它方面，由评委自行掌握。

虽然打分多一分少一分就是一念之差的问题，但基数大了确实还是能总结出一些规律。

作者: 公理力 时间: 2023-2-11 21:51

知音发表于 2023-2-11 21:43
你这个分析方法，我写报告统计民意调查问卷结果的时候能用得上，哈哈

这个方法，属于误差分析中最简单明了的一种。在很多统计数据分析场合，都可以用。

作者: 公理力 时间: 2023-2-11 21:53

知音发表于 2023-2-11 21:51
虽然打分多一分少一分就是一念之差的问题，但基数大了确实还是能总结出一些规律。

打分要合理，即使规则没有具体要求，评委也应该有自己固定的打分体系。

作者: 知音 时间: 2023-2-11 21:54

公理力发表于 2023-2-11 21:49
呵呵，这样的话，你这位评委的打分，其作用就是零

打分宏观上还是有用的(o^^o)，起码使这12篇从65篇中脱颖而出。

作者: 知音 时间: 2023-2-11 21:57

公理力发表于 2023-2-11 21:53
打分要合理，即使规则没有具体要求，评委也应该有自己固定的打分体系。

通过你的分析，发现这四个评委共识度还是蛮高的。
你能不能分析一下那些没入围的作品里面被埋没的珍珠。

作者: 公理力 时间: 2023-2-11 21:57

知音发表于 2023-2-11 21:54
打分宏观上还是有用的(o^^o)，起码使这12篇从65篇中脱颖而出。

嗯，但一个明显的问题是，这12篇作品获奖主要受到一两位评委的打分影响。如公孙的影响就非常小，几可忽略不计。

作者: 知音 时间: 2023-2-11 22:02

公理力发表于 2023-2-11 21:57
嗯，但一个明显的问题是，这12篇作品获奖主要受到一两位评委的打分影响。如公孙的影响就非常小，几可忽略 ...

客观上用结果倒查是这样，她们打分的时候应该没有这个主观，就是歪打正着的事。

另外，好像马丫是首评，她的权重似乎是大一点，我看热闹不怕事大地说……

作者: 知音 时间: 2023-2-11 22:03

公理力发表于 2023-2-11 21:57
嗯，但一个明显的问题是，这12篇作品获奖主要受到一两位评委的打分影响。如公孙的影响就非常小，几可忽略 ...

公孙小刀属泥鳅的，滑得狠，哈哈

作者: 大玲小芳 时间: 2023-2-11 22:07
早就看见赛场的了，由于我不再在那里跟帖，就没有回复。暂且不论你这种方法是否科学，就凭这种认真态度，就值得我大大地点赞。论坛您这样的人不多了。

作者: 公理力 时间: 2023-2-11 22:08

知音发表于 2023-2-11 21:57
通过你的分析，发现这四个评委共识度还是蛮高的。
你能不能分析一下那些没入围的作品里面被埋没的珍珠。

【通过你的分析，发现这四个评委共识度还是蛮高的。】

不尽然。看主楼总表不难发现，46号作品，3位评委给了个人最高分，而马花给的是最低分。
49号作品，公孙和黄河给的都是个人最低分，而马花却给了个人最高分。

【你能不能分析一下那些没入围的作品里面被埋没的珍珠。】

沙发楼里3个表格的最后一栏，已经列出大约4、5篇未能获奖的遗珠（打分不出现权重失衡的情况下，有可能获奖）。

作者: 知音 时间: 2023-2-11 22:11

公理力发表于 2023-2-11 22:08
【通过你的分析，发现这四个评委共识度还是蛮高的。】

不尽然。看主楼总表不难发现，46号作品，3位评 ...

我再好好研究研究(o^^o)

作者: 公理力 时间: 2023-2-11 22:13

大玲小芳发表于 2023-2-11 22:07
早就看见赛场的了，由于我不再在那里跟帖，就没有回复。暂且不论你这种方法是否科学，就凭这种认真态度，就 ...

你很早就提出了权重失衡问题，我也早就发过一帖，感觉管理方，甚至个别评委，是不信的。

正好，我也有时间，就善始善终，拿出客观分析数据，证明给他们看一看吧，这对今后组织征文赛，也有借鉴意义。

作者: 知音 时间: 2023-2-11 22:16

公理力发表于 2023-2-11 22:08
【通过你的分析，发现这四个评委共识度还是蛮高的。】

不尽然。看主楼总表不难发现，46号作品，3位评 ...

这次打分偏差比上次小说大赛打分偏差小多了吧？

作者: 公理力 时间: 2023-2-11 22:16

知音发表于 2023-2-11 22:03
公孙小刀属泥鳅的，滑得狠，哈哈

一个客观原因是，她是后面临时救急，时间不够，匆忙打分。估计她是有意谨慎一些，尽量缩小自己的影响。

作者: 知音 时间: 2023-2-11 22:20

公理力发表于 2023-2-11 22:16
一个客观原因是，她是后面临时救急，时间不够，匆忙打分。估计她是有意谨慎一些，尽量缩小自己的影响。{: ...

如果说两篇文章能分出0.01之差，那确实是高手！

0.5分之差对结果确实影响就很大了。

0.1分可以有，8.1、8.2等等

作者: 公理力 时间: 2023-2-11 22:31
本帖最后由公理力于 2023-2-11 22:45 编辑

知音发表于 2023-2-11 22:16
这次打分偏差比上次小说大赛打分偏差小多了吧？

嗯，能反映一部分问题。那次个别评委最大偏差达到19.8，确实不可接受。

但也不能如此简单对比。天涯那次小说赛，打分区间是0~10分，就是获奖作品的打分区间，也有4.0和6.0的，也必然影响每位评委的总偏差值。
另外，那次获奖作品是14篇，每位评委的总偏差必然大一点。

更重要的一点是，但那次有6位评委，统计分数时，去掉最高分和最低分，这就有效屏蔽了打分太出格的分数。如个别评委11个打分被去掉，仅有3个打分参与平均。
总的来看，那次的最终评奖精准度，比这次要高。

作者: 知音 时间: 2023-2-11 22:34

公理力发表于 2023-2-11 22:31
嗯，能反映一部分问题。那次个别评委最大偏差达到19.8，确实不可接受。

但也不能如此简单对比。天涯那 ...

基数大了就可以去掉一个最高分去掉一个最低分。
基数小的话，就舍不得了。

作者: 公理力 时间: 2023-2-11 22:37

知音发表于 2023-2-11 22:20
如果说两篇文章能分出0.01之差，那确实是高手！

0.5分之差对结果确实影响就很大了。

道人评委打分，精确到小数点后两位。我猜，他是有自己一套打分体系，一篇作品的分数，通过几个不同权重的分数综合得出，就可能出现这种情况。

他的打分很统一——所有打分都高于平均值，这意味着打分标准是固定的，也就是合理的。

作者: 公理力 时间: 2023-2-11 22:40

知音发表于 2023-2-11 22:34
基数大了就可以去掉一个最高分去掉一个最低分。
基数小的话，就舍不得了。

嗯，这次只有四位评委，没能去掉最高和最低分，也是导致三位评委给最高分的46号作品无缘一、二、三等奖的原因。

作者: 公理力 时间: 2023-2-11 22:41

知音发表于 2023-2-11 22:11
我再好好研究研究(o^^o)

这个确实值得你这位首版好好研究一番，下次组织文赛，就有经验了

作者: 大玲小芳 时间: 2023-2-11 22:45

公理力发表于 2023-2-11 22:41
这个确实值得你这位首版好好研究一番，下次组织文赛，就有经验了

最需要研究的是谁出钱，剩下的工作都好办。

作者: 公理力 时间: 2023-2-11 22:46

大玲小芳发表于 2023-2-11 22:45
最需要研究的是谁出钱，剩下的工作都好办。

那是，那是，有钱好办事

欢迎光临北斗六星网 (http://154.85.43.82/)