北斗六星网
标题: 数据分析:评委打分精准度及权重失衡对获奖的影响 [打印本页]
作者: 公理力 时间: 2023-2-11 21:17
标题: 数据分析:评委打分精准度及权重失衡对获奖的影响
本帖最后由 公理力 于 2023-2-11 21:32 编辑
注意到有版友发帖,呼吁大家给4位评委的工作也打打分。此事当然可以有,怎奈,应者寥寥。
还有版友建议:评委们就自己工作中的遗憾和有待改进之处谈谈看法,亦未见回应。
无需多少想象力,参赛者,赛事组织者,也包括关心赛事的不少版友,应该也关注下面两个问题:
1)4位评委打分的精准度究竟如何?
2)由评委打分区间差异悬殊导致的权重失衡,对作品排名,特别是获奖等级的影响究竟有多严重?
事实上,早在赛事进行期间,darling小芳就曾专门发帖,提出了第二个问题,并恳请组织者采取必要措施。公某在被点名的情况下,也曾回应一帖,提出过改进建议。
赛事结束,小芳再次提到该问题,并点了公某的名。现在,就通过数据统计,专门分析一下上面两个问题。
重点是,数据分析是得以屏蔽任何主观影响的客观性手段,舍此,几乎没有得出明确、公正结论的方法。
(一)4位评委打分精准度数据分析
[attach]746791[/attach]
该表仅限于统计4位评委对12篇获奖作品的打分。计算评委对每篇作品打分与该作品平均得分之差,即打分偏差,然后统计4位评委各自对12篇作品的累计总偏差,就是各位评委打分精准度指标。
从该表不难看出,如果不是打分分布区间差异过于悬殊,这是一个相当不错的结果:4位评委的精准度都相当高,且差异不大,按顺序为:公孙小刀,黄河编辑,马缨花,道家传人。
应该指出的是,公孙和道人两位评委的12个偏差值各自在同一方向:公孙打分无一例外都偏低(红色);而道人正相反,全部偏高(黑色)。
这个现象对打分准确度的影响是正面的。这意味着,该两评委各自的打分标准具有相当高的前后一致性。
值得特别注意的是,评委们对46号作品的打分。除了马花评委给出了12篇作品的个人最低分(7分),另外三位都给了全部65篇作品的个人最高分。
但由于马花的最低分偏差高达1.97(或许是看走眼了吧),导致这篇另3位评委一致认同的最佳作品,不仅无缘一等奖,二、三等奖也没份儿,仅获优秀作品奖。
从这一意外即可管窥:打分区间差异悬殊,所导致的评委间实际权重失衡有多么严重:一位评委的影响抵消了3位评委的最高分!
而这一最低分同时也影响到黄河和道人打分精准度:该两评委的最大偏差均出现于该作品(1.03和0.99)。
再仔细看一下马花的12个打分:5篇给了最高分(9.0),6篇给了次高分(8.5)。这与另外3位评委形成对比。
不应忽视的一个事实是,她是最早开始评论作品的,也最早开始受到质疑和批评。客观地看,这11个高分,显然是希望自己看好的作品都能获奖!这是出于缓解版友批评的目的吗?公某不猜测。
作者: 公理力 时间: 2023-2-11 21:17
本帖最后由 公理力 于 2023-2-11 21:21 编辑
(二)评委实际权重失衡,对作品排名及获奖等级的影响有多大?
没错,在规则和概念意义上,4位评委不会,也不该有高下或重要度的区分,每位评委权重都必然是25%。
但是,在规则自身存在漏洞或缺失的情况下,实际权重完全可能出现此消彼长而失衡。本次散文赛正是如此。除了满分10分,起评分5分,规则对评委具体打分分布区间等问题,并没有任何规定或要求。完全由各位评委自行裁量。
只要扫一眼主帖总表中各位评委打分区间一栏,即可立马儿发现不正常的一幕,不同评委的打分区间差异过于悬殊:
12篇获奖作品的最大分布区间是2.0,最小的只有0.3,两者间是近7倍的差距!
这一异常现象,势必导致评委间的实际权重严重失衡。
下面就来具体分析每位评委的实际权重影响。
A)马花评委的打分区间为2.0,其实际权重影响有多大?
解答该问题最简单的方法是,假设去掉她的评分,仅取其余3位评委的打分结果,统计获奖作品的假定排名,结果如下表:
该表显示,获奖作品及排名将发生很大变化。一等奖变成3位评委同时给出最高分的46号作品;没能入围的54号作品获三等奖;38号将入围优秀奖;13号由一等奖顺延为二等奖;34号由二等奖变为三等奖;而62、49号将失去获奖机会,等等。
一句话,所有获奖作品的排名100%发生改变。足见马花实际权重影响之大。
B)公孙评委的打分区间为0.3,其实际权重影响有多大?
同样假设去掉她的评分,仅统计其余3位评委的打分,结果如下表:
显见,一、二、三等奖均无任何变化。唯一的变化是由未入围的38号作品取代49号获优秀奖。换句话说,公孙小刀辛辛苦苦的打分,对这次征文赛的影响,几可忽略不计。
当时,因那位导演评委临时不能分身,公孙才救急递补。其实,只让那三位评委完成,影响也微乎其微。这一点恐怕是她自己也始料未及的。
如果容许脑洞再打开一点,或可理解为她有意为之,以彰显黄河、道人两位客座评委的重要性。
C)黄河评委的打分区间为2.0,其实际权重影响有多大?
假如去掉黄河评委的打分,征文赛结果如下表:
一等奖没有变化;两个二等奖被23号和49号取代;65号将由原二等奖变为优秀奖;而3位评委给最高分的46号作品将变成第14名,连一个优秀奖都拿不到!45号作品将获优秀奖。如果去掉道人的打分,结果也是如此。换句话说,这两位中任何一位都不可或缺。还有其它一些名次或获奖等级变化,就不一一罗列了。
总之,黄河评委的实际权重只略小于马花。综合4位评委的统计数据,各方面均无可挑剔,表现最好的正是黄河评委。他还是唯一一位敢于给自己最认可的作品打出满分10分的评委(另有两位评委也给同一作品打出最高分,但不是满分)。
最后,关于道家传人评委的权重,介于黄河与公孙之间,就不再赘述了。
作者: 公理力 时间: 2023-2-11 21:17
本帖最后由 公理力 于 2023-2-11 21:35 编辑
给诗意天涯的一个回帖,也贴在这里吧,应该有助于对评委实际权重失衡现象的理解。
----------------------
如果觉得,上面的解释还不够明晰,再举个具体例子。
公孙评委对12篇获奖作品的打分区间是0.3,马花评委给5篇作品最高分。
我们来假定另一场征文赛事,参赛作品超过120篇。某位评委很希望自己喜欢的作品都能获奖,比马花和公孙走得更远。于是,对12篇心目中的好作品都打出了个人最高分9分(占作品总数10%不到),这并不违犯现有规则。
再假如,这位评委如愿以偿,恰好这12篇作品就是最终的全部获奖作品。在这种情况下,这位评委在获奖作品中的实际权重是多少呢?
答案是零!—— 因为这位评委在获奖作品中的打分区间就是零。
换句话说,去掉这位评委的打分,获奖作品的等级和排名,没有丝毫变化。
一句话,评委间打分分布区间不统一,必然导致理论上完全相同的评委权重,出现不同程度的实际权重失衡!
作者: 知音 时间: 2023-2-11 21:41
要我看前12篇并列第一(o^^o)
作者: 知音 时间: 2023-2-11 21:42
分数都是凭感觉打出来的吧,有扣分标准吗?
作者: 知音 时间: 2023-2-11 21:43
你这个分析方法,我写报告统计民意调查问卷结果的时候能用得上,哈哈
作者: 公理力 时间: 2023-2-11 21:47
公布的规则中,唯一的扣分标准是,字数超过2000,每超100字,扣一分。
其它方面,由评委自行掌握。
作者: 公理力 时间: 2023-2-11 21:49
呵呵,这样的话,你这位评委的打分,其作用就是零
作者: 知音 时间: 2023-2-11 21:51
公理力 发表于 2023-2-11 21:47
公布的规则中,唯一的扣分标准是,字数超过2000,每超100字,扣一分。
其它方面,由评委自行掌握。
虽然打分多一分少一分就是一念之差的问题,但基数大了确实还是能总结出一些规律。
作者: 公理力 时间: 2023-2-11 21:51
这个方法,属于误差分析中最简单明了的一种。在很多统计数据分析场合,都可以用。
作者: 公理力 时间: 2023-2-11 21:53
打分要合理,即使规则没有具体要求,评委也应该有自己固定的打分体系。
作者: 知音 时间: 2023-2-11 21:54
公理力 发表于 2023-2-11 21:49
呵呵,这样的话,你这位评委的打分,其作用就是零
打分宏观上还是有用的(o^^o),起码使这12篇从65篇中脱颖而出。
作者: 知音 时间: 2023-2-11 21:57
公理力 发表于 2023-2-11 21:53
打分要合理,即使规则没有具体要求,评委也应该有自己固定的打分体系。
通过你的分析,发现这四个评委共识度还是蛮高的。
你能不能分析一下那些没入围的作品里面被埋没的珍珠。
作者: 公理力 时间: 2023-2-11 21:57
嗯,但一个明显的问题是,这12篇作品获奖主要受到一两位评委的打分影响。如公孙的影响就非常小,几可忽略不计。
作者: 知音 时间: 2023-2-11 22:02
公理力 发表于 2023-2-11 21:57
嗯,但一个明显的问题是,这12篇作品获奖主要受到一两位评委的打分影响。如公孙的影响就非常小,几可忽略 ...
客观上用结果倒查是这样,她们打分的时候应该没有这个主观,就是歪打正着的事。
另外,好像马丫是首评,她的权重似乎是大一点,我看热闹不怕事大地说……
作者: 知音 时间: 2023-2-11 22:03
公理力 发表于 2023-2-11 21:57
嗯,但一个明显的问题是,这12篇作品获奖主要受到一两位评委的打分影响。如公孙的影响就非常小,几可忽略 ...
公孙小刀属泥鳅的,滑得狠,哈哈
作者: 大玲小芳 时间: 2023-2-11 22:07
早就看见赛场的了,由于我不再在那里跟帖,就没有回复。暂且不论你这种方法是否科学,就凭这种认真态度,就值得我大大地点赞。论坛您这样的人不多了。
作者: 公理力 时间: 2023-2-11 22:08
【通过你的分析,发现这四个评委共识度还是蛮高的。】
不尽然。看主楼总表不难发现,46号作品,3位评委给了个人最高分,而马花给的是最低分。
49号作品,公孙和黄河给的都是个人最低分,而马花却给了个人最高分。
【你能不能分析一下那些没入围的作品里面被埋没的珍珠。】
沙发楼里3个表格的最后一栏,已经列出大约4、5篇未能获奖的遗珠(打分不出现权重失衡的情况下,有可能获奖)。
作者: 知音 时间: 2023-2-11 22:11
公理力 发表于 2023-2-11 22:08
【通过你的分析,发现这四个评委共识度还是蛮高的。】
不尽然。看主楼总表不难发现,46号作品,3位评 ...
我再好好研究研究(o^^o)
作者: 公理力 时间: 2023-2-11 22:13
你很早就提出了权重失衡问题,我也早就发过一帖,感觉管理方,甚至个别评委,是不信的。
正好,我也有时间,就善始善终,拿出客观分析数据,证明给他们看一看吧,这对今后组织征文赛,也有借鉴意义。
作者: 知音 时间: 2023-2-11 22:16
公理力 发表于 2023-2-11 22:08
【通过你的分析,发现这四个评委共识度还是蛮高的。】
不尽然。看主楼总表不难发现,46号作品,3位评 ...
这次打分偏差比上次小说大赛打分偏差小多了吧?
作者: 公理力 时间: 2023-2-11 22:16
一个客观原因是,她是后面临时救急,时间不够,匆忙打分。估计她是有意谨慎一些,尽量缩小自己的影响。
作者: 知音 时间: 2023-2-11 22:20
如果说两篇文章能分出0.01之差,那确实是高手!
0.5分之差对结果确实影响就很大了。
0.1分可以有,8.1、8.2等等
作者: 公理力 时间: 2023-2-11 22:31
本帖最后由 公理力 于 2023-2-11 22:45 编辑
嗯,能反映一部分问题。那次个别评委最大偏差达到19.8,确实不可接受。
但也不能如此简单对比。天涯那次小说赛,打分区间是0~10分,就是获奖作品的打分区间,也有4.0和6.0的,也必然影响每位评委的总偏差值。
另外,那次获奖作品是14篇,每位评委的总偏差必然大一点。
更重要的一点是,但那次有6位评委,统计分数时,去掉最高分和最低分,这就有效屏蔽了打分太出格的分数。如个别评委11个打分被去掉,仅有3个打分参与平均。
总的来看,那次的最终评奖精准度,比这次要高。
作者: 知音 时间: 2023-2-11 22:34
公理力 发表于 2023-2-11 22:31
嗯,能反映一部分问题。那次个别评委最大偏差达到19.8,确实不可接受。
但也不能如此简单对比。天涯那 ...
基数大了就可以去掉一个最高分去掉一个最低分。
基数小的话,就舍不得了。
作者: 公理力 时间: 2023-2-11 22:37
道人评委打分,精确到小数点后两位。我猜,他是有自己一套打分体系,一篇作品的分数,通过几个不同权重的分数综合得出,就可能出现这种情况。
他的打分很统一——所有打分都高于平均值,这意味着打分标准是固定的,也就是合理的。
作者: 公理力 时间: 2023-2-11 22:40
嗯,这次只有四位评委,没能去掉最高和最低分,也是导致三位评委给最高分的46号作品无缘一、二、三等奖的原因。
作者: 公理力 时间: 2023-2-11 22:41
这个确实值得你这位首版好好研究一番,下次组织文赛,就有经验了
作者: 大玲小芳 时间: 2023-2-11 22:45
公理力 发表于 2023-2-11 22:41
这个确实值得你这位首版好好研究一番,下次组织文赛,就有经验了
最需要研究的是谁出钱,剩下的工作都好办。
作者: 公理力 时间: 2023-2-11 22:46
那是,那是,有钱好办事
欢迎光临 北斗六星网 (http://154.85.43.82/) |
Powered by Discuz! X3.1 |