切换到宽版
北斗六星!·百事通·查看新帖·设为首页·手机版

北斗六星网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
北斗六星网 六星时事 六星杂谈 数据分析:评委打分精准度及权重失衡对获奖的影响
查看: 1540|回复: 29
打印 上一主题 下一主题

数据分析:评委打分精准度及权重失衡对获奖的影响 [复制链接]

跳转到指定楼层
主楼
发表于 2023-2-11 21:17 |只看该作者 |倒序浏览 |
搜索本主题
本帖最后由 公理力 于 2023-2-11 21:32 编辑

注意到有版友发帖,呼吁大家给4位评委的工作也打打分。此事当然可以有,怎奈,应者寥寥。
还有版友建议:评委们就自己工作中的遗憾和有待改进之处谈谈看法,亦未见回应。

无需多少想象力,参赛者,赛事组织者,也包括关心赛事的不少版友,应该也关注下面两个问题:
1)4位评委打分的精准度究竟如何?
2)由评委打分区间差异悬殊导致的权重失衡,对作品排名,特别是获奖等级的影响究竟有多严重?

事实上,早在赛事进行期间,darling小芳就曾专门发帖,提出了第二个问题,并恳请组织者采取必要措施。公某在被点名的情况下,也曾回应一帖,提出过改进建议。
赛事结束,小芳再次提到该问题,并点了公某的名。现在,就通过数据统计,专门分析一下上面两个问题。

重点是,数据分析是得以屏蔽任何主观影响的客观性手段,舍此,几乎没有得出明确、公正结论的方法。

(一)4位评委打分精准度数据分析



该表仅限于统计4位评委对12篇获奖作品的打分。计算评委对每篇作品打分与该作品平均得分之差,即打分偏差,然后统计4位评委各自对12篇作品的累计总偏差,就是各位评委打分精准度指标。

从该表不难看出,如果不是打分分布区间差异过于悬殊,这是一个相当不错的结果:4位评委的精准度都相当高,且差异不大,按顺序为:公孙小刀,黄河编辑,马缨花,道家传人。

应该指出的是,公孙和道人两位评委的12个偏差值各自在同一方向:公孙打分无一例外都偏低(红色);而道人正相反,全部偏高(黑色)。
这个现象对打分准确度的影响是正面的。这意味着,该两评委各自的打分标准具有相当高的前后一致性。

值得特别注意的是,评委们对46号作品的打分。除了马花评委给出了12篇作品的个人最低分(7分),另外三位都给了全部65篇作品的个人最高分。
但由于马花的最低分偏差高达1.97(或许是看走眼,导致这篇另3位评委一致认同的最佳作品,不仅无缘一等奖,二、三等奖也没份儿,仅获优秀作品奖。
从这一意外即可管窥:打分区间差异悬殊,所导致的评委间实际权重失衡有多么严重:一位评委的影响抵消了3位评委的最高分!

而这一最低分同时也影响到黄河和道人打分精准度:该两评委的最大偏差均出现于该作品(1.03和0.99)。

再仔细看一下马花的12个打分:5篇给了最高分(9.0),6篇给了次高分(8.5)。这与另外3位评委形成对比。

不应忽视的一个事实是,她是最早开始评论作品的,也最早开始受到质疑和批评。客观地看,这11个高分,显然是希望自己看好的作品都能获奖!这是出于缓解版友批评的目的吗?公某不猜测。


附件: 您需要 登录 才可以下载或查看,没有帐号?立即注册
分享到: QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
分享分享0 收藏收藏0 顶0 踩0

沙发
发表于 2023-2-11 21:17 |只看该作者
本帖最后由 公理力 于 2023-2-11 21:21 编辑

(二)评委实际权重失衡,对作品排名及获奖等级的影响有多大?

没错,在规则和概念意义上,4位评委不会,也不该有高下或重要度的区分,每位评委权重都必然是25%

但是,在规则自身存在漏洞或缺失的情况下,实际权重完全可能出现此消彼长而失衡。本次散文赛正是如此。除了满分10分,起评分5分,规则对评委具体打分分布区间等问题,并没有任何规定或要求。完全由各位评委自行裁量。

只要扫一眼主帖总表中各位评委打分区间一栏,即可立马儿发现不正常的一幕,不同评委的打分区间差异过于悬殊:
12篇获奖作品的最大分布区间是2.0,最小的只有0.3,两者间是近7倍的差距!
这一异常现象,势必导致评委间的实际权重严重失衡。

下面就来具体分析每位评委的实际权重影响。

A)马花评委的打分区间为2.0,其实际权重影响有多大?
解答该问题最简单的方法是,假设去掉她的评分,仅取其余3位评委的打分结果,统计获奖作品的假定排名,结果如下表:



该表显示,获奖作品及排名将发生很大变化。一等奖变成3位评委同时给出最高分的46号作品;没能入围的54号作品获三等奖;38号将入围优秀奖;13号由一等奖顺延为二等奖;34号由二等奖变为三等奖;而62、49号将失去获奖机会,等等。
一句话,所有获奖作品的排名100%发生改变。足见马花实际权重影响之大。

B)公孙评委的打分区间为0.3,其实际权重影响有多大?
同样假设去掉她的评分,仅统计其余3位评委的打分,结果如下表:



显见,一、二、三等奖均无任何变化。唯一的变化是由未入围的38号作品取代49号获优秀奖。换句话说,公孙小刀辛辛苦苦的打分,对这次征文赛的影响,几可忽略不计。
当时,因那位导演评委临时不能分身,公孙才救急递补。其实,只让那三位评委完成,影响也微乎其微。这一点恐怕是她自己也始料未及的。
如果容许脑洞再打开一点,或可理解为她有意为之,以彰显黄河、道人两位客座评委的重要性。

C)黄河评委的打分区间为2.0,其实际权重影响有多大?
假如去掉黄河评委的打分,征文赛结果如下表:



一等奖没有变化;两个二等奖被23号和49号取代;65号将由原二等奖变为优秀奖;而3位评委给最高分的46号作品将变成第14名,连一个优秀奖都拿不到!45号作品将获优秀奖。如果去掉道人的打分,结果也是如此。换句话说,这两位中任何一位都不可或缺。还有其它一些名次或获奖等级变化,就不一一罗列了。

总之,黄河评委的实际权重只略小于马花。综合4位评委的统计数据,各方面均无可挑剔,表现最好的正是黄河评委。他还是唯一一位敢于给自己最认可的作品打出满分10分的评委(另有两位评委也给同一作品打出最高分,但不是满分)。

最后,关于道家传人评委的权重,介于黄河与公孙之间,就不再赘述了。


附件: 您需要 登录 才可以下载或查看,没有帐号?立即注册

使用道具 举报

板凳
发表于 2023-2-11 21:17 |只看该作者
本帖最后由 公理力 于 2023-2-11 21:35 编辑

给诗意天涯的一个回帖,也贴在这里吧,应该有助于对评委实际权重失衡现象的理解。
----------------------

如果觉得,上面的解释还不够明晰,再举个具体例子。


公孙评委对12篇获奖作品的打分区间是0.3,马花评委给5篇作品最高分。
我们来假定另一场征文赛事,参赛作品超过120篇。某位评委很希望自己喜欢的作品都能获奖,比马花和公孙走得更远。于是,对12篇心目中的好作品都打出了个人最高分9分(占作品总数10%不到),这并不违犯现有规则。

再假如,这位评委如愿以偿,恰好这12篇作品就是最终的全部获奖作品。在这种情况下,这位评委在获奖作品中的实际权重是多少呢?

答案是零!—— 因为这位评委在获奖作品中的打分区间就是零。

换句话说,去掉这位评委的打分,获奖作品的等级和排名,没有丝毫变化。

一句话,评委间打分分布区间不统一,必然导致理论上完全相同的评委权重,出现不同程度的实际权重失衡!

使用道具 举报

地板
发表于 2023-2-11 21:41 来自手机 |只看该作者

要我看前12篇并列第一(o^^o)

使用道具 举报

5
发表于 2023-2-11 21:42 来自手机 |只看该作者
分数都是凭感觉打出来的吧,有扣分标准吗?

使用道具 举报

6
发表于 2023-2-11 21:43 来自手机 |只看该作者
你这个分析方法,我写报告统计民意调查问卷结果的时候能用得上,哈哈

使用道具 举报

7
发表于 2023-2-11 21:47 |只看该作者
知音 发表于 2023-2-11 21:42
分数都是凭感觉打出来的吧,有扣分标准吗?

公布的规则中,唯一的扣分标准是,字数超过2000,每超100字,扣一分。

其它方面,由评委自行掌握。

使用道具 举报

8
发表于 2023-2-11 21:49 |只看该作者
知音 发表于 2023-2-11 21:41
要我看前12篇并列第一(o^^o)

呵呵,这样的话,你这位评委的打分,其作用就是零

使用道具 举报

9
发表于 2023-2-11 21:51 来自手机 |只看该作者
公理力 发表于 2023-2-11 21:47
公布的规则中,唯一的扣分标准是,字数超过2000,每超100字,扣一分。

其它方面,由评委自行掌握。

虽然打分多一分少一分就是一念之差的问题,但基数大了确实还是能总结出一些规律。

使用道具 举报

10
发表于 2023-2-11 21:51 |只看该作者
知音 发表于 2023-2-11 21:43
你这个分析方法,我写报告统计民意调查问卷结果的时候能用得上,哈哈

这个方法,属于误差分析中最简单明了的一种。在很多统计数据分析场合,都可以用。

使用道具 举报

11
发表于 2023-2-11 21:53 |只看该作者
知音 发表于 2023-2-11 21:51
虽然打分多一分少一分就是一念之差的问题,但基数大了确实还是能总结出一些规律。

打分要合理,即使规则没有具体要求,评委也应该有自己固定的打分体系。

使用道具 举报

12
发表于 2023-2-11 21:54 来自手机 |只看该作者
公理力 发表于 2023-2-11 21:49
呵呵,这样的话,你这位评委的打分,其作用就是零

打分宏观上还是有用的(o^^o),起码使这12篇从65篇中脱颖而出。

使用道具 举报

13
发表于 2023-2-11 21:57 来自手机 |只看该作者
公理力 发表于 2023-2-11 21:53
打分要合理,即使规则没有具体要求,评委也应该有自己固定的打分体系。

通过你的分析,发现这四个评委共识度还是蛮高的。
你能不能分析一下那些没入围的作品里面被埋没的珍珠。

使用道具 举报

14
发表于 2023-2-11 21:57 |只看该作者
知音 发表于 2023-2-11 21:54
打分宏观上还是有用的(o^^o),起码使这12篇从65篇中脱颖而出。

嗯,但一个明显的问题是,这12篇作品获奖主要受到一两位评委的打分影响。如公孙的影响就非常小,几可忽略不计。

使用道具 举报

15
发表于 2023-2-11 22:02 来自手机 |只看该作者
公理力 发表于 2023-2-11 21:57
嗯,但一个明显的问题是,这12篇作品获奖主要受到一两位评委的打分影响。如公孙的影响就非常小,几可忽略 ...


客观上用结果倒查是这样,她们打分的时候应该没有这个主观,就是歪打正着的事。

另外,好像马丫是首评,她的权重似乎是大一点,我看热闹不怕事大地说……

使用道具 举报

16
发表于 2023-2-11 22:03 来自手机 |只看该作者
公理力 发表于 2023-2-11 21:57
嗯,但一个明显的问题是,这12篇作品获奖主要受到一两位评委的打分影响。如公孙的影响就非常小,几可忽略 ...


公孙小刀属泥鳅的,滑得狠,哈哈

使用道具 举报

17
发表于 2023-2-11 22:07 来自手机 |只看该作者
早就看见赛场的了,由于我不再在那里跟帖,就没有回复。暂且不论你这种方法是否科学,就凭这种认真态度,就值得我大大地点赞。论坛您这样的人不多了。

使用道具 举报

18
发表于 2023-2-11 22:08 |只看该作者
知音 发表于 2023-2-11 21:57
通过你的分析,发现这四个评委共识度还是蛮高的。
你能不能分析一下那些没入围的作品里面被埋没的珍珠。

通过你的分析,发现这四个评委共识度还是蛮高的。

不尽然。看主楼总表不难发现,46号作品,3位评委给了个人最高分,而马花给的是最低分。
49号作品,公孙和黄河给的都是个人最低分,而马花却给了个人最高分。

你能不能分析一下那些没入围的作品里面被埋没的珍珠。

沙发楼里3个表格的最后一栏,已经列出大约4、5篇未能获奖的遗珠(打分不出现权重失衡的情况下,有可能获奖)。


使用道具 举报

19
发表于 2023-2-11 22:11 来自手机 |只看该作者
公理力 发表于 2023-2-11 22:08
【通过你的分析,发现这四个评委共识度还是蛮高的。】

不尽然。看主楼总表不难发现,46号作品,3位评 ...

我再好好研究研究(o^^o)

使用道具 举报

20
发表于 2023-2-11 22:13 |只看该作者
大玲小芳 发表于 2023-2-11 22:07
早就看见赛场的了,由于我不再在那里跟帖,就没有回复。暂且不论你这种方法是否科学,就凭这种认真态度,就 ...

你很早就提出了权重失衡问题,我也早就发过一帖,感觉管理方,甚至个别评委,是不信的。

正好,我也有时间,就善始善终,拿出客观分析数据,证明给他们看一看吧,这对今后组织征文赛,也有借鉴意义。

使用道具 举报

21
发表于 2023-2-11 22:16 来自手机 |只看该作者
公理力 发表于 2023-2-11 22:08
【通过你的分析,发现这四个评委共识度还是蛮高的。】

不尽然。看主楼总表不难发现,46号作品,3位评 ...

这次打分偏差比上次小说大赛打分偏差小多了吧?

使用道具 举报

22
发表于 2023-2-11 22:16 |只看该作者
知音 发表于 2023-2-11 22:03
公孙小刀属泥鳅的,滑得狠,哈哈

一个客观原因是,她是后面临时救急,时间不够,匆忙打分。估计她是有意谨慎一些,尽量缩小自己的影响。

使用道具 举报

23
发表于 2023-2-11 22:20 |只看该作者
公理力 发表于 2023-2-11 22:16
一个客观原因是,她是后面临时救急,时间不够,匆忙打分。估计她是有意谨慎一些,尽量缩小自己的影响。{: ...

如果说两篇文章能分出0.01之差,那确实是高手!

0.5分之差对结果确实影响就很大了。

0.1分可以有,8.1、8.2等等

使用道具 举报

24
发表于 2023-2-11 22:31 |只看该作者
本帖最后由 公理力 于 2023-2-11 22:45 编辑
知音 发表于 2023-2-11 22:16
这次打分偏差比上次小说大赛打分偏差小多了吧?
嗯,能反映一部分问题。那次个别评委最大偏差达到19.8,确实不可接受。

但也不能如此简单对比。天涯那次小说赛,打分区间是0~10分,就是获奖作品的打分区间,也有4.0和6.0的,也必然影响每位评委的总偏差值。
另外,那次获奖作品是14篇,每位评委的总偏差必然大一点。

更重要的一点是,但那次有6位评委,统计分数时,去掉最高分和最低分,这就有效屏蔽了打分太出格的分数。如个别评委11个打分被去掉,仅有3个打分参与平均。
总的来看,那次的最终评奖精准度,比这次要高。

使用道具 举报

25
发表于 2023-2-11 22:34 来自手机 |只看该作者
公理力 发表于 2023-2-11 22:31
嗯,能反映一部分问题。那次个别评委最大偏差达到19.8,确实不可接受。

但也不能如此简单对比。天涯那 ...


基数大了就可以去掉一个最高分去掉一个最低分。
基数小的话,就舍不得了。

使用道具 举报

26
发表于 2023-2-11 22:37 |只看该作者
知音 发表于 2023-2-11 22:20
如果说两篇文章能分出0.01之差,那确实是高手!

0.5分之差对结果确实影响就很大了。

道人评委打分,精确到小数点后两位。我猜,他是有自己一套打分体系,一篇作品的分数,通过几个不同权重的分数综合得出,就可能出现这种情况。

他的打分很统一——所有打分都高于平均值,这意味着打分标准是固定的,也就是合理的。

使用道具 举报

27
发表于 2023-2-11 22:40 |只看该作者
知音 发表于 2023-2-11 22:34
基数大了就可以去掉一个最高分去掉一个最低分。
基数小的话,就舍不得了。

嗯,这次只有四位评委,没能去掉最高和最低分,也是导致三位评委给最高分的46号作品无缘一、二、三等奖的原因。

使用道具 举报

28
发表于 2023-2-11 22:41 |只看该作者
知音 发表于 2023-2-11 22:11
我再好好研究研究(o^^o)

这个确实值得你这位首版好好研究一番,下次组织文赛,就有经验了

使用道具 举报

29
发表于 2023-2-11 22:45 来自手机 |只看该作者
公理力 发表于 2023-2-11 22:41
这个确实值得你这位首版好好研究一番,下次组织文赛,就有经验了

最需要研究的是谁出钱,剩下的工作都好办。

使用道具 举报

30
发表于 2023-2-11 22:46 |只看该作者
大玲小芳 发表于 2023-2-11 22:45
最需要研究的是谁出钱,剩下的工作都好办。

那是,那是,有钱好办事

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

北斗六星文学网所有文字仅代表作者个人言论,本站不对其内容承负任何责任。

Copyright ©2011 bdlxbbs.cn All Right Reserved.  Powered by Discuz! 

本站信息均由会员发表,不代表本网站立场,如侵犯了您的权利请发帖投诉   

平平安安
TOP
返回顶部