CN1000竞赛:数据报告!
评分: +103+x

报告数据来源为自制的爬虫。所采集数据为提升精度和维度,在时间和空间上仅局限于CN1000竞赛相关。作此篇报告的目的,一方面是试着从数据里挖掘出一些隐藏的现象,一方面也希望能借此从其他角度来展示这场竞赛,为大家带来一些额外的乐趣(~ ̄▽ ̄)~

概览

2018年10月开始的CN1000竞赛,作为中国分部首次整千竞赛,吸引了广大群众的高度关注,无论是参与热度还是作品质量都刷新了历史记录。

统计信息

参赛作品总数:98

参赛作者总数:92

参评分用户总数:740

评分总人次:4059
其中up总人次2550,down总人次1509

参赛作品讨论帖目总数:1642

均分:10.62


以下是所有参赛的作品名称1,按发布时间2排序:

注:截止到2018年12月6日 23时59分,包括已删除条目



分析

下图为所有参赛作品的分数/讨论数统计,按发布时间排序

%E5%88%86%E6%95%B0-%E8%AE%A8%E8%AE%BA%E6%95%B0%E6%9F%B1%E7%8A%B6%E5%9B%BE%20%282%29.png

鼠标悬停可看大图,移动端点击可能无法缩回

电脑端用户可打开此页面浏览高清动态交互版,点击图例可显示/隐藏讨论及分数

有趣的是,分数最高的三篇作品发布时间呈现出明显的集中趋势,即10月31日的前后两天,这是否缘于大佬间的py交易默契,我们不得而知。而刨去这三篇后,剩下的正分作品,50分可以算是一个分水岭,总共有不到10篇进入到此层级;考虑到1000竞赛大家的评分标准普遍非常严格,有如此多高分文档足以反映作者们的文采斐然和兢兢业业了。

然而,正如不是所有人的报告都能被几百个教授一致通过,也有许多作者的作品由于不尽如人意而未能存活下来。下图为按分数高低排名的分数/讨论数统计图

%E5%88%86%E6%95%B0-%E8%AE%A8%E8%AE%BA%E6%95%B0%E6%9F%B1%E7%8A%B6%E5%9B%BE%20%283%29.png

鼠标悬停可看大图,移动端点击可能无法缩回

电脑端用户可至这里浏览高清动态交互版

可以看到,负分文档其实在数量上是占主流的,不过这也从侧面说明了本次竞赛的参与广泛度。除个别文档因模因之类的奇怪缘故分数偏离正常值较大外,负分文档的分数绝对值相对稳定,部分在格式等方面犯基础错误的扣分会多一些,希望这部分作者再接再厉,勇于参与就是很了不起的事情啦!

接下来是参赛作品的平行坐标系图。简单来说,平行坐标系适用于描述具有多数值属性的对象,它将各属性分别置于相互平行的数轴上,然后用线段连接起来,以反映出对象间内在的关系;如下图,作品按分数从低到高从上自下排序。

CN1000%E4%BD%9C%E5%93%81%E5%B9%B3%E8%A1%8C%E5%9B%BE%20%281%29.png

鼠标悬停可看大图,移动端点击可能无法缩回

建议电脑端用户至这里查看动态交互版,在相应轴4上拖选可单独查看选中线段,选中区域可上下拖动滑行,支持多轴联合选择,在轴非选中区域点击可退出拖选状态


首先整体来看,图中有几个区间出现了明显的聚类现象,这其实反映了本次竞赛大部分文档的状况——20以下的讨论数,相对较高的评分者karma(因为评的人少),相差悬殊的up与down,以及待删除的得分……

好吧,这是个悲伤的故事😓。

从图上还能看出许多有趣的东西,分别观察每个轴,那些离群线(与主流偏离较远的线)往往较为引人注目。以第二个讨论数轴为例,从”汞中毒患者与自由之歌的楚河汉界“开始,讨论数就变得离散起来,而这篇文档在分数排名轴的位置上也正好是一个典型的离群点(中间),讨论数在它之上的文档,均位于排名轴的远端位置(而且讨论数最高的两个正好在最两头hhhh);分数最高的三篇文档,在评分人数-威尔逊分数轴间线段的斜率也有明显的不同,这正好反映了相近分数下,人群对三篇文档不同的看法构成;还有最左侧的发布时间轴,那组从最上方指下来的负斜率线段集合仿佛无声地吐槽着众多赶deadline的鸽剧作家 ̄□ ̄||

当然,上述提到的只是一小部分,更多好玩的事情大家可以慢慢琢磨。在html页面右侧可以浏览到json格式的原始数据,有数据挖掘基础的小伙伴可以拿它去做一下聚类,离群点检测云云,说不定会有惊喜。

最后是分数动态变化图,以一小时为粒度展示了各作品的发布及分数变化情况(分数跌到0以下后即不予列出)。动图较大,为避免流量惨案,此处只挂上10月26,27两天的分数变化gif,整场竞赛(投稿+评分阶段)的分数变化请至本页附件中下载,由于电脑性能缘故分为了4部分,总共约20MB。

scp0.gif

特殊奖项

除了本次 Infas12Infas12以大比分喜提1000外,还有许多人及作品也值得称道,这里出于个人恶趣味为TA们也来了一次场外颁奖。纯粹娱乐,不必当真~

下面开始作品颁奖环节


最早提交文档

62ECN62ECNSCP-CN-1000:终章

于10月27日00:00发布

天下武功,无坚不破,唯快不破!




最晚提交文档

Flea_ZER0Flea_ZER0SCP-CN-1000:“宝瓶座”

于11月27日01:04正式作为cn1000发布

行动是治愈恐惧的良药,而犹豫、拖延将不断滋养恐惧。




最多讨论区话题数文档

LeafJensenLeafJensenSCP-CN-1000:文字终结于此

讨论区共96条帖子

读书使人头脑充实,讨论使人明辨是非。




最多版本更迭文档

Junior AnJunior AnSCP-CN-1000:亡族之歌

版本号37

兵无常势,水无常形。




最一致好评文档

Fenrir FlamelFenrir FlamelSCP-CN-1000:神农棺

威尔逊分数0.93(第二名“余音”分数0.92)5

子曰:君子和而不同,小人同而不和。




最冷清文档

nmscxjnmscxjSCP-CN-1000:未来pokypokypokypokySCP-CN-1000:香火 并列

1评分,1讨论

结庐在人境,而无车马喧。




最具争议文档

Ninth BBNinth BBSCP-CN-1000:汞中毒患者与自由之歌的楚河汉界

48up | 45down,一致性水平6为0.032(第二名为0.12)

矛盾存在于一切事物的发展过程中。




最短命文档

TnsbilwsTnsbilwsSCP-CN-1000:0

10月27日发表,存活时间在15分钟以内。作者此后转型创作了新的中分GOI

塞翁失马,焉知非福。




最快上分文档7

HueyacuetzpaliHueyacuetzpaliSCP-CN-1000:pʰoʃma(普十麦)

直接上图

SCP-CN-1000%EF%BC%9Ap%CA%B0o%CA%83ma%EF%BC%88%E6%99%AE%E5%8D%81%E9%BA%A6%EF%BC%89.png

鼠标悬停可看大图,移动端点击可能无法缩回

电脑端用户可至这里浏览高清动态交互版8

春风得意马蹄疾,一日看尽长安花。






接下来是用户颁奖环节


积极分子

day by dieday by die

在整场竞赛期间为65部作品投了票

相逢意气为君饮,系马高楼垂柳边。




鼓励师

Diorite does not match any existing user name

在整场竞赛期间为37部作品投了UP

“我觉得可以。”




DOWN朋友

RachudRachud

在整场竞赛期间为40部作品投了DOWN

“我觉得不行。”




最佳新人

LeafJensenLeafJensen

处女作获得优异成绩

子曰:后生可畏,焉知来者之不如今也?




肝帝

62ECN62ECNDr HormressDr Hormress并列

发布3篇投稿

62ECN62ECN:终章、深空的太平间、最高意志;Dr HormressDr Hormress:史诗、禁止访问、讨论区与叙事崩溃

因为,山就在那里!




文化交流大使

BenjaminChongBenjaminChong

将多篇参赛作品译至外国分部

2300幻想遗物pʰoʃma(普十麦)

各美其美,美人之美;美美与共,天下大同。




最后的话

以上便是本次报告的全部内容,如有新项目想到或提议,将继续添加。

做此篇的目的,一方面是兴趣使然,另一方面,也是想增加一种创作模式;wikidot每天产生着大量数据,它们之中一定蕴含着有价值的信息——只要有合适的手段来提取、分析。

当然,最重要的还是开心😊

Thanks for reading~




除非特别注明,本页内容采用以下授权方式: Creative Commons Attribution-ShareAlike 3.0 License