CN1000竞赛:数据报告!
评分: +71+x

报告数据来源为自制的爬虫。所采集数据为提升精度和维度,在时间和空间上仅局限于CN1000竞赛相关。作此篇报告的目的,一方面是试着从数据里挖掘出一些隐藏的现象,一方面也希望能借此从其他角度来展示这场竞赛,为大家带来一些额外的乐趣(~ ̄▽ ̄)~

概览

2018年10月开始的CN1000竞赛,作为中国分部首次整千竞赛,吸引了广大群众的高度关注,无论是参与热度还是作品质量都刷新了历史记录。

统计信息

参赛作品总数:98

参赛作者总数:92

参评分用户总数:740

评分总人次:4059
其中up总人次2550,down总人次1509

参赛作品讨论帖目总数:1642

均分:10.62


以下是所有参赛的作品名称1,按发布时间2排序:

注:截止到2018年12月6日 23时59分,包括已删除条目



分析

下图为所有参赛作品的分数/讨论数统计,按发布时间排序

%E5%88%86%E6%95%B0-%E8%AE%A8%E8%AE%BA%E6%95%B0%E6%9F%B1%E7%8A%B6%E5%9B%BE%20%282%29.png

鼠标悬停可看大图,移动端点击可能无法缩回

电脑端用户可打开此页面浏览高清动态交互版,点击图例可显示/隐藏讨论及分数

有趣的是,分数最高的三篇作品发布时间呈现出明显的集中趋势,即10月31日的前后两天,这是否缘于大佬间的py交易默契,我们不得而知。而刨去这三篇后,剩下的正分作品,50分可以算是一个分水岭,总共有不到10篇进入到此层级;考虑到1000竞赛大家的评分标准普遍非常严格,有如此多高分文档足以反映作者们的文采斐然和兢兢业业了。

然而,正如不是所有人的报告都能被几百个教授一致通过,也有许多作者的作品由于不尽如人意而未能存活下来。下图为按分数高低排名的分数/讨论数统计图

%E5%88%86%E6%95%B0-%E8%AE%A8%E8%AE%BA%E6%95%B0%E6%9F%B1%E7%8A%B6%E5%9B%BE%20%283%29.png

鼠标悬停可看大图,移动端点击可能无法缩回

电脑端用户可至这里浏览高清动态交互版

可以看到,负分文档其实在数量上是占主流的,不过这也从侧面说明了本次竞赛的参与广泛度。除个别文档因模因之类的奇怪缘故分数偏离正常值较大外,负分文档的分数绝对值相对稳定,部分在格式等方面犯基础错误的扣分会多一些,希望这部分作者再接再厉,勇于参与就是很了不起的事情啦!

接下来是参赛作品的平行坐标系图。简单来说,平行坐标系适用于描述具有多数值属性的对象,它将各属性分别置于相互平行的数轴上,然后用线段连接起来,以反映出对象间内在的关系;如下图,作品按分数从低到高从上自下排序。

CN1000%E4%BD%9C%E5%93%81%E5%B9%B3%E8%A1%8C%E5%9B%BE%20%281%29.png

鼠标悬停可看大图,移动端点击可能无法缩回

建议电脑端用户至这里查看动态交互版,在相应轴4上拖选可单独查看选中线段,选中区域可上下拖动滑行,支持多轴联合选择,在轴非选中区域点击可退出拖选状态


首先整体来看,图中有几个区间出现了明显的聚类现象,这其实反映了本次竞赛大部分文档的状况——20以下的讨论数,相对较高的评分者karma(因为评的人少),相差悬殊的up与down,以及待删除的得分……

好吧,这是个悲伤的故事😓。

从图上还能看出许多有趣的东西,分别观察每个轴,那些离群线(与主流偏离较远的线)往往较为引人注目。以第二个讨论数轴为例,从”汞中毒患者与自由之歌的楚河汉界“开始,讨论数就变得离散起来,而这篇文档在分数排名轴的位置上也正好是一个典型的离群点(中间),讨论数在它之上的文档,均位于排名轴的远端位置(而且讨论数最高的两个正好在最两头hhhh);分数最高的三篇文档,在评分人数-威尔逊分数轴间线段的斜率也有明显的不同,这正好反映了相近分数下,人群对三篇文档不同的看法构成;还有最左侧的发布时间轴,那组从最上方指下来的负斜率线段集合仿佛无声地吐槽着众多赶deadline的鸽剧作家 ̄□ ̄||

当然,上述提到的只是一小部分,更多好玩的事情大家可以慢慢琢磨。在html页面右侧可以浏览到json格式的原始数据,有数据挖掘基础的小伙伴可以拿它去做一下聚类,离群点检测云云,说不定会有惊喜。

最后是分数动态变化图,以一小时为粒度展示了各作品的发布及分数变化情况(分数跌到0以下后即不予列出)。动图较大,为避免流量惨案,此处只挂上10月26,27两天的分数变化gif,整场竞赛(投稿+评分阶段)的分数变化请至本页附件中下载,由于电脑性能缘故分为了4部分,总共约20MB。

scp0.gif

特殊奖项

除了本次 Infas12Infas12以大比分喜提1000外,还有许多人及作品也值得称道,这里出于个人恶趣味为TA们也来了一次场外颁奖。纯粹娱乐,不必当真~

下面开始作品颁奖环节


最早提交文档

62ECN62ECNSCP-CN-1000:终章

于10月27日00:00发布

天下武功,无坚不破,唯快不破!




最晚提交文档

Flea_ZER0Flea_ZER0SCP-CN-1000:“宝瓶座”

于11月27日01:04正式作为cn1000发布

行动是治愈恐惧的良药,而犹豫、拖延将不断滋养恐惧。




最多讨论区话题数文档

LeafJensenLeafJensenSCP-CN-1000:文字终结于此

讨论区共96条帖子

读书使人头脑充实,讨论使人明辨是非。




最多版本更迭文档

Junior AnJunior AnSCP-CN-1000:亡族之歌

版本号37

兵无常势,水无常形。




最一致好评文档

Fenrir FlamelFenrir FlamelSCP-CN-1000:神农棺

威尔逊分数0.93(第二名“余音”分数0.92)5

子曰:君子和而不同,小人同而不和。




最冷清文档

nmscxjnmscxjSCP-CN-1000:未来pokypokypokypokySCP-CN-1000:香火 并列

1评分,1讨论

结庐在人境,而无车马喧。




最具争议文档

Ninth BBNinth BBSCP-CN-1000:汞中毒患者与自由之歌的楚河汉界

48up | 45down,一致性水平6为0.032(第二名为0.12)

矛盾存在于一切事物的发展过程中。




最短命文档

TnsbilwsTnsbilwsSCP-CN-1000:0

10月27日发表,存活时间在15分钟以内。作者此后转型创作了新的中分GOI

塞翁失马,焉知非福。




最快上分文档7

HueyacuetzpaliHueyacuetzpaliSCP-CN-1000:pʰoʃma(普十麦)

直接上图

SCP-CN-1000%EF%BC%9Ap%CA%B0o%CA%83ma%EF%BC%88%E6%99%AE%E5%8D%81%E9%BA%A6%EF%BC%89.png

鼠标悬停可看大图,移动端点击可能无法缩回

电脑端用户可至这里浏览高清动态交互版8

春风得意马蹄疾,一日看尽长安花。






接下来是用户颁奖环节


积极分子

day by dieday by die

在整场竞赛期间为65部作品投了票

相逢意气为君饮,系马高楼垂柳边。




鼓励师

DioriteDiorite

在整场竞赛期间为37部作品投了UP

“我觉得可以。”




DOWN朋友

RachudRachud

在整场竞赛期间为40部作品投了DOWN

“我觉得不行。”




最佳新人

LeafJensenLeafJensen

处女作获得优异成绩

子曰:后生可畏,焉知来者之不如今也?




肝帝

62ECN62ECNDr HormressDr Hormress并列

发布3篇投稿

62ECN62ECN:终章、深空的太平间、最高意志;Dr HormressDr Hormress:史诗、禁止访问、讨论区与叙事崩溃

因为,山就在那里!




文化交流大使

BenjaminChongBenjaminChong

将多篇参赛作品译至外国分部

2300幻想遗物pʰoʃma(普十麦)

各美其美,美人之美;美美与共,天下大同。




最后的话

以上便是本次报告的全部内容,如有新项目想到或提议,将继续添加。

做此篇的目的,一方面是兴趣使然,另一方面,也是想增加一种创作模式;wikidot每天产生着大量数据,它们之中一定蕴含着有价值的信息——只要有合适的手段来提取、分析。

当然,最重要的还是开心😊

Thanks for reading~




除非特别注明,本页内容采用以下授权方式: Creative Commons Attribution-ShareAlike 3.0 License