科技战疫·大数据公益挑战赛夺冠感想


时间:2020-09-20

科技战疫·大数据公益挑战赛夺冠感想

| 预备队员 陆华

“2020科技战疫·大数据公益挑战赛”是在党中央国务院对新冠疫情防控提出明确要求的背景下,由北京市经济和信息化局、中国计算机学会大数据专家委员会联合主办的,北京智源人工智能研究院为大赛战略合作伙伴。在疫情特殊背景下,大赛在短时间内引发较大社会关注吸引了来自全球的6709人,组成5525支队伍参赛,提交作品2万余份,规模影响力远超预期

   大赛分为四个算法赛道,在“疫情问答助手”算法赛道中,我与团队队员钟嘉伦、王力在经过初赛、复赛和线上决赛答辩的激烈竞争后,最终夺得此赛道的全国冠军。

“疫情问答助手”算法赛道旨在通过对惠民惠企政策数据的收集与处理,通过人机对话式问答的方式,对用户提出的政策疑问快速、准确地定位相关政策内容返回给用户。该赛题旨在评测智能问答算法能力,是问题理解、内容搜索、答案提取等多个环节综合能力的集成。任务将提供以疫情为主的政策数据集、用户问题以及标注好的答案片段,参赛者可自行通过对政策数据的分析、处理和组织,利用训练数据集训练智能问答算法,并在测试数据集上进行评测,评测指标为最终返回答案的准确性。比赛分为初赛、复赛和答辩三个阶段。在各个阶段,我们以得分第一的成绩获得晋级资格。

image.png 

13 科技战役挑战赛“疫情问答助手”算法赛道初复赛选手得分情况(图截自比赛官网)

   我们采用检索+抽取的pipeline结构,解决了基于 query 检索的政务阅读理解问题。具体来说,检索部分采取 N-gram BM25 召回 + BERT 重排序的算法进行政策召回; 答案抽取部分使用multi-task进行模型训练,并使用weighted-sampling技术构造训练集。

   大赛于2月28日开赛,此时国内正处于疫情最严重的时期。一场突如其来的病毒席卷全国,武汉首当其冲。无论是封城导致的恐慌,还是被大肆散播的网络谣言,都让这座城市雪上加霜。所以当听到大赛举办的消息时我毅然报名希望我们的工作能应用于全国各地的抗疫工作中。我们参赛的队伍名为“中国加油-湖北加油”,也是想借此名字传达我们对正遭受着疫情影响的人们的一些鼓励。

   线上比赛降低了交流沟通的门槛。虽然和其他队伍是竞争关系,但这并不妨碍我们就该赛题及相关技术展开讨论。赛后,我认识了许多大佬朋友,有来自高校有来自工业界,不同圈子的人对相同领的独到见解,让我收获颇丰。语言文字是相互沟通的桥梁,在人工智能的浪潮下,自然语言处理技术正在改变悄无声息的改变着人们与信息交互的方式

此次夺冠全靠队友的大力帮助,希望之后大家多多关注自然语言处理(NLP),因为它就在我们身边。