基于生物统计和临床试验方向的多年研究经验,从2020年1月底,尹国圣教授带领的研究团队开始尝试一些新冠肺炎方面的研究,基于CT图像诊断是其中一项工作。
但是,由于没有公开的CT图像数据集,团队需要花大量的时间去寻找开放的样本并对样本进行标记。
后来,medRxiv上有一项工作,整理了一些关于新冠病人CT图像分析的论文预印本。该论文从medRxiv和bioRxiv文章的预印本中提取了746张病人的CT图像,并训练了一个新冠病人二分类的神经网络。
然而,其结果显示的预测效果还未能达到临床标准。
尹国圣教授认为,一个原因是样本量较小,另一个重要原因是没有充分利用CT图像样本自身丰富的标注信息。这批CT数据跟传统的医疗图像数据最大的差别是,每个样本都来自一篇医学影像学论文。
在这些文章中,临床医生对新冠病人的胸部CT病灶特征做了详细的描述,有些还和其他常见肺部疾病的病灶特征做了仔细的对比分析。
因此,在尹教授看来,“这批数据,虽然样本数量有限,但信息量极大,是一个具有代表性,价值很高的数据集。”
研究人员进一步对样本附带的文本信息进行了针对性的研究,发现760篇论文涵盖了对于新冠肺炎的五种病灶(Lesion)的描述,其中每个病人CT影像上均会出现其中一种或者多种病灶。通过对新冠确诊病人的CT图像的诊断描述进行分析,这五种病灶是影像学上对新冠肺炎诊断的主要标准。