3.4%的致死率并不可信?新冠病毒的死亡率实为多少?

2020-04-25   读芯术

全文共1353字,预计学习时长5分钟


图源:unsplash


新冠疫情爆发以来,各个组织机构对于发布确诊病例、死亡和康复数据的统计和研究从未停止过。数据公开是件好事,如何从数据中提取有用信息是数据科学家面临的最大挑战。


但这并不是完全准确的:统计易出现偏差,而使用原始数据来计算冠状病毒死亡率的政府机构刚好踩到这些雷区。


事实上,选择偏差太普遍了,这是一个常见的数据科学问题,现实中处理数据时会经常遇到。当数据不是在总体中随机抽样时,选择偏差就会出现。


自动提取数据或者主动运用数据收集器,而不是被动使用数据收集器时,经常会发生选择偏差。这意味着数据只来自那些数据收集者主动接近的人,而这些人所提供的数据并不具有普适性。


此外,收集数据的动机很重要。动机是否吸引了特定群体而非其他人?如果是,那么选择偏见可能已悄然出现。


尽管政府对此已竭尽全力,但并不是每个人都需要或已经进行新型冠状病毒检测。由于检测试剂盒的数量较少,且冠状病毒造成严重伤害或死亡的几率在不同人群中存在很大差异,美国疾病控制与预防中心概述了哪些人群应该检测:


· 最近到疫情爆发国家旅行,包括欧洲大部分地区,伊朗和中国,并出现相应症状的人,如发烧,呼吸急促,咳嗽

· 65岁以上患有慢性病或免疫力低下并呈现症状的人

· 与确诊并有症状的病例有密切接触的人

· 与确诊病例有社区接触的人,例如在游轮上,并且表现出症状


图源:pinterest


这些是判断是否隔离的准则。进行病毒检测同样非常困难,因此,除非你非常确定自己正遭遇COVID-19的严重伤害和死亡风险,否则进行测试不一定没有意义。


疾病预防控制中心和约翰·霍普金斯大学等机构的研究报告表明,占世界人口很大比例的健康年轻人的死亡几率很小,即使他们有症状,也不需接受检测。


图源:unsplash


这是典型的选择偏差。如果一大批经过测试的人结果为阴性,但他们不测试,那么他们的数据就不会被收录。政府和学术机构发布的数据中,确诊病例仅来自自愿接受检测的人员。


换言之,确诊病例数据中的人更有可能死于冠状病毒。因为死亡率是根据确诊病例中的冠状病毒死亡人数计算的,而确诊病例数有偏差,死亡率比实际高出很多。


模型显示,世界各地相当大比例的人口可能已经患有冠状病毒,甚至他们都不自知。以这个规模和公认的3.4%的死亡率(通过将死亡人数除以确诊病例计算得出),世界死亡人数将比当前报告的人数多得多,但这显然是不是事实。


实际死亡率要低得多。如果每个人都要接受冠状病毒检查,那么新型冠状病毒病例会增多,从而增加了死亡率的分母而非分子,死亡率会直线下降。


如果公式中的一个参数有偏差,那么结果也将有偏差。死亡率的计算并不简单,它必须考虑到可用数据中的选择偏差。


那么该如何计算实际死亡率呢?我们需要考虑那些未去医院检测的潜在感染者。这需要更复杂的计算机建模,但是它将比现有数据更准确。


可见,当前看到的3.4%并不是事实,实际死亡率会低得多,统计数据的偏差造成了这样的状况。


留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范