新冠数据锦集

原创 服老思和同学们 P线 年初新冠肺炎爆发,一年多过去,covid-19 依然影响着世界。2020 年疫情初期,我们整理部分疫情初期的数据项目[1]和基于 Tableau 设计的可视化作品[2],2021 年初,我们再次整理有关新冠疫情可视化的套路集锦[3]。本次是疫情相关集锦的第四期,我们收集 27 个数据集,分为案例、疫苗、病毒、政策、舆情、医疗和其他 7 大类别,疫情改变了些什么?现在状况如何?或许这些数据集会带给你一些新的视角。

JHU数据集是由约翰霍普金斯大学系统科学与工程中心 (JHU CSSE) 运营的 2019 年新型冠状病毒可视化仪表板的数据存储库。数据收集自各国政府和卫生部官网。包含世界各地区的病例数和死亡数,可精确到省,美国地区已精确到县级。数据格式为csv。可视化仪表板:JHU仪表盘[4]

数据集发布的主要数据是自大流行开始以来美国每个县和州报告的每日累计病例数和死亡数,还会发布监狱、学校、死亡人数过多、口罩使用等数据。数据格式为csv。可视化地图:可视化地图[6]

ECDC数据集包含欧洲经济区国家的病例和死亡人数数据,还包含病毒变异体数据,医疗系统承载力数据及应对疫情的建议。有xls、csv、json、xml多钟数据格式供下载。可视化地址:COVID-19情况仪表板[8]

杜克全球健康创新中心之下的Launch & Scale Speedometer项目开发了一个数据框架,并对公开信息进行案头研究,追踪全球新冠疫苗候选者和状态、采购和制造订单、正在进行的谈判、按国家划分的新冠疫苗需求量,以及分配和分发计划等数据。研究团队还对主要国家的政府官员进行了访谈,从而更好地了解疫苗分配和分发的背景以及面临的挑战。该项目的数据已被《》《》、彭博社等西方主流媒体引用。读者在其网站上可以查阅交互图并下载部分数据。数据格式为xls。

Global.health数据集包含来自 100 多个国家/地区的超过3000 万个匿名案例的详细信息。包含支持其数据管理工作的服务器和脚本:Global.health开发[13]

CAS抗病毒候选化合物数据集包含近 50,000 种化学物质的连接表,以及相关元数据。数据集采用 SD 文件格式 (.sdf),可用于研究,数据挖掘,机器学习和分析等。

微软开放研究数据集把COVID-19 和冠状病毒相关学术论文的全文和元数据数据集针对机器阅读进行了优化。目的是动员研究人员应用自然语言处理的最新进展来生成新的分析信息,以支持对抗这种传染病。链接内包含详细的数据访问方式,提供python代码。

癌症成像计划 (CIP)正在利用其癌症成像档案 (TCIA) 作为将图像集公开以供社区立即参考 COVID-19 患者图像。含有美国一百多位患者的多种成像数据、临床数据及已被上传到 Genbank 存储库的SARS-COV-2 cDNA 序列数据。图像类型为DICOM(医学图像和相关信息的国际标准),注释格式为json,临床数据格式为csv。

EIBIR数据库是由欧洲生物医学成像研究所汇总的来自全世界各地超过1000例患者的成像数据及临床数据,对于放射学诊断以及开发用于基于机器的诊断的人工智能工具至关重要。

该数据集包含COVID-19 或其他病毒性和细菌性肺炎(MERS、SARS和ARDS .)阳性或疑似患者的近1000张胸部 X 射线和 CT 图像及临床数据,收集旨在用于计算分析。使用这些图像来开发基于人工智能的方法来预测和理解感染。开源预测模型平台:Chester the AI Radiology Assistant[19]

NextStrain 是一个搜集全球病毒毒株的开源数据库,目前拥有来自多个国家的400+个变种,公开在 GitHub 上。项目同时提供一个关系网络图的可视化工具,使用系统发生树的方法,来研究病毒变异的过程和推断首次爆发的时间。路透社也在 2020 年初的作品 Genetics of the new virus[21] 基于此数据绘制所有冠状病毒关系谱系。

CoronaNet收集有关政府为战胜冠状病毒而采取的各种精细行动的信息,这不仅包括收集有关哪些政府正在应对冠状病毒的信息,还包括他们的政策针对谁(例如其他国家)、他们是如何做的(例如旅行限制、禁止口罩出口)以及他们何时这样做。可在仪表盘内筛选区域进行下载。数据格式为csv

covid-policy-tracker, 是由牛津大学收集的数据集,收集有关哪些政府在何时采取了哪些措施的信息。这可以帮助决策者和公民以一致的方式了解政府的应对措施,从而有助于抗击大流行。系统地收集有关政府采取的几种不同常见政策响应的信息,按一定比例记录这些政策以反映政府行动的程度,并将这些分数汇总成一套政策指数,根据此数据集给政府提出的建议:When do government responses need to be increased or maintained?[24]

HIT-COVID项目跟踪政府为减缓 SARS-COV-2 在全球的传播而采取的公共卫生和社会措施的实施,由数百位志愿者收集自官方来源或非官方来演。对于每项干预,HIT-COVID 都会捕获一组额外数据,包括是否需要干预以及政策适用的人群。数据格式为csv。

该数据集由康奈尔大学罗珀中心收集整理美国各个机构如ABC,CNN的民意调查数据。包括个人行为、隔离、在家工作、准备和政府评级。

数据由伦敦帝国理工学院和 YouGov(一家全球性的舆论组织)收集。旨在提供关于不同人群如何应对大流行的行为分析,帮助公共卫生机构努力限制疾病的影响。数据包括:性别、年龄、地区(国内)、家庭人数、家庭儿童、健康状况、工作状态和调查回复日期。还提供了一个基于年龄、性别和地区的加权变量,受访者来自近五十多个国家,数据格式为csv。可视化仪表盘:29]

由Our World In Data收集的关于各个国家对国民COVID-19检测的数据。用于研究哪个国家做的好,哪个国家漏报了病例。数据包括确诊病例和死亡数住院和ICU数据,疫苗接种等。数据格式为xsl,csv,json。

该数据集跟踪 COVID-19治疗方法和疫苗的开发。包括治疗方法300多种,疫苗200多种。可在网页查看,也可下载csv表格来研究其中的关系。

JHU整理的有关 COVID-19 的各种统计数据。如全球知名数据集JHU数据集[36]

整合很多知名数据集,涵盖世界大部分国家/地区,有多钟数据格式。以数据看世界(OurWorldinData)是由英国牛津大学的Leszell创建的网站,他致力于研究几十年来各国关于人类生活水平的数据,以揭示全世界的生活状况是如何潜移默化地发生变化的,并对未来产生了什么影响。

谷歌云平台,包含跟踪 90 多个国家/地区人口统计、经济、流行病学、地理、健康、住院、流动性、政府响应、天气等数据。被许多组织使用,例如 WHO/Covax、世界银行、国际货币基金组织、哈佛大学研究中心、美国国际开发署和 Verily,可以免费使用 BigQuery直接运行 SQL 查询。

发表回复

您的电子邮箱地址不会被公开。