广告

IBM提供了用于Covid-19数据分析的开源工具包

2020-06-30 11:42 来源:千家网

IBM开放源数据和AI技术中心(CODAIT)推出了一个工具包,旨在帮助决策者、开发人员和数据科学家识别并应对冠状病毒大流行的关键趋势。

该工具包旨在帮助决策者、开发人员和数据科学家识别并应对新冠病毒大流行的关键趋势,例如发现贫困水平和感染率之间的相关性。

2020062911411244778.jpg

Covid-19大流行的数据前景可能是巨大

IBM开放源数据和AI技术中心(CODAIT)推出了一个工具包,旨在帮助决策者、开发人员和数据科学家识别并应对冠状病毒大流行的关键趋势。

“Covid notebooks”的初衷是将开发人员和数据科学家从繁琐的任务中解放出来,他们可以专注于高级分析和建模任务,而不必担心诸如数据格式和数据清理之类的问题。”

感染率

例如,作为进行更深入、有趣的分析的起点,它可以用于发现贫困水平和感染率之间的相关性。

CODAIT首席架构师Frederick Reiss在一篇有关“Covid notebooks”发布的博客文章中写道:“对于正在分析Covid-19的影响并试图根据数据提出可行计划的数据科学家和决策者,信息领域势不可挡。”

他继续补充道:“来自研究、新闻媒体、社交媒体和卫生组织的近乎恒定的数据流使将数据分析为有用行动的任务几乎变得不可能。开发人员和数据科学家需要回答有关数据源、工具以及如何从不断变化的数据中得出有意义,且在统计上有效的结论的问题的答案。”

IBM指出,决策者也面临类似的挑战。美国有3000多个县,每个县都有关于Covid-19如何影响其社区的独特情况。据IBM称,决策者提出了许多问题,例如:我们可以从总体上知道什么信息?我们在全国范围内看到过什么模式吗?大流行对哪些地区或人口统计学的影响最大?

该工具包使用对开发人员友好的Jupyter notebooks来覆盖每个初始数据分析步骤,并使用 Elyra Notebook Visual Editor和KubeFlow Pipelines创建数据处理管道。

存储库中的工具使用权威资源来获得汇总见解,决策者可以用来制定实时的关键决策。对于有关美国的县级数据,数据提取笔记本将由约翰·霍普金斯大学系统科学与工程中心(CSSE)从Covid-19数据存储库下载最新数据。

该数据集是与疾病控制中心(CDC)合作的组织使用的许多预测模型的主要来源。

填补数据空白

“Covid notebooks”用来自纽约时报冠状病毒(美国资料库中的Covid-19数据(有关罗德岛和犹他州的更完整数据)和纽约报纸《纽约市》摘录的其他数据填补了这一主要来源中的已知空白。纽约市卫生和心理卫生部的每日报告(用于纽约市的市镇级数据),他们还使用了欧洲疾病预防控制中心关于全球Covid-19病例地理分布的数据作为各个国家/地区粒度的全球数据来源。

IBM表示,相信技术民主化的重要性,可以使用最新的数据集和工具来激活开发人员,可以帮助决策者为公民的福祉做出最明智的决策。

开发人员和数据科学家还可以通过向IBM的GitHub存储库发出请求,直接为他们用于执行分析的工具做出贡献。

责任编辑:潘一大