谷歌上线“新型冠状病毒公共数据集”,可免费使用到9月15日

新闻
在全球疫情蔓延的情况下,3月31日,谷歌启动了一项名为“COVID-19 Public Datasets(新型冠状病毒公共数据集)”的项目,托管一个与疫情相关的公共数据资料库,并免费向外界开放,用户可以自由访问,以及自由分析其中的数据信息。

疫情防控,科技公司一直在行动。

在全球疫情蔓延的情况下,3月31日,谷歌启动了一项名为“COVID-19 Public Datasets(新型冠状病毒公共数据集)”的项目,托管一个与疫情相关的公共数据资料库,并免费向外界开放,用户可以自由访问,以及自由分析其中的数据信息。

[[320834]]

“COVID-19 Public Datasets”是什么?

据项目官方解释,“COVID-19 Public Datasets”中的数据,囊括了JHU CSSE(约翰·霍普金斯大学系统科学与工程中心)数据集、世界银行的全球健康数据和OpenStreetMap数据,它们都被存储在了Google Cloud 上,并带有“COVID-19 ”标签,研究人员可以免费访问和查询,并通过BigQuery ML服务(一个完全托管的数据仓库)直接在内部使用这些数据训练高级机器学习模型,直至2020年9月15日。

谷歌方面表示,“COVID-19 Public Datasets”的启动是为了更好的为‘以教育和研究为目的’的工作者提供赋能服务,我们不会加入或管理PHI(一个致病菌的数据库)或PII(个人验证信息)数据,希望尽最大努力阻止疫情蔓延。

不过需要注意的是,如果用户要将“COVID-19 Public Datasets”和其它非新冠病毒数据集结合使用,那么BigQuery Sandbox将以字节为计,在每月的免费额仅有10GB存储空间和1TB查询空间之外,超出部分则按量收费。

疫情之下,开放数据集意味着什么?

数据统计显示,截至到昨日下午2点,全球COVID-19病毒确诊感染人数已超72万人,死亡人数达3.4万人。

但与此同时,正因数据量庞大、分散,研究人员面临着极高强度的数据分析工作。除此之外,数据信息的不完整和部分不公开,也在一定程度上让大众对疫情了解不够全面。也因此,开放可获取、完整、细颗粒、及时、可机读、结构化数据尤为重要。

此前,为加强全球疫情防控联动,多个科技界、学术界机构便联合推出了一个公开数据集“CORD-19”,其中涵盖了截至3月13日之前的近3万篇新型冠状病毒相关论文,以及针对文本进行优化的文本处理工具包SciSpacy、在科学文本上进行预训练的BERT模型SciBERT、开放研究语料库和API等。

而针对谷歌的“COVID-19 Public Datasets”数据集,Descartes Labs的工程主管Sam Skillman评论称,“谷歌在BigQuery中开放并提供COVID-19数据将极大的推动研究人员进行数据分析,特别是免费查询服务的推出,会吸引更多人参与到这一项目中来,这对全球数据共享、提升数据分析能力、普及病毒信息非常有帮助。”

责任编辑:未丽燕 来源: 镁客网
相关推荐

2020-02-06 12:37:59

新型冠状病毒勒索病毒病毒

2020-03-27 09:49:50

数据中心运营商新型冠状病毒

2020-03-27 09:10:49

新型冠状病毒远程网络

2020-02-25 16:54:21

数据分析Python疫情

2020-01-30 14:55:15

肺炎疫情数据

2020-07-07 10:00:00

技术

2020-03-09 21:02:26

疫情NAND闪存存储

2020-04-07 10:20:30

公共云云计算云计算提供商

2020-02-04 19:26:08

人工智能AI新型冠状病毒

2020-02-05 18:13:22

IBM

2020-06-02 16:34:57

区块链新型冠状病毒区块链技术

2020-03-20 20:24:52

人工智能AI新型疫情

2020-03-31 10:13:04

Google 开源技术

2020-02-28 09:17:16

冠状病毒移动安全病毒

2020-04-29 11:32:31

NEC

2020-04-03 09:09:08

新型冠状病毒肺炎安全经验网络攻击

2020-02-04 16:15:08

IBM中国

2020-08-26 06:30:28

后冠状病毒物联网IOT

2020-02-10 15:10:28

苹果新型冠状病毒Facebook

2020-10-26 10:49:31

数据中心
点赞
收藏

51CTO技术栈公众号