免费的数据源网站大全!再也不愁找不到数据练手_IT技术周刊第633期

技术期刊
技术资讯尽在技术周刊

 

[[331549]]

无论是做数据分析,数据挖掘还是机器学习,对于新手来说,学习再多的模型、算法理论,可能都不如一次实践学到的多,所以我经常建议大家在学习的过程中多通过实战项目练练手,加强对算法、模型的理解。

要练手上哪找数据呢?平常我做的分析实战里都会把数据集提供给大家练习,今天我干脆为大家整理了我平常做数据分析、数据挖掘练习的时候经常用到的数据集网站,对做机器学习的朋友也很有用

简单、公开的数据集

先分享一些科研机构、企业、政府会开放的一些数据集和一些专业的数据下载网站。这些数据集一般都比较完善、质量相对较高,拿到手数据清洗的工作比较少,适合新手做一些简单基础的分析

1、中国统计信息网:http://www.tjcn.org/

全国各级政府各年度的国民经济和社会发展统计信息,部分数据免费

2、国家统计局:http://www.stats.gov.cn/

各种民生相关的统计数据,而且所有数据都是免费,而且这个网站的友情链接里还有很多其他地方的数据以及国外数据

免费的数据源网站大全!再也不愁找不到数据练手

3、中国产业信息网:
http://www.chyxx.com/data/

包含了各个行业相关的数据,所有的数据全部免费,做行业分析经常用到的

免费的数据源网站大全!再也不愁找不到数据练手

4、美国政府公开数据:https://www.data.gov/

美国政府公开数据的网站,包含了经济、消费、教育、医疗、农业等多个领域的数据

5、世界银行:
https://data.worldbank.org/

世界银行的开放数据。平台还提供了一些工具,比如开放数据目录,世界发展指数,教育指数等。

6、百度数据开放平台:
https://open.baidu.com/open/#/open

免费的数据源网站大全!再也不愁找不到数据练手

7、国云数据市场:https://link.zhihu.com/?target=
http%3A//www.moojnn.com/data-market/

主要包含:生活服务、教育、能源、建筑、交通运输、政府、金融、农业、医疗、卫生等行业的数据,大部分免费,有些需要付费

免费的数据源网站大全!再也不愁找不到数据练手

数据可视化项目数据集

最常见的数据可视化项目就是制作某某地区人均收入区别的信息图,找数据可视化项目相关的数据集的时候,我们希望数据集尽量“干净”,减少数据清洗的工作,数据要足够有趣,能够支撑起丰富的图表,所以这类的数据可以去上面我的说一些公开数据网站找,另外我也列一些除了政府网站之外的相关网站:

1、FiveThirtyEight:
http://fivethirtyeight.com/

这是互动式新闻与体育赛事的网站,网站中会发布许多数据相关的文章,这些文章中会把使用到的数据集发布在github上,除了获取数据集,你还可以参考别人的项目过程

2、Socrata OpenData:
https://opendata.socrata.com/

Socrata OpenData 网站包含多个清洗后的数据集,可以直接在浏览器中查看,也可以下载到本地进行可视化,大部分数据来源于美国政府。

数据建模、机器学习的数据集

1、UCI:
https://archive.ics.uci.edu/ml/datasets.html

UCI是加州大学欧文分校开放的经典数据集,是机器学习领域最有名的数据存储库。包含各种数据集,比如经典的泰坦尼克号幸存预测到最新的数据(如空气质量和GPS轨迹)。

2、阿里天池:
https://tianchi.aliyun.com/

作为国内互联网龙头阿里巴巴旗下的大数据竞赛网站,提供了很多比赛数据集可以练手,说不定还能顺手拿个奖,赚点奖金

免费的数据源网站大全!再也不愁找不到数据练手

3、Kaggle
https://www.kaggle.com/datasets

Kaggle 是一个举办了多项机器学习竞赛的数据科学社区。用户可以自己上传数据集,也可以通过某项竞赛下载数据集,里面有不少别的平台找不到的有趣数据集。

免费的数据源网站大全!再也不愁找不到数据练手

4、科赛网:
https://www.kesci.com/home/project

这个网站提供了不少数据集可以免费下载,而且还有一些数据项目的比赛,不过整体来说项目的难度比较低,奖金也不是很多,学生参加的比较多,反正单纯用来获取数据集还是很不错的

免费的数据源网站大全!再也不愁找不到数据练手

5、Quandl

这是一个包含经济与金融数据的仓库。其中的部分信息是免费的,但是大部分数据集需要购买,数据可以用来构建经济指标预测或者股价分析模型等等。

免费的数据源网站大全!再也不愁找不到数据练手

大型数据集

有时候你可能只是想找一些大型的数据集来进行分析,分析的结果可能并不重要,重要的只是对于数据的读取与分析过程,练习数据处理能力,这里我也列举几个用的比较多的网站:

1、AWS 公开数据集:
https://www.amazon.com/aws

亚马逊在其 Amazon Web Services 中提供了一些大型数据集可以免费下载,不过你得注册一个aws账户,新用户有免费访问的权限

免费的数据源网站大全!再也不愁找不到数据练手

2、Google 公开数据集:
https://cloud.google.com/bigquery/public-data/

Google提供了一些数据集作为其Big Query工具的一部分。包括 GitHub 公共资料库的数据,Hacker News 的所有故事和评论。

3、youtube标签视频数据集
:https://research.google.com/youtube8m/

youtube标签视频数据集包括来自4800个可视化实体的800万个youtube视频ID和相关标签。它具有数十亿帧的预计算的、最先进的视觉功能。

责任编辑:张洁 来源: 技术周刊
相关推荐

2020-06-23 14:32:54

数据平台架构

2021-12-01 17:24:11

编程学习网站程序员

2019-12-30 12:29:48

技术周刊

2014-08-05 14:55:09

网络·安全技术周刊

2014-07-14 13:54:57

IT技术周刊

2017-12-20 09:32:27

网络安全防火墙动态安全

2014-11-26 17:53:11

网络·安全技术周刊

2016-10-25 15:59:22

大数据备份IT周刊

2013-05-08 10:31:29

网络·安全技术周刊

2011-01-23 12:41:56

IT技术周刊

2015-05-20 16:17:32

网络·安全技术周刊

2015-01-05 10:43:04

IT技术周刊

2016-03-28 17:34:25

技术架构大数据51CTO

2018-05-10 08:20:23

自然语言数据集数据

2013-05-21 17:14:05

开发技术周刊

2021-04-28 17:11:37

网络安全网络安全技术周刊

2012-04-24 18:01:36

2017-09-04 14:52:51

Tomcat线程数据源

2012-03-06 20:38:28

技术周刊

2011-01-06 16:33:28

IT技术周刊
点赞
收藏

51CTO技术栈公众号