200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 人工智能 大数据 数据挖掘 机器学习-数据集来源

人工智能 大数据 数据挖掘 机器学习-数据集来源

时间:2020-04-27 01:43:07

相关推荐

人工智能 大数据 数据挖掘 机器学习-数据集来源

一、有很多小伙伴说学习大数据和人工智能,需要用到数据,但是又不知道数据去哪里拿,这里我分享一下之前收藏过的一些网站给大家。

二、先来回答大家两个问题:

问题1:博客里所所涉及到的数据在哪里拿?

后台总是有很多小伙伴想问我拿我博客的数据,关于经常被问到的,我都放在公众号匹配词汇中了,只需要回复就可以拿到下载链接。

问题2:想学习机器学习,不知道数据怎么来?

要问数据可以从哪里来的话,公司里面的数据是肯定拿不到的了,所以主要有公开的数据、学习框架里都有内置的数据、实验室的数据、还有各种比赛也会提供各种脱敏的数据,当然,如果你熟悉爬虫的话,你也可以自己写爬虫去爬去一些数据。

三、以下是收集到的链接

大数据

/pskomoroch/dataset/questions/10843892/download-large-data-for-hadoophttp://konect.uni-koblenz.de/

搜狗实验室

/labs/resources.html?v=1

气象数据集

https://www.ncdc.noaa.gov/data-access/quick-links

气候监测数据集

http://cdiac.ornl.gov/ftp/ndp026b

机器学习

亚马逊网络服务数据

/datasets

航空公司数据 ( 年 ASA 挑战)

http://stat-/dataexpo//the-data.html

澳大利亚天气

http://www.bom.gov.au/climate/dwo/

因果关系工作台

http://www.causality.inf.ethz.ch/repository.php

Kaggle 竞争数据

/datasets

KDNuggets 竞争网站

/datasets/

机器学习的数据集存储库

/

医疗保险数据文件

http://go.cms.gov/19xxPN4

微软研究院

/apps/dp/dl/downloads.aspx

百万歌曲数据集

/post/3639160982/million-song-dataset

歌曲数据集

http://labrosa.ee.columbia.edu/millionsong/pages/additional-datasets

R 和数据挖掘电子书数据

/data

革命分析集合

/subscriptions/datasets/

社交网络

http://www.cs.cmu.edu/// ~ jelsas / 数据

UCI 机器学习库

http://archive.ics.uci.edu/ml/

535 亿点击

http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset

http://archive.ics.uci.edu/ml/

http://www.ics.uci.edu/~mlearn//MLRepository.htm

机器学习样本数据库

http://kdd.ics.uci.edu/

http://www.ics.uci.edu/~mlearn/MLRepository.html

关于基金的数据挖掘的网站

/index.asp

数据生成器的链接

http://www.cse.cuhk.edu.hk/~kdd/data_collection.html

癌症基因

http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

金融数据

http://lisp.vse.cz/pkdd99/Challenge/chall.htm

网络

斯坦福大学大型网络数据收集

http://snap.stanford.edu/data/

微软匿名网络数据

http://kdd.ics.uci.edu/databases/msweb/msweb.html

MSNBC 匿名网络数据

http://kdd.ics.uci.edu/databases/msnbc/msnbc.html

SyskillWebert Web 数据

http://kdd.ics.uci.edu/databases/SyskillWebert/SyskillWebert.html

图像

ImageNet (包含 1400 万的图像)

http://www.image-/

Tiny Images Dataset (包含 8000 万的 32x32 图像)

http://horatio.cs.nyu.edu/mit/tiny/data/index.html

MirFlickr1M (包含 100 万的图像)

http://press.liacs.nl/mirflickr/

CoPhIR (包含 1 亿 600 万的图像 )

r.it/whatis.html

SBU captioned photo dataset (包含 100 万的图像)

http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/

Large-Scale Image Annotation using Visual Synset(ICCV ) (包含 2 亿图像 )

.gatech.edu/projects/VisualSynset/

NUS-WIDE(包含 27 万的图像)

p.nus.edu.sg/research/NUS-WIDE.htm

SUN dataset (包含 13 万的图像)

http://people.csail.mit.edu/jxiao/SUN/

MSRA-MM (包含 100 万的图像,23000 视频 )

/enus/projects/msrammdata/

TRECVID

http://trecvid.nist.gov/

卡耐基 - 梅隆的脸图片

http://kdd.ics.uci.edu/databases/faces/faces.html

金星上的火山

http://kdd.ics.uci.edu/databases/volcanoes/volcanoes.html

雅虎发布超大 Flickr 数据集 1 亿的图片 + 视频

/post/89783581601/one-hundred-million-creative-commons-flickr-images-for

100 多个有趣的数据集

/article/-06-06/281-100-Interesting-Data-Sets-for-Statistics

图像处理相关个人主页、研究组及公开数据集网址

/blog-673472-759786.html

Public Domain Collections

Data360

/index.aspx

/datasets

Factual

/topics/browse

Freebase

/

Google

/publicdata/directory

infochimps: /

numbray

/

Quora

/Data/Where-can-I-find-large-datasets-open-to-the-public

RS Collection 100+

http://rs.io//05/29/list-of-data-sets.html

Sample R data sets

http://stat.ethz.ch/R-manual/R-patched/library/datasets/html/00Index.html

SourceForge 研究数据

http://www.nd.edu/ oss / 数据 / 研究司

/datasets.html

UFO 报告

/webreports.html

维基解密 911 寻呼机截取

/files/index.html

:R 数据集

/data-sets.html

《华盛顿邮报》名单

/wp-srv/metro/data/datapost.html

科学

农业实验

/packages/cran/agridat/docs/agridat

气候数据

http://www.cru.uea.ac.uk/cru/data/temperature/#datter

and ftp://ftp.cmdl.noaa.gov/

Gene Expression Omnibus

http://www.ncbi.nlm.nih.gov/geo/

Geo Spatial Data

http://geodacenter.asu.edu/datalist/

Human Microbiome Project

/reference_genomes/reference_genomes.php

MIT Cancer Genomics Data

/cgibin/cancer/datasets.cgi

NASA

http://nssdc.gsfc.nasa.gov/nssdc/obtaining_data.html

NIH Microarray data

ftp://ftp.ncbi.nih.gov/pub/geo/DATA/supplementary/series/GSE6532/®

Protein structure

/PSPbenchmarks/

Public Gene Data

/

斯坦福大学的微阵列数据

http://smd.stanford.edu/

社会科学

综合社会调查

/GSS + 网站 /

ICPSR

http://www.icpsr.umich.edu/icpsrweb/ICPSR/access/index.jsp

皮尤研究

/datasets/pages/2/

加州大学洛杉矶分校的社会科学档案

http://dataarchives.ss.ucla.edu/Home.DataPortals.html

UPJOHN 本月

/erdc/erdc.html

时间序列

时间序列数据库

/TSDL/

澳大利亚手语数据

http://kdd.ics.uci.edu/databases/auslan/auslan.html

高质量的澳大利亚手语数据

http://kdd.ics.uci.edu/databases/auslan2/auslan.html

脑电图数据

http://kdd.ics.uci.edu/databases/eeg/eeg.html

日本的元音

http://kdd.ics.uci.edu/databases/JapaneseVowels/JapaneseVowels.html

Pioneer-1 移动机器人数据

http://kdd.ics.uci.edu/databases/pioneer/pioneer.html

伪周期合成时间序列

http://kdd.ics.uci.edu/databases/synthetic/synthetic.html

合成控制图时间序列

http://kdd.ics.uci.edu/databases/synthetic_control/synthetic_control.html

大学

卡内基梅隆大学安然电子邮件

http://www.cs.cmu.edu/~ 安然 /

卡内基梅隆大学 StatLab

http://lib.stat.cmu.edu/datasets/

龙骨存储库

http://sci2s.ugr.es/keel/datasets.php

卡内基梅隆大学 JASA 数据归档

http://lib.stat.cmu.edu/jasadata/

俄亥俄州立大学财务数据

http://fisher.osu.edu/fin/osudata.htm

加州大学伯克利分校

http://ucdata.berkeley.edu/

加州大学洛杉矶分校

/datasets

加州大学河滨分校时间序列

http://www.cs.ucr.edu/ / time_series_data /

多伦多大学

http://www.cs.toronto.edu / 深入 / 数据 / datasets.html

UCI 知识发现 (KDD) 归档

http://kdd.ics.uci.edu/

信息和计算机科学

http://www.ics.uci.edu/

加州大学欧文分校

https://uci.edu/

互联网相关数据集

Dataset for “Statistics and SocialNetwork of YouTube Videos”

http://netsg.cs.sfu.ca/youtubedata/

1998 World Cup Web Site Access Logs

http://ita.ee.lbl.gov/html/contrib/WorldCup.html

(从 1998/04/26 到 1998/07/26 的 92 天中,发生了 1,352,804,107 次请求)

Page view statistics for Wikimedia projects

http://dammit.lt/wikistats/

AOL Search Query Logs - RP

/mediawiki/index.php?title=AOL_Search_Query_Logs

livedoor gourmet

http://blog.livedoor.jp/techblog/archives/65836960.html

离散序列数据

UNIX 用户数据

http://kdd.ics.uci.edu/databases/UNIX_user_data/UNIX_user_data.html

主菜芝加哥推荐数据

http://kdd.ics.uci.edu/databases/entree/entree.html

多元数据

人口收入调查数据库

http://kdd.ics.uci.edu/databases/census-income/census-income.html

线圈数据

http://kdd.ics.uci.edu/databases/coil/coil.html

Corel 图像特征

http://kdd.ics.uci.edu/databases/CorelFeatures/CorelFeatures.html

森林 CoverType

http://kdd.ics.uci.edu/databases/covertype/covertype.html

保险公司基准 (2000 卷)

http://kdd.ics.uci.edu/databases/tic/tic.html

互联网使用数据

http://kdd.ics.uci.edu/databases/internet_usage/internet_usage.html

IPUMS 人口普查数据

http://kdd.ics.uci.edu/databases/ipums/ipums.html

KDD CUP 1998 数据

http://kdd.ics.uci.edu/databases/kddcup98/kddcup98.html

KDD CUP 1999 数据

http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html

1990 年美国人口普查数据

http://kdd.ics.uci.edu/databases/census1990/USCensus1990.html

关系数据

大肠杆菌基因

http://kdd.ics.uci.edu/databases/ecoli/ecoli.html

结核分枝杆菌基因

http://kdd.ics.uci.edu/databases/tb/tb.html

电影

http://kdd.ics.uci.edu/databases/movies/movies.html

MovieLens 数据集

http://datahub.io/dataset/movielens

厄尔尼诺现象的数据

http://kdd.ics.uci.edu/databases/el_nino/el_nino.html

文本

20 新闻组数据

http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.html

路透社 - 21578 文本分类收集

http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html

路透转录子集

http://kdd.ics.uci.edu/databases/reuters_transcribed/reuters_transcribed.html

摘要 1990- 年 NSF 研究奖项

http://kdd.ics.uci.edu/databases/nsfabs/nsfawards.html

其他

http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

/TR/WD-logfile-960221.html

/Daemon/User/Config/Logging.html#AccessLog

/1998/11/05/WC-workshop/Papers/bala2.html

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/

http://www.web-/traces-logs.html

http://www-2.cs.cmu.edu/webkb

http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf

http://www.cs.cornell.edu/projects/kddcup/index.html

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。