SEO优化 > 追踪热点 / 老司机的进阶之路,数据科学 17 个必用数据集推荐
菜鸟入门1. Iris数据集在模式识别文献中,Iris数据集恐怕是最通用也是最简单的数据集了。要学习分类技术,Iris数据集绝对是最方便的途径。如果你之前从未接触过数据科学这一概...
菜鸟入门
1. Iris数据集在模式识别文献中,Iris数据集恐怕是最通用也是最简单的数据集了。要学习分类技术,Iris数据集绝对是最方便的途径。如果你之前从未接触过数据科学这一概念,从这里开始一定没错,因为该数据集只有4列150行。
典型问题:在可用属性基础上预测花的类型。
2. 泰坦尼克数据集泰坦尼克数据集也是全球数据科学殿堂中出镜率最高的数据集之一。借助一些教程和指导,泰坦尼克数据集可以让你深入了解数据科学。通过对类别、数字、文本等数据的结合,你能从该数据集中总结出最疯狂的想法。该数据集更重视分类问题,共有12列891行。
典型问题:预测泰坦尼克号上生还的幸存者人数。
3.贷款预测数据集在所有行业中,最为倚重数据分析技术的就是保险业。贷款预测数据集可以让保险公司对即将面对的挑战、选择的应对方式和影响有一个清晰的认识。与泰坦尼克数据集相同,它也是一个分类问题,该数据集共有13列615行。
典型问题:预测贷款申请能否得到批准。
4.大市场销售数据集零售业也是数据分析技术的重度使用者之一,它们可以利用分析数据来优化整个商业流程。利用数据科学技术,管理人员可以准确的完成产品分配、库存管理、供货和打包等复杂流程。这一数据集的名字已经透露出了它的属性,它就是商店的交易记录,主要解决回归问题。该数据集共有12列8523行。
典型问题:预测销售情况。
5. 波士顿数据集该数据集也是模式识别文献中的典型数据集,该数据集得名是因为波士顿的房地产行业,同时它也是一个回归问题。该数据集共有14列8506行。因此,即使你手上的笔记本电脑性能较弱也能Hold住该数据集。
典型问题:预测房屋售价的中间值。
进阶级别
1.人类活动识别该数据集是由30个受试人智能手机内置的传感器收集的。许多机器学习课程中该数据集是学生联手的重要助手。该数据集属于多标记分类问题,共有561列10299行。
典型问题:预测人类活动的类别。
2.“黑五”数据集该数据集主要是由零售店的交易记录组成的,它在数据集界资格很老,可以帮助商家了解自己商店每天的购物体验。“黑五”数据集也是个回归问题,它共有12列550069行。
典型问题:预测消费者购物量。
3.文本挖掘数据集该数据集包含航空公司飞行数据中关于航空安全问题的报告,属于多标记分类的高维问题,雷锋网了解到它共有30438列21519行。
典型问题:根据标签为文档分类。
4.访问历史数据集该数据即来源于美国的一个单车分享服务,想掌握它,你必须拥有专业的数据整理技巧。该数据集2010年第四季度开始每季度都会总结出一个新文档,每个文档则拥有7列。它属于典型的分类问题。
典型问题:预测用户的类型。
5.百万歌曲数据集是不是觉得很新奇,原来这项技术还能用在娱乐业啊。该数据集能帮你完成回归问题,它包括515345个观察值和90个变量。不过,这还只是百万首歌曲数据库中的一个小子集。
典型问题:预测发行歌曲的最佳年份。
6.人口收入数据集该数据集属于非平衡数据分类和机器学习问题。众多周知,机器学习在解决非平衡问题上效果显著,它可以执行癌症和欺诈检测等任务。该数据集共有14列48842行。
典型问题:预测美国人的收入阶层。
7.电影镜头数据集利用该数据集,你能搭建一个推荐引擎。同时,该数据集也是数据科学行业的老兵之一,它可运用在许多领域。它数据相当庞大,共有4000部电影和6000多位用户发出的超过100万个评分。
典型问题:为用户推荐新电影。
老司机级别
1.数字定义数据集该数据集能让你学习、分析并认识图片中的各种元素,它就是相机中图片和面部识别的技术基础。该数据技术与数字识别问题,共有28x28大小的图片7千张,大小为31MB。
典型问题:在图片中定义数字。
2. Yelp数据集该数据集诞生于著名的Yelp数据集挑战赛第8轮。它由20万张图片组称,3个json文档的大小都达到了2 GB。这些图片包含了4个不同国家10大城市本地企业的信息,你需要通过文化、季节、数据挖掘、社交图挖掘和类别推断等方式来洞察复杂的数据。
典型问题:从图片中找亮点。
3. ImageNet数据集ImageNet数据集可以运用在多种问题中,包括目标检测、定位、分类和屏幕解析。眼下,其图片引擎中共有1419万多张图片,容量达到了140GB,你可以任选图片并围绕其打造自己的项目。
典型问题:问题的解决要围绕下载的图片展开。
4. KDD 1999 数据集说到数据集,KDD Cup这一大名可不能不提,它是世界上首个国际知识发现和数据挖掘竞赛。KDD 1999数据集属于分类问题,它共包含48列和400万行,文档体积约为1.2GB。
典型问题:判断网络入侵探测器是否完成了任务。
5.芝加哥犯罪数据集如今,能否Hold住大型的数据集已经是检验数据专家是否合格的试金石了。许多数据分析公司不再依靠简单的模型,它们开始使用完整的数据。通过该数据集,你能掌握大量在自己电脑上分析大型数据集的经验。想解决这一问题不难,但学会数据管理并不容易。芝加哥犯罪数据集中共有600万个观察值,属于典型的多标记分类问题。
典型问题:预测犯罪的类型。
【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至245858536@qq.com,我们将及时沟通与处理。本站内容除非来源注明SEO篇章(www.seopz.com),否则均为网友转载,涉及言论、版权与本站无关。
猜你喜欢
- 2016-11-19 “宫斗剧”结束:超级高铁公司Hyperloop与创始人达成和解
- 2016-11-19 不止是台灯,它还是一款手机投影仪
- 2016-11-19 2016世界互联网大会:企业家代表集体采访侧记
- 2016-11-19 新闻聚合BuzzFeed在G轮融资再获2亿美元,估值15亿美元
- 2016-11-19 揭秘微信荐股骗局:收上万会费再无神通
- 2016-11-19 微博1.2亿美元投资一直播母公司一下科技
- 2016-11-19 大跃进之后,乐视贾跃亭到底还差多少钱?
- 2016-11-19 白金汉宫将耗3.69亿英镑修缮:更换电线就达160公里长
- 2016-11-19 马云:没有数据,做互联网金融是胡说八道
- 2016-11-19 阿里巴巴、京东等反炒信企业联合发布第一期黑名单
- 搜索
-
- 12-01第七届中国SEO排行榜大会深圳站精彩落幕
- 11-19站长分享自己网站访客统计数据
- 11-18感觉SEO越来越难做了,SEO这个职业还有前景么?
- 11-17百度将对熊掌号进行流量倾斜,还没开通的抓紧啦!
- 11-15想知道SEO真相是什么?大咖告诉你
- 11-09聊聊网站被运营商劫持
- 11-09站长工具chinaz下的关键词消失解决办法!
- 11-08稳定排名的方式是不是只有更新文章?
- 10-24从2013年至今百度公布的算法统计
- 10-19十九大报告给出了你最关心的十个问题的答案(图文)
- 10-12四大保险央企总裁人选配齐,原工行副行长任中国信保总裁
- 01-09还要再谈网红马佳佳吗?
- 01-09惠多网:大部分人的新名词,少部分人忘却的记忆
- 01-08什么会是移动互联网寻址标准?
- 11-19不止是台灯,它还是一款手机投影仪
- 11-19“宫斗剧”结束:超级高铁公司Hyperloop与创始人达成和解
- 11-192016世界互联网大会:企业家代表集体采访侧记
- 11-19新闻聚合BuzzFeed在G轮融资再获2亿美元,估值15亿美元
- 11-19揭秘微信荐股骗局:收上万会费再无神通
- 11-19微博1.2亿美元投资一直播母公司一下科技
- 11-19大跃进之后,乐视贾跃亭到底还差多少钱?
- 11-19白金汉宫将耗3.69亿英镑修缮:更换电线就达160公里长
- 11-19阿里巴巴、京东等反炒信企业联合发布第一期黑名单
- 11-19马云:没有数据,做互联网金融是胡说八道
- 11-19福建将推闽南话水平等级测试:以纯正度评判、录音方式考核
- 11-19印度时尚电商Koovs融资1600万美元,定位年轻群体
- 11-19中国电信骨干线路出现故障:南北互联和海外访客受影响
- 11-19马云、王健林同台,一个谈“斗地主”,一个谈空气治理
- 11-19微信小程序,暗藏着张小龙怎样的情景规划
- 11-19UNICAF获1200万美元融资,“新型学校”如何在非洲做学历教育
- 2116℃韩国Snow与软银设4300万美元基金:共助VR/AR发展
- 1853℃不会拍照的手残党看过来,这款智能相机应用是你掉的么?
- 1670℃网络疯传魅族网页代码 PRO6或卖2799
- 1629℃《财富》500强看中国经济:科技还比不上房地产
- 1618℃不留短板 PRO 6的背后的魅族发展路径
- 1481℃揭秘微信荐股骗局:收上万会费再无神通
- 1420℃詹妮弗劳伦斯的女星iCloud裸照泄露案宣判:黑客获刑18个月
- 1416℃席卷中端存储市场,深度解密Unity!
- 1415℃Zcash正式发布:号称真正匿名数字货币
- 1400℃美国发布最新高校排行榜:哈佛再次屈居第二 - 哈佛,耶鲁,普林斯顿大学
- 1386℃含色情低俗内容:北京网信办责令映客/花椒/一直播等直播网站整改 - 网络直播,网络主播
- 1353℃云之重器、天河神武;云之无界、银盾起航
- 1345℃这个号称有一千八百亿亿个星球的游戏,终于要上线了
- 1342℃索尼PSV系统升级:破解漏洞被火速封杀
- 1339℃iOS?10?及?macOS?Sierra?公测版今天正式推出,来做个尝鲜的勇士吧?|?极客早知道
- 1315℃程序员编程圣经:处处是笑话,句句皆真相 - 编程,程序员
- 1301℃探营联邦快递:全球最大快递,共有643架飞机 - 联邦快递,快递 - SEO篇章
- 1277℃机器人的高级阶段:不受人工控制的自我复制
- 1277℃四人捕猎珍稀鸟类微博炫照被抓捕 - 珍稀动物 - SEO篇章
- 1273℃iPhone新OLED屏供应量难解决:或有特定版本
- 1270℃业务重组陷“阵痛” 英特尔净利锐减51%
- 1270℃18岁小伙连打四天网游,用眼过度成“独眼龙” - 网游,网吧
- 1268℃乐视手机发“原力金”新颜色 生态化反花样玩机
- 1265℃SpaceX宣布将于2018年测试飞往火星:星际移民还远吗?
- 1263℃锤子M1发布会最受益是它:讯飞输入法宣布用户数达4亿
- 1260℃猫眼:80年代笔记本电脑都长这样!
- 1257℃我们从天气开始聊,最后聊到了很久无人提及的幸福
- 1256℃腾讯新闻客户端:从形式和内容探索媒体使命
- 1253℃脑瘫患儿的诺亚方舟 360良医开通脑瘫诊疗咨询直通车
- 1252℃一月三手机 传4月21日魅族将发布魅蓝3
- 10-24从2013年至今百度公布的算法统计
- 10-19十九大报告给出了你最关心的十个问题的答案(图文)
- 10-12四大保险央企总裁人选配齐,原工行副行长任中国信保总裁
- 11-19“宫斗剧”结束:超级高铁公司Hyperloop与创始人达成和解
- 11-19不止是台灯,它还是一款手机投影仪
- 11-192016世界互联网大会:企业家代表集体采访侧记
- 11-19新闻聚合BuzzFeed在G轮融资再获2亿美元,估值15亿美元
- 11-19揭秘微信荐股骗局:收上万会费再无神通
- 11-19微博1.2亿美元投资一直播母公司一下科技
- 11-19大跃进之后,乐视贾跃亭到底还差多少钱?
- 11-19白金汉宫将耗3.69亿英镑修缮:更换电线就达160公里长
- 11-19马云:没有数据,做互联网金融是胡说八道
- 11-19阿里巴巴、京东等反炒信企业联合发布第一期黑名单
- 11-19福建将推闽南话水平等级测试:以纯正度评判、录音方式考核
- 11-19印度时尚电商Koovs融资1600万美元,定位年轻群体
- 11-19Airbnb虽然官司缠身,但仍有心情承包你整个旅程
- 11-19一张图读懂“乌镇时间”大咖热议啥
- 11-19成贵铁路创纪录:世界最长中承式空腹钢混结合提篮拱桥合拢
- 11-193年48亿元:苏宁确认拿下英超3年独家转播权
- 11-19从激烈竞争到纷纷倒掉:网盘服务缘何迅速没落?
- 11-19涉嫌向朴槿惠闺蜜行贿:三星战略规划部主管遭调查
- 11-19共享单车入局者这么多,会不会是泡沫
- 11-19神奇球体Sphere5.2,领略沉浸式视频魅力
- 11-19冯小刚开炮王健林背后:万达和整个电影圈暗战
- 11-19“谢杏芳原谅林丹”为什么要在腾讯微博上首发?
- 11-17刘强东布局京东未来12年:用技术开启商业智能化
- 11-17快递业扎堆上市:阿里持股百世物流准备赴美IPO
- 11-17国产页游登录日本:上线一天就停运
- 11-17为解决发展中国家卫生问题,盖茨携一公司研发“大便香水”
- 11-17我们的手机还需要TF卡吗?
- 标签列表