机器人与人工智能爱好者论坛

 找回密码
 立即注册
查看: 7195|回复: 1
打印 上一主题 下一主题

雅虎公开 13.5TB 用户浏览数据,以助推机器学习研究

[复制链接]

173

主题

181

帖子

1053

积分

版主

Rank: 7Rank: 7Rank: 7

积分
1053
跳转到指定楼层
楼主
发表于 2016-1-16 10:51:24 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
雅虎公开 13.5TB 用户浏览数据,以助推机器学习研究


2016.1.16

雅虎今天宣称将在 Webscope 项目主页公开网站大规模用户行为的历史数据,该数据包含用户阅读网站新闻和财经信息时的多种行为指标。以推动机器学习在基础科研领域的发展。
这不是雅虎第一次公开其自有的用户行为数据,在此之前 Webscope 网站就曾 56 此公开过各种网站数据。包括广告、图像、社交和评级等方面的数据。本次公开的数据包含 2000 万用户在 2015 年四个月份期间,在雅虎网站的行为记录,其中包括用户访问网站时使用的设备、文章主题、页面停留时间,以及用户的地区、年龄(如果有)和性别。这些信息都通过匿名处理。
这个数据最吸引人之处在与规模及其庞大,达到 13.5TB,可能是目前公开的最大规模的机器学习资料,在此之前网上公开的体积最大的只有 1TB。
雅虎方面提供了其中 100 行的数据样例,其中用户浏览的内容包罗万象,文章标题包括股票、校园、运动、时政、名人以及其他随机的内容。
该数据让加利福利亚大学圣地亚哥分校电子和计算机工程的教授 Gert Lanckriet 非常兴奋,「为什么我这么兴奋?因为我认为学界和产业界的合作对于研究、设计、开发国家最领先的人工智能,对于机器学习技术的发展都至关重要。」
当然,雅虎每天都会生成大量的用户数据,雅虎个性化科学和研究部门总监 Suju Rajan 认为,对于雅虎这样的公司,通常都要处理 1000TB 级别的用户行为数据,但是这种数据对于个人而言用处都不是很大,因为即便 13.5TB 的数据量,部署并利用起来都不那么简单。
「尽管很多人都没条件使用这些数据,但是我们还是觉得这种方式能够推动科研的发展」。雅虎研究实验室的副总 Ricardo Baeza-Yates 说道。



回复

使用道具 举报

0

主题

120

帖子

251

积分

中级会员

Rank: 3Rank: 3

积分
251
沙发
发表于 2016-2-22 15:45:10 | 只看该作者
牛啊,想不到的强帖
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

QQ|Archiver|手机版|小黑屋|陕ICP备15012670号-1    

GMT+8, 2024-4-29 23:27 , Processed in 0.084323 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表