清新de花 发表于 2016-1-16 10:51:24

雅虎公开 13.5TB 用户浏览数据,以助推机器学习研究

雅虎公开 13.5TB 用户浏览数据,以助推机器学习研究

2016.1.16

雅虎今天宣称将在 Webscope 项目主页公开网站大规模用户行为的历史数据,该数据包含用户阅读网站新闻和财经信息时的多种行为指标。以推动机器学习在基础科研领域的发展。
这不是雅虎第一次公开其自有的用户行为数据,在此之前 Webscope 网站就曾 56 此公开过各种网站数据。包括广告、图像、社交和评级等方面的数据。本次公开的数据包含 2000 万用户在 2015 年四个月份期间,在雅虎网站的行为记录,其中包括用户访问网站时使用的设备、文章主题、页面停留时间,以及用户的地区、年龄(如果有)和性别。这些信息都通过匿名处理。
这个数据最吸引人之处在与规模及其庞大,达到 13.5TB,可能是目前公开的最大规模的机器学习资料,在此之前网上公开的体积最大的只有 1TB。
雅虎方面提供了其中 100 行的数据样例,其中用户浏览的内容包罗万象,文章标题包括股票、校园、运动、时政、名人以及其他随机的内容。
该数据让加利福利亚大学圣地亚哥分校电子和计算机工程的教授 Gert Lanckriet 非常兴奋,「为什么我这么兴奋?因为我认为学界和产业界的合作对于研究、设计、开发国家最领先的人工智能,对于机器学习技术的发展都至关重要。」
当然,雅虎每天都会生成大量的用户数据,雅虎个性化科学和研究部门总监 Suju Rajan 认为,对于雅虎这样的公司,通常都要处理 1000TB 级别的用户行为数据,但是这种数据对于个人而言用处都不是很大,因为即便 13.5TB 的数据量,部署并利用起来都不那么简单。
「尽管很多人都没条件使用这些数据,但是我们还是觉得这种方式能够推动科研的发展」。雅虎研究实验室的副总 Ricardo Baeza-Yates 说道。



qiansi506 发表于 2016-2-22 15:45:10

牛啊,想不到的强帖
页: [1]
查看完整版本: 雅虎公开 13.5TB 用户浏览数据,以助推机器学习研究