第三届泰迪杯全国大学生数据挖掘竞赛试题说明:1、参赛选手可从下述试题中任选一题作答,并在论文报告中标明2、论文等级会综合考虑论文质量和难度系数试题一 基于电商平台家电设备的消费者需求及产品数据挖掘分析(难度系数:1.0) 试题来源:背景:随着互联网与移动互联网的快速发展,截止2014年6月,我国的网民规模达6.32亿,互联网普及率为46.9%,2015年中国网民的渗透率将接近50%。2014年天猫双十一的交易额达571亿,网上购物将成为人民生活的一部分。网民在电商平台上浏览和购物,产生了海量的数据,如何利用好这些碎片化、非结构化的数据,将直接影响到企业产品在电商平台上的发展,也是大数据在实际企业经营中的应用。对于用户在电商平台上留下的评论数据,运用文本分析方法,了解用户的需求、抱怨,购买原因以及产品的优点、缺点,对于改善家电设备产品及用户体验有着重要的意义。据观研天下行业分析:近年来我国家电设备销量增长迅速,以电热水器为例,2011年电热水器市场销量比2010年增长2.29%,销售额增长5.23%;2013年热水器零售量达到2842万台,零