开启辅助访问
 找回密码
 立即注册

利用Excel分析不同牌子手机的价格和消费者的满意度情况

gtrong1984 回答数15 浏览数1424
在kaggle上下载了“40万条关于在亚马逊网站上销售的不同牌子手机的评论”的数据集,用于数据分析的实战项目练习。亚马逊在手机电子产品销售平台方面,类似于国内的京东、天猫等。
数据来源(kaggle):
此数据集共有2404079条数据,包含6个字段,文件大小约为35M。

1. 提出问题

①不同牌子手机价格的最低价、最高价、平均价格和价格的中位数。
②评分得分的前10名手机牌子并统计其得分的稳定性。
③苹果手机系列产品的满意度情况。
2. 理解数据

整个数据集包括6个字段:Product Name(产品名称)、Brand Name(牌子)、Price(价格)、Rating(评分:1-5)、Reviews(评论)和Review Votes(评论投票)。
3. 数据清洗

1)选择子集
由于业务问题需要,数据集中的6个字段均需要用于分析。
2)列名重命名

为了便于阅读分享,把6个字段的英文名均改为中文。
3)删除重复值

根据“产品名称”删除重复值,
4)缺失值处理
由于有部分手机产品缺少重要的“价格”数据,对应的整行数据作删除处理。并把“牌子”和“评论投票”两项的缺失值补上。定位条件“空值”,把空白行批量删除。
5)一致化处理


有些手机牌子名称由于拼写组合等原因,格式不统一,需要进行一致化处理。
4. 构建模型&数据可视化

①不同牌子手机价格的最低价、最高价、平均价格和价格的中位数。

不同牌子手机价格的最低价

不同牌子手机价格的最高价

不同牌子手机价格的平均价

不同牌子手机价格的中位数
Tips:数据透视表中不自带有中位数的选项,是无法直接算出的,这里得自定义一下
1)在源数据右边插入一列“中位数”

2)在中位数列的第一格(G2)输入函数 “=MEDIAN(IF($B$2:$B$3655=B2,$C$2:$C$3655))”:

3)然后一起按“Ctrl + Shift + Enter”(之后函数两端会自动生成大括号),最后拖动自动填充句柄以填充整列:

4)回到上一步算平均价的子表,选择数据透视表中的任何单元格以激活数据透视表工具,然后单击 分析 (或 选项)> 更改数据源 > 更改数据源:

5)扩选源数据的整个数据区域,把F改为G:

6)数据透视表字段中会增多一项“中位数”,把其拖进到值区域:

7)点击中位数的下三角,然后点击“值字段设置”:

8)选择“值汇总方式”下的“平均值”,自定义名称那一栏改为“中位数”(注意:前面留有一空格):

9)点击确定后,价格的中位数就算出来啦:

②评分得分(平均分)的前10名手机牌子并统计其得分的稳定性。
如图,把“牌子”和“评分”拖入对应的区域:

值汇总依据选择“平均值”:

降序排列:

评分得分(平均分)的前10名手机牌子分别为“Huawei>Samsung>BlackBerry>BLU>Sony>Apple>LG>Nokia>Motorola=HTC”:

统计其得分稳定性(标准差)

评分(平均分)得分稳定性
BLU>Huawei>Samsung>Sony>BlackBerry>LG>Nokia>Motorola>HTC>Apple”:

综合“评分得分(平均分)”和得分稳定性来看,Huawei和Samsung均位于前3名,并且Huawei优于Samsung。这与目前Huawei和Samsung在手机市场占优较大的市场份额也是相符合的

③苹果手机系列产品的满意度情况。
筛选出Apple手机系列产品:

小技巧:在Excel操作中,隐藏列后,按照平常的复制张贴操作,同样会把隐藏的列复制,但是在复制前按下“Alt+;”键就可以解决了啦:

筛选出投票得分最高的3款具体Apple手机及对应的评论:

评论投票得分最高的3款苹果手机分别是“6S、5C和SE”:

3款手机对应评论的主要意思
苹果6S:质量控制不佳。已被擦除,但仍然是先前所有者注册的。
苹果5C:iphone 5C基本上是一款带有彩色塑料外壳的iphone 5,价格便宜100美元(普通iphone 5和5S是金属和塑料)。到目前为止,接听电话,接受发送信息,在aps上观看电视机,耳机插孔使用,一切都很完美,没有抱怨。
苹果SE:不是解锁手机!
5. 总结

①最便宜的一款手机是OtterBox牌子的,1.73$;最贵的是Iridium,2598$;全部手机的平均价格是212$;

Apple、Huawei和Samsung价格的比较

对于Apple、Huawei和Samsung这3款在全球市场份额占比较大的手机牌子,在平均价格和价格的中位数方面均是“Apple>Huawei>Samsung”。
评分得分(平均分)的前10名:Huawei>Samsung>BlackBerry>BLU>Sony>Apple>LG>Nokia>Motorola=HTC;
评分(平均分)得分稳定性:BLU>Huawei>Samsung>Sony>BlackBerry>LG>Nokia>Motorola>HTC>Apple”。
综合“评分得分(平均分)”和“得分稳定性”来看,Huawei和Samsung均位于前3名,并且Huawei优于Samsung,Apple的得分稳定性不是很好。
③评论投票得分最高的3款苹果手机分别是6S、5C和SE”,评论内容方面褒贬均有。
使用道具 举报
| 来自江苏 用Deepseek满血版问问看
vipmim | 来自北京
第一次看到如此详细的手机分析~
用Deepseek满血版问问看
回复
使用道具 举报
wwwwdj | 来自江苏
太棒了,这才是结合实例的教学
回复
使用道具 举报
freewill2001 | 来自广东
过奖了,还有很多业务问题待深入挖掘。
回复
使用道具 举报
xueguan123 | 来自上海
一开始面对庞大的数据量我也是却步的,先动手,边实践边摸索,就会有所收获。
回复
使用道具 举报
cq1111111 | 来自北京
【心得】:
①此次的分析主要用到了Excel的数据透视表功能。
②数据透视表中可以直接求最小值、最大值和平均值,但是无法直接求解中位数。(解决方案:通过添加辅助列,以及函数Median添加中位数,然后创建数据透视表)
③一开始面对数据量这么大的源数据,内心是无从下手的,但是边实践边摸索,很多问题就迎刃而解了,也收获小小的成就感。(比如中位数的求解)
[小建议]
回复
使用道具 举报
cjlup520 | 来自北京
“=MEDIAN(IF($B2:2:2:B3655=B2,3655=B2,3655=B2,C2:2:2:C$3655))”
这条公式没看懂,能解释下吗。主要是IF3655=B2,3655=B2,C2:2:2:C$365
回复
使用道具 举报
韩迷社区 | 来自北京
抱歉,我发现正文的描述有点小差错,已改正。
回复
使用道具 举报
chinaforg2008 | 来自浙江
这是相关的链接:如何计算Excel数据透视表中的中位数? 。我和同学探讨了,我目前也不是十分理解透。对于,我这个处理的项目,我是这么理解的(以B2:Samsung举例):if函数,IF($B$2:$B$3655=B2,$C$2:$C$3655),就是在B列中进行逐一核对检查,每找到一个Samsung,就输出对应的价格,最终会输出一系列的Samsung的价格,再通过MEDIAN函数输出“中位数”,其他手机品牌同理。希望能够帮助到你的理解!
回复
使用道具 举报
yuan234 | 来自福建
感谢链接,我看了一下MEDIAN函数输出“中位数”这个逻辑是没问题的,主要是这个括号里的if函数我没看懂(手动苦笑),我理解的if函数是如果一个值在一个范围内符合要求,就返回一个值,反之就返回另外一个值。IF($B$2:$B$3655=B2,$C$2:$C$3655)这个函数好像少了后面这部分~
回复
使用道具 举报
12下一页
快速回复
您需要登录后才可以回帖 登录 | 立即注册

当贝投影