清明节有点空闲,凑巧又看到一份很有趣的数据,下文是对这份数据的一点点分析结果。
1、数据整理
整体数据并不大,读到R里面首先做了点处理。
- 将选项("强烈同意","同意","反对","强烈反对") 映射为分值(2,1,-1,-2)
- 对出生年份进行转换,计算出在2015年的年龄并分为10个年龄组(0,18,22,25,30,35,40,50,60,70,120)
- 怀疑70岁以上的人可能是乱写的,删除之。
- 将其它字符型也转为数字编号
- 将18岁以下而填写过高学历和过高收入的数据删除。
- 删除有缺失的数据。
2、有趣的发现
这个数据可以做的分析点有很多,我只做了其中一小部分,观察各种题目的相关性如何。因为已经是离散数据了,所以使用了标准化后的互信息来计算变量之间的相关性。这个数字应该是在0-1之间,发现大部分的回答中这个值并不高,多在0.1以下。不过均通过了联列表检验,说明还是存在相关性的。
- 在50个问题中,哪两个问题的回答之间最相关?
发现第3题和第6题的回答相关性最高(0.13)。
[1] "发生重大社会安全事件时.即使认为信息公开会导致骚乱的风险.政府仍应该开放信息传播."
[2] "由高校自主考试招生比全国统一考试招生更好."
- 哪个问题和学历的相关性最高?
第41题相关性较高,得到相关性为0.009
[1] "两个成年人之间自愿的性行为是其自由.无论其婚姻关系为何."
- 哪个问题和年龄的相关性最高?
第35题相关性较高,为0.01。而且这个题目和收入的相关性也是最高的。
[1] "那些关系到国家安全.以及其他重要国计民生的领域.必须全部由国有企业掌控."
- 哪个问题和性别的相关性最高?
第30题相关性较高,为0.077。让人比较惊奇的是,女性回答不给予补贴的比例比男性高。
[1] "改善低收入者生活的首要手段是国家给予财政补贴和扶持."
- 哪些问题和收入有相关性?
这次使用了GBM模型,计算了问题回答对收入的重要性。发现如下三个问题是最重要的。(除了年龄、学历、性别因素之外)
[1] "条件允许的话应该武力统一台湾." (负相关)
[2] "两个成年人之间自愿的性行为是其自由.无论其婚姻关系为何."(正相关)
[3] "国家领导人及开国领袖的形象可以作为文艺作品的丑化对象." (正相关)
3、其它
最后还做了一个总体的分布图。根据出题者的思路,1-20题为政治方面,21-40题为经济方面,41-50题为文化方面,可以计算每个人在这三个方面的平均得分。我尝试将这三个维度进行散点图绘制。基本上是一个略有点扁的圆形。大部分人在中间,少数人在边缘。
当然后续有兴趣的同学也可以继续搞点聚类之类的事。或者是按照不同属性(收入、时间)来看看圆形的变化。以上全部参考代码在此。
这份数据除了能了解国人整体的政治观点之外,还有两个奇特的用法。一个是用坐标距离来大致判断两个人是否可以做朋友。还可以用于大致判断某个人未来的收入。所以女性同胞们,千万不要去找那些要武力统一台湾的当自己男朋友。
怎么大致判断收入啊。。。?
回复删除如果某个问题的回答和收入呈负相关,那么同意......的人其收入会偏向低收入层次。
删除楼主,相关性报告的是r值么?当数据量很大的情况下经常出现的情况是,即使相关性非常小,也会显著。
回复删除是互信息的值
删除所以MI能解决这个问题是么?抱歉这方面学得不是很多,还希望楼主解释或者给我些链接可以学习下,谢谢!
删除