知乎日报

每日提供高质量新闻资讯

头图

能不能用大数据证明星座的真实性?

WikiImages / CC0

溪亭日暮,AI|科普|这里有花间一壶酒,给我你闪送地址。

星座没有科学依据,我们拿来作为娱乐的方式或者化解第一次见面无话可谈的尴尬还算 OK,但如果用大数据来分析一个没有科学理论基础的概念,如很多答主所说,这是没有价值的。

大数据能论证“真假粉丝”,但无法去证明一个“虚空的概念”

大数据之所以能论证蔡徐坤微博流量的真伪(蔡徐坤动辄 100 万 + 的微博转发中,存在绝大部分的假流量),是基于这 100 万 + 粉丝的用户画像所呈现的诸多矛盾之处(比如男粉丝占超过 93% 的比例,且大量粉丝的关注量为 0 或 1),所以合理推测出是“假流量”。

大数据研究者随机抽取了男生转发的数据,发现这些转发的男粉丝基本上都是关注 0,粉丝 1 的用户。图源: AlfredWu Alfred 数据室

在上面的这个大数据论证中,“蔡徐坤”“粉丝”“转发微博”都是客观实在的人物和事件。通过大数据挖掘去论证人物或事件中的规律,进而发现问题,得出结论,是符合科学理性的方法论的。

但“星座”本身是一个生造的虚拟概念(又或是一种偏感性的文化现象),“星座预测”目前没有任何客观的科学事实支撑(请不要拿神秘学、占卜学这些来杠,它们不在公认的科学范畴)。

所以,从目前的科学理论看来,一个人所属的星座和 TA 的个性、爱好、习惯等没有任何讲得通的关系。所以,不管你用多高级的大数据技术分析手段,得出来的结论都很难有信服力。

就好像,如果我们把问题中的“星座”一词替换成“手相”“面相”(比如,能不能用大数据证明手相的真实性?)估计吐槽的人就更多了。(顺便说一句,看到题主在注释里表达的略微歉意,个人认为不必如此,有些伟大的科学发现其实也来自一些看起来不可理喻的提问。)


有人会问:那为什么有时感觉星座的性格预测还挺准的?

先给出一个“星座谎言”的数学公式

p(星座预测多个方面至少一个准确)= 1 - 次次预测错误 =
x = 单条预测准确率 n=预测多个方面
假设 x = 1/2,n=4 至少一个预测准确, p = 1 - (1/2)^4 = 15/16 = 93.75 %[1]

所以,即使是胡诌(x=1/2),命中的概率也是挺高的。

另一方面,星座预测之所以有人认为“准”,还与心理学上的“巴纳姆效应”有关。

这个效应认为:每个人都很容易相信一个笼统、空泛的人格特性来描述他自己。即使这个描述很空洞,哪怕根本就不能描述这个人,却仍然认为描述所说的是自己。这个效应是心理学家服勒通过试验证明出来的心理现象,在很大程度上解释了星座让人相信的原因,又称为“星相效应”。


如何用大数据来证明某一个结论?

尽管如此 ,假设你仍然坚持:“如果我就是想用大数据来判断星座理论的真伪(哪怕它本身是伪的),有办法吗?”

那么个人理解,这本质上是在问大数据技术的方法论——你其实是在问,我们应该如何通过数据挖掘去论证或发现一些客观规律,得出一些结论。其中最简单、易操作的一种方法就是利用 Python 进行数据分析:

1.数据采集:可利用爬虫,从微博、微信等社交平台采集文本数据,有的平台是反爬虫的,虽然可以使用多线程、修改 headers 参数,但仍然不能保证每次 100%爬取,所以可增加循环爬取。再者就是做爬虫时,我们应该遵循目标网站的 robots 协议。

2. 对数据进行清洗和处理(此步骤也可以在 Excel 中完成,再读入数据):比如按照性别、星座、年龄等标签将这些数据分好类。

3.数据挖掘与分析:有了数据后,通过 jieba 分词、wordcloud 可视化,或是选择类似 Anaconda 自带的 Spyder 这些工具,通过关键词提取、简单的分词统计以及共现。之后,与“星座理论”中的预测性结论(个性关键词、行为习惯关键词等)进行多维度的比较分析,看两者否存在一致性、相关性或规律性。


“星座”曾有的大数据论证与应用

因为星座文化实在太火,科研圈还真有人做过相关的数据论证。不过值得注意的是,科研人员大多是出于好奇,而并非认为“星座也是一种科学”。

  • 星座与绩效、星座与交友行为的关系
电子科技大学高见博士分析了腾讯 16254 名员工的绩效记录,其中 12632 名员工有生日信息。分析显示,星座和绩效表现没有统计上的关联性,即便分了业务部门,也没有显著关联
中科院计算所的黄俊铭博士和电子科技大学王文强合作研究了微博交友行为和星座之间的关系。他们分析了 573795 名用户,这些用户既记录了生日,又自己标注了星座标签,而且两者具有一致性。他们研究了这些用户之间互动超过一定阈值的所有频繁互动关系,每一个关系对应了一对星座。
卡方检验显示,每一个星座都特别强地倾向于和自己同星座的人成为频繁互动的好友,而对其他任何一个星座都没有表现出特别的兴趣[2]

从上面看起来,星座预测的理论确实不靠谱(且上述第二个结论更偏心理学范畴)。但基于星座文化的广泛性和流行性,很多互联网平台针对“星座标签”进行多维度的用户画像属性分析。

  • ”星座标签“与”用户画像“基础属性

换句话说,星座在大数据中的实际应用,在“用户画像基础属性”场景中表现得最为典型

比如,在用户画像的基础属性中,“星座标签”经常被应用于互联网平台上下游的业务中,平台以用户画像为基础,构建推荐系统、搜索引擎、广告投放系统,提升服务精准度。

”星座“是常见的用户画像的属性标签之一。图源:CSDN

以下面这样的星座标签应用场景为例:

一位大数据部的 PM对平台用户画像基础属性中的“星座标签”进行了升级

——基于最新引入的全量的用户星座数据,关联 Feed 年活进行样本扩量;

——充分运用画像主题语义特征(包括 query/title/app/lbs)和历史切词特征;

——针对不同的特征构建不同的模型,并采用模型融合的方法,提升星座预测的准确率。

一般来说,根据具体的业务内容,会有不同的数据,不同的业务目标,也会使用不同的数据。

用户画像标签可以分为基础属性标签和行为属性标签。所谓“属性标签”,可以理解为针对标签进行的再标注,这个环节的工作主要目的是帮助内部理解标签赋值的来源,进而理解指标的含义。比如“星座”就属于推导属性的标签:可以通过用户的生日推导。


小彩蛋:与“星座”相关的大数据

众所周知,尽管星座说缺乏科学依据,但星座文化的流行已经是一个有目共睹的社会现象。很多人关心这个领域或者说接受这个领域,而星座性格分析、星座交友指数表等,不仅成为一些九零、零零后交友、择偶的非正式参考标准,甚至被个别企业作为招聘员工的参考选项。

星座的关注度在某种程度上近似于一种“亚文化”。看一下最近几天“百度指数”中,关于“星座”的搜索热度就可以看出,“星座”搜索指数的日均值达 2.3 万(相比同期人工智能的搜索日均值 0.7 万,高出了 2 倍多):

图源:百度指数

以下是关于“星座”的更多来自百度指数的大数据统计:

图源:百度指数
图源:百度指数
图源:百度指数
图源:百度指数
图源:百度指数
图源:百度指数