🤔琢磨MBTI（2）16personalities，一个成功商业化的缝合怪

04 Aug, 2025

　　上一篇总结了小塩真司（2025）《性格診断ブームを問う―心理学からの警鐘（探问性格测试热潮——来自心理学的警钟）》一书的主要内容，其中作者指出16 personalities性格测试其实不是MBTI量表，甚至可以说基本上没什么关系。针对这一点我稍微查了查，这一篇就讲讲我的见解吧。

　　先说结论：16 personalities版测试 = （80% MBTI®分类框架 + 20%大五型人格分类框架）×（90%大五型人格量表 + 10%原创问题）× 原创16型角色。接下来以3组自问自答展开解说。

16personalities测出来的那4个字母，不就是MBTI®性格类型吗？

　　嗯，ENFJ、ISTP这样的性格类型，的确是MBTI®的分类法，也就是说，如果你做原版MBTI®量表，也会得到四个字母组合的结果。但这只是因为16personalities.com借用了MBTI®的分类框架而已。但对比两者的测试题，你会发现它们不能说一模一样，只能说是毫不相干：

MBTIvs16p

　　这里所举的MBTI®测试题是版权方于1998年与第三版（最新版）manual一同发布的Form M版本（基本版，共93问，以下均引用这个版本）。补充说明一下，MBTI®有面向不同群体（青少年/成人）、对应不同目的（自我探索/教育评估）、采取不同计分解读方式（自行计分/认证测试官解读）的多种子版本。

　　可以看到，MBTI®的题型主要是二选一，而16 personalities则是李克特5等级记分。在设问逻辑上，MBTI®往往是假设一个具体情境，让受试者选择偏好的行为，而16 personalities基本是举出一句不带情景的笼统描述，让受试者判断符合自身情况的程度。纵观所有问题的内容，两者之间的确存在一些高度相似的项目¹，但大部分都是不怎么重合的。

　　因此可以说，16 personalities只是使用了MBTI®的壳，测试题本身却是基本没有关系的。打个比方，两个裁缝都告诉你是二尺一的腰，MBTI®拿的是皮尺，16 personalities拿的是量角器。

那16personalities的测试题也不是完全不靠谱的吧？

　　让我们先复习一下16 personalities测试题的特点——一句关于日常行为或观念的陈述，从“同意”道“不同意”的5等级选择。其实在心理学及其相关领域，采用这种题型的量表非常多，但最出名的其实是大五型人格（上一篇提到过）的测试题，比如下面集体，选自大五型人格最常用的免费版本BFI-2（Big Five Inventory - 2）：

BFI-2

　　这么一看，的确如小塩（2025）所说，16 personalities的测试题和大五型人格非常相似，但大五型人格的设问形式更加浅显直接，基本是给出一些形容词让受试者对比自身情况。这是因为量表最初的开发者主张，一个社会里重要的个体个性特征最终将成为该群体语言的一部分（=Lexical hypothesis词汇假说），所以通过搜集大量关于性格的形容词并进行反复的分类整理，最终得出一些最核心的词语，就可以在一定程度上描述出受试者的性格。²

　　再回来看16 personalities的测试题，其实从一些使用了形容词的题目也可以看到一点点Psycho-Lexical的影子，但大部分情况下，题目形容的都是情境+行动，比如上面提到的16 personalities的第1问：“You regularly make new friends”，这题基本上可以同义替换为大五型人格的第1问：“I am someone who is outgoing, sociable”。所以很有可能16 personalities的研发人员是在大五型人格量表的基础上做了一步性格形容词→情境+行动的转换。他们也在自己的官网上承认“融合了大五型人格的一些维度”³，但私以为应该是“融合了大五型人格的唯独和大部分题目”吧……因此总结来说，16 personalities的测试题和结果其实采用了不同的理论体系，所以至少在效度（Validity）上是不具备说服力的。

　　好吧，如果理论上效度不足，那如果能通过实际测试验证也可以，然而阅读16 personalities官网上关于信度和效度的文章，可以看到他们采取了一些措施测试了题目的内部一致性、重测信度和区分效度，也就是说如果数据真如他们所展示出来的这样（他们没有公开任何数据），这份测试题是不自相矛盾、效果比较稳定、五个维度彼此独立的。然而对于“题目是否真正测到了它声称在测的东西”这个最核心的问题，却没有任何验证。这一点涉及到的效度，应该是内容效度和结构效度，最好经过专家审查和因子分析来验证。通俗一点来说，如果你非要用量角器给我量腰围，你不能光跟我说“你看这把量角器它刻度多均匀，每次量的结果都一样”，而是要证明它量出来的真的是腰围，要么找个老裁缝给你背书，要么把公式全写出来演示给我看你是咋从角度换算成长度的。

既然16personalities能测MBTI类型，那他们应该有MBTI®的版权吧？

　　好问题，这个就要看看研发团队自己是怎么说的了。打开16 personalities官网上的理论介绍页面，你会发现他们只在理论的历史背景里面提过一次“MBTI®”。他们点明了自己的方法是源于荣格的心理类型论和MBTI®，并将这个“原创的”框架命名为NERIS® model，测试题则命名为“NERIS Type Explorer®”，从头到尾，没有一次提过自己这个系统测的是MBTI类型。

　　所以到底是谁发明的“16 personalities=MBTI”这个说法？而且现在已经成为了国际通用的语言体系，几乎人人都在用16 personalities测出来的所谓MBTI当做社交工具，不得不说16personalities.com这个跨越世纪的热度蹭得真的非常成功。

一点点我自己的看法

　　作为一个半只脚踩在心理学领域里的人，我只能说16 personalities是一次非常成功的商业应用，然而它的体系的确缺乏科学基础。但说到底，以“性格类型”这个概念为核心的框架，大家都免不了饱受诟病。

　　首先是将人按照某些共性进行简单归类的类型论思路，本身就无法科学验证。要把世界上所有人包含进去，多少个类型才够？类型之间的边界是否是清晰的、是否存在处在模糊地带的个体？验证时如果采用的是抽样调查，那采样范围要多广才有意义？这些问题被问了一个多世纪，也没有讨论出个所以然来。

　　其次是测试题&类型的配套度，也就是上面说到的内容效度，是永远的难题。即使是被广泛使用了几十年的MBTI®本尊，在学术界受到统计学验证的时候也是常常翻车的。

　　虽然16 personalities的科学性达不到学术标准，但在大众娱乐领域，它已经可以算是佼佼者了。回归“你认为MBTI是科学还是赛博算命？”这个话题，我认为它不是赛博算命，但至少就科学性而言，它不应该跟星座、血型、八字被放在一个平面上来探讨——毕竟它好歹真的问了点跟心理行为特征有点关系的问题，而不是依靠相关度完全未经验证的其他指标来分类的。

　　但从文化属性上来说，它的功能和流行机制跟星座、血型、八字是基本一致的，因为踩中了人类同样的心理定势而受到欢迎，又因为同样简单明了的分类方式而易于传播，也同样孕育了大量的二创内容、催化了无数人的关系、创造了难以估量的经济效益。特别是16 personalities非常明智地为16种类型创作了单独的角色形象，这属于官方带头二创，传到中文网络，又诞生了16×16个极富语言魅力的cp名，紧接着有才的网友们又发明出一堆相关梗……简直是玩出花儿来了。这也是我不同意小塩（2025）的消极评价的原因。我认为时至今日16 personalities带起来的“所谓MBTI”已经脱离了性格心理学的范围，形成了一个独特的亚文化圈子，在它变成一个妨碍我们看见自己和他人的罩子之前，中国网友已经把它扯下来搓成条翻花绳玩儿了。

相似项目的例: [MBTI®] Q16. Do you tend to spend a lot of time: (A) by yourself, or (B) with others?　[16 p] Q31. You usually prefer to be around others rather than on your own.↩
这种制作量表的方式被称为Psycho-Lexical Approach，现在也用于人工智能语言模型的研究，分析语料所体现的群体价值取向。↩
原文：……so we’ve instead chosen to rework and rebalance the dimensions of personality called the Big Five personality traits, a model that dominates modern psychological and social research.↩