【细谈智商（IQ）】

唐宋韵 2024-07-09 07:01:11 ( reads)

细谈智商（IQ）

我上周发了博文《女性与数学（2）gender gap 》（https://blog.wenxuecity.com/myblog/80301/202406/29801.html），下面留言的网友大多跟我交流“智商”问题。其实，数学能力和智力测验反映出来的“智力”真不是一回事儿，两者相差甚远。可究竟什么是“智商”，智力测验究竟是测什么的，了解和理解这些的人其实不多，而且经常有一些错误的认识和想象。因此，我感觉有必要详细说说。

1. 什么是智力、智力测验和智商（IQ）：

智力（Intelligence）是指生物的精神能力，特指人类这方面的能力，如知识、记忆力、观察力、想象力、判断力、语言表达能力、抽象思维能力等。它是人类适应社会生活的一般能力，大多跟认知能力有关。

大约120年前，心理学家发明了智力测验（Intelligence Test），用于量化人的普通心智功能水平。经过百年的修订和发展，目前国际上最常用的个人智力测验主要有两种：斯坦福-比奈智力量表（Stanford-Binet Intelligence Scale）和韦克斯勒智力量表（Wechsler Intelligence Scale）。

我们常说的“智商”，其实是一个历史遗留的概念。在几十年前测量少年儿童的心智水平和成长时，学者提出了智龄（mental age）的概念。比如一个10岁的儿童，他做智力测验时，达到了12岁儿童的水平，那么他的智力商数（intelligence quotient，IQ）= 智龄/实龄 ×100 = (12/10) x 100 = 120。如今的智力测验已经不这么计算了。智力测验后经过换算的标准分，各个年龄组均值为100，标准差为15。但IQ是个深入人心的叫法，就保留下来了，尽管现在它已经不再是一个“商数”。

即便如此，今天说的IQ仍然是个相对值，即一个人在他/她的年龄组里的智力相对水平，这一点必须明确。

2. 智力测验如何进行？

人们大多以为像某些学科测验一样，智力测验是让被试者做一套题，然后根据标准答案得到分数。这是不正确的。以韦氏智力测验为例，它测量的结果包括言语智商（verbal intelligence quotient）和操作智商（performance intelligence quotient）两大类，下面又细分词汇（Vocabulary）、词语理解（Verbal Comprehension）、知识（Information）、算术（Arithmetic）、积木设计（Block Design）、相似性（Similarities）、数字广度（Digit Span）、模式推理（Matrix Reasoning）、拼图（Visual Puzzles）、图片填空（Picture Completion）等十几个分测验（subtests），分别测量智力的不同方面。

高效度的智力测验不是像考试那样做题，而是由经过训练的心理测量师、精神病学家、教育工作者等与被试者进行一对一测评。智力测验过去完全是使用卡片和积木等，近年也有利用电脑显示，但基本方式是不变的。测验一般要耗时60-90分钟。一名主试者一天只能完成对少数几个人的测试。可见高效度的全面智力测验是“慢”的。下面这段录像是进行“积木设计”测验。可以想见，在规定的时间内，高水平者可以完成更多的任务：

下面这是“数字广度“测验，是测量短时记忆的。要达到5位以上不容易。

3. 智力测验的标准化：

标准化是智力测验的核心。只有标准化的测验才使得个体之间可以相互比较。一个智力测验在标准化时，在各个年龄阶段要对不同种族、文化背景等进行分层等距抽样。这样得出的常模（norm）才具有代表性。否则，比如选择太多受过大学教育的被试者，并以他们的测验结果为常模，那么普通人大多数IQ低于100（而不是50%低于100）。这样的常模不具代表性，是失败的。

另外，我们应该理解，IQ不是一个单项的绝对分。作为智力测验的设计目标之一，标准化过程要求两性的平均值均为100。智力测验首先得到的的分别是十几个项目的粗分。需要对各项得分进行换算，不同的分项取不同的权重，从而使得两性均值相同。要做到这一点，并不需要使用不同的测验题，只要改变不同分项粗分换算成标准分时的系数或权重就可以“平衡”了。比如在标准化过程中，对词汇和拼图两项的权重根据需要进行调整。

怎么调整权重呢，打个比方：一套试卷包括A、B、C、D、E 五道题，老张答对A和B，老王答对C、D和E。如果各题权重相等，那么老张40分，老王60分。现在我把权重调整一下，A和B各25分，C20分，D和E各15分。于是乎，两人各50分，拉平了。

因此，标准化保证了男女IQ均值同为100。以此为标杆对大量人群测试表明，女性IQ的标准差比男性小，分数比较集中，男性男性标准差大，要分散一些。也就是说在大量人群中，特别聪明和特别愚笨者，都是男性居多。

如果智商测验要引入另一个国家，不仅仅是一个翻译问题。有些测验，比如词汇，是相当不同的，要重新设计，整个测验要重新标准化。40年前韦氏测验被引入中国时，当时湖南医学院的龚耀先教授领导了中文版的标准化，做了大量的工作。而且，他们根据中国的国情，居然还做了“农村版”和“城市版”两套常模（题目一样，只改变简单题和难题的相对权重）。

由于语言和文化的不同，用韦氏或斯坦福-比奈量表，不易对不同国家或不同文化间进行精确比较的。然而，由于操作智商中有非语言的多项测验（比如前面我们看到的“积木设计”），不同国家的智商是可以大致推断的。下图就是一个结果。东亚是最高的，北美和欧洲多国也高，拉丁美洲除阿根廷以外都偏低，非洲很低。

4. 智商与成功：

大约在整整100年前，斯坦福大学心理学家Lewis Terman领导了一个横跨一个世纪的超长期追踪研究，让人们对高智商与成功究竟是什么关系，有了第一手的认识。Terman教授1956年去世，但他的学生们、学生的学生们前赴后继，直到今天，一千多名被试者中仍有少量在世，研究还没有最后画上的句号，尽管主要的结果已经明确。这项研究本身，就反映了“定力”这个非常好的心理品质。

在这个实验的头些年，研究者在加州的学校寻找到1500多名智商至少为 140 的学生。这样的分数约占人群的300分之1，Terman教授认为这是天才的门槛。这些孩子被带有玩笑口吻地称为Termites（这个词的原意是白蚁，近似于Terman）。

追踪调查表明，这些高智商孩子中确实有不少人拥有成功的职业生涯，到Terman 去世时，有 30 多人登上《美国名人录》（Who’s Who in America），近 80 人在登上《美国科学名人录》（American Men of Science）。

然而，这并不能完全支持“高智商者注定杰出”的观点，因为他们的成功涉及影响智商和智商以外的复杂因素，例如Termites父母大多受过良好教育，拥有更多家庭资源。而且家庭人脉也有助他们更容易获得成功。

Termites中没有出现诺贝尔奖或其他著名奖项的获得者，也没有出现名声显赫的伟人。令人思考的是，William Shockley 及 Luis Walter Alvarez两人，当时未能达标成为Termites，他们后来却获得诺贝尔物理学奖。

高智商似乎不能预示做出超凡成就的“天才”。智力测验只测试文字及非文字推理，而没有涉及对成功至关重要的创造力，比如发散思维（Divergent thinking），即产生新想法的能力。近年的研究发现，只要智商中等偏上一点（110以上），智商与创造性就没有什么相关了，因此智力测验并不能预期或发现开创性人才。

5. 非智力因素：

近年来的一些研究和调查表明，与智商、创造力和特殊能力无直接关系的一些非智力因素（non-intelligence factors 或non-cognitive factors）对于一个人的成功和人生的圆满至关重要，甚至比智力因素更为重要。经常被提及的非智力心理品质包括：

动机和强烈的兴趣。热爱是最好的老师，有了兴趣和热情，一件事情才容易长久地、积极地做下去，于是获得机遇的可能性便会大大增加。意志力、自制力、顽强性这类心理品质也对于成事颇为重要。做父母的，如果发现孩子对一件事、一个学科有长久的passion，又diligent，resilient，即便他们的爱好不主流、不挣大钱，我希望父母一定不要强力制止。我的孩子小的时候，我宣称如果将来我的孩子有上述几条心理品质，哪怕他们爱上了考古，我也支持。这在一段时间里成了我老婆攻击我的把柄。后来我孩子没有爱上考古，避免了家中失火。

自信与自强、良好的情绪，控制焦虑，友好而随和的性格，以及从少年时代起善于处理人际关系等等，这些都与成功的关系相当密切。鉴于它们已经离“智商”的主题较远，就不多说了。我个人感觉，虽然这些心理品质其实也是跟先天的人格特质相联系，但毕竟不像智商那样有比较硬的天花板。

非智力因素的“可培养性”要强一些，因此近年尤其受到学校教育的重视。此外，当一个有理性的成年人设法自我提升的时候，经常首先是从非智力因素开始。其结果未必是什么公认的“成功”，但却是心态的平和和满足感的增加。

----------

根据与网友交流，补充说明如下——

** 一个人的绝对智能水平在一生中并非恒定。从儿童到青年时期逐年增长，绝对的智能水平到30岁左右达到顶峰，约40岁开始缓慢下降，60多岁后开始下降比较明显。但各智力测验的分项情况不同，比如四、五十岁时，短时记忆不如年轻时候了，但知识和词汇分项一般会超过青年时期…… 不管怎么说，最重要的一点是，一个人在智力测验后得到的粗分，必须与自己所在的年龄的常模去对照，得到正确的IQ分数。

** 如果考虑智能绝对水平的变化（如成长，衰老），一个人的智商IQ（当然是用同龄常模）有稳定性吗？答案是，有！十几岁以后，一个人的IQ值，即一个人在同龄人中的相对“聪明”程度很稳定。但是，年龄小的时候，比如10岁以前的IQ与成年后IQ的相关就不那么大。年龄越小时的IQ，与成年后IQ间的相关性越小，所以有的神童长大以后不神了。

** 理论上讲，智力测验测的是“能力”，一般学科考试考的是“知识”。然而在实际之中，两者是很难截然分开的，而且“纯”的能力很难定义。所以学习和训练是可以提高智商得分的。像词汇、算术那就不用说了。哪怕是我文中两段录像所所示的两个与一般教育无关的分测验，如果经常训练，分数比不训练也会提高。但经过准备后“提高智商”是自欺欺人的。

** 韦氏智力测验和斯坦福-比奈智力测验效度都不错。但前提应该是在不准备、不训练的“原生”状态下测定才准确。更严肃的是，智力测验不像SAT有巨大的题库，它十几项所有的问题都在一本薄薄的《手册》上，全国多年不变。《手册》内容应该是严格保密的，尽管各大学心理系、教育系、无数精神科医生和青少年机构，包括一些中小学处都有，但有关人员不能缺德而广而告之。否则一本手册在手，准备它几周，一个傻子的智商也可以达到180。

** 很少有人知道，SAT是来源于一个快速“智力”测验The Army Alpha Test，这是100年前军队用于筛选军人的。因此，SAT 与 IQ 有“血统”上的渊源。然而两者相关系数有多大，这是有很大争论的。我认为肯定比0.4高，但可能不像有人宣称的0.85那么高。SAT 的reading部分肯定与言语智商分项有高相关。SAT数学不是高难度数学，应该与IQ分数也有较高的相关。

** 不同族裔的智商有差异，这是客观存在的，但个体差异很大。我曾经有两个非裔在手下工作，水平都还可以。特别是其中一位，理解力、举一反三的能力和动手能力都很好。看外表，他是典型的黑人相貌。相反我隔壁办公室的一位manager，几个月前刚刚雇了一个犹太人Ph.D，现在抱怨说他笨且不诚实，后悔雇他。我认为在实际工作和生活中，避免先入为主，根据个体素质评判是明智的。

更多我的博客文章>>>

然后呢

2024-07-09 07:21:03

文章写得很全面啊，连智商不是恒定的都写了。但差了一条，智商相差15点以上的，交流起来可能有困难，笨的那个可能觉得聪明那个

唐宋韵

2024-07-09 08:55:51

“智商相差15点以上的，交流起来可能有困难”，谁说的？这可不一定。是不是一类人，能不能一起喝酒撸串，关键看三观是否一致。

2024-07-09 09:15:01

说实话，爱因斯坦智商多高或多低，都是传说，或者是人们的一种推断。爱因斯坦中青年时期智商测验远未成熟，没有现代的智力测验。

大号蚂蚁

2024-07-10 05:46:36

东亚智商肯定注水严重。不过无所谓。现代人也不比上古人更具智商。文明发展个人发展中智商的意义很有限。参考意义而已。

【细谈智商（IQ）】

跟帖(39)

然后呢

唐宋韵

唐宋韵

唐宋韵

然后呢

唐宋韵

然后呢

唐宋韵

zhiyanle

唐宋韵

唐宋韵

mikecwu

纳兰性空

纳兰性空

纳兰性空

唐宋韵

纳兰性空

唐宋韵

老林子里的夏天

唐宋韵

远风

杜鹃盛开

唐宋韵

zhiyanle

唐宋韵

唐宋韵

云霞姐姐

唐宋韵

晓青

唐宋韵

laopika

唐宋韵

mikecwu

唐宋韵

大号蚂蚁

唐宋韵

唐宋韵

简单一点好

唐宋韵