Deseosos de validación

«La validación solía ser un misterio sacerdotal, un ritual tras escenas con la élite profesional como juez y testigo. Hoy es un espectáculo público que combina los atractivos del ajedrez y la lucha en el barro».
Lee Cronbach, «Five perspectives on validity argument».

A finales de los setenta, un hombre que había pasado por varios talleres de trabajo protegidos para «retrasados mentales» decidió enviar una carta al psicólogo estadounidense Alan Kaufman. Kaufman es, como curiosidad biográfica, un investigador con una prestigiosa trayectoria en la aplicación clínica y el desarrollo de la versión para niños del test de Wechsler, uno de los test de inteligencia más usados. En este punto de la línea del tiempo, Kaufman ocupaba una posición de director asociado de una clínica psicológica, así que aquel hombre había tomado la que era una decisión bastante inteligente. En su carta, decía lo siguiente:

Ya no sé qué hacer. Siempre tengo la costumbre de conseguir trabajos que de verdad no me gustan. Y aun así es difícil encontrar trabajos que me gusten. Odio ser selectivo, pero no puedo evitarlo. Los trabajos que me gustan son la mineralización, conserje y la prensa taladradora. ¿No puede ayudarme a encontrar un empleo? Hay cuatro razones por las que estoy en contra de los talleres protegidos:
(1) No me gusta trabajar con los retrasados.
(2) Me siento ridículo trabajando con los retrasados cuando hay miembros jóvenes del personal.
(3) Mayormente un trabajo aburrido.
(4) Muy poca paga.

Figura 1. Carta de un paciente clínico. A partir de IQ Testing 101, de Alan Kaufman.


Traducción: «¿Cómo podría “probar” a la gente que no soy retrasado? No lo soy ni siquiera un poco. Es algo más; pero no sé lo que es. Me avergüenza vivir con el retrasado. ¿Qué voy a hacer? ¿Alguna sugerencia?».

Lo que sucedía con Dennis, como se llamaba nuestro protagonista, es que, sin importar la clase de test con que era evaluado, la puntuación que recibía en la escala nunca alcanzaba los setenta puntos. Cuando Kaufman examinó de cerca a Dennis, confirmó que su puntuación era inferior a setenta, pero «Dennis no era más discapacitado intelectualmente que los psicólogos que seguían evaluándolo», en sus propias palabras.1 Kaufman decidió llevar a cabo un examen más pormenorizado y lo que descubrió es que Dennis no tenía problemas de inteligencia. En realidad, sufría de un trastorno lingüístico que le dificultaba o impedía entender las preguntas que le planteaban sus examinadores. Este no tan nimio obstáculo afectaba considerablemente sus puntuaciones en la escala.

Afortunadamente para Dennis, los setenta fueron una época en que los psicómetras empezaron a advertir que para diagnosticar trastornos intelectuales necesitaban tanto puntuaciones en un test de inteligencia cuanto medidas observacionales de conducta adaptativa (el conjunto de habilidades o destrezas que permiten a las personas llevar una vida independiente).


¿Cómo podemos estar seguros de que hacemos una interpretación apropiada de una serie de datos? Quiero decir, ¿qué garantiza la conclusión que extraemos de unos resultados? En 1915, un catedrático de la Universidad de Colorado observaba: «Puede que tome años decidir cuál conclusión es la verdadera, y a mí personalmente me desagrada renunciar a las pruebas de la experiencia hasta que un experimento pueda darnos algo mejor».2 Nuestro autor dirigía sus comentarios a un artículo académico sobre la inteligencia «medida y determinada objetivamente», en el cual el matemático inglés Charles Spearman proponía «una psicología correlacional» cuyo fin sería el de «determinar todas las tendencias psicológicas».3

Es posible que Spearman iniciara toda una ola metodológica en lo que luego devendría la psicometría (en pocas palabras, medición psicológica). Aproximadamente desde la década de los veinte hasta principios de la de los cincuenta, los investigadores se contentaban con diseñar un test y demostrar que los resultados que obtenían las personas en dicho test estaban asociados con otras variables de interés. La validez de un test, así pues, se reducía a su potencia predictiva. Un test de inteligencia podía predecir el rendimiento en la academia militar, o en la universidad; un test de personalidad podía predecir nuestra reacción a ciertas circunstancias.

¡Ay!, pero la psicología correlacional que imaginaba Spearman adolecía de varios problemas. Aunque la capacidad de un test para predecir alguna característica de los individuos es ciertamente indispensable, no es muy útil contar con un buen predictor si la calidad de nuestros criterios es deficiente. (En el caso de una prueba de inteligencia, los resultados en la escala son nuestro predictor y las calificaciones escolares, por poner un ejemplo, se convierten en nuestro criterio). Así mismo, una correlación puede deberse a diversos procesos causales cuya confirmación o refutación exige la evaluación de otras hipótesis y, por lo tanto, la recolección de otras pruebas. A mediados del siglo pasado, estas y otras observaciones suscitaron un debate que acabó con la creación de tipos de validación que, entrando más en nuestros días, se entienden mejor como requisitos para indicar la validez de un constructo psicológico.4

El primer requisito, propuesto por Spearman hace más de un siglo, es la evidencia predictiva o convergente.5 Un índice de pobreza, por ejemplo, debería permitirnos predecir variables que creamos que estén relacionadas con la calidad de vida, y sus resultados deberían converger con los de otros índices que consideramos que miden lo mismo. El Índice Multidimensional de la Pobreza está altamente correlacionado con la esperanza de vida (-0.713), por cierto mucho más que la desigualdad económica (-0.359),6 y, aunque nos ofrezca un panorama más abarcador de la pobreza que la concepción monetaria promovida por el Banco Mundial, sus resultados no son del todo diferentes a los de este (son convergentes).7

En la tradición psicométrica existe cierta tendencia a distinguir la evidencia concurrente de la evidencia predictiva. El motivo argumentado es que un constructo o un test tiene evidencia predictiva si las puntuaciones tomadas en un momento están correlacionadas con unos resultados tomados en otro momento. En contraste, la evidencia concurrente se refiere a la administración de un test y la recolección de datos de otras variables al mismo tiempo. Por ejemplo, si estuviésemos interesados en saber si la autoestima está correlacionada con el rendimiento académico, podríamos administrar un test a un grupo de estudiantes y pedir sus expedientes de calificaciones. Estaríamos, entonces, recogiendo evidencia concurrente.

Puede que no lo entienda plenamente, pero esta distinción entre evidencia concurrente y predictiva —si mi opinión tiene algún valor— me parece indefendible. Si la autoestima está correlacionada con el rendimiento académico, la autoestima predice el rendimiento académico. No debería influir si obtenemos las calificaciones en el mismo momento en que administramos la prueba o esperamos hasta el final del curso para conseguir los datos. En tanto exista alguna correlación entre dos variables, una variable se puede predecir a partir de la otra. Así que la evidencia concurrente no es más que evidencia predictiva exprés.

Más antagónico con lo anterior, el segundo requisito es la evidencia divergente o discriminante. Dicho concisamente, nuestro constructo debe ser, en cierto grado, diferente a otros. Considerémoslo por un momento. Un grupo de investigadores habla del constructo A y su capacidad para predecir α; otro equipo habla del constructo B y sus correlaciones con β; aun un tercer grupo conversa sobre el constructo C y su asociación con γ. Y, sin darse cuenta, todos se refieren al mismo rasgo psicológico. Un completo absurdo, sin duda. Pero no es insólito encontrar en la investigación psicológica esta clase de descuidos. Por citar el que acaso sea uno de los ejemplos más trillados, lo que algunos psicólogos denominan inteligencia emocional, en realidad, no cumple con evidencia divergente. En concreto, sus correlaciones con los rasgos de la personalidad y la habilidad cognitiva son tan altas que no se puede contemplar como un constructo diferente.8

Las evidencias predictiva, convergente y divergente pueden no ser suficiente. Otra condición necesaria es que el contenido de nuestro test sea coherente con alguna teoría acerca del constructo que nos interesa. Si diseñamos una prueba con la que queremos medir la habilidad matemática, no tiene mucho sentido incluir preguntas sobre ortografía o razonamiento espacial. Si lo hiciéramos, diríamos que nuestro test tiene una infrarrepresentación del constructo de interés (la habilidad matemática) y contenido irrelevante al constructo (más técnicamente, una varianza irrelevante al constructo). Sea que tengamos solo una infrarrepresentación del constructo o contenido irrelevante al constructo, o un poco de ambos, lo cierto es que nuestro test pierde la utilidad que tendría sin estos defectos.

Toda la serie de requisitos expuestos nos conduce a la idea de que la validez se refiere al grado en que una teoría y las líneas de evidencia apoyan la interpretación de las puntuaciones en los test.9 Puesto que dichas interpretaciones con frecuencia se llevan a cabo en el ámbito aplicado, la justificación del uso de test en la toma de decisiones no es una cuestión secundaria para los psicómetras. Así es, la posibilidad de que los test puedan tener consecuencias indeseables es una parte fundamental del proceso de validación psicométrica. Esta es la razón de que existan varios métodos con los que podamos investigar si nuestro test muestra sesgos que pudiesen poner en cuestión su propósito.

Estrictamente hablando, un test puede estar sesgado en al menos dos maneras.10 Por una parte, es posible que muestre una predicción diferencial, es decir, que prediga mejor los resultados de un grupo que los de otro. Así sucede con los test de personalidad,11 que en unos pocos casos predicen mejor algunos resultados para un sexo que para el otro o para una etnia que para la otra, con los test de aptitud académica (SAT) estadounidense en relación con el rendimiento académico,12 y en menor grado con los test de inteligencia en lo que concierne a la selección de personal,13 que muestran una validez predictiva ligeramente mayor para los estadounidenses blancos que para los afrodescendientes, los latinos y los estadounidenses de descendencia amerindia.

Figura 2. Ejemplos hipotéticos de predicción diferencial. Adaptado a partir de la ref. 15.

Aquí entramos en un terreno espinoso, por lo que voy a tener que pedirte que observes cuidadosamente la figura. El ejemplo superior izquierdo muestra un caso en que ambos grupos se distribuyen a lo largo de una misma recta, por lo que no hay diferencias predictivas; todo lo que hay es un grupo que, por el motivo que sea, tiene de media mejores puntuaciones que el otro. El ejemplo superior derecho, en cambio, ilustra una situación de predicción diferencial: ahora cada grupo sigue su propia recta de predicción. Como notarás, ambas rectas son paralelas y el promedio de ambas se ubica por debajo del grupo para el que el test resulta ser más predictivo y por encima del grupo para el que resulta serlo menos. Esto significa que nuestro test infrapredice el desempeño de los miembros de aquel grupo y sobrepredice el desempeño de los miembros de este grupo; expresado en español, nuestro test favorece a los del grupo para el que es menos predictivo y perjudica a los del grupo para el que lo es más. Porque más individuos infrapredecidos acaban alcanzando el umbral para ser elegidos, mientras que menos sobrepredecidos lo consiguen en comparación. De ahí que este caso de predicción diferencial no deba atormentar a los psicómetras durante su sueño.

Por el contrario, el escenario ilustrado por el ejemplo inferior de la imagen es más inquietante. En esta situación, emplear una recta media para ambos grupos sería inapropiado, y la única solución sería interpretar los resultados de cada grupo por separado, haciendo irrazonable cualquier comparación. En lo que concierne al SAT y los test de habilidad cognitiva, todo apunta a que la clase de diferencia predictiva que exhiben es el tipo B y no del tipo C (un caso para el cual no he podido encontrar ningún ejemplo, por cierto).

La otra manera en que nuestros test pueden estar sesgados se manifiesta en lo que podríamos denominar una medición diferencial. En términos más técnicos, los psicómetras están en la obligación de averiguar o demostrar que su constructo cumple con invarianza factorial, esto es, si un constructo es exactamente el mismo entre grupos. Este es un problema tan avanzado que no parece enseñarse en los cursos de pregrado de psicología, y no puedo desarrollarlo todo en esta entrada (remito a la nota bibliografía a quienes quieran profundizar un poco más).14 En todo caso, la invarianza factorial es una condición indispensable para garantizar la validez de ciertas comparaciones. Pese a que los resultados de casi cien estudios de inteligencia llevados a cabo en 31 países diferentes puedan apuntar a la existencia de un factor general de inteligencia,15 sigue siendo necesario averiguar si estos factores g son exactamente los mismos, o bien si se trata de g distintos.

Las dimensiones en que los constructos psicológicos deben mostrar invarianza factorial no son pocas. Por una parte, un constructo puede ser invariante entre grupos étnicos, entre géneros o entre generaciones. En este caso, podemos hablar de una invarianza intergrupal. Por otro lado, los constructos también pueden ser invariantes a largo plazo, de modo que el constructo medido en la niñez es el mismo que el medido en la adultez. En esa situación, estaríamos ante lo que podríamos considerar una invarianza temporal o longitudinal. ¿Qué sabemos, pues, sobre la invarianza factorial de los constructos psicológicos? Para empezar, que la habilidad cognitiva es étnicamente invariante (es decir, los test de inteligencia sí miden lo mismo entre distintos grupos étnicos),16 así como longitudinalmente invariante (al menos en una muestra brasileña).17 Que la personalidad muestra invarianza por género y edad, aunque no tanto por cultura.18 Y que al menos un test ampliamente usado para medir la toma de riesgos viola la invarianza por género, lo que equivale a decir que, lo que quiera que mida, no mide lo mismo para ambos sexos.19

Sopesándolo todo, uno se siente tentado a coincidir con el comentarista de la Universidad de Colorado cuando señalaba que llegar a una conclusión correcta podría tomar años, pues para conseguirlo hace falta descartar distintas hipótesis competentes, lo que nos exige reunir diversas fuentes de evidencia para contrastarlas. En su época de estudiante, Kaufman se sentía tan atraído por las teorías sobre el desarrollo cognitivo del psicólogo suizo Jean Piaget que desarrolló un test de inteligencia basado en ellas para su disertación doctoral. Una niña a la que evaluó con su test aún perdura en su recuerdo:

Fue cortés y calmada, y respondía «No estoy completamente segura» a la mayoría de las preguntas: «¿El balón siente dolor cuando lo lanzo al suelo?», «¿La bicicleta sabe que la estás manejando?». La puntué en el test y clasifiqué su inteligencia en una de las cuatro etapas del desarrollo de Piaget. […] Estaba seguro de que el test que le administré a Bonnie era válido. Hasta que hablé con su profesora al día siguiente.

La profesora le contó a Kaufman que Bonnie estuvo llorando con cierta irritación después de que se fue. «Bonnie me dijo que seguía diciendo “No lo sé” cuando le preguntabas si su oso de peluche podía amarla de verdad o si los autos y los camiones sentían dolor». Kaufman le explicó que Bonnie estaba en transición a la etapa piagetiana en que los niños abandonan el pensamiento animista (dejan de creer que las cosas sienten y piensan como los seres vivos). No obstante, de acuerdo con la profesora: «Le dije a Bonnie: “Pero tú sabes que los juguetes no están vivos, no pueden sentir ni pensar”». A esto, secándose las lágrimas, Bonnie contestó: «Claro que sé eso. Pero no estaba segura de que el señor Kaufman lo supiera».20 Una importante lección sobre (in)validez psicométrica dada por una niña de cinco años.


Agradezco enorme e inefablemente a Ali por su tiempo para aportar comentarios y sugerencias para la redacción de esta entrada.
1 Alan Kaufman, IQ Testing 101 (Nueva York: Springer, 2009), p. 116.
2 Lawrence Wooster Cole (1915), «General intelligence and the problem of discipline», The Classical Journal, 10 (8): 358-369.
3 Charles Spearman (1904), «“General intelligence,” objectively determined and measured», The American Journal of Psychology, 15 (2): 201-292.
4 Para una historia de la validez psicométrica y su concepción actual, recomiendo Validating Psychological Constructs: Historical, Philosophical, and Practical Dimensions (Canadá: Palgrave Macmillan, 2017), de Kathleen Slaney.
5 Existen numerosos manuales de introducción a la psicometría que pueden ser útiles. A continuación enlisto solo los que he consultado (me parece contrario a toda la ética recomendar textos que no se han leído): Colin Cooper, Psychological Testing: Theory and Practice (Nueva York: Routledge, 2019), cap. 7; Robert Kaplan y Dennis Saccuzzo, Psychological Testing: Principles, Applications, and Issues (Boston: Cengage Learning, 2018 [9.ª ed.]), cap. 5; Michael Furr, Psychometrics: An Introduction (Los Ángeles: Sage, 2018 [3.ª ed.]), tercera parte, especialmente cap. 8. Véase tb. David Hughes, «Psychometric Validity: Establishing the Accuracy and Appropriateness of Psychometric Measures», en The Wiley Handbook of Psychometric Testing: A Multidisciplinary Reference on Survey, Scale and Test Development (Reino Unido: Wiley Blackwell, 2018), editado por Paul Irwing, Tom Booth y David Hughes, pp. 751-779.
6 Khaled Tafran, Makmor Tumin y Ahmad Farid Osman (2020), «The power of multidimensional poverty in explaining life expectancy: Empirical evidence from cross-sectional data of 62 developing countries», Iranian Journal of Public Health, 49 (9): 1709-1717.
7 Grupo del Banco Mundial, «Beyond Monetary Poverty», en Poverty and Shared Prosperity (Banco Mundial: 2018), pp. 87-121.
8 Melanie Schulte, Malcolm James Ree y Thomas Carretta (2004), «Emotional intelligence: Not much more than g and personality», Personality and Individual Differences, 37 (5): 1059-1068; Marina Fiori y John Antonakis (2011), «The ability model of emotional intelligence: Searching for valid measures», Personality and Individual Differences, 50 (3): 329-324; Alberto Alegre, Núria Pérez-Escoda y Elia López-Cassá (2019), «The relationship between trait emotional intelligence and personality: Is trait EI really anchored within the Big Five, Big Two and Big One frameworks?», Frontiers in Psychology, 10: 866. Alicia Franco trajo a mi atención que existe cierta polémica sobre esta visión correlacionista de la evidencia divergente. Si pensamos en que un trueno y un rayo correlacionan en 1 pero son diferentes, «que dos constructos correlacionen mucho no es evidencia de que sean lo mismo». Por desgracia, este es un tema avanzado, así que no puedo hacer más que limitarme a añadir su apunte (por cierto, muy ingenioso, todo hay que decirlo).
9 Michael Kane (2016), «Explicating validity», Assessment in Education, 23 (2): 198-211.
10 Russell Warne y Myeongsun Yoon (2014), «Exploring the various interpretations of “test bias”», Cultural Diversity and Ethnic Minority Psychology, 20 (4): 570-582.
11 Christopher Soto (2020), «Do links between personality and life outcomes generalize? Testing the robustness of trait-outcome associations across gender, age, ethnicity, and analytic approaches», Social Psychological and Personality Science, 12 (1): 118-130.
12 Krista Mattern y otros (2008), «Differential validity and prediction of the SAT», informe de investigación n.º 2008-4 del Comité Universitario.
13 Christopher Berry (2015), «Differential validity and differential prediction of cognitive ability tests: Understanding test bias in the employment context», Annual Review of Organizational Psychology and Organizational Behavior, 2 (1): 435-463.
14 Dimiter Dimitrov (2010), «Testing for factorial invariance in the context of construct validation», Measurement and Evaluation in Counseling and Development, 43 (2): 121-149; Diane Putnick y Marc Bornstein (2016), «Measurement invariance conventions and reporting: The state of the art and future directions for psychological research», Developmental Review, 41: 71-90; Jelte Wicherts (2016), «The importance of measurement invariance in neurocognitive ability testing», The Clinical Neuropsychologist, 30 (7): 1006-1016.
15 Russell Warne y Cassidy Burningham (2019), «Spearman’s g found in 31 non-Western nations: Strong evidence that g is a universal phenomenon», Psychological Bulletin, 145 (3): 237-272.
16 Nayena Blankson y John McArdle (2015), «Measurement invariance of cognitive abilities across ethnicity, gender, and time among older Americans», Journals of Gerontology Series B, 70 (3): 386–397; Justina Avila y otros (2020), «Measurement invariance of neuropsychological measures of cognitive aging across race/ethnicity by sex/gender groups», Neuropsychology, 34 (1): 3-14. Debo decir que esto es cierto únicamente si los grupos étnicos conviven en un país y hablan la misma lengua (como es el caso de los afrodescendientes y los blancos estadounidenses). Cuando los grupos de comparación son más bien individuos de distintas nacionalidades, la invarianza factorial de la habilidad cognitiva se ve afectada, y de ahí que no tenga mucho sentido comparar la inteligencia de los sudafricanos con la de los europeos. Sobre este último punto, véase el artículo de Wicherts (2016) citado en la nota 14.
17 Laiss Bertola y otros (2021), «Longitudinal measurement invariance of neuropsychological tests in a diverse sample from the ELSA-Brasil study», Brazilian Journal of Psychiatry, 43 (3): 254-261.
18 Yixiao Dong y Denis Dumas (2020), «Are personality measures valid for different populations? A systematic review of measurement invariance across cultures, gender, and age», Personality and Individual Differences, 160: 109956.
19 Don Zhang, Garett Foster y Michael McKenna (2018), «Is the DOSPERT gender invariant? A psychometric test of measurement invariance», Journal of Behavioral Decision Making, 32 (2): 203-211.
20 Kaufman, IQ Testing 101, pp-155-156.

Anuncio publicitario

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s