Psicometría Aplicada: Construcción, Fiabilidad y Validez de Instrumentos de Medida
Psicometría: Fundamentos y Evolución
Definición y Objetivo de la Psicometría
La Psicometría es la disciplina metodológica encargada del desarrollo de teorías, métodos y técnicas que dan apoyo a los procesos de construcción y administración de tests. Su objetivo es proporcionar garantías científicas para la medida objetiva y estandarizada de fenómenos psicológicos no observables a partir de muestras de comportamientos.
Dimensiones Clave en Psicometría
- Muñiz: Teoría de la medición, Teoría de los tests, Escalamiento psicológico, Escalamiento psicofísico, Técnicas multivariadas.
- Jones y Thyssen: Escalamiento psicológico, Teoría de los tests y modelos de análisis factorial.
- Consenso Relativo: Teoría de la medida, Teoría de los tests y escalamiento.
Períodos Históricos Detallados de la Psicometría
1. Primer Período: Tests Sensoriales y Motores (1882-1905)
- Comprobación de su ineficiencia como medida de inteligencia.
- Uso incipiente de tests de procesos más complejos.
Figuras Clave:
- Francis Galton: Buscó clasificar y catalogar las diferentes formas de mentes; introdujo el concepto de correlación.
- James McKeen Cattell: Utilizó por primera vez el concepto de “Test Mental”, buscando medir la inteligencia en base a la capacidad sensorial.
2. Segundo Período: Los Primeros Tests de Inteligencia (Principios del siglo XX)
- Alfred Binet y Theodore Simon: Crearon la primera prueba de inteligencia, introduciendo el concepto de edad mental.
- Lewis Madison Terman: Desarrolló la medida del Cociente Intelectual (CI), siendo la primera escala de puntuaciones referida a las aptitudes mentales.
Características de los Primeros Tests Psicológicos:
- Predominio de elementos referidos a procesos cognoscitivos superiores.
- Variedad de elementos.
- Normas valorativas fundadas en la edad cronológica.
- Puntuación global indicativa de la inteligencia general del sujeto.
- Aplicación individual del test.
3. Tercer Período: Tests Colectivos (Primera Guerra Mundial en adelante)
- Arthur Otis: Clasificación de personas para la Primera Guerra Mundial; desarrollo de los tests Alpha y Beta para aplicación colectiva.
- Cattell: Publicación masiva de tests.
- Thurstone: Primeras baterías de aptitudes mentales primarias.
Características de los Primeros Tests Colectivos:
- Elementos cuantificables y exactos en aspectos estadísticos del método.
- Mayor facilidad, rapidez, economía y objetividad en aplicación e interpretación.
- Generalización del uso de tests manipulativos.
4. Cuarto Período: Tests de Personalidad (Principios del siglo XX en adelante)
- Emil Kraepelin: Precursor en el estudio de la personalidad.
- Woodworth (1917): Hoja de datos personales para detectar trastornos neuróticos graves.
Tests Proyectivos:
- Test de manchas de tinta de Rorschach.
- Test de dibujo de la figura humana de Machover.
- Test de apercepción temática de Murray.
5. Quinto Período: El Análisis Factorial (Mediados del siglo XX)
El Análisis Factorial, impulsado por Spearman, se consolidó como un método fundamental para averiguar qué mide un test, influyendo significativamente en el desarrollo de la metodología de tests.
Escalamiento Psicológico y Psicofísico
Concepto de Escalamiento
El Escalamiento tiene como objetivo la construcción de instrumentos que permitan llevar a cabo mediciones de objetos de acuerdo a normas o reglas.
Supuestos Básicos del Escalamiento
- 1. Existencia de un continuo latente o subyacente a lo largo del cual varían los objetos psicológicos que se van a escalar, y que no puede ser observado directamente.
- 2. Los objetos psicológicos pueden situarse de forma ordenada a lo largo de este continuo.
Tipos de Escalamiento
- Escalamiento Psicofísico: Estudia la relación entre los estímulos del mundo físico y la sensación psicológica que producen. Ejemplo: Temperatura.
- Escalamiento Psicológico: Ubica estímulos psicológicos no localizables en una escala física a lo largo de un continuo psicológico. Ejemplo: “¿Cómo te hace sentir la temperatura?”.
Métodos de Escalamiento Psicofísico Detallados
Conceptos y Métodos de Umbrales
- Pregunta/Método: Percepción de estímulos hápticos (magnitud), detección vs. no detección (límite).
- Observación: Estabilidad en la percepción/no percepción.
- Hipótesis: Umbrales.
Umbral Absoluto
Es la menor cantidad de energía que permite detectar un estímulo.
Umbral Diferencial (DAP o DJP)
Es la menor diferencia entre estímulos que una persona es capaz de apreciar. Daniel Bernoulli señaló que la sensación psicológica experimentada por un sujeto puede ser diferente aunque esté ante el mismo estímulo, lo que inspiró la creación del umbral diferencial.
Ecuación de Weber
El incremento de magnitud que debe experimentar un estímulo para que el sujeto perciba el cambio es una constante de su magnitud inicial: K = Umbral Diferencial (ΔE) / Magnitud del Estímulo (E).
Limitación:
Falla cuando la magnitud del estímulo es extrema (muy pequeña o muy grande).
Métodos de Fechner para la Determinación de Umbrales:
1. Método de los Límites (MTL):
- Series Ascendentes: Se presenta un estímulo por debajo del umbral que nunca produce sensación y se va aumentando gradualmente hasta ser detectado.
- Series Descendentes: Se presenta un estímulo muy por encima del umbral y se disminuye hasta dejar de ser detectado.
- Puntos de Transición: Se promedian para determinar el umbral absoluto. Para el umbral diferencial, se usan dos pares de estímulos: un estándar (intensidad constante) y un estímulo de comparación (intensidad variable en series ascendentes y descendentes). El observador debe indicar si el estímulo de comparación es igual, mayor o menor que el estándar.
2. Método de Ajuste (MTA):
El observador controla la variación en el estímulo.
- Para el Umbral Absoluto: Ajustar el estímulo disminuyendo o aumentando hasta no detectarlo.
- Para el Umbral Diferencial: Mediante ajustes de intensidad del estímulo hasta que iguale al estímulo estándar.
3. Método de Estímulos Constantes (MEC):
El estímulo que se presenta a un sujeto no es percibido de la misma forma en todas las ocasiones ni produce la misma sensación.
- Umbral Absoluto: Es la magnitud del estímulo que ha sido percibida por el sujeto en el 50% de las ocasiones. Otros estímulos deben presentar intensidad intermedia entre dos estímulos extremos, a veces produciendo sensación.
- Umbral Diferencial: Se fija un valor estándar y el sujeto deberá indicar si el valor elegido es menor o mayor que el estándar.
Limitaciones de los Métodos Psicofísicos Indirectos (Fechner):
- Solo proporcionan la energía para notar un cambio de respuesta en el observador, no una medida de sensación.
- Las Diferencias Apenas Perceptibles (DAP) no son iguales; el umbral varía.
- Diferentes resultados en función del método de medida.
- El umbral se ve afectado por variables externas.
- No se adapta bien a todos los sistemas sensoriales.
- Los estímulos de alta o baja intensidad no se ajustan bien a esta ley.
Diferencias entre la Función Potencial de Stevens y la de Fechner:
Según la propuesta de Fechner, una vez establecido el punto de origen en la escala de sensación, si se aumenta la estimulación en proporción geométrica, cada vez se necesitará un mayor incremento en la estimulación física para que se perciba un cambio en la sensación.
- Comparación entre las funciones logarítmica (Fechner) y potencial (Stevens).
- La función de Stevens da lugar a una escala de respuesta en lugar de una escala de sensación.
- Las propiedades de las estimaciones de los sujetos están determinadas por las instrucciones.
- Stevens no basa las mediciones en el umbral, sino en el potencial.
- Utiliza diferentes métodos de escalamiento, como el método de emparejamiento de magnitudes.
Métodos de Emparejamiento de Magnitudes:
El estímulo es cambiado a voluntad del sujeto.
- Emparejamiento de Magnitudes de Modalidad Cruzada: Si la magnitud producida es por otro estímulo de distinta modalidad sensorial.
- Estimación de Magnitudes: Si la magnitud emparejada es una escala de números naturales.
- Producción de Magnitudes: El sujeto empareja manipulando el estímulo.
Métodos de Emparejamiento de Razones:
- Magnitud de Modalidad Cruzada: Se presentan dos estímulos que guardan entre sí una determinada proporción, y se pide al sujeto que ajuste otros dos, de otro continuo, para que guarden la misma proporción entre sí.
- Estimación de Magnitudes: Se presentan todos los pares de estímulos y la tarea es hacer una estimación de las razones entre ellos, asignando un número que represente esa razón.
- Producción de Magnitudes: Se presenta al sujeto un estímulo estándar y una proporción numérica. La tarea es producir un estímulo que guarde con el estándar una proporción igual a la presentada.
Métodos de Emparejamiento de Intervalos:
- Modalidad Cruzada: El sujeto empareja intervalos existentes entre estímulos de un continuo con intervalos del otro continuo.
- Estimación de Magnitudes: Se presenta al sujeto una serie de estímulos diferentes entre sí y se le pide que, mediante números, haga una estimación de las diferencias estimulares.
- Producción de Magnitudes: Se presentan al sujeto dos estímulos y la tarea consiste en encontrar un estímulo intermedio (bisección) o una serie de estímulos que dividen el intervalo entre los estímulos en más de dos mitades iguales (equisección) o una serie de intervalos distintos (multisección).
Métodos de Escalamiento Específicos
Escala de Categorías
Método muy usado que consiste en asignar una serie de categorías establecidas de antemano a los estímulos presentados. Las categorías están ordenadas y tienen límites fijos, salvo por error aleatorio.
Modelo Escalar de Thurstone
Supuestos Básicos:
- La percepción de los sujetos es variable.
- Se asume la existencia de un continuo psicológico o subjetivo a lo largo del cual varía el atributo.
- Cada estímulo origina un proceso discriminante que asigna un valor subjetivo en el continuo psicológico.
- El valor subjetivo en cada ocasión al estímulo varía.
- La distribución es normal, la media es el valor escalar del estímulo en el continuo psicológico, y la desviación típica es la dispersión discriminante, dando una idea de la ambigüedad suscitada por el estímulo en el sujeto.
- Cada estímulo dará en un mismo sujeto una distribución discriminante distinta, definida por su media y por su desviación.
- El modelo se cumple tanto si es un solo sujeto como si es una muestra grande.
Método de Comparaciones Binarias:
Se basa en la comparación de estímulos dos a dos (ej., belleza relativa). El número de pares obtenibles con ‘n’ estímulos es V = (n * (n-1)) / 2.
Ley de Juicio Categórico
Asume los supuestos generales del modelo lineal general. Se asume que el continuo psicológico de cada sujeto puede ser dividido en una serie de categorías ordenadas. Los sujetos asignarán cada uno de los estímulos que se le presentan a una de las categorías en función del atributo que considere que tiene el estímulo. En ambos casos, se les pide que emitan un juicio de hecho o juicios de valor. No se pretende que el juez valore la actitud, sino que evalúe si la pregunta es capaz y en qué grado de medirla.
Obtención Empírica de Datos:
Se utilizan tests psicológicos, que son instrumentos de medición para estudiar de un modo objetivo y sistemático el nivel de sujetos respecto a algún atributo, característica o dominio de conocimiento.
La Medición en Psicología: Desafíos y Escalas
Perspectivas Históricas de la Medición
Idealismo Platónico y la Medición
El Idealismo Platónico concebía la medición como un conjunto de operaciones de dominio general para actos predicativos: clasificación, identificación y descripción. Se acordaba que los actos de medición estaban restringidos a aquellos que implicaban la asignación de números.
Problemas de la Medición en Psicología
- Es difícil identificar unidades de medida incuestionables o ampliamente aceptadas.
- Imposibilidad de generar mediciones derivadas.
- Todo resultado experimental o medida hecha en el laboratorio debe ir acompañada del valor estimado del error de la medida.
La Teoría Clásica de la Medición de Stevens
Stevens eliminó la restricción de que los números asignados tenían que obedecer a las leyes de la cantidad. Para él, la medición es la asignación de números a objetos o eventos de acuerdo con reglas predefinidas. Distingue entre los siguientes tipos de asignaciones:
Tipos de Escalas de Medida (Stevens)
- Escala Nominal: La asignación de números a un evento u objeto tiene como objetivo identificar inequívocamente ese objeto o evento. La asignación debe seguir una regla uno a uno. En la medición psicológica, cuando se utiliza una escala nominal, es conveniente usar la moda como medida de posición.
- Escala Ordinal: Establece relaciones de orden. La diferencia numérica entre valores es irrelevante.
- Escala de Intervalo (Cuantitativa): Proporciona información sobre la distancia entre los valores de la escala. El valor 0 no indica ausencia, es arbitrario. Es un modelo de asignación de valor a objeto en escala ordinal, pero se puede transformar linealmente (X’ = a + bX, donde ‘a’ y ‘b’ son constantes).
- Escala de Razón (Cuantitativa): Contiene la información presente en las escalas anteriores. El valor 0 no es arbitrario y no puede contener números negativos (X’ = cX, donde ‘c’ es una constante).
Problemas de las Escalas de Medida y las Técnicas Estadísticas
- Las inferencias extraídas de las técnicas estadísticas pueden conducir a error si se basan en propiedades del sistema numérico que no están siendo asumidas.
- La escala no determina qué relaciones empíricas son asumidas por los datos.
Desafíos Actuales y Mejora del Estatus de la Psicología
¿Qué Falla en Psicología?
- Trabaja con constructos, consenso y separación de la realidad.
- Investigación preclínica vs. humana: falta de intercomunicación.
- Ámbito clínico: preferencia por lo que funciona frente a lo validado.
¿Cómo Mejorar el Estatus de la Psicología?
- Reducir a eventos o conductas simples.
- Analizar en profundidad y con rigor científico, si es posible.
- Integración en marcos superiores desde la conducta específica.
- Modelos clínicos estructurados (no aceptar el todo por el todo).
- El holismo es más realista, pero la intervención estructurada es más científica.
Desarrollo de Tests y Tipologías
Tests Referidos a Normas (TRN) y a Criterio (TRC)
Tests Referidos a Normas (TRN)
Miden el grado de aptitud o nivel de los sujetos en un determinado rasgo, interpretando los resultados en relación a una muestra representativa, sin evaluar si han alcanzado o no objetivos específicos.
Tests Referidos a Criterio (TRC)
Miden el estatus absoluto del sujeto con respecto a un dominio de conductas bien definido.
Comparativa entre TRN y TRC
Características de los TRN
- Objetivo: Manifestar diferencias individuales en el rasgo o conducta que mide el test.
- Construcción: Basados en teorías existentes sobre el rasgo a medir.
- Ítems: Buscan maximizar la varianza.
- Puntuación: Indica la puntuación verdadera del rasgo latente en un grupo normativo.
Características de los TRC
- Objetivo: Estimar el rendimiento en objetivos específicos.
- Requisitos: Delimitación clara del dominio de conductas a evaluar.
- Ítems: Seleccionados en función del objetivo y uso del test.
- Puntuación: Es un estimador de la conducta, con significado en términos absolutos.
Finalidad de los Instrumentos de Medición
Los instrumentos de medición sirven para medir fenómenos, obtener información y valorar actitudes, opiniones y creencias a través de temas y grupos.
Usos Específicos de los Tests
- Diagnóstico: Se usa para detectar déficits comportamentales o de aprendizaje. Ejemplo: Diagnóstico de depresión (Beck).
- Selección: En el ámbito clínico (es o no admitido), educativo (si se acepta o no en programa de estudio), o profesional (selección de personal).
- Clasificación: Asignar sujetos a distintas categorías. Ejemplo: WISC-IV.
- Certificación: Acreditación profesional.
Construcción de Tests Psicológicos
Componentes de un Test
- Título
- Introducción
- Instrucciones
- Ítems
- Ítems complementarios
- Datos sociodemográficos
Fases de Construcción de un Test
1. Marco General
- Justificación detallada de la creación del instrumento.
- Delimitación clara de la variable objeto de medición.
- Delimitación del contexto de aplicación (población y circunstancias).
- Propósito del uso de las puntuaciones.
Tipos de Aproximación
- Ideográfica: Para obtener información de un caso específico.
- Nomotética: Para obtener información sobre principios y verdades universales.
Delimitación de Interés
- Determinar si el interés se centra en procesos o resultados.
2. Definición de la Variable Medida
- Determinar si la variable-constructo es directa (observable) o indirecta (latente). Si es latente, necesita tareas o cuestiones que sean indicadores observables del concepto o de la variable manifiesta.
Definición Operativa
- Búsqueda bibliográfica actualizada.
- Consulta a expertos.
- Evitar infrarrepresentación o sobrerrepresentación.
- No incorporar facetas o ítems sin relación.
Definición Semántica
- Identificar facetas, dominios o conductas de la variable a medir.
Definición Sintáctica
- Identificar la relación establecida entre ellas o con otras variables de interés.
3. Especificaciones
- Requerimientos de aplicación del instrumento (papel o digital).
- Tipo de aplicación (individual o grupal).
- Lugar de aplicación.
Requerimientos Cognitivos
- Llevar a cabo adaptaciones del instrumento avaladas por evidencia empírica.
Relación con los Ítems
- Especificar tipo, número, longitud, contenido y orden.
- Formato de respuesta o tipo de alternativa.
4. Construcción de Ítems
Es un proceso iterativo: revisión de fuentes, consulta a expertos, revisión de instrumentos similares, supervisión de la redacción y calidad de los ítems, selección y entrenamiento de redactores de ítems.
Principios Básicos de Redacción de Ítems
- Representativos.
- Diversidad.
- Claridad, sencillez y comprensibilidad.
- Incluir la idea central en el enunciado y no en las alternativas.
5. Edición
Correcta composición, impresión y formato de la primera versión del test.
6. Estudios Piloto
- Encuesta piloto.
- Realizar ajustes.
- Lanzar estudio.
Parámetros Cuantitativos en Estudios Piloto
- Índice P: Proporción de personas que responden a una determinada alternativa en relación con todos los que responden (entre 0 y 1). Si P se asocia a un test de ejecución máxima, un valor cercano a 1 indica un ítem muy fácil.
- Índice de Dificultad: Proporción de personas que responden correctamente a un ítem (entre 0 y 1).
7. Propiedades Psicométricas
- Análisis de ítems.
- Estimación de fiabilidad.
- Evidencias de validez.
- Construcción de baremos.
Fiabilidad de los Tests Psicológicos
Concepto de Fiabilidad
La fiabilidad de un test se refiere a la consistencia y precisión de sus puntuaciones, es decir, que estén libres de errores de medida. Sin embargo, las puntuaciones siempre están asociadas a cierto grado de error, mezclado con la puntuación verdadera. Para separarlos, se aplican procesos que dan origen a las teorías de los tests.
Modelo Lineal o Clásico de Spearman (TCT)
Asume que la puntuación obtenida en un test o puntuación empírica (X) está formada por una puntuación verdadera (V) y un error (E), debido a causas que escapan a nuestro control: X = V + E.
Supuestos del Modelo Clásico de Spearman
- 1. La puntuación verdadera (V) es la esperanza matemática de las infinitas puntuaciones empíricas que alguien puede obtener.
- 2. La correlación existente entre las puntuaciones verdaderas de ‘n’ sujetos en un test y los errores de medida es 0. No hay relación entre la puntuación verdadera y el error.
- 3. La correlación entre los errores de medida que afectan a las puntuaciones de sujetos en dos tests diferentes, o entre errores de medida del mismo test en diferentes momentos, es 0. No hay relación.
Deducciones del Modelo Clásico de Tests
- El error de medida se define como la diferencia entre la puntuación empírica del sujeto y la verdadera: E = X – V.
- La esperanza matemática de los errores de medida es 0.
- La media de las puntuaciones empíricas es la media de las puntuaciones verdaderas.
- La covarianza entre puntuaciones verdaderas y errores es 0.
- La varianza de las puntuaciones empíricas es la suma de la varianza de las puntuaciones verdaderas más la varianza de los errores: σ²x = σ²v + σ²e.
- La covarianza entre puntuaciones empíricas y verdaderas es la varianza de las puntuaciones verdaderas: σxv = σ²v.
- La correlación entre puntuaciones empíricas y errores es el cociente entre la desviación típica de los errores y la desviación típica de las puntuaciones empíricas: rxe = σe / σx.
- La covarianza de las puntuaciones empíricas de dos tests iguales es la covarianza entre las puntuaciones verdaderas: σx1x2 = σv1v2.
Tests Paralelos
Dos tests X y X’ son paralelos si, además de aplicarse a la misma muestra y cumplir los supuestos anteriores, cumplen que: X = V + E y X’ = V + E’. Esto implica que las puntuaciones verdaderas son iguales, la varianza de error también, el coeficiente de fiabilidad también, y la correlación de cualquiera de las formas paralelas con una variable externa es igual.
Coeficientes e Índices de Fiabilidad
Coeficiente de Fiabilidad
Se mide a través de la aplicación de dos formas paralelas del mismo test. Ambas formas tienen el mismo número de ítems, pero el contenido de los ítems es diferente. El coeficiente será igual a la correlación entre las puntuaciones de ambos tests paralelos.
Proporción de Varianza Observada
rxx’ = σ²v / σ²x
Interpretación del Coeficiente de Fiabilidad
La fiabilidad de las puntuaciones puede ser nula (0) o perfecta (1).
Índice de Fiabilidad
Es la correlación entre las puntuaciones empíricas y las puntuaciones verdaderas: Rxv = σv / σx. El índice de fiabilidad es la raíz cuadrada del coeficiente de fiabilidad, y siempre es mayor que el coeficiente: Rxv = √(rxx’). El coeficiente de fiabilidad también es igual al cuadrado del índice de fiabilidad: rxx’ = r²xv.
Análisis de Regresión y Error de Medida
Análisis de Regresión
Su objetivo es pronosticar puntuaciones verdaderas a partir de puntuaciones observadas en el test.
Error de Medida
Se define como la diferencia entre la puntuación empírica del sujeto y la verdadera: E = X – V. Esta puntuación indica cuánto se acerca la puntuación empírica a la verdadera. Es una medida grupal del error, puesto que se calcula para todos los sujetos de la muestra.
Error Típico de Medida (SEM)
Es la desviación típica de los errores de medida: SEM = σe = σx√(1 – rxx’).
Intervalos de Confianza
Etapas para Calcular Intervalos de Confianza
- Establecer el nivel de confianza (ej., 95-99%).
- Obtener las puntuaciones observadas de la persona en el test, según la escala de puntuaciones deseada para el intervalo.
- Determinar los valores críticos teóricos de la distribución normal estándar de referencia.
- Calcular el error máximo admisible para el nivel de confianza fijado.
- Calcular los límites del intervalo de confianza.
Factores que Afectan la Fiabilidad
Longitud del Test (Número de Ítems)
A más ítems representativos del rasgo, más información del atributo a medir y, por tanto, mayor fiabilidad del test. Se busca la mayor fiabilidad con el menor número de ítems posible.
Variabilidad de la Muestra
El coeficiente de fiabilidad varía en función de la mayor o menor homogeneidad del grupo. A mayor variabilidad, mayor coeficiente de fiabilidad, asumiendo que el error típico de medida se mantiene constante e independiente de la variabilidad. Estudia la relación entre la variabilidad del test y la fiabilidad cuando el error típico de medida es constante e independiente de la variabilidad del grupo.
Ecuación de Spearman-Brown
Estudia la relación entre la longitud del test y la fiabilidad cuando los ítems son paralelos a los del test original.
Fiabilidad y Validez: Conceptos Clave
Un test debe medir el rasgo que debe medir (Validez) y las puntuaciones derivadas de su aplicación deben ser estables y precisas (Fiabilidad).
Métodos para Estimar la Fiabilidad
1. Método de Formas Paralelas (Coeficiente de Equivalencia)
- Método: Construir dos formas paralelas (X y X’).
- Ventajas: Mayor control de las condiciones experimentales si los tests se aplican al mismo tiempo.
- Inconvenientes: Dificultad para crear dos formas verdaderamente paralelas; posible influencia de la primera aplicación sobre la segunda.
2. Método Test-Retest (Coeficiente de Estabilidad)
- Método: Aplicación del mismo test dos veces en diferentes momentos a la misma muestra, calculando el coeficiente de correlación de Pearson entre las puntuaciones de ambas aplicaciones.
- Ventajas: No requiere la creación de dos tests.
- Inconvenientes: Menos control de las condiciones experimentales; posible influencia de la primera aplicación sobre la segunda; el intervalo de tiempo entre aplicaciones es crucial.
3. Fiabilidad como Consistencia Interna
Método de las Dos Mitades
Aporta un índice de consistencia interna, midiendo si los ítems producen resultados similares en un supuesto general. Se aplica el test a la misma muestra en el mismo momento, se divide el test en dos mitades y se calcula la correlación entre las puntuaciones obtenidas en ambas partes.
Ventajas:
- Se reducen problemas derivados de las condiciones experimentales.
- No requiere la aplicación o creación de otro test.
Inconvenientes:
- Las mitades deben ser similares en dificultad y contenido.
- Si los tests son heterogéneos, las mitades no son comparables.
- Posible cansancio si hay muchos ítems.
Fórmulas Específicas para el Método de las Dos Mitades:
- Spearman-Brown: Aplicado cuando ambas mitades cumplen los supuestos de paralelismo.
- Rulon: Utilizado cuando las dos mitades no se consideran paralelas, sino equivalentes (puntuaciones de varianza verdadera iguales, pero varianza de error no necesariamente).
- Guttman-Flanagan: Equivalente a Rulon, de aplicación sencilla, se basa en la varianza de las puntuaciones pares e impares en lugar de la diferencia entre las puntuaciones de ambos subtests.
Métodos Basados en la Covarianza de los Ítems
- Coeficiente Alpha de Cronbach: Expresa la fiabilidad del test en función del número de ítems y de la proporción de varianza total del test por la covarianza de los ítems.
Interpretación del Coeficiente Alpha:
- Muy baja: 0 – 0.19
- Baja: 0.2 – 0.39
- Moderada: 0.4 – 0.59
- Aceptable: 0.6 – 0.79
- Alta: 0.8 – 1
- KR-20: Representa un caso particular de Alpha cuando los ítems son dicotómicos.
- KR-21: Caso particular de Alpha cuando los ítems son dicotómicos y presentan la misma dificultad.
Limitaciones del Modelo Lineal Clásico (TCT)
- La Medición Depende del Instrumento Usado: Para solucionarlo, se transforman las puntuaciones directas en otras baremadas, que son equiparables, aunque es difícil garantizarlo en la práctica.
- Ausencia de Invarianza: Las propiedades psicométricas importantes del test, como la dificultad de los ítems o la fiabilidad del test, están en función del tipo de personas usadas para calcularlas.
Estas limitaciones se superan con la Teoría de Respuesta al Ítem (TRI).
Análisis de Ítems
Concepto y Estrategias de Análisis
El Análisis de los Ítems es el estudio de las propiedades de los ítems que están directamente relacionadas con las propiedades del test, y que influyen en su calidad.
Estrategias de Análisis de Ítems
- Índices que describen la distribución de las respuestas: Medias, varianzas. Si los ítems son dicotómicos, la media del ítem se denomina Índice P (proporción de personas que aciertan el ítem).
- Índices de Discriminación: Describen el grado de relación entre las respuestas a un ítem y algún criterio. Incluyen el índice de dificultad, el índice de discriminación y el índice de validez.
Índice de Dificultad (Pj)
Es igual a la media de un ítem dicotómico: Pj = Aj / N (donde Aj es el número de aciertos y N el número total de sujetos).
Interpretación del Índice de Dificultad:
- 0.75 a 0.95: Muy fácil
- 0.55 a 0.74: Fácil
- 0.45 a 0.54: Normal
- 0.35 a 0.44: Difícil
- 0.05 a 0.34: Muy difícil
Un ítem ofrece su máxima información cuando su varianza es máxima, es decir, cuando p = q (donde p es la proporción de aciertos y q la proporción de errores).
Criterios de Análisis de Ítems
Criterio Interno (Análisis de Homogeneidad)
Utilizado para analizar en qué medida cada uno de los ítems del test mide el mismo atributo psicológico. Se compara cada ítem con la puntuación total del test.
Criterio Externo (Análisis de Validez)
Analiza en qué medida cada uno de los ítems del test predice una variable externa. Para ello, se compara cada ítem con la puntuación obtenida en otro test.
Índice de Homogeneidad D
Divide el grupo en dos subgrupos en función de la media o mediana. El grupo superior está compuesto por puntuaciones superiores a la media, y el grupo inferior por debajo. Se calcula la proporción de éxito en cada ítem (media) para cada grupo (Pjs para el superior y Pji para el inferior). El índice varía de -1 a 1: Dj = Pjs – Pji.
Interpretación del Índice D:
- Satisfactorio: +0.4 o superior
- Requiere revisión: 0.3 a 0.39
- Necesita revisión: 0.2 a 0.29
- Eliminar: Menos de 0.19
Coeficientes de Correlación para el Análisis de Ítems
Coeficiente de Correlación Biserial-Puntual
Aplicación de la correlación de Pearson cuando el ítem es dicotómico y el test es cuantitativo. Se calcula con: Uj (media del test completo acertado), Ux (media de puntuaciones totales), σx (desviación típica de totales), Pj (índice de dificultad del ítem), Qj (1-Pj).
Coeficiente de Correlación Biserial
Estimación de la correlación de Pearson cuando el ítem es dicotomizado y subyace una variable continua distribuida de forma normal. Puede tener un valor mayor a 1.
Relación entre Coeficiente de Correlación Biserial-Puntual y Biserial
Se utiliza en el caso de una distribución normal dudosa. ‘y’ es la ordenada correspondiente a la puntuación típica en la curva.
Coeficiente Phi (ɸ)
Coeficiente de correlación de Pearson, utilizado si ambas variables a correlacionar son dicotómicas.
Correlación Tetracórica
Utilizada si ambas variables a correlacionar están dicotomizadas y se distribuyen normalmente.
Teoría de Respuesta al Ítem (TRI)
Introducción a la TRI
La Teoría de Respuesta al Ítem (TRI) no contradice las asunciones ni las conclusiones fundamentales de la Teoría Clásica de los Tests (TCT), sino que hace asunciones adicionales. Su enfoque se centra en las propiedades de los ítems en lugar de en los tests globales.
Objetivos de la TRI
- Obtener mediciones que no varíen en función del instrumento utilizado, es decir, que sean invariantes.
- Disponer de instrumentos de medida cuyas propiedades no dependan de los objetos medidos, es decir, que sean invariantes respecto de las personas evaluadas.
Postulados Básicos de la TRI
- Parten de la existencia de rasgos o aptitudes latentes que permiten predecir la conducta ante un ítem.
- La relación entre el rendimiento o la conducta de un examinado en un ítem y el conjunto de rasgos puede describirse mediante una función monótona creciente.
Curva Característica del Ítem (CCI)
Características Comunes de la CCI
- La función es no lineal, con forma de ojiva en ‘S’, lo que expresa que la probabilidad de respuesta correcta es una función monótona creciente de la habilidad.
- La respuesta observable al ítem es función de la habilidad latente (θ), así como de ciertas características de los ítems (parámetros), que son los que especifican la forma concreta de la función.
- Especificación de la Dimensionalidad: Es preciso especificar el o los rasgos que mide un ítem o un test. El vector θ puede tener cualquier dimensionalidad, aunque los modelos actuales de mayor uso consideran que el espacio del rasgo es unidimensional.
- Todo sujeto y todo ítem puede situarse en un punto en el espacio del rasgo o atributo.
- Las unidades básicas de análisis serán los ítems del test, ya que el test no es más que un conjunto de ‘n’ ítems.
Ventajas y Supuestos de los Modelos de la TRI
Ventajas de los Modelos de la TRI
- Falsabilidad de los Modelos: A diferencia de los de la TCT, los modelos de la TRI son falsables. Cuando existe ajuste, se consiguen las dos propiedades de invarianza.
- Invarianza de los Parámetros de los Ítems: Son independientes de la muestra particular de sujetos utilizada para su estimación.
- Invarianza de los Parámetros de Aptitud: El parámetro θ para un sujeto particular es independiente del conjunto concreto de ítems utilizado en su estimación, permitiendo una relación lineal en los parámetros estimados y comparación inter o intra-sujeto.
Supuestos de la TRI
- Unidimensionalidad del Espacio Latente: El test es unidimensional, es decir, sus componentes miden esencialmente un solo rasgo psicológico.
- Independencia Local de Ítems: La probabilidad de acertar un ítem es independiente de la probabilidad de acertar el resto de los ítems. La probabilidad de obtener un patrón de respuestas dado a un test se obtiene como el producto de las probabilidades independientes de responder a cada uno de los ítems.
Modelos Logísticos de la TRI
1. Modelo Logístico de Un Parámetro (Modelo de Rasch)
La respuesta a un ítem solo depende de la competencia de la persona (θ) y de la dificultad del ítem. La Curva Característica del Ítem (CCI) viene dada por la función logística.
Características:
- El parámetro de dificultad (bi) representa la proyección del punto de inflexión de la curva cuando la probabilidad de acierto es 0.5.
- La media es 0 y la desviación típica es 1.
- Los valores suelen oscilar entre ±3 o ±4: -3 (baja dificultad), +3 (alta dificultad), 0 (dificultad media).
2. Modelo Logístico de Dos Parámetros
La respuesta a un ítem depende del índice de dificultad (b) y del índice de discriminación (a). La CCI viene dada por la función logística, y los parámetros de los ítems a tener en cuenta son ‘a’ y ‘b’.
Parámetros:
- Parámetro de Dificultad (b): Proyección del punto de inflexión de la curva cuando la probabilidad de acierto del ítem es 0.5.
- Parámetro de Discriminación (a): Proporcional a la pendiente de P(θ) cuando θ=b. Representa la tasa de cambio en la probabilidad de acertar el ítem en función del nivel de habilidad. Los valores suelen oscilar entre 0 y 3.0 (valores altos indican muy buena discriminación).
3. Modelo Logístico de Tres Parámetros
Considera el índice de dificultad (b), el índice de discriminación (a) y la probabilidad de acertar por azar (c).
Parámetros:
- Parámetro de Dificultad (b): Proyección del punto de inflexión de la curva sobre el eje de la habilidad cuando la probabilidad de acertar el ítem es (1+c)/2.
- Parámetro de Discriminación (a): Proporcional a la pendiente de P(θ) cuando θ=b.
- Parámetro de Pseudo-Azar (c): Representa la asíntota menor de la CCI, es decir, la probabilidad de adivinación del ítem.
Interpretación del Parámetro de Pseudo-Azar (c):
- Valores entre 0 y 1.
- Valores cercanos a 1/k (donde k es el número de opciones de respuesta del ítem) indican una mayor probabilidad de acierto por azar.
- Si Cj es distinto de 0, la probabilidad asociada a la respuesta correcta en ‘b’ es (1+Cj)/2. Si Cj es 0, la probabilidad es 0.5.
Validez de los Tests Psicológicos
Concepto de Validez
La validez hace referencia a la adecuación, significatividad y utilidad de las inferencias específicas hechas a partir de las puntuaciones de los tests. Es un proceso unitario.
Consideraciones Importantes sobre la Validez de los Tests
- Se validan las puntuaciones derivadas del test, no el test en sí.
- No es una cuestión de “todo o nada”, sino de grado.
- Un solo estudio no es suficiente.
- La validez es un proceso continuo, no reducido a números.
- La validez debe ser revisada periódicamente.
Tipos de Evidencia de Validez
1. Validez de Contenido
- Relevancia del Constructo: Definición operativa, sometimiento a prueba y derivación de indicadores empíricos para su medición, basada en teoría, juicios de expertos y análisis estadísticos.
- Representación Correcta: Se refiere al grado en que los ítems del test representan los aspectos del constructo a medir, evitando la infrarrepresentación o sobrerrepresentación.
- Procesos de Respuesta: Implica obtener evidencia de la estrategia de respuesta de los sujetos examinados, considerando otros aspectos del proceso de respuesta. Esto incluye la observación y obtención de información directa, el análisis experimental de procesos y componentes de respuesta, y la evaluación por observadores expertos.
2. Validez de Constructo (Evidencia de Estructura Interna)
El estudio de la estructura interna del test y las interrelaciones entre su estructura interna y externa.
- Objetivo: Evaluar en qué medida el test constituye un constructo coherente y riguroso.
- Métodos: TRI, correlaciones inter-ítems e inter-escalas, Análisis Factorial Exploratorio (AFE), Análisis Factorial Confirmatorio (AFC), Funcionamiento Diferencial de los Ítems (DIF).
Análisis Factorial (AF)
Utiliza la correlación entre variables para obtener evidencia de la existencia de variables latentes que pueden determinar el comportamiento de los individuos.
Deducciones y Saturación Factorial:
La covarianza entre un factor y una variable observada viene dada por el coeficiente de correlación/regresión de las variables observadas sobre un factor (F), denominado saturación factorial o carga (valores entre -1 y 1).
Interpretación de la Saturación Factorial:
- Alta: >= 0.6
- Media: >= 0.3
- Ignorar: Menores a 0.29
En el modelo factorial, la varianza de una variable observada se descompone en la varianza explicada por los factores comunes y la varianza única (error).
Análisis Factorial Confirmatorio (AFC)
Permite poner a prueba una hipótesis teórica sobre la estructura y relaciones entre las variables latentes y manifiestas, confiriendo al AF una dimensión nueva.
Análisis Factorial Exploratorio (AFE)
Uso de la matriz de correlaciones entre variables observadas (varianzas-covarianzas) para determinar el número de dimensiones.
Inconvenientes del AFE:
- Naturaleza multivariada.
- Álgebra de matrices.
Criterios para la Elección del Número de Factores:
- Prueba de Significancia de los Residuales (Bartlett): La hipótesis nula establece que todos los eigenvalores son iguales excepto por el error de muestreo. Si la hipótesis se rechaza, se acepta como significativo el primer factor. Este proceso continúa hasta encontrar un factor no significativo.
- Regla de Kaiser: Se deben seleccionar aquellos eigenvalores cuyo valor sea igual o mayor que 1, ya que con este valor su fiabilidad será positiva. Tiende a ofrecer más factores interpretables de los necesarios.
- Scree-Test de Cattell: Representar gráficamente los eigenvalores en el eje de ordenadas y los factores en el eje de abscisas para observar el decrecimiento gráfico de los primeros componentes respecto al resto. El número de factores se determina por la tasa de cambio de los componentes que le siguen.
Rotación de Factores
Se aplica la rotación de factores cuando la interpretación de los factores no rotados proporciona pocos factores claros. El procedimiento de rotación Varimax es utilizado cuando los factores son independientes entre sí.
Matriz Multimétodo-Multirasgo (MM-MM)
Permite evaluar la validez convergente y discriminante.
- Valores Azules: Coeficientes de fiabilidad.
- Valores Verdes: Coeficientes de validez convergente.
- Valores Rojos: Coeficientes heterorasgo-monométodo (correlación entre diferentes rasgos usando el mismo método).
- La correlación entre diferentes rasgos usando métodos diferentes es el coeficiente heterorasgo-heterométodo.
Validez Convergente:
Hace referencia a las correlaciones entre el mismo rasgo medido a través de diferentes métodos. Indica una buena definición de la variable.
Validez Discriminante:
Hace referencia a las correlaciones entre diferentes rasgos medidos con el mismo método. Estas han de ser bajas y menores que la fiabilidad y la validez convergente.
3. Validez de Relación con un Criterio (Validez Predictiva/Concurrente)
La elección del método depende del diseño de recogida de datos para la validación y el número de variables implicadas.
Objetivo:
Obtener evidencias del grado de relación entre las puntuaciones obtenidas en un test y una variable o rasgo que se intenta predecir o inferir.
Métodos y Escenarios:
- Un único test predictor y un solo indicador de criterio.
- Batería de tests: Varios predictores cuantitativos e indicadores cuantitativos, procedimiento basado en la utilidad de la decisión.
- Correlación y Modelos de Regresión Lineal Simple: Correlación, Regresión lineal múltiple y multivariante, Correlación canónica, Teoría de la utilidad multiatributo.
Rango de Valores del Coeficiente de Validez:
- -1: Relación inversa
- 0: Nula
- 1: Positiva
- 0.1 a 0.3: Relación de pequeña magnitud
- 0.31 a 0.49: Moderada
- +0.50: Alta
Coeficientes Derivados de la Validez:
- Coeficiente de Determinación (CD): Equivale al coeficiente de validez al cuadrado (CD = r²xy * 100). Representa la varianza común entre el test y el criterio. Un error típico de estimación pequeño implica que el CD tomará valores próximos a uno.
- Coeficiente de Alineación (CA): Representa la inseguridad o azar que afecta a los pronósticos. Si la varianza del error es alta, implica que los valores pronosticados de Y’ están lejanos de los reales, y el CA tomará valores próximos a uno (entre 0 y 1).
- Coeficiente de Valor Predictivo: Proporción de seguridad en los pronósticos (entre 0 y 1). Cuanto mayor sea el CA, menor será la capacidad del test para pronosticar el criterio.
Factores que Afectan al Coeficiente de Validez:
- Fiabilidad de las puntuaciones del test y fiabilidad del criterio.
- Tamaño del test.
- Restricción de rango.
- Dicotomización.
Interpretación de Puntuaciones de Tests
Preparación para la Interpretación
- Aplicar el test a una muestra representativa para mayor fiabilidad.
- Seleccionar el procedimiento de muestreo adecuado.
- Obtener las puntuaciones en el test para cada sujeto.
Puntuaciones Basadas en Normas (TRN)
Puntuaciones Típicas (Z)
Indican el número de desviaciones típicas que un sujeto se aparta de la media (Zx).
Puntuaciones Típicas Derivadas
Transformación de las puntuaciones típicas con el objetivo de evitar los signos negativos y los números decimales. Las medias y desviaciones típicas son arbitrarias y obedecen a exigencias prácticas.
Percentiles
Porcentaje de sujetos en el grupo normativo con valores en el rasgo psicológico menores o iguales. No es una escala de unidad constante.
Puntuaciones Típicas Normalizadas
Calcular los percentiles, dividir por 100, buscar dicha proporción en tablas de la curva normal e identificar la puntuación típica normal.
Puntuaciones Basadas en Criterio (TRC)
Se centran en lo que el sujeto sabe o es capaz de hacer.
Puntuación de Dominio
Se basa en la proporción de ítems del dominio evaluado que el sujeto es capaz de responder correctamente.
Mapeo de Ítems:
Asocia las puntuaciones en el test con los ítems que con mayor probabilidad se responderían correctamente, mostrando el ítem que mejor ilustra el rendimiento esperado.
Descripción del Nivel de Desempeño:
Mediante expertos, se establecen los niveles de desempeño asociados a determinadas puntuaciones en el test, con el objetivo de informar del nivel de competencia a los interesados. Se indica qué sabe hacer el sujeto que se encuentra en ese rango de puntuaciones.
Puntuación de Corte (Puntuación de Criterio)
Se establece en comparación con un criterio definido como un punto de corte en la escala de las puntuaciones del test.
Métodos para Establecer Puntuaciones de Corte:
- Métodos Empíricos: Requieren aplicar pruebas y recoger datos del test para establecer la puntuación de corte.
- Métodos Valorativos: Se solicita a un grupo de jueces expertos que evalúen el nivel mínimo de competencia.
- Métodos Mixtos: Utilizan tanto datos valorativos como empíricos para establecer la puntuación de corte.
Ética y Responsabilidad en el Uso de Tests Psicológicos
Normativa y Competencias
Competencias Mínimas (Moreland):
Moreland identificó 12 competencias mínimas para el uso de tests.
Normativa para el Uso de Tests:
Regulada por organismos como el Consejo General de la Psicología de España (COP) y la International Test Commission (ITC), con referencias específicas en los artículos 40º, 46º y 18 de sus códigos.
Responsabilidades en el Uso de Tests
- Evitar errores al puntuar y registrar.
- No etiquetar a los individuos.
- Mantener la seguridad de las plantillas y materiales.
- Seguir las instrucciones de aplicación.
- Aplicar en condiciones de rendimiento óptimo.
- No entrenar a los evaluados para el test.
- Interpretar correctamente los resultados.
- No aconsejar basándose únicamente en el test.
- No realizar fotocopias no autorizadas.
- No responder a los ítems del test.
- No asumir que las normas válidas para un grupo son válidas para todos.
- La utilización del daño como objetivo en un rol profesional solo se convertirá en aceptable si la evaluación del daño es imprescindible e inevitable.
Datos Relevantes sobre el Uso de Tests en España
- En encuestas a profesionales españoles, se muestran escépticos sobre la utilización de informes automatizados por ordenador.
- Dentro de los 25 tests más utilizados por profesionales, el WISC se encuentra en primer lugar.