Diferencias entre Medir y Evaluar

Medir consiste en asignar números o categorías a atributos de personas u objetos siguiendo reglas sistemáticas; es un proceso descriptivo que produce datos en bruto, sin emitir ningún juicio sobre el resultado. Evaluar, en cambio, es un proceso más amplio que integra la medición, pero va más allá: implica interpretar esos datos a la luz de un criterio, norma o marco de referencia y emitir un juicio de valor orientado a la toma de decisiones.

Un mismo dato numérico puede conducir a conclusiones muy distintas dependiendo del contexto en que se interprete, de los instrumentos complementarios que se utilicen y del marco teórico desde el cual trabaje el profesional. En psicología esto se aprecia con claridad en el ejemplo de una evaluación de inteligencia: cuando una psicóloga aplica la escala WISC-V a un niño de 8 años con dificultades de aprendizaje y obtiene un CI de 78, ese número constituye la medida, un dato objetivo y replicable que por sí solo no dice nada sobre qué hacer. La evaluación ocurre cuando la psicóloga interpreta ese 78 en relación con la norma estadística poblacional, la historia clínica del niño, su contexto socioeconómico y otras pruebas complementarias, llegando a la conclusión de que el niño presenta un funcionamiento cognitivo que requiere apoyo psicopedagógico.

Es importante señalar que la evaluación psicológica no se reduce a la aplicación de un único instrumento ni a la obtención de un único puntaje; por el contrario, exige una mirada integral que contemple múltiples fuentes de información, como entrevistas clínicas, observación conductual, reportes de padres, madres, familiares y docentes, y pruebas de diversas áreas del funcionamiento, todo ello articulado bajo el juicio crítico y ético del profesional. En definitiva, medir sin evaluar deja los datos sin sentido clínico, mientras que evaluar sin medir corre el riesgo de volverse subjetivo e impreciso. Por lo tanto, ambos procesos son interdependientes y necesarios para una práctica psicológica responsable y centrada en el bienestar de la persona evaluada.

Definición de Psicometría y su Aplicación

La psicometría se define como la rama de la psicología que, mediante el desarrollo de teorías, métodos y técnicas, se ocupa de la medida indirecta de los fenómenos psicológicos. Su objetivo central es proporcionar las garantías científicas necesarias para que la cuantificación de rasgos no observables (latentes) sea objetiva y estandarizada, permitiendo realizar diagnósticos o predicciones que orienten la toma de decisiones profesionales. A diferencia de las magnitudes físicas, donde la medida es directa, la psicometría debe articular una teoría sustantiva para definir el rasgo y una teoría de los tests para realizar inferencias válidas a partir de una muestra de comportamientos observables.

En psicología, esto se ilustra al abordar el constructo «Resiliencia». Dado que la resiliencia es una entidad hipotética y latente, no puede medirse con una regla física; por ello, la psicometría operacionaliza este constructo a través de indicadores observables, como la persistencia ante el fracaso o el mantenimiento del afecto positivo bajo estrés. Al aplicar un test de resiliencia, la disciplina asegura que los resultados no dependan del juicio subjetivo del evaluador, sino de un modelo matemático que estima el nivel real del sujeto, transformando sus respuestas en una puntuación que permite predecir, por ejemplo, su capacidad de ajuste en un entorno laboral de alta presión.

Estandarización de Puntuaciones

Estandarizar es el conjunto de procedimientos que garantizan que un instrumento se aplique, puntúe e interprete de manera uniforme e invariante para todos los examinados. Este proceso busca eliminar el sesgo del evaluador y las variaciones ambientales, asegurando que cualquier diferencia en los resultados se deba exclusivamente al nivel del sujeto en el constructo medido. En términos estadísticos, implica transformar las puntuaciones directas (datos en bruto) en una escala común, como los puntajes z o T, que permiten comparar el desempeño de un individuo frente a su grupo de referencia o entre diferentes instrumentos.

Un ejemplo claro es la aplicación de la PAES (Prueba de Acceso a la Educación Superior) en Chile. Para que el proceso sea justo, las condiciones de administración son idénticas en todo el país (mismos folletos, instrucciones y tiempos). Una vez obtenidos los aciertos, estos se estandarizan mediante la Teoría de Respuesta al Ítem (TRI), de modo que un puntaje determinado represente el mismo nivel de habilidad independientemente del año en que se rindió la prueba. Sin esta estandarización, sería imposible comparar de forma equitativa a estudiantes que enfrentaron versiones del test con distintos niveles de dificultad.

Construcción de Baremos

La construcción de baremos (o baremación) es el proceso técnico de crear tablas normativas que permiten convertir una puntuación directa en una puntuación derivada con referencia a un grupo. El proceso fundamental requiere:

  • Definir la población objetivo y obtener una muestra representativa.
  • Aplicar el test en condiciones estandarizadas.
  • Calcular estadísticos descriptivos (media y desviación típica) por subgrupos relevantes (edad, sexo, etc.).
  • Construir tablas de conversión a percentiles o puntuaciones transformadas.

La calidad del baremo depende de que la muestra normativa sea relevante, representativa y homogénea para evitar inferencias erróneas. En psicología clínica, esto se observa en la adaptación del WISC-V Chile. No bastó con traducir el test; fue necesario aplicarlo a una muestra nacional estratificada por región y nivel socioeconómico. Así, cuando un psicólogo obtiene la puntuación de un niño, no usa la norma de EE.UU., sino el baremo chileno para determinar su percentil. Si el niño se ubica en el percentil 75, el baremo le indica al profesional que ese sujeto supera al 75% de sus pares chilenos de la misma edad, dotando al número de un sentido clínico preciso para el contexto local.

Modelo de 10 Fases para la Creación de Instrumentos

Para crear un instrumento que mida “delegación cognitiva hacia la IA” bajo el rigor psicométrico, se seguirían las fases de Meneses et al. (2016):

  1. Marco General: Determinar que la finalidad es diagnosticar cuánta carga cognitiva transfieren los universitarios a la IA.
  2. Definición del Constructo: Delimitar mediante una teoría sustantiva qué es la «delegación cognitiva».
  3. Muestreo de Conductas: Seleccionar indicadores como «uso de IA para resumir textos» o «confianza ciega en algoritmos».
  4. Especificaciones: Decidir un formato de ejecución típica con escala Likert y administración digital.
  5. Ítems: Redactar reactivos claros y plausibles que representen el dominio.
  6. Teoría de los Tests: Elegir entre TCT o TRI para el análisis estadístico.
  7. Prueba Piloto: Aplicar a un grupo pequeño para evaluar comprensión y refinar ítems.
  8. Estudio de Campo: Aplicar a una muestra representativa para obtener evidencias de fiabilidad y validez.
  9. Manual: Documentar la fundamentación, normas de uso y tablas de baremos.
  10. Revisión: Establecer un proceso de actualización constante ante los cambios tecnológicos.

Teoría Sustantiva

La teoría sustantiva es el marco conceptual y científico que define la naturaleza del constructo latente y guía la selección de indicadores observables que compondrán el test. Es el pilar de la validez, pues asegura que las relaciones entre los ítems sean congruentes con el modelo teórico empleado. Sin una teoría sustantiva sólida, el proceso de inferencia psicométrica carecería de base científica, volviendo la medida una simple acumulación arbitraria de preguntas sin sentido estructural.

Un ejemplo paradigmático es el Inventario de Depresión de Beck (BDI). Su teoría sustantiva es el modelo cognitivo de la depresión, que postula una «tríada cognitiva» (visión negativa de sí mismo, del mundo y del futuro). Por tanto, los ítems del test deben reflejar estos componentes cognitivos y no centrarse solo en síntomas físicos como el insomnio; si el test ignora la teoría de Beck en su construcción, dejaría de medir el constructo según su definición científica, invalidando las interpretaciones posteriores.

Necesidad de Construcción y Adaptación de Instrumentos

Construcción de nuevos instrumentos

Es necesario construir un instrumento nuevo cuando existe una necesidad de medición indirecta sobre un fenómeno para el cual no existen pruebas disponibles en la literatura que cuenten con garantías científicas o manuales adecuados para el propósito específico. Por ejemplo, si una organización requiere seleccionar ingenieros para un puesto que exige habilidades en «ética de algoritmos cuánticos», y no encuentra ningún test estandarizado, el psicólogo debe construir uno, definiendo el contenido, redactando ítems y realizando un estudio de campo.

Adaptación de instrumentos

La adaptación es indispensable cuando un test se traslada a un contexto cultural, lingüístico o poblacional diferente al de su creación original. El objetivo es garantizar que la medida sea válida y justa, evitando el sesgo o funcionamiento diferencial del ítem (DIF). Un ejemplo es el test de personalidad ZKPQ, que para ser usado en España o Chile requirió una adaptación cultural y la construcción de nuevos baremos locales.

Resguardos Éticos en la Evaluación

Significa que el proceso se articula bajo el juicio crítico y responsable del profesional, priorizando siempre el bienestar de la persona y el respeto por sus derechos humanos. Actuar con resguardo ético implica utilizar instrumentos con evidencias de fiabilidad y validez, garantizar la confidencialidad, evitar etiquetas discriminatorias y reconocer que un puntaje es solo una parte de una mirada integral que debe considerar la historia clínica y el contexto socioeconómico del sujeto.

Un ejemplo de resguardo ético ocurre en la selección de personal: el psicólogo debe realizar estudios de sesgo (DIF) para asegurar que el test no discrimine por género o etnia. Si al evaluar a un candidato, el profesional detecta que el instrumento es sexista, su compromiso ético le obliga a desestimar esos resultados o corregir la prueba. En definitiva, lo ético es no reducir a la persona a un número vacío (medida), sino interpretar ese dato con prudencia para favorecer su desarrollo y no su estigmatización.