Uso del método Angoff para establecer puntos de corte en el diseño de pruebas para evaluar lectura y escritura: un ejemplo con una tarea de dictado de frases

 En los instrumentos relacionados con la evaluación de lectura y escritura, por ejemplo, suele recomendarse que los instrumentos sean válidos, fiables, se administren en un tiempo relativamente breve y que estén alineados con el currículum (Kovaleski et al., 2023). Además de todo lo anterior, estos instrumentos deben llevar a tomar decisiones en base a las puntuaciones obtenidas. Saber qué niño tiene un nivel 'competente', 'en desarrollo' o de 'riesgo moderado' no puede hacerse en base a criterios únicamente normativos (por ejemplo: el 20% que mejor rinde es competente y el 20% que peor rinde está en riesgo). Eso llevaría a detectar erróneamente como niños en riesgo, en contextos donde casi todos rinden muy bien, a niños que realmente no tienen ese perfil. Por el contrario, podría llevar a indicar que son falsamente competentes niños que puntúan algo por encima en un contexto donde el desempeño medio es muy bajo. Como indica Cizek (2012) en su conocido manual 'Setting performance standards' el establecimiento de puntos de corte conlleva siempre un criterio subjetivo. Sin embargo, que sea subjetivo no significa que sea azaroso o desestructurado. Uno de los más interesantes métodos es el desarrollado por Angoff y descrito por Cizek (2012) en su manual. Yo describo aquí uno de los procedimientos del Angoff, que cuenta con muchas variaciones. Veamos qué pasos hay que seguir para aplicarlo a una tarea hipotética de dictado de cuatro frases. Veamos la tarea de dictado de frases.

  • Frase 1 (7 ítems)
  • La guitarra de Cecilia está demasiado estropeada.
  • Frase 2 (8 ítems)
  • El queso azul está en el frigorífico grande.
  • Frase 3 (7 ítems)
  • La araña terrorífica cose una larga tela.
  • Frase 4 (8 ítems)
  • Mi ensalada de tomate con orégano es fantástica.


1. Definir al candidato mínimamente competente para cada uno de los puntos de corte

Este paso consiste en describir con claridad y detalle el perfil del candidato que se sitúa justo en el límite de cada punto de corte. Se especifica qué conocimientos y habilidades posee, qué tipo de tareas es capaz de realizar correctamente y qué errores todavía puede cometer sin dejar de considerarse competente. Cuando existen varios puntos de corte, se define un perfil diferenciado para cada uno de ellos con el fin de que los jueces compartan una referencia común al estimar la probabilidad de éxito en cada ítem. El objetivo es reducir la variabilidad subjetiva de los juicios y garantizar que los puntos de corte reflejen niveles reales de competencia. Veamos los puntos de corte definidos para la tarea de 'dictado de frases'.


Estos puntos de corte deben estar alineados con lo que consideramos que los niños deben haber aprendido en un espacio de tiempo determinado. En el caso de esta prueba, estableceremos su diseño para segundo de Educación Primaria.

2. Revisión de evidencia empírica relativa al funcionamiento del instrumento en contextos reales

Este apartado consiste en incorporar información empírica procedente del pilotaje para contextualizar y contrastar los juicios expertos. Dado que el instrumento ya ha sido aplicado a una muestra suficiente y se dispone de evidencias de fiabilidad y validez, los jueces pueden revisar indicadores clave del funcionamiento real de la prueba. Entre estos indicadores se incluye el índice de dificultad de cada ítem, entendido como la proporción de niños que responden correctamente el ítem respecto al total que lo intenta, lo que permite identificar preguntas especialmente fáciles o difíciles. También se presentan las puntuaciones obtenidas en el pilotaje organizadas por cuartiles, como los percentiles 25, 50 y 75, así como la localización de puntuaciones extremas que se sitúan muy por encima o por debajo de la media, por ejemplo a dos o tres desviaciones típicas. Además, se analiza la distribución de las puntuaciones para comprobar si se ajusta a lo esperado o si aparecen fenómenos como el efecto techo, cuando muchos participantes alcanzan puntuaciones muy altas, o el efecto suelo, cuando se concentran en puntuaciones muy bajas. Toda esta evidencia no sustituye el juicio de los expertos, pero les permite revisar, afinar o justificar los puntos de corte propuestos, asegurando que sean coherentes tanto con el modelo teórico de competencia como con el comportamiento real del test en contextos de aplicación.

3. Valoración de los jueces

En este paso comienza la valoración de los jueves de cada uno de los 30 ítems de la prueba. Para cada ítem, el juez imagina a 100 niños que representan al candidato mínimamente competente para cada punto de corte e intenta responder a la pregunta de cuántos de esos 100 niños la resolverían correctamente si la intentaran. Esa cantidad estimada se transforma directamente en una probabilidad, dividiéndola entre 100. Por ejemplo, si el juez considera que 60 de esos 100 niños acertarían el ítem, la probabilidad asignada sería 0,6. De este modo, todas las estimaciones quedan expresadas en forma de número con un decimal, lo que facilita su posterior promedio y la obtención del punto de corte del examen. Veamos las estimaciones de uno de los 7 jueces que van a participar en este procedimiento (es un número habitual en muchos estudios).




4. Calculo de los promedios

Una vez que los jueces (entre 5 y 15 jueces recomendados) han estimado la probabilidad de acierto de cada ítem, se calcula primero el promedio de esas estimaciones para cada pregunta, combinando los siete valores en uno solo. Ese promedio representa la probabilidad consensuada de que el candidato mínimamente competente responda correctamente ese ítem. A continuación, se suman los promedios de todos los ítems del examen. El resultado de esta suma es el puntaje de corte, ya que indica el número total de ítems que, en promedio, se espera que responda correctamente un candidato mínimamente competente. Este valor puede mantenerse como puntuación continua o redondearse según las normas establecidas para la prueba.

5. Establecimiento de los puntos de corte

Finalmente, los jueces validan el resultado final y consensúan el punto de corte. Veamos los puntos de corte para esta tarea de dictado de frases.



Referencias

Cizek, G. J., & Bunch, M. B. (2012). Standard setting: A guide to establishing and evaluating performance standards on tests. Sage Publications. 

Comentarios