23 de septiembre de 2018

¿Por qué usamos tests?

Medición

¿Qué es la medición?

  • Asignación de valores numéricos a variables de los individuos.

¿Qué es una variable?

  • Es una característica o atributo que puede cambiar de un individuo a otro.

  • Las variables pueden ser variables observables o variables no observables.

Variables

Observables

  • Son aquellas que pueden medirse de manera directa.

  • Variable observable

Variables

No observables

  • Son aquellas que no pueden medirse directamente, la medición de estas variables se lleva a cabo a través de instrumentos (test).

  • Variable no observable

Variables

De acuerdo a su distribución

  • Las variables pueden ser discretas o continuas

Variables

Discretas

  • Son aquellas que solo pueden tomar los valores determinados en la escala de medición.

Variables

Continuas

  • Son variables que pueden tomar todos los valores intermedios entre las unidades de medición de la escala.

¿Qué son los niveles de medición?

  • Es una clasificación de variables de acuerdo a como se miden.

  • Los niveles de medición son:

  1. Nominal

  2. Ordinal

  3. Intervalar

  4. Razón

  • Estos niveles son sumativos por lo que cada nivel incluye las características de los niveles anteriores.

Nivel de medición

Nominal

Únicamente se diferencian por el nombre

Nivel de medición

Ordinal

Además del nombre tienen un orden

Nivel de medición

Intervalar

La distancia entre cada valor de la escala es la misma

Nivel de medición

Razón

Cero absoluto

Psicometría

¿Qué es la psicometría?

  • Es la especialidad de la psicología que estudia los procesos de medición (Martínez Arias, Hernández y Hernández, 2014).

  • Se compone de un conjunto de modelos formales que establecen las bases para que la medición de los fenómenos psicológicos y educativos se realicen de forma adecuada.

  • La psicometría es la base para el desarrollo y uso de pruebas o test psicológicos (y educativos).

  • El desarrollo de test debe estar enmarcado por una teoría de la medición.

¿Cuáles son la teorías de medición utilizadas en la psicometría?

  • Teoría Clásica de los Test (TCT)

  • Teoría de la Generalizabilidad (TG)

  • Teoría de la Respuesta al Ítem (TRI)

¿Cuáles son los principios del modelo psicométrico?

  • Confiabilidad

  • Validez

  • Comparabilidad

  • Equidad

Calidad de una prueba

La calidad de una prueba psicológica o educativa se mide a travéz de las evidencias de validez con las que cuente la prueba.

  • ¿Para qué utilizamos las pruebas psicológicas?

  • ¿Cuál es el objetivo de utilizarlas?

  • ¿Por qué es importante la calidad de las pruebas?

  • ¿Dónde obtenemos evidencias de la calidad de una prueba?

Para poder decidir si un estudio de investigación cuenta con suficiente sustento para ser convincente es necesario que cuente con evidencias de validez.

  • ¿Qué es la validez?

  • ¿Cuáles son las evidencias de validez de una prueba?

Validez. Anteriormente se definía la validez como el grado en que el instrumento utilizado midía realmente lo que se quiería medir.

No obstante, la validez se refiere a las inferencias que se realizan de los resultados y no a los instrumentos o resultados propiamente.

De acuerdo con los Standards for Educational and Psychological Testing (AERA, APA y NCME, 1999, p. 11) se entiende la validez como "el grado en que la evidencia y la teoría sustentan las interpretaciones de los resultados de una prueba de acuerdo con los usos propuestos para la prueba".

La validez es suceptible a las características específicas del contexto: a un investigador le interesa conocer sus inferencias son válidas para una cultura, situación o circunstancia en específico.

Fuentes de evidencias de validez

De acuerdo con Sireci y Padilla (2014) existen cinco fuentes de evidencias de validez:

  • Contenido de la prueba
  • Procesos de respuesta
  • Estructura interna
  • Relación con otras variables
  • Consecuencias de la prueba

Evidencias de contenido

Corresponden a los elementos descritos por Sireci (1998):

  • Definición del dominio
  • Representación del dominio
  • Relevancia del dominio
  • Pertinencia de los procesos de construcción

Evidencias de procesos de respuesta

Están muy relacionadas con el contenido de la prueba y se centran principalmente en el sesgo de las respuestas propiciado por el contenido de los reactivos propiciando patrones diferentes a lo esperado (AERA et al., 1999, p. 78).

  • Si Pablo tiene un billete de 100 pesos, ¿cuánto confeti necesita para comprar el balón (89.00) y la raqueta (93.50)?

Evidencias de estructura interna

La estructura interna define el grado en que la relación entre los reactivos de la prueba se ajustan al constructo en el que se basan las inferencias (AERA et al., 1999, 56).

Las evidencias de la estructura interna brindan información sobre :

  • Dimensionalidad
  • Invarianza de medición
  • Confiabilidad

Evidencias de relación con otras variables

La relación con otras variables se entiende como la relevancia de los resultados con respecto a otra variable.

Evidencias con base en las consecuencias de la prueba

Se centran en la congruencia de la evaluación con los usos propuestos para la prueba.

Considera también los usos alternos, tratando siempre de maximizar los efectos positivos y minimizar los negativos.

Reporte de resultados de un test

Decisión en la prueba de hipótesis

Apoyar o no una hipótesis no significa que se apruebe o rechace de manera tajante.

Hipótesis no direccional

\(H_0: a=b\)

\(H_i: a\neq b\)

Hipótesis direccional

\(H_0: a\not< b\)

\(H_i: a\leq b\)

¿p-value?

Históricamente se ha utilizado el valor p como el estadístico indicado para reportar la significatividad de los resultados.

Tamaño del efecto

De acuerdo con descubrimientos recientes basar la decisión en de una prueba de hipótesis en el nivel de significancia obtenido regularmente mediante el valor p, representa limitaciones y sesgos en las decisiones, por tal motivo la Asociación Americana de Psicología (APA, por sus siglas en inglés) recomienda reportar el tamaño del efecto de un tratamiento, sus intervalos de confianza y el poder estadístico de la prueba utilizada.

Tamaño del efecto y significancia estadística

En 1999 la Fuerza de tarea en inferencia estadística de la Asociación Americana de Psicología (APA), instó a los autores a reportar el tamaño del efecto: "Siempre proporcione una estimación del tamaño del efecto cuando reporte un valor p" (Wilkinson & APA Task Force on Statistical Inference, 1999, p. 599).

Por lo anterior, la cuarta edición del Manual de publicación de la APA (1994, p.18) alentó a los autores a reportar el tamaño del efecto.

Para la quinta edición (2001), esta recomendación se convirtió en una necesidad:

"Para que el lector comprenda completamente la importancia de sus hallazgos, casi siempre es necesario incluir un índice del tamaño del efecto o de la fuerza de asociación en su sección de Resultados… El principio general a seguir… es proporcionar al lector no solo información sobre la significancia estadística sino también suficiente información para evaluar la magnitud del efecto observado o la relación." (APA, pp. 25-26).

La prueba de hipótesis es todavía una práctica dominante en las ciencias sociales aún cuando existe evidencia de que no hay una buena comprensión de ella y frecuentemente se hace un uso indebido que conduce a conclusiones incorrectas. Además de las recomendaciones de la Fuerza de tarea en inferencia estadística de la APA, existen otros autores como Kline (2004) que instan a un cambio en las ciencias sociales de la prueba de hipótesis a otras técnicas con mejores resultados como el ES y el IC.

Tipos de error

Error Tipo I

  • Rechazar la hipótesis nula cuando es verdadera

Error Tipo II

  • Aceptar la hipótesis nula cuando es falsa

Tipos de error

Falsos positivos / Falsos negativos

¿Qué es el poder estadístico?

Poder estadístico

El poder estadístico de una prueba se define como la probabilidad de que el investigador rechace la hipótesis nula cuando ciertamente es falsa dado cierto tamaño del efecto, nivel de significancia, tamaño de la muestra y la prueba estadística utilizada. Así como la significancia estadística (\(\alpha\)) reduce la posibilidad de cometer un error tipo I, el poder estadístico (\(1-\beta\)) reduce la posibilidad de cometer un error tipo II.

¿Qué es el tamaño del efecto?

¿Qué tanto es tantito?

El tamaño del efecto (ES, por sus siglas en inglés) no es otra cosa que la cantidad de algo que es de interes. Por ejemplo, si un investigador postula una hipótesis nula en la que la prevalencia de trastorno de ansiedad generalizada es la misma en tres poblaciones y la prevalencia en las muestras utilizadas es la misma entonces el tamaño del efecto es cero. En la medida en que la prevalencia de las muestras varie de lo postulado en la hipotesis nula, el tamaño del efecto variará con respecto del cero.

¿Qué son los intervalos de confianza?

Intervalos de confianza

Contextualizando en el tamaño del efecto, los intervalos de confianza (IC) es un intervalo estimado para el tamaño del efecto observado en una población en el cuál se espera encontrar el ES real en la población. El rango de este intervalo se extiende hacia ambos lados de la estimación del ES y su amplitud indica la precisión de la estimación. La extensión hacia cada uno de los lados de la estimación se conoce como margen de error o error de medición.

¿Qué debo revisar de un test?

  • Definición operacional y conceptual

  • Estructura

  • Número y tipo de reactivos

  • Escala de medición

  • Tipo de aplicación

  • Evidencias de validez de contenido, procesos de respuesta, estructura interna, relación con otras variables y consecuencias de la evaluación

  • Estandarización para población objetivo

Ejemplo

  • La Escala de soledad de la UCLA es un cuestionario diseñado para medir sentimientos subjetivos de soledad y aislamiento social. Consta de 20 reactivos de escala tipo Likert del tipo “No tengo a nadie con quien hablar” con cinco opciones de respuesta graduada que indican con que frecuencia el sujeto tiene esa sensación: O “Regularmente me siento así”; S “A veces me siento así”; R “Rara vez me siento así”; N “Nunca me siento así´”. Esta escala ha sido probada para población estadounidense y se ha revisado dos veces para crear reactivos de calificación inversa y para simplificar los enunciados. De acuerdo con un metanálisis realizado por Russell (1996) indica que la escala presenta una confiabilidad entre 0.89 y 0.9.

López, Del Río y Ruiz (2014) llevaron a cabo un análisis psicométrico de la escala en una muestra de guardias civiles de España.

Los resultados indican una confiabilidad de \(\alpha = 0.954\). Se calculó un KMO (0.969), la prueba de esfericidd de Barlett (\(χ^2_{(190)}=14.406,221, p<0,000\)) y el determinante de la matriz de correlaciones (\(1.8e^{-6}\)).

  • ¿Para qué nos sirven estos estadísticos?

Se utilizó la matriz de correlaciones policóricas (explica el 81.49% de la varianza total), extrayendo dos componentes a través el método de Componentes Principales y la rotación Varimax (10.184 y 1.080).

Consideraciones finales

Para el psicólogo clínico es indispensable contar con bases psicométricas sólidas que le permitan evaluar la calidad de los test que utiliza para el diagnóstico y seguimiento de resultados en su quehacer.

Asimismo, es indispensable contar con una formación sólida en metodología que le permita identificar las amenanzas a la validez, tanto interna como externa, de las pruebas psicológicas reportadas en la literatura.

Muchas gracias

rpubs.com/tonosan/CIP | antonio.martinezpineda@gmail.com