Distribución Chi Cuadrado

  • Se utiliza para análisis de frecuencias.
  • Requiere que las muestras sean tomadas al azar, que las variables medidas sean independientes, que los datos sean reportados en frecuencias absolutas, que las categorías de las variables sean mutuamente excluyentes y que las frecuencias observadas no sean pequeñas.
  • Se comparan las frecuencias observadas con las esperadas en función de la hipótesis nula.
  • Hipótesis: H0 plantea igualdad y H1 diferencia.
    • H0: Independiente/Azar/Homogéneas
    • H1: Dependiente/No azar/No Homogéneas
  • Se usa para calcular intervalos de confianza y pruebas de hipótesis para la varianza poblacional, para hacer pruebas de bondad de ajuste y para hacer análisis de tablas de contingencia.
  • Hay dos tipos de pruebas: mediante una vía (Prueba de Bondad de Ajuste) o dos vías (Prueba de Independencia y Prueba de Homogenidad).
  • Si la prueba es de una vía, para trabajar en R se debe hacer corrección de Yates de forma manual, mientras que si es de dos vías esta es realizada automáticamente por el programa.
  • La prueba de independencia (prueba de Fisher) se realiza cuando se tienen tablas de contingencia (2x2), cuando existen valores de cero, cuando los valores esperados son menores a 5 o cuando la proporción supera al 20% de las celdas con valores observados menores a 5.
  • La prueba de homogeneidad indica si las muestras obtenidas provienen de poblaciones homogéneas con respecto a algún criterio de clasificación.

Regresión y Correlación

  • Las relaciones entre dos variables aleatorias se denominan correlaciones, y se miden en escalas ordinales o de intervalos.
  • El coeficiente de correlación lineal de Pearson (r) es un estadístico paramétrico que se aplica cuando las observaciones aleatorias están medidas en escalas de intervalos, y determina si hay relación lineal entre dos variables.
  • Sus propiedades son: es adimensional, su valor oscila entre -1 y 1, si r=0 entonces las variables no están correlacionadas, si r=+1 o r=-1 entonces la relación lineal es perfecta entre las variables, por lo tanto entre más cerca esté r de -1 o +1 mejor será la relación lineal.
  • Si hay independencia entre las variables entonces no hay correlación.
  • El coeficiente de determinación (r2) es una medida de la proporción de la variabilidad en una variable.
  • Cuando se tienen datos asimétricos, donde las variables en vez de ser numéricas son ordinales, se aplican coeficientes de correlación con estadísticos no paramétricos como Spearman o Kendall.
  • La correlación de Spearman se aplica cuando al menos una de las variables de “x” o “y” es medida en una escala ordinal, cuando ni “x” ni “y” tienen distribución normal y cuando el tamaño de muestra es pequeño.
  • La regresión considera la ecuación de la recta que mejor se ajuste a la nube de puntos (recta de mínimos cuadrados), para lo cual se toma una variable aleatoria dependiente Y, la cual tiene distribución normal y está relacionada con otra variable (no necesariamente aleatoria) independiente X. Esto nos permite estimar o predecir los valores de Y que se obtendrían para distintos X.
  • Todas las distribuciones de y tienen la misma varianza.
  • Se describe la ecuación y = a + bx.
  • Cuando para los valores de X por encima de la media se tienen valores de Y por encima y por debajo en proporciones similares entonces hay incorrelación.
  • Cuando para los valores de X por encima de la media se tienen valores de Y mayores también, y para los valores de X por debajo de la media se tienen valores de Y menores también, entonces se tiene una relación directa.
  • Cuando para los valores de X por encima de la media se tienen valores de Y menores, y para los valores de X por debajo de la media se tienen valores de Y mayores, entonces se tiene una relación inversa.
  • Para el modelo de regresión lineal, los residuos se distribuyen según una normal de media cero, deben ser independientes unos de otros y tener varianza constante.
  • Un valor extraño (outlier) es un dato extremo, que parece anómalo, y que a veces se debe a errores de registro al introducir los datos, pero que también pueden ser valores correctos realmente observados.

Análisis de la Varianza (ANOVA / ANDEVA)

  • La prueba de varianza permite determinar que las poblaciones de las que se extraen las muestras no tienen varianzas iguales y decidir si debemos usar pruebas paramétricas o no paramétricas.
  • Se utiliza para estimar y probar hipótesis respecto a las varianzas y a las medias poblacionales.
  • Permite hacer comparaciones entre las medias de varias muestras en una sola prueba.
  • Compara los diversos valores medios para determinar si alguno de ellos difiere significativamente del resto.
  • Hipótesis:
  • Supuestos:
    1. Cada conjunto de datos debe ser independiente del resto.
    2. Los resultados obtenidos para cada conjunto deben tener normalidad.
    3. Las varianzas de cada conjunto de datos deben ser homogéneas.
    4. Los datos deben tener aleatoriedad.
  • Se debe descomponer la variabilidad total de los datos en dos fuentes de variación: entre y dentro.
  • Tres tipos de modelos: de efectos fijos (tratamientos usados son de interés específico y fijados por el investigador), de efectos aleatorios (no sontratamientos fijados de antemano, sino aleatorios) y mixtos (algunos efectos fijos y otros aleatorios).
  • Tipos de diseño experimentales:
    • Diseño completamente aleatorizado: Investiga una sola fuente de variación. Asigna objetos o individuos de forma aleatoria. Se usa solo cuando las unidades que reciben los tratamientos son homogéneas.
    • Diseño de bloques completamente aleatorizado (ANOVA bilateral): unidades experimentales se distribuyen en grupos o bloques, por lo que dentro de un bloque son relativamente homogéneas. Los factores se asignan aleatoriamente en el espacio. Poseen condiciones similares que difieren de los otros bloques.
    • Diseño de mediciones repetidas: Permiten controlar la variabilidad entre los individuos estudiados y obtener respuestas sobre el tiempo. Necesita de menos muestras.
    • Diseño factorial: Las variables de interés reciben el nombre de factores. Se da el experimento factorial cuando se involucran dos o más factores de forma simultánea. Hay interacción, se produce un cambio de respuesta de un factor a otro.
    • Efectos de bloques al azar: Cuando se estudia la influencia de un factor sobre una variable cuantitativa es frecuente que aparezcan otras variables o factores que también influyen y deben ser controladas. Estas variables se denominan variables bloque, se caracterizan porque aparecen de forma natural y obligada y no tienen interacción con el factor de estudio.
  • Se deben cumplir los supuestos de normalidad, linealidad, independencia y homocedasticidad u homogeneidad (se prueba mediante test de Levene).
  • El test de Bartlett se usa cuando los datos provienen de una distribución normal, mientras que el de Levene cuando no se está seguro si los datos son normales.
  • Prueba de Cochran permite detectar si una varianza es mucho más grande que las otras, mientras que la prueba de Hartley asume que las poblaciones son normales e independientes y los tamaños de las muestras son iguales.