Chi-Cuadrado
- Es una función de densidad
- Deben tomarse los datos al azar, tener variantes independientes, los datos deben representarse con frecuencias absolutas y no porcentajes y valores deben ser mutuamente excluyentes
- Cuando no nos interesan los valores en bruto
- Solo para distribuciones en que se agrupan y que son positivas
- Una dimensión: Bondad de ajuste (gL = n-1)
- Dos dimensiones: Tabla de Contingencia (gL = C-1 * F-1)
H0: ahora es INDEPENDIENTE
H1: ahora es DEPENDIENTE
qchisq para conocer el estadístico teórico para el intervalo de confianza y los grados de libertad de mi muestra
- Si mis valores esperados son menores a 5 o hay valores iguales a 0, se utiliza la prueba de Fisher
#Nutrición de niños y desempeño en escuela
Malo<-c(105,80)
Bueno<-c(15,300)
Desempeño<-data.frame(Malo,Bueno)
Desempeño
## Malo Bueno
## 1 105 15
## 2 80 300
chisq.test(Desempeño)$expected #Valores esperados
## Malo Bueno
## [1,] 44.4 75.6
## [2,] 140.6 239.4
prop.table(Desempeño) #Proporciones de los valores dentro de la tabla
## Malo Bueno
## 1 0.21 0.03
## 2 0.16 0.60
chisq.test(Desempeño) #Prueba de Chi
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: Desempeño
## X-squared = 169.91, df = 1, p-value < 2.2e-16
qchisq(0.95,1) #Estadístico teórico
## [1] 3.841459
Fisher
- Cuando los datos son atipicos, cuando tengo un 0 o un numero de datos menor a 5, o los valores esperados son menores a 5
Solo se analiza el p del Fisher.
Peces<-data.frame(Pequeños<-c(6,6),Grandes<-c(40,90))
Peces
## Pequeños....c.6..6. Grandes....c.40..90.
## 1 6 40
## 2 6 90
chisq.test(Peces) #El chi me dice que me puede dar error porque el p es mayor a 0.05 entonces corro Fisher
## Warning in chisq.test(Peces): Chi-squared approximation may be incorrect
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: Peces
## X-squared = 1.081, df = 1, p-value = 0.2985
fisher.test(Peces) #Al fisher solo se le analiza el p value y este me dice si descarto o acepto H0
##
## Fisher's Exact Test for Count Data
##
## data: Peces
## p-value = 0.2032
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 0.5603624 8.9347974
## sample estimates:
## odds ratio
## 2.235969
Correlación
- Cuando me piden correlación solo analizo la normalidad de los datos y luego corro los analisis estadísticos.
- Parametrico: Correlación de Pearson (Datos normales)
- No parametrico: Spearman(rho) y Kendall(thao) (Datos no normales)
- Grados de libertad son n-2
- Coeficiente de correlación está entre -1 y 1
- Entre más se acerque a 1(o -1) es más fuerte
- Correlación positiva: Cuando aumenta una variable, aumenta la otra
- Correlación negativa: Cuando aumenta una variable la otra dismiuye. (Relación inversa)
- Coeficiente de correlación me dice que tan relacionadas están las variables y el de determinación me dice cuanto explica este modelo esta correlación
x <- c(44.4, 45.9, 41.9, 53.3, 44.7, 44.1, 40.7, 45.2, 60.1)
y <- c(2.6, 3.1, 2.5, 3, 3.6, 4, 3.2, 2.8, 3.8)
shapiro.test(x)
##
## Shapiro-Wilk normality test
##
## data: x
## W = 0.80304, p-value = 0.02212
##
## Shapiro-Wilk normality test
##
## data: y
## W = 0.94856, p-value = 0.6743
cor.test(x, y, method = "spearman") #Como una de las bases de datos no es paramétrica utilizo el metodo de spearman
##
## Spearman's rank correlation rho
##
## data: x and y
## S = 100, p-value = 0.6777
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.1666667
#Coeficiente de correlación: 0.1666667
0.1666667^2
## [1] 0.02777779
#Coeficiente de determinación: 0.02777779
Regresión
Regresión Lineal
- Analizó si hay regresión lineal solamente si estoy seguro que hay una correlación en mis datos a evaluar
- Funciona para predecir comportamientos de los datos.
- Una regresión solo funciona para una población determinada
peso <- c(61, 60, 78, 62, 66, 60, 54, 84, 68)
altura <- c(162, 154, 180, 158, 171, 169, 166, 176, 163)
Tabla <- data.frame(peso, altura)
Regresión <- lm(peso ~ altura, data = Tabla)
summary(Regresión)
##
## Call:
## lm(formula = peso ~ altura, data = Tabla)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.444 -3.447 1.347 4.164 10.549
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -67.4679 51.1995 -1.318 0.229
## altura 0.8007 0.3071 2.608 0.035 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.268 on 7 degrees of freedom
## Multiple R-squared: 0.4927, Adjusted R-squared: 0.4203
## F-statistic: 6.799 on 1 and 7 DF, p-value: 0.03504
- Con los datos de la regresión se puede generar una ecuación de la recta para elaborar las futuras predicciones, en el caso de la regresión pasado la recta sería y = -67.4679 + 0.8007x
Analisis de Varianzas (ANOVA/ANDEVA)
- SE USA SIEMPRE EN PRUEBAS CON MÁS DE DOS POBLACIONES
- Pruebas paramétricas: Fisher -> Cuando está balanceado: Turkey
- Pruebas no paramétricas: Kruskal-Wallis
- Las muestras deben ser completamente aleatorias y deben estar en las mismas condiciones
- Se necesita de menos muestras.
- Diseño Factorial (de factores): Puedo relacionar mis datos con otras variables (Como la respuesta a un medicamento en distintas concentraciones y su relaci?n con las diferentes edades)
## Loading required package: carData
## Site Al Fe Mg Ca Na
## 1 Llanedyrn 14.4 7.00 4.30 0.15 0.51
## 2 Llanedyrn 13.8 7.08 3.43 0.12 0.17
## 3 Llanedyrn 14.6 7.09 3.88 0.13 0.20
## 4 Llanedyrn 11.5 6.37 5.64 0.16 0.14
## 5 Llanedyrn 13.8 7.06 5.34 0.20 0.20
## 6 Llanedyrn 10.9 6.26 3.47 0.17 0.22
## 7 Llanedyrn 10.1 4.26 4.26 0.20 0.18
## 8 Llanedyrn 11.6 5.78 5.91 0.18 0.16
## 9 Llanedyrn 11.1 5.49 4.52 0.29 0.30
## 10 Llanedyrn 13.4 6.92 7.23 0.28 0.20
## 11 Llanedyrn 12.4 6.13 5.69 0.22 0.54
## 12 Llanedyrn 13.1 6.64 5.51 0.31 0.24
## 13 Llanedyrn 12.7 6.69 4.45 0.20 0.22
## 14 Llanedyrn 12.5 6.44 3.94 0.22 0.23
## 15 Caldicot 11.8 5.44 3.94 0.30 0.04
## 16 Caldicot 11.6 5.39 3.77 0.29 0.06
## 17 IsleThorns 18.3 1.28 0.67 0.03 0.03
## 18 IsleThorns 15.8 2.39 0.63 0.01 0.04
## 19 IsleThorns 18.0 1.50 0.67 0.01 0.06
## 20 IsleThorns 18.0 1.88 0.68 0.01 0.04
## 21 IsleThorns 20.8 1.51 0.72 0.07 0.10
## 22 AshleyRails 17.7 1.12 0.56 0.06 0.06
## 23 AshleyRails 18.3 1.14 0.67 0.06 0.05
## 24 AshleyRails 16.7 0.92 0.53 0.01 0.05
## 25 AshleyRails 14.8 2.74 0.67 0.03 0.05
## 26 AshleyRails 19.1 1.64 0.60 0.10 0.03
## 'data.frame': 26 obs. of 6 variables:
## $ Site: Factor w/ 4 levels "AshleyRails",..: 4 4 4 4 4 4 4 4 4 4 ...
## $ Al : num 14.4 13.8 14.6 11.5 13.8 10.9 10.1 11.6 11.1 13.4 ...
## $ Fe : num 7 7.08 7.09 6.37 7.06 6.26 4.26 5.78 5.49 6.92 ...
## $ Mg : num 4.3 3.43 3.88 5.64 5.34 3.47 4.26 5.91 4.52 7.23 ...
## $ Ca : num 0.15 0.12 0.13 0.16 0.2 0.17 0.2 0.18 0.29 0.28 ...
## $ Na : num 0.51 0.17 0.2 0.14 0.2 0.22 0.18 0.16 0.3 0.2 ...
aov(Al~Site, data = Pottery) -> Anova1
shapiro.test(residuals(Anova1)) #Son normales
##
## Shapiro-Wilk normality test
##
## data: residuals(Anova1)
## W = 0.96933, p-value = 0.606
balanceado=tapply(Pottery$Al,Pottery$Site,length) #Con el tapply puedo saber si son balanceados y dayos de las bases en general
balanceado # no son balanceados
## AshleyRails Caldicot IsleThorns Llanedyrn
## 5 2 5 14
leveneTest(Pottery$Al,Pottery$Site) #En general para conocer la homocedasticidad de los datos
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 3 0.7571 0.5301
## 22
oneway.test(Pottery$Al~Pottery$Site) # uso one way por que son, normales y desbalanceados para saber la homosedasticidad
##
## One-way analysis of means (not assuming equal variances)
##
## data: Pottery$Al and Pottery$Site
## F = 35.66, num df = 3.0000, denom df = 8.9087, p-value = 2.714e-05
pairwise.t.test(Pottery$Al,Pottery$Site,p.adjust.method = "none")
##
## Pairwise comparisons using t tests with pooled SD
##
## data: Pottery$Al and Pottery$Site
##
## AshleyRails Caldicot IsleThorns
## Caldicot 0.00016 - -
## IsleThorns 0.36866 3.0e-05 -
## Llanedyrn 3.3e-06 0.44848 2.7e-07
##
## P value adjustment method: none