Chi-Cuadrado

- Es una función de densidad

- Deben tomarse los datos al azar, tener variantes independientes, los datos deben representarse con frecuencias absolutas y no porcentajes y valores deben ser mutuamente excluyentes

- Cuando no nos interesan los valores en bruto

- Solo para distribuciones en que se agrupan y que son positivas

- Una dimensión: Bondad de ajuste (gL = n-1)

- Dos dimensiones: Tabla de Contingencia (gL = C-1 * F-1)

H0: ahora es INDEPENDIENTE

H1: ahora es DEPENDIENTE

qchisq para conocer el estadístico teórico para el intervalo de confianza y los grados de libertad de mi muestra

- Si mis valores esperados son menores a 5 o hay valores iguales a 0, se utiliza la prueba de Fisher

#Nutrición de niños y desempeño en escuela
Malo<-c(105,80)
Bueno<-c(15,300)
Desempeño<-data.frame(Malo,Bueno)
Desempeño

##   Malo Bueno
## 1  105    15
## 2   80   300

chisq.test(Desempeño)$expected #Valores esperados

##       Malo Bueno
## [1,]  44.4  75.6
## [2,] 140.6 239.4

prop.table(Desempeño) #Proporciones de los valores dentro de la tabla

##   Malo Bueno
## 1 0.21  0.03
## 2 0.16  0.60

chisq.test(Desempeño) #Prueba de Chi

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  Desempeño
## X-squared = 169.91, df = 1, p-value < 2.2e-16

qchisq(0.95,1) #Estadístico teórico

## [1] 3.841459

Fisher

- Cuando los datos son atipicos, cuando tengo un 0 o un numero de datos menor a 5, o los valores esperados son menores a 5

Solo se analiza el p del Fisher.

Peces<-data.frame(Pequeños<-c(6,6),Grandes<-c(40,90))
Peces

##   Pequeños....c.6..6. Grandes....c.40..90.
## 1                   6                   40
## 2                   6                   90

chisq.test(Peces) #El chi me dice que me puede dar error porque el p es mayor a 0.05 entonces corro Fisher

## Warning in chisq.test(Peces): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  Peces
## X-squared = 1.081, df = 1, p-value = 0.2985

fisher.test(Peces) #Al fisher solo se le analiza el p value y este me dice si descarto o acepto H0

## 
##  Fisher's Exact Test for Count Data
## 
## data:  Peces
## p-value = 0.2032
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.5603624 8.9347974
## sample estimates:
## odds ratio 
##   2.235969

Correlación

- Cuando me piden correlación solo analizo la normalidad de los datos y luego corro los analisis estadísticos.

- Parametrico: Correlación de Pearson (Datos normales)

- No parametrico: Spearman(rho) y Kendall(thao) (Datos no normales)

- Grados de libertad son n-2

- Coeficiente de correlación está entre -1 y 1

- Entre más se acerque a 1(o -1) es más fuerte

- Correlación positiva: Cuando aumenta una variable, aumenta la otra

- Correlación negativa: Cuando aumenta una variable la otra dismiuye. (Relación inversa)

- Coeficiente de correlación me dice que tan relacionadas están las variables y el de determinación me dice cuanto explica este modelo esta correlación

x <- c(44.4, 45.9, 41.9, 53.3, 44.7, 44.1, 40.7, 45.2, 60.1)
y <- c(2.6, 3.1, 2.5, 3, 3.6, 4, 3.2, 2.8, 3.8)
shapiro.test(x)

## 
##  Shapiro-Wilk normality test
## 
## data:  x
## W = 0.80304, p-value = 0.02212

shapiro.test(y)

## 
##  Shapiro-Wilk normality test
## 
## data:  y
## W = 0.94856, p-value = 0.6743

cor.test(x, y, method = "spearman") #Como una de las bases de datos no es paramétrica utilizo el metodo de spearman

## 
##  Spearman's rank correlation rho
## 
## data:  x and y
## S = 100, p-value = 0.6777
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## 0.1666667

#Coeficiente de correlación: 0.1666667 
0.1666667^2

## [1] 0.02777779

#Coeficiente de determinación: 0.02777779

Regresión

Regresión Lineal

- Analizó si hay regresión lineal solamente si estoy seguro que hay una correlación en mis datos a evaluar

- Funciona para predecir comportamientos de los datos.

- Una regresión solo funciona para una población determinada

peso <- c(61, 60, 78, 62, 66, 60, 54, 84, 68)
altura <- c(162, 154, 180, 158, 171, 169, 166, 176, 163)
Tabla <- data.frame(peso, altura)
Regresión <- lm(peso ~ altura, data = Tabla)
summary(Regresión)

## 
## Call:
## lm(formula = peso ~ altura, data = Tabla)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -11.444  -3.447   1.347   4.164  10.549 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept) -67.4679    51.1995  -1.318    0.229  
## altura        0.8007     0.3071   2.608    0.035 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.268 on 7 degrees of freedom
## Multiple R-squared:  0.4927, Adjusted R-squared:  0.4203 
## F-statistic: 6.799 on 1 and 7 DF,  p-value: 0.03504

- Con los datos de la regresión se puede generar una ecuación de la recta para elaborar las futuras predicciones, en el caso de la regresión pasado la recta sería y = -67.4679 + 0.8007x

Analisis de Varianzas (ANOVA/ANDEVA)

- SE USA SIEMPRE EN PRUEBAS CON MÁS DE DOS POBLACIONES

- Pruebas paramétricas: Fisher -> Cuando está balanceado: Turkey

- Pruebas no paramétricas: Kruskal-Wallis

- Las muestras deben ser completamente aleatorias y deben estar en las mismas condiciones

- Mediciones repetidas: Ventajas: Controlar variaciones extrañas

- Se necesita de menos muestras.

- Diseño Factorial (de factores): Puedo relacionar mis datos con otras variables (Como la respuesta a un medicamento en distintas concentraciones y su relaci?n con las diferentes edades)

library(car)

## Loading required package: carData

Pottery

##           Site   Al   Fe   Mg   Ca   Na
## 1    Llanedyrn 14.4 7.00 4.30 0.15 0.51
## 2    Llanedyrn 13.8 7.08 3.43 0.12 0.17
## 3    Llanedyrn 14.6 7.09 3.88 0.13 0.20
## 4    Llanedyrn 11.5 6.37 5.64 0.16 0.14
## 5    Llanedyrn 13.8 7.06 5.34 0.20 0.20
## 6    Llanedyrn 10.9 6.26 3.47 0.17 0.22
## 7    Llanedyrn 10.1 4.26 4.26 0.20 0.18
## 8    Llanedyrn 11.6 5.78 5.91 0.18 0.16
## 9    Llanedyrn 11.1 5.49 4.52 0.29 0.30
## 10   Llanedyrn 13.4 6.92 7.23 0.28 0.20
## 11   Llanedyrn 12.4 6.13 5.69 0.22 0.54
## 12   Llanedyrn 13.1 6.64 5.51 0.31 0.24
## 13   Llanedyrn 12.7 6.69 4.45 0.20 0.22
## 14   Llanedyrn 12.5 6.44 3.94 0.22 0.23
## 15    Caldicot 11.8 5.44 3.94 0.30 0.04
## 16    Caldicot 11.6 5.39 3.77 0.29 0.06
## 17  IsleThorns 18.3 1.28 0.67 0.03 0.03
## 18  IsleThorns 15.8 2.39 0.63 0.01 0.04
## 19  IsleThorns 18.0 1.50 0.67 0.01 0.06
## 20  IsleThorns 18.0 1.88 0.68 0.01 0.04
## 21  IsleThorns 20.8 1.51 0.72 0.07 0.10
## 22 AshleyRails 17.7 1.12 0.56 0.06 0.06
## 23 AshleyRails 18.3 1.14 0.67 0.06 0.05
## 24 AshleyRails 16.7 0.92 0.53 0.01 0.05
## 25 AshleyRails 14.8 2.74 0.67 0.03 0.05
## 26 AshleyRails 19.1 1.64 0.60 0.10 0.03

str(Pottery)

## 'data.frame':    26 obs. of  6 variables:
##  $ Site: Factor w/ 4 levels "AshleyRails",..: 4 4 4 4 4 4 4 4 4 4 ...
##  $ Al  : num  14.4 13.8 14.6 11.5 13.8 10.9 10.1 11.6 11.1 13.4 ...
##  $ Fe  : num  7 7.08 7.09 6.37 7.06 6.26 4.26 5.78 5.49 6.92 ...
##  $ Mg  : num  4.3 3.43 3.88 5.64 5.34 3.47 4.26 5.91 4.52 7.23 ...
##  $ Ca  : num  0.15 0.12 0.13 0.16 0.2 0.17 0.2 0.18 0.29 0.28 ...
##  $ Na  : num  0.51 0.17 0.2 0.14 0.2 0.22 0.18 0.16 0.3 0.2 ...

aov(Al~Site, data = Pottery) -> Anova1
shapiro.test(residuals(Anova1)) #Son normales

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(Anova1)
## W = 0.96933, p-value = 0.606

balanceado=tapply(Pottery$Al,Pottery$Site,length) #Con el tapply puedo saber si son balanceados y dayos de las bases en general
balanceado # no son balanceados

## AshleyRails    Caldicot  IsleThorns   Llanedyrn 
##           5           2           5          14

leveneTest(Pottery$Al,Pottery$Site) #En general para conocer la homocedasticidad de los datos

## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  3  0.7571 0.5301
##       22

oneway.test(Pottery$Al~Pottery$Site) # uso one way por que son, normales y desbalanceados para saber la homosedasticidad

## 
##  One-way analysis of means (not assuming equal variances)
## 
## data:  Pottery$Al and Pottery$Site
## F = 35.66, num df = 3.0000, denom df = 8.9087, p-value = 2.714e-05

pairwise.t.test(Pottery$Al,Pottery$Site,p.adjust.method = "none")

## 
##  Pairwise comparisons using t tests with pooled SD 
## 
## data:  Pottery$Al and Pottery$Site 
## 
##            AshleyRails Caldicot IsleThorns
## Caldicot   0.00016     -        -         
## IsleThorns 0.36866     3.0e-05  -         
## Llanedyrn  3.3e-06     0.44848  2.7e-07   
## 
## P value adjustment method: none

Anotaciones de Chi cuadrado, correlación, regresión y analisis de varianzas

Marco Porras-López

Jueves 8 de noviembre, 2018

Chi-Cuadrado

- Es una función de densidad

- Deben tomarse los datos al azar, tener variantes independientes, los datos deben representarse con frecuencias absolutas y no porcentajes y valores deben ser mutuamente excluyentes

- Cuando no nos interesan los valores en bruto

- Solo para distribuciones en que se agrupan y que son positivas

- Una dimensión: Bondad de ajuste (gL = n-1)

- Dos dimensiones: Tabla de Contingencia (gL = C-1 * F-1)

H0: ahora es INDEPENDIENTE

H1: ahora es DEPENDIENTE

qchisq para conocer el estadístico teórico para el intervalo de confianza y los grados de libertad de mi muestra

- Si mis valores esperados son menores a 5 o hay valores iguales a 0, se utiliza la prueba de Fisher

Fisher

- Cuando los datos son atipicos, cuando tengo un 0 o un numero de datos menor a 5, o los valores esperados son menores a 5

Solo se analiza el p del Fisher.

Correlación

- Cuando me piden correlación solo analizo la normalidad de los datos y luego corro los analisis estadísticos.

- Parametrico: Correlación de Pearson (Datos normales)

- No parametrico: Spearman(rho) y Kendall(thao) (Datos no normales)

- Grados de libertad son n-2

- Coeficiente de correlación está entre -1 y 1

- Entre más se acerque a 1(o -1) es más fuerte

- Correlación positiva: Cuando aumenta una variable, aumenta la otra

- Correlación negativa: Cuando aumenta una variable la otra dismiuye. (Relación inversa)

- Coeficiente de correlación me dice que tan relacionadas están las variables y el de determinación me dice cuanto explica este modelo esta correlación

Regresión

Regresión Lineal

- Analizó si hay regresión lineal solamente si estoy seguro que hay una correlación en mis datos a evaluar

- Funciona para predecir comportamientos de los datos.

- Una regresión solo funciona para una población determinada

- Con los datos de la regresión se puede generar una ecuación de la recta para elaborar las futuras predicciones, en el caso de la regresión pasado la recta sería y = -67.4679 + 0.8007x

Analisis de Varianzas (ANOVA/ANDEVA)

- SE USA SIEMPRE EN PRUEBAS CON MÁS DE DOS POBLACIONES

- Pruebas paramétricas: Fisher -> Cuando está balanceado: Turkey

- Pruebas no paramétricas: Kruskal-Wallis

- Las muestras deben ser completamente aleatorias y deben estar en las mismas condiciones

- Mediciones repetidas: Ventajas: Controlar variaciones extrañas

- Se necesita de menos muestras.

- Diseño Factorial (de factores): Puedo relacionar mis datos con otras variables (Como la respuesta a un medicamento en distintas concentraciones y su relaci?n con las diferentes edades)

- Cuando los datos son atipicos, cuando tengo un 0 o un numero de datos menor a 5, o los valores esperados son menores a 5