La estadística podría definirse como una serie ordenada de métodos que se utilizan para la recolección, organización, presentación, análisis e interpretación de datos numéricos. Asimismo, de acuerdo con el propósito que se tenga para dichos datos, puede clasificarse en: 1. Estadística descriptiva que, como su nombre lo indica, ayuda a describir la frecuencia y distribución de las características del objeto de estudio y, por otro lado se encuentra, 2. Estadística inferencial, la que se ocupa del proceso metódico para obtener conclusiones válidad de la muestra representativa de una población. Esta última, a su vez, se divide en dos ramas importantes: 1. Paramétrica y, 2. No paramétrica.
La estadística paramétrica es una rama de la estadística inferencial que comprende los procedimientos estadísticos y de decisión que están basados en distribuciones conocidas. Estas son determinadas usando un número finito de parámetros. Esto es, por ejemplo, si conocemos que la altura de las personas sigue una distribución normal, pero desconocemos cuál es la media y la desviación de dicha normal. La media y la desviación típica de la distribución normal son los dos parámetros que queremos estimar. Cuando desconocemos totalmente qué distribución siguen nuestros datos entonces deberemos aplicar primero un test no paramétrico, que nos ayude a conocer primero la distribución.
Las pruebas no paramétricas engloban una serie de pruebas estadísticas que tienen como denominador común la ausencia de asunciones acerca de la ley de probabilidad que sigue la población de la que ha sido extraída la muestra. Por esta razón es común referirse a ellas como pruebas de distribución libre. A continuación se presenta una tabla que sintentiza la información anterior.
# Configurar un mirror de CRAN
options(repos = c(CRAN = "https://cloud.r-project.org"))
#Ejercicio 1
#Data frame. Estadística paramétrica y no paramétrica
install.packages("knitr")
## Installing package into 'C:/Users/rvlml/AppData/Local/R/win-library/4.4'
## (as 'lib' is unspecified)
## package 'knitr' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\rvlml\AppData\Local\Temp\Rtmp4CFDD3\downloaded_packages
library("knitr")
#Crear un data frame
param_vs_nonparam <- data.frame(
Aspecto=c("Características", "Ventajas", "Desventajas", "Ejemplos de pruebas"),
No_Paramétrica=c(
"Independencia de las observaciones aleatorias a excepción de datos pareados. Pocas asunciones con respecto a la distribución de la población. La variable dependiente es medida en escala categórica. El punto primario es el ordenamiento por rangos o por frecuencias. Las hipótesis se hacen sobre rangos, mediana o frecuencias de los datos. El tamaño de muestra requerido es menor (<30).",
"Determinación sencilla. Mediante fórmulas simples de combinación. Fáciles de aplicar. Las operaciones matemáticas son la jerarquización, conteo, suma y resta. Rápidas de aplicar. Cuando las muestras son pequeñas. Campos de aplicación. A grupos mayores de poblaciones. Menos susceptibles a la contravención de los supuestos. Ya que los supuestos son escasos y menos complicados. Tipo de medición requerida. Se pueden utilizar con datos ordinales o nominales. Tamaño de la muestra. Cuando la muestra es < 10 son sencillas, rápidas y sólo un poco menos eficaces. Conforme aumenta el tamaño de la muestra se hacen más laboriosas y tardadas, y menos efectivas. Efectividad estadística. Cuando se satisfacen los supuestos de la prueba no paramétrica son igual de efectivas. Si se satisfacen los supuestos de una prueba paramétrica con muestras pequeñas son un poco menos efectivas y se vuelven menos eficaces a medida que aumenta el tamaño de muestra. ",
"Si se puede utilizar una prueba paramétrica y se usa una no paramétrica hay una pérdida de información. En muestras grandes las pruebas no paramétricas son muy laboriosas",
"Prueba del signo, W de Wilcoxon, Prueba de Friedman, Prueba de la mediana, U de Mann-Whitney, Kruskal-Wallis, Rho de Spearman, Tau de Kendall, Xi Cuadrada, Binomial, Rachas, Kolmógorov-Smirnov; McNemar, Reacciones extremas de Moses, Cochran"
),
Paramétrica=c(
"Independencia de las observaciones a excepción de datos pareados. Las observaciones para la variable dependiente se han obtenido de manera aleatoria de una población con distribución normal. La variable dependiente es medida al menos en una escala de intervalo. Se recomienda un tamaño de muestra mínimo de 30 sujetos por grupo. Los datos son obtenidos de poblaciones que tienen varianzas iguales (una varianza no debe ser el doble o mayor que la otra). Habitualmente las hipótesis se hacen sobre valores numéricos, especialmente el promedio de una población (µ). Otros posibles requisitos: variable independiente nominal o de intervalo, homocedasticidad (para cada nivel de la variable independiente hay una variación similar de la variable dependiente) y casillas de igual tamaño.",
"Presentan más poder de eficiencia. Mayor sensibilidad a los rasgos de los datos recolectados. Menor posibilidad de errores. Proporcionan estimaciones probabilísticas bastante exactas.",
"Mayor complejidad de cálculo. Limitaciones en los tipos de datos que se pueden evaluar.",
"Prueba t de Student, Análisis de Varianza (ANOVA), R de Pearson, Levene para igualdad de varianzas"
)
)
###Mostrar cuadro ###
kable(param_vs_nonparam, col.names = c("Aspecto", "No Paramétrica", "Paramétrica"))
| Aspecto | No Paramétrica | Paramétrica |
|---|---|---|
| Características | Independencia de las observaciones aleatorias a excepción de datos pareados. Pocas asunciones con respecto a la distribución de la población. La variable dependiente es medida en escala categórica. El punto primario es el ordenamiento por rangos o por frecuencias. Las hipótesis se hacen sobre rangos, mediana o frecuencias de los datos. El tamaño de muestra requerido es menor (<30). | Independencia de las observaciones a excepción de datos pareados. Las observaciones para la variable dependiente se han obtenido de manera aleatoria de una población con distribución normal. La variable dependiente es medida al menos en una escala de intervalo. Se recomienda un tamaño de muestra mínimo de 30 sujetos por grupo. Los datos son obtenidos de poblaciones que tienen varianzas iguales (una varianza no debe ser el doble o mayor que la otra). Habitualmente las hipótesis se hacen sobre valores numéricos, especialmente el promedio de una población (µ). Otros posibles requisitos: variable independiente nominal o de intervalo, homocedasticidad (para cada nivel de la variable independiente hay una variación similar de la variable dependiente) y casillas de igual tamaño. |
| Ventajas | Determinación sencilla. Mediante fórmulas simples de combinación. Fáciles de aplicar. Las operaciones matemáticas son la jerarquización, conteo, suma y resta. Rápidas de aplicar. Cuando las muestras son pequeñas. Campos de aplicación. A grupos mayores de poblaciones. Menos susceptibles a la contravención de los supuestos. Ya que los supuestos son escasos y menos complicados. Tipo de medición requerida. Se pueden utilizar con datos ordinales o nominales. Tamaño de la muestra. Cuando la muestra es < 10 son sencillas, rápidas y sólo un poco menos eficaces. Conforme aumenta el tamaño de la muestra se hacen más laboriosas y tardadas, y menos efectivas. Efectividad estadística. Cuando se satisfacen los supuestos de la prueba no paramétrica son igual de efectivas. Si se satisfacen los supuestos de una prueba paramétrica con muestras pequeñas son un poco menos efectivas y se vuelven menos eficaces a medida que aumenta el tamaño de muestra. | Presentan más poder de eficiencia. Mayor sensibilidad a los rasgos de los datos recolectados. Menor posibilidad de errores. Proporcionan estimaciones probabilísticas bastante exactas. |
| Desventajas | Si se puede utilizar una prueba paramétrica y se usa una no paramétrica hay una pérdida de información. En muestras grandes las pruebas no paramétricas son muy laboriosas | Mayor complejidad de cálculo. Limitaciones en los tipos de datos que se pueden evaluar. |
| Ejemplos de pruebas | Prueba del signo, W de Wilcoxon, Prueba de Friedman, Prueba de la mediana, U de Mann-Whitney, Kruskal-Wallis, Rho de Spearman, Tau de Kendall, Xi Cuadrada, Binomial, Rachas, Kolmógorov-Smirnov; McNemar, Reacciones extremas de Moses, Cochran | Prueba t de Student, Análisis de Varianza (ANOVA), R de Pearson, Levene para igualdad de varianzas |
Realice las pruebas de normalidad a las variables que se detallan a continuación y exprese su decisión de cada una de ellas. Para este ejercicio se realizaron pruebas de curtosis y coeficiente de asimetría que, aunque no son pruebas formales, sirven para explorar si los datos pueden acercarse a una distribución normal y son fáciles de interpretar como un primer paso. En este sentido, el coeficiente de asimetría mide la simetría de la distribución, en una distribución normal, la asimetría ideal es cercana a 0. Por su parte, la curtosis mide el “apuntamiento” de la distribución. En una distribución normal, el valor teórico de curtosis (exceso de curtosis) es 0. Sin embargo, las pruebas formales de normalidad son las siguientes:
El procedimiento Prueba de Kolmogorov-Smirnov para una muestra compara la función de distribución acumulada observada de una variable con una distribución teórica determinada, que puede ser la normal, la uniforme, la de Poisson o la exponencial. La Z de Kolmogorov-Smirnov se calcula a partir de la diferencia mayor (en valor absoluto) entre las funciones de distribución acumuladas teórica y observada. Esta prueba de bondad de ajuste contrasta si las observaciones podrían razonablemente proceder de la distribución especificada.
El estadístico de bondad de ajuste de Anderson-Darling -AD- mide el área entre la línea ajustada -basada en la distribución normal- y la función de distribución empírica -que se basa en los puntos de los datos-. El estadístico de Anderson-Darling es una distancia elevada al cuadrado que tiene mayor ponderación en las colas de la distribución. Anderson Darling puede ser utilizado para comprobar si los datos satisfacen el supuesto de normalidad para una prueba t. También se lo puede definir como aquel estadístico no paramétrico que es utilizado para probar si un conjunto de datos muéstrales provienen de una población con una distribución de probabilidad continua específica, por lo general, de una distribución normal. Esta prueba se basa en la comparación de la función de la distribución acumulada empírica de los resultados de la muestra con la distribución esperada si los datos fueran normales. Al momento de obtener los resultados, si la diferencia observada es suficientemente grande, la hipótesis nula de normalidad de la población es rechazada.
Se emplea para contrastar normalidad cuando el tamaño de la muestra es menor a 50 observaciones y en muestras grandes es equivalente al test de Kolmogórov-Smirnov. El método consiste en comenzar ordenando la muestra de menor a mayor valor, obteniendo el nuevo vector muestral. Cuando la muestra es como máximo de tamaño 50, se puede contrastar la normalidad con la prueba de Shapiro-Wilk, procediéndose a calcular la media y la varianza muestral. Se rechaza la hipótesis nula de normalidad si el estadístico Shapiro-Wilk -W- es menor que el valor crítico para el tamaño de la muestra y el nivel de significancia dado. Shapiro-Wilk, como prueba de normalidad, fue introducido considerando que el gráfico de probabilidad normal que examina el ajuste de un conjunto de datos de muestra para la distribución normal es semejante a la de regresión lineal - la línea diagonal del gráfico es la recta de ajuste perfecto-, con la diferencia de que esta línea es similar a los residuos de la regresión. Mediante el análisis de la magnitud de esta variación -análisis de varianza-, la calidad del ajuste puede ser examinado.
### Ejercicio 2 ###
library(moments)
library(nortest)
### Declaración de las variables ###
a=(c(28,26,31,21,21,32,24,26,28,30,26,23,20,28,33,28,33,23,27,31,28,29,34,32,33))
b=(c(22,29,24,24,23,23,25,23,33,28,31,23,28,28,26,30,30,28,22,19,29,18,31,28,27))
c=(c(23,26,29,28,25,19,22,27,33,22,22,22,15,19,24,25,20,25,34,21,23,18,26,26,23))
d=(c(28,28,25,25,25,30,27,28,29,28,25,28,27,28,30,25,28,28,28,30,27,25,25,28,30))
e=(c(28,27,28,25,27,28,25,27,29,27,25,25,29,29,29,28,28,25,27,28,28,25,29,25,27))
f=(c(25,28,27,29,27,25,25,25,25,27,27,28,28,25,27,27,25,25,27,28,25,28,29,25,27))
### Media, Desviación estándar, Varianza ###
mean(a)#Media
## [1] 27.8
sd(a)#Desviación estándar
## [1] 4.112988
var(a)#Varianza
## [1] 16.91667
### Asimetría y curtosis ###
skewness(a)#Coeficiente de Asimetria
## [1] -0.3124437
kurtosis(a)#Curtosis
## [1] 2.094288
#Gráficos de linea
#Criterio- Seguir la linea roja
qqnorm(a)
qqline(a,col=2)
#Histograma
xb=mean(a)
s=sd(a)
hist(a, freq = F, col = "cadetblue", xlab = "Balance", main = "",
xlim = c(xb-4*s, xb+4*s), ylim = c(0, .1), )
curve(dnorm(x, mean = xb, sd = s), col = 2, lwd = 2, add = TRUE)
#Kolmogorov-Smirnov
ks.test(a, "pnorm", mean = mean(a), sd = sd(a))
## Warning in ks.test.default(a, "pnorm", mean = mean(a), sd = sd(a)): ties should
## not be present for the one-sample Kolmogorov-Smirnov test
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: a
## D = 0.11939, p-value = 0.8683
## alternative hypothesis: two-sided
xb=mean(a)
s=sd(a)
#Anderson-Darlinng [Para muestras muy grandes]
xb=mean(a)
s=sd(a)
ad.test(a)
##
## Anderson-Darling normality test
##
## data: a
## A = 0.40996, p-value = 0.3188
#Shapiro-Wilk
shapiro.test(a)
##
## Shapiro-Wilk normality test
##
## data: a
## W = 0.94766, p-value = 0.2219
### Media, Desviación estándar, Varianza ###
mean(b)#Media
## [1] 26.08
sd(b)#Desviación estándar
## [1] 3.872123
var(b)#Varianza
## [1] 14.99333
### Asimetría y curtosis ###
skewness(b)#Coeficiente de Asimetria
## [1] -0.2771581
kurtosis(b)#Curtosis
## [1] 2.293562
#Gráficos de linea
#Criterio- Seguir la linea roja
qqnorm(b)
qqline(b,col=2)
#Histograma
xb=mean(b)
s=sd(b)
hist(b, freq = F, col = "burlywood3", xlab = "Balance", main = "",
xlim = c(xb-4*s, xb+4*s), ylim = c(0, .1), )
curve(dnorm(x, mean = xb, sd = s), col = 2, lwd = 2, add = TRUE)
#Kolmogorov-Smirnov
ks.test(b, "pnorm", mean = mean(b), sd = sd(b))
## Warning in ks.test.default(b, "pnorm", mean = mean(b), sd = sd(b)): ties should
## not be present for the one-sample Kolmogorov-Smirnov test
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: b
## D = 0.17, p-value = 0.4653
## alternative hypothesis: two-sided
xb=mean(b)
s=sd(b)
#Anderson-Darlinng [Para muestras muy grandes]
xb=mean(b)
s=sd(b)
ad.test(b)
##
## Anderson-Darling normality test
##
## data: b
## A = 0.44321, p-value = 0.2639
#Shapiro-Wilk
shapiro.test(b)
##
## Shapiro-Wilk normality test
##
## data: b
## W = 0.96162, p-value = 0.4477
### Media, Desviación estándar, Varianza ###
mean(c)#Media
## [1] 23.88
sd(c)#Desviación estándar
## [1] 4.361957
var(c)#Varianza
## [1] 19.02667
### Asimetría y curtosis ###
skewness(c)#Coeficiente de Asimetria
## [1] 0.4178281
kurtosis(c)#Curtosis
## [1] 3.289485
#Gráficos de linea
#Criterio- Seguir la linea roja
qqnorm(c)
qqline(c,col=2)
#Histograma
xb=mean(c)
s=sd(c)
hist(c, freq = F, col = "darkseagreen3", xlab = "Balance", main = "",
xlim = c(xb-4*s, xb+4*s), ylim = c(0, .09), )
curve(dnorm(x, mean = xb, sd = s), col = 2, lwd = 2, add = TRUE)
#Kolmogorov-Smirnov
ks.test(c, "pnorm", mean = mean(c), sd = sd(c))
## Warning in ks.test.default(c, "pnorm", mean = mean(c), sd = sd(c)): ties should
## not be present for the one-sample Kolmogorov-Smirnov test
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: c
## D = 0.11348, p-value = 0.9043
## alternative hypothesis: two-sided
xb=mean(c)
s=sd(c)
#Anderson-Darlinng [Para muestras muy grandes]
xb=mean(c)
s=sd(c)
ad.test(c)
##
## Anderson-Darling normality test
##
## data: c
## A = 0.31651, p-value = 0.5192
#Shapiro-Wilk
shapiro.test(c)
##
## Shapiro-Wilk normality test
##
## data: c
## W = 0.97045, p-value = 0.6566
### Media, Desviación estándar, Varianza ###
mean(d)#Media
## [1] 27.4
sd(d)#Desviación estándar
## [1] 1.755942
var(d)#Varianza
## [1] 3.083333
### Asimetría y curtosis ###
skewness(d)#Coeficiente de Asimetria
## [1] -0.1602332
kurtosis(d)#Curtosis
## [1] 1.930972
#Gráficos de linea
#Criterio- Seguir la linea roja
qqnorm(d)
qqline(d,col=2)
#Histograma
xb=mean(d)
s=sd(d)
hist(d, freq = F, col = "lightcyan3", xlab = "Balance", main = "",
xlim = c(xb-4*s, xb+4*s), ylim = c(0, .4), )
curve(dnorm(x, mean = xb, sd = s), col = 2, lwd = 2, add = TRUE)
#Kolmogorov-Smirnov
ks.test(d, "pnorm", mean = mean(d), sd = sd(d))
## Warning in ks.test.default(d, "pnorm", mean = mean(d), sd = sd(d)): ties should
## not be present for the one-sample Kolmogorov-Smirnov test
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: d
## D = 0.23371, p-value = 0.1303
## alternative hypothesis: two-sided
xb=mean(d)
s=sd(d)
#Anderson-Darlinng [Para muestras muy grandes]
xb=mean(d)
s=sd(d)
ad.test(d)
##
## Anderson-Darling normality test
##
## data: d
## A = 1.4893, p-value = 0.0005814
#Shapiro-Wilk
shapiro.test(d)
##
## Shapiro-Wilk normality test
##
## data: d
## W = 0.85145, p-value = 0.001877
### Media, Desviación estándar, Varianza ###
mean(e)#Media
## [1] 27.12
sd(e)#Desviación estándar
## [1] 1.508863
var(e)#Varianza
## [1] 2.276667
### Asimetría y curtosis ###
skewness(e)#Coeficiente de Asimetria
## [1] -0.3554607
kurtosis(e)#Curtosis
## [1] 1.742207
#Gráficos de linea
#Criterio- Seguir la linea roja
qqnorm(e)
qqline(e,col=2)
#Histograma
xb=mean(e)
s=sd(e)
hist(e, freq = F, col = "lavenderblush3", xlab = "Balance", main = "",
xlim = c(xb-4*s, xb+4*s), ylim = c(0, .5), )
curve(dnorm(x, mean = xb, sd = s), col = 2, lwd = 2, add = TRUE)
#Kolmogorov-Smirnov
ks.test(e, "pnorm", mean = mean(e), sd = sd(e))
## Warning in ks.test.default(e, "pnorm", mean = mean(e), sd = sd(e)): ties should
## not be present for the one-sample Kolmogorov-Smirnov test
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: e
## D = 0.20013, p-value = 0.2693
## alternative hypothesis: two-sided
xb=mean(e)
s=sd(e)
#Anderson-Darlinng [Para muestras muy grandes]
xb=mean(e)
s=sd(e)
ad.test(e)
##
## Anderson-Darling normality test
##
## data: e
## A = 1.4921, p-value = 0.0005718
#Shapiro-Wilk
shapiro.test(e)
##
## Shapiro-Wilk normality test
##
## data: e
## W = 0.8403, p-value = 0.001159
### Media, Desviación estándar, Varianza ###
mean(f)#Media
## [1] 26.56
sd(f)#Desviación estándar
## [1] 1.416569
var(f)#Varianza
## [1] 2.006667
### Asimetría y curtosis ###
skewness(f)#Coeficiente de Asimetria
## [1] 0.100246
kurtosis(f)#Curtosis
## [1] 1.637435
#Gráficos de linea
#Criterio- Seguir la linea roja
qqnorm(f)
qqline(f,col=2)
#Histograma
xb=mean(f)
s=sd(f)
hist(f, freq = F, col = "lightgoldenrod3", xlab = "Balance", main = "",
xlim = c(xb-4*s, xb+4*s), ylim = c(0, .5), )
curve(dnorm(x, mean = xb, sd = s), col = 2, lwd = 2, add = TRUE)
#Kolmogorov-Smirnov
ks.test(f, "pnorm", mean = mean(f), sd = sd(f))
## Warning in ks.test.default(f, "pnorm", mean = mean(f), sd = sd(f)): ties should
## not be present for the one-sample Kolmogorov-Smirnov test
##
## Asymptotic one-sample Kolmogorov-Smirnov test
##
## data: f
## D = 0.26461, p-value = 0.06034
## alternative hypothesis: two-sided
xb=mean(f)
s=sd(f)
#Anderson-Darlinng [Para muestras muy grandes]
xb=mean(f)
s=sd(f)
ad.test(f)
##
## Anderson-Darling normality test
##
## data: f
## A = 1.8386, p-value = 7.574e-05
#Shapiro-Wilk
shapiro.test(f)
##
## Shapiro-Wilk normality test
##
## data: f
## W = 0.82721, p-value = 0.0006703
Como parte de las actividades realizadas en este curso se aplicaron los tres test de normalidad mencionados al inicio de este ejercicio, sin embargo, debido a la cantidad de datos en cada una de las variables declaradas (25 datos), nos basamos en la prueba de Shapiro-Wilks. Para esto, observamos que en la variable A, B y C, los datos siguen una distribución normal, mientras que las variables D, E y F presentan una districión anormal de los datos.
### Ejercicio 3 ###
### Declaración de los datos ###
A=(c(21,26,31,23,21,30,26,24,22,19))
B=(c(32,30,18,27,25,28,27,27,28,22))
C=(c(26,20,24,27,21,28,24,27,32,32))
D=(c(18,30,24,27,24,21,22,22,28,29))
### Crear un data frame ###
datos=data.frame(A = A, B = B, C = C, D = D)
# Transformar al formato "largo"
datos_largos <- reshape(datos,
varying = list(names(datos)),
v.names = "Valores",
timevar = "Grupo",
times = c("A", "B", "C", "D"),
direction = "long")
# Realizar el modelo ANOVA
anova_model <- aov(Valores ~ Grupo, data = datos_largos)
# Mostrar la tabla ANOVA
summary(anova_model)
## Df Sum Sq Mean Sq F value Pr(>F)
## Grupo 3 34.9 11.62 0.74 0.535
## Residuals 36 565.9 15.72
# Gráfico: Boxplot para visualizar los grupos
boxplot(Valores ~ Grupo, data = datos_largos,
main = "Comparación de Grupos (ANOVA)",
xlab = "Grupos",
ylab = "Valores",
col = c("slategray3", "darkseagreen3", "rosybrown1", "lemonchiffon2"))
# Prueba post-hoc Tukey
tukey_result <- TukeyHSD(anova_model)
print(tukey_result)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Valores ~ Grupo, data = datos_largos)
##
## $Grupo
## diff lwr upr p adj
## B-A 2.1 -2.675365 6.875365 0.6404535
## C-A 1.8 -2.975365 6.575365 0.7416850
## D-A 0.2 -4.575365 4.975365 0.9994766
## C-B -0.3 -5.075365 4.475365 0.9982449
## D-B -1.9 -6.675365 2.875365 0.7087729
## D-C -1.6 -6.375365 3.175365 0.8036274
# Gráfico del resultado de Tukey
plot(tukey_result)
Se realizó la prueba estadística de ANOVA, en el que se observó que no se presentan diferencias estadísticamente significativas entre grupos, aunque no era necesario realizar un test post-hoc, se aplicó la prueba de Tukey, en el que se confirma que no se presentan diferencias.
### Ejercicio 4 ###
### Datos ###
datos <- data.frame(
sujeto = rep(1:15, each = 2),
tratamiento = rep(c("pre", "post"), times = 15),
respuesta = c("NO", "SI", "SI", "SI", "NO", "SI", "SI", "NO", "SI", "SI",
"NO", "SI", "NO", "SI", "NO", "SI", "NO", "SI", "SI", "SI",
"NO", "NO", "SI", "SI", "NO", "SI", "NO", "NO", "NO", "SI")
)
### Tabla de contingencia ###
tabla <- table(
Pre = datos$respuesta[datos$tratamiento == "pre"],
Post = datos$respuesta[datos$tratamiento == "post"]
)
print("Tabla de contingencia:")
## [1] "Tabla de contingencia:"
print(tabla)
## Post
## Pre NO SI
## NO 2 8
## SI 1 4
### Test de McNemar ###
resultado <- mcnemar.test(tabla)
print("Resultado del Test de McNemar:")
## [1] "Resultado del Test de McNemar:"
print(resultado)
##
## McNemar's Chi-squared test with continuity correction
##
## data: tabla
## McNemar's chi-squared = 4, df = 1, p-value = 0.0455
El resultado de la prueba de McNemar nos arroja una diferencia estadísticamente significativa entre ambos grupos, al arrojar un p=0.0455
### Ejercicio 5 ###
### Datos ###
datos <- data.frame(
Ciudad = c("Cd. Guzmán", "Zapotiltic", "Tamazula", "Huescalapa",
"Contla", "Mazamitla", "Gómez Farías", "Sayula"),
Policías = c(2, 1, 3, 5, 6, 8, 5, 2),
Delitos = c(6, 5, 6, 6, 5, 4, 7, 5)
)
### Mostrar los datos ###
print("Datos:")
## [1] "Datos:"
print(datos)
## Ciudad Policías Delitos
## 1 Cd. Guzmán 2 6
## 2 Zapotiltic 1 5
## 3 Tamazula 3 6
## 4 Huescalapa 5 6
## 5 Contla 6 5
## 6 Mazamitla 8 4
## 7 Gómez Farías 5 7
## 8 Sayula 2 5
### Calcular el coeficiente de correlación ###
correlacion <- cor(datos$Policías, datos$Delitos)
cat("Coeficiente de correlación (r):", correlacion, "\n")
## Coeficiente de correlación (r): -0.2581989
### Generar el diagrama de dispersión ###
plot(datos$Policías, datos$Delitos,
main = "Diagrama de dispersión: Policías vs. Delitos",
xlab = "Número de Policías",
ylab = "Número de Delitos",
pch = 19, col = "paleturquoise3")
abline(lm(datos$Delitos ~ datos$Policías), col = "tomato3") # Línea de regresión