Examen de la tercera unidad de competencia de la materia de probabilidad y estadística
- Fecha de entrega: antes de Jueves 9 de Julio 11:00 p.m.
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")- El examen se divide en 3 partes
Inferencia estadística
- Describa con sus propias palabras los siguientes conceptos:
Inferencia estadística: Es una rama de la estadística que se encarga de extraer conclusiones generales a partir de una parte de la población, El objetivo es obtener una serie de conclusiones útiles que permitan al usuario hacer deducciones utiles y más presisas.
Población: Es un número de personas que conforman una región o ciudad, etc.
Muestreo: Es el proceso de seleccionar un conjunto de individuos de una población para poder ponerlos bajo estudio y poder caracterizar el total de la población.
Estadísticamente representativo: Es una pequeña cantidad de números que refleja con la mayor precisión posible, a un grupo más grande ya sean números, personas, etc, etc.
Hipótesis nula y alternativa: La hipótesis nula es cuando el usuario pretende descartar o echazar la Hipótesis y la utilizamos para afirmar o negar un suceso en relacion a los parametros que impusimos.
Hipótesis alternativa la utilizamos como prueba para determinar si se puede rechazar la hipótesis nula.
- Importancia del muestreo: Es una parte muy importante al seleccionar un conjunto de datos o personas con el fin de etudiarlos y podr caracterizarlos de la manera mas específica
En esta parte es muy importante la redacción
- Muestreo y prueba de hipótesis Escoja alguno de los 3 archivos con datos para realizar su examen:
#Datos de agua subterranea
#xfun::embed_file("aguasubterranea.xlsx")
#Datos de salud
#xfun::embed_file("COVID_CONFIRMADOS_ESTADOS.xlsx")
#nota: Aquí en los datos de covid puede por ejemplo tomar 2 estados y comparar
#Datos de calidad del aire
#xfun::embed_file("calidad_aire_ozono_Junio_Julio.xlsx")
#Comparar los primeros 5 dias de Junio y Julio de 2020 en terminos de contenido de ozono en el aire (partes por billon)Muestreo
Bajo sus propios criterios
- Realice un muestreo aleatorio simple
PH <- subset(aguasubterranea, MEDICION == "PH")
TEMP <- subset(aguasubterranea, MEDICION == "TEMP")
n <- 43
nramdom<- sample(1:nrow(PH), size=n, replace=FALSE)
nramdom## [1] 198 220 179 195 284 7 159 110 137 57 202 6 115 34 72 251 191 80 125
## [20] 16 74 62 182 4 208 132 274 47 21 196 75 5 133 77 23 168 257 288
## [39] 65 280 206 41 91
## [1] 203 218 35 173 216 103 81 276 185 6 4 137 177 232 181 55 27 40 46
## [20] 224 15 254 264 160 36 265 227 136 18 43 124 186 9 219 72 287 278 112
## [39] 171 21 71 24 30
## # A tibble: 6 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 198 PH 7
## 2 220 PH 7
## 3 179 PH 6.9
## 4 195 PH 7.2
## 5 284 PH 6.8
## 6 7 PH 6.5
## # A tibble: 6 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 203 TEMP 27.5
## 2 218 TEMP 28.7
## 3 35 TEMP 31.1
## 4 173 TEMP 29.1
## 5 216 TEMP 27.8
## 6 103 TEMP 29.9
- Realice un muestreo estratificado
## [1] 293 3
## # A tibble: 6 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 1 PH 6.8
## 2 2 PH 6.9
## 3 3 PH 6.8
## 4 4 PH 7.1
## 5 5 PH 6.6
## 6 6 PH 6.8
## [1] 293 3
## # A tibble: 6 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 1 TEMP 28.5
## 2 2 TEMP 29.2
## 3 3 TEMP 28.9
## 4 4 TEMP 29.4
## 5 5 TEMP 28.3
## 6 6 TEMP 28.4
- Realice un muestreo ponderado
## # A tibble: 6 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 98 PH 7.3
## 2 105 PH 6.9
## 3 92 PH 7
## 4 101 PH 6.8
## 5 227 PH 7
## 6 25 PH 7
## # A tibble: 6 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 292 TEMP 28.2
## 2 120 TEMP 27.7
## 3 123 TEMP 27.9
## 4 147 TEMP 30.1
## 5 161 TEMP 29
## 6 216 TEMP 27.8
- Realice un muestreo de fracción
Muestra3 <- data.frame(aguasubterranea)
n <- 43
Muestra4 <- sample(1:nrow(aguasubterranea), size=n, replace=FALSE)
head(Muestra4)## [1] 179 165 180 401 221 408
## # A tibble: 6 x 3
## N MEDICION VALOR
## <dbl> <chr> <dbl>
## 1 112 TEMP 28.6
## 2 68 TEMP 29
## 3 50 TEMP 30
## 4 71 TEMP 30.4
## 5 97 TEMP 28.9
## 6 123 TEMP 27.9
## [1] 29 3
Explique cada respuesta
Prueba de hipótesis
Relice sus hipótesis y aplique lo siguiente
Viendo que los datos son parecidos en nuestras muestras el PH del agua depende de la temperatura
- Prueba de shapiro wilk
##
## Shapiro-Wilk normality test
##
## data: TEMP$VALOR
## W = 0.98362, p-value = 0.001981
##
## Shapiro-Wilk normality test
##
## data: PH$VALOR
## W = 0.95932, p-value = 2.661e-07
Viendo los resultados dados en el test de Shapiro Wilk y sabiendo que nuetra probilidad es 0.05 y viedo que da menor a 0.00 esta rechaza la hpótesis
- Prueba de k.s.
## Warning in ks.test(TEMP$VALOR, "pnorm", mean = mean(TEMP$VALOR), sd =
## sd(TEMP$VALOR)): ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: TEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided
Es una prueba no paramétrica que determina la bondad de ajuste, y dado que este es muy bajo no sigue una distribución normal
- Normalidad de varianzas
##
## F test to compare two variances
##
## data: PH$VALOR and TEMP$VALOR
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.03767300 0.05965831
## sample estimates:
## ratio of variances
## 0.04740789
##
## Two Sample t-test
##
## data: PH$VALOR and TEMP$VALOR
## t = -358.45, df = 584, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -21.92700 -21.68802
## sample estimates:
## mean of x mean of y
## 6.890444 28.697952
La ormalidad de varianzas nos dive que los datos de PH y TEMPERATURA deben er iguales, viendo los resultados arrojados que nos dió menor a 0.0 afirmamos que la hipótesis se rechaza
- Numeros de tukey
## [1] 6.1 6.8 6.9 7.0 7.5
## [1] 25.6 28.0 28.7 29.2 32.1
Los números de Tukey muestran la primer cuartila, el número menor, la tercer cuartila, el valor medio y el valor maximo de todos los datos, los valores de TEMPERATURA y PH estan muy alejados uno del otro siendo comparados
- Comparativo de caja y bigote, comparativo de caja y bigote con desviación
op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )
boxplot(aguasubterranea$VALOR ~ aguasubterranea$MEDICION , col="red", main="Comparación 1" )
barplot(tapply(aguasubterranea$VALOR, list(aguasubterranea$MEDICION), mean ), beside = T, main="Comparación 2" )Viendo las graficas de caja y vigote se observa que la grafica de PH está muy por debajo que de la TEMPERATURA y asi viendo que no tienen relación sus datos por su difrencia de tamaño, la hipotesis se rechaza.
Pregunta de rescate
Solo suma pero no resta
- ¿La gente realmente quiere ser feliz o es una idea que nos vendieron?
Las personas, toda la vida han sido felices e infelices, mas no se daban cuenta por que ahun no existia el concepto de felicidad, y al ver que los esteriotipos de las empresas de que la felicidad es tener todo lo que tu quieres(material) seras feliz, pero siempre ha existido la felicidad misma, familiar, mas no se savia que era, repito por que el concepto no existia, la respuesta es si si es una idea que las empresas nos vendieron para maximizar su mercado y no es una ida que nos vendieron debido a que nosotros ya lo viviamos pero no sabíamos que era ni como se sentía, esta es un respuesta doble dada la sircunstancias
- Para descargar el codigo de este examen: