Examen de la tercera unidad de competencia de la materia de probabilidad y estadística
- Fecha de entrega: antes de Jueves 9 de Julio 11:00 p.m.
setwd("~/PYE VERANO")
library(pacman)
p_load("readxl","base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")- El examen se divide en 3 partes
Inferencia estadística
- Describa con sus propias palabras los siguientes conceptos:
Inferencia estadística Es el conjunto de métodos que permiten inducir o representar a través de una muestra estadística, el comportamiento de una determinada población. Basándome en los ejercicios que elaboramos en clase, agregaría que la inferencia estadística sirve para sacar conclusiones, deducciones o hipótesis a un conjunto de datos.
Población La población es considerada como el conjunto universal o el total de datos que se están estudiando: por ejemplo, consideraremos como población a los estudiantes universitarios de Sonora.
Muestreo El muestreo es un pedazo, extracto de la población, o sea un sub grupo de la misma. Siguiendo el ejemplo de arriba, si los estudiantes universitarios de Sonora es la población, los estudiantes de solamente el ITSON serían una muestra (pero no aleatoria).
Estadísticamente representativo Se estaría hablando de un pedazo de la población (muestra) que representa de manera correcta muy precisa al conjunto total.
Hipótesis nula y alternativa Una hipótesis nula se basa en análisis previos o en conocimiento especializado y la alternativa es lo que se piensa que puede ser cierto, o lo que no es la hipótesis nula.
Importancia del muestreo Estudiar una población completamente es largo, tedioso e incluso caro en algunos casos, para eso existe el muestreo, para poder llevar a cabo un estudio igual de certero al que se llevaría a cabo con una población, solo que de una manera más eficaz, para esto claro que se deben de tomar muchos factores en cuenta para que sea una muestra válida y útil: la naturaleza de la muestra, para qué se necesita el estudio, que tan facil es elaborarla, etc.
En esta parte es muy importante la redacción
- Muestreo y prueba de hipótesis Escogí el de archivo de covid-19 en México por estado, compararé el estado de Zacatecas y San Luis Potosí.
Muestreo
- Importar datos y crear tabla de datos
datos <- read_xlsx("covid_zacsp.xlsx",
col_types = c("date", "numeric", "numeric"))
datos$Fecha <- as.Date(datos$Fecha)
dim(datos)## [1] 178 3
- Realice un muestreo aleatorio simple
- Para crear el M.A.S, con un número de datos (aleatorios) de n=13 usando la función sample:
## [1] 29 79 164 128 63 25 84 112 20 31 10 158 43
## # A tibble: 6 x 3
## Fecha Zacatecas SLP
## <date> <dbl> <dbl>
## 1 2020-02-09 0 0
## 2 2020-03-30 0 3
## 3 2020-06-23 29 118
## 4 2020-05-18 6 34
## 5 2020-03-14 0 0
## 6 2020-02-05 0 0
Ahora creamos un MAS con la biblioteca dplyr:
## # A tibble: 6 x 3
## Fecha Zacatecas SLP
## <date> <dbl> <dbl>
## 1 2020-05-28 7 38
## 2 2020-03-31 0 2
## 3 2020-05-04 5 28
## 4 2020-05-15 8 29
## 5 2020-06-29 43 127
## 6 2020-06-22 22 120
La manera en la que describiría el procedimiento del muestreo simple es que tenemos el número total de detos de nuestra población, en este caso son 178 datos en tota, y de este total de datos se toma un número específico de datos, aquí tome 13 (7.3% de la población), el cual es el tamaño de la muestra, y este número de datos se toma de manera completamente aleatoria, lo que quiere decir que todos los datos tienen la misma probabilidad de ser seleccionados.
- Realice un muestreo estratificado
set.seed(1)
sample_covid <- datos %>%
group_by(Zacatecas>SLP) %>%
sample_n(10, replace = TRUE)
sample_covid## # A tibble: 20 x 4
## # Groups: Zacatecas > SLP [2]
## Fecha Zacatecas SLP `Zacatecas > SLP`
## <date> <dbl> <dbl> <lgl>
## 1 2020-03-19 0 3 FALSE
## 2 2020-05-30 7 24 FALSE
## 3 2020-07-02 45 112 FALSE
## 4 2020-02-23 0 0 FALSE
## 5 2020-01-25 0 0 FALSE
## 6 2020-03-02 0 0 FALSE
## 7 2020-04-08 2 2 FALSE
## 8 2020-02-01 0 0 FALSE
## 9 2020-05-07 9 13 FALSE
## 10 2020-03-26 0 1 FALSE
## 11 2020-04-18 7 1 TRUE
## 12 2020-04-20 9 1 TRUE
## 13 2020-04-15 6 2 TRUE
## 14 2020-04-15 6 2 TRUE
## 15 2020-04-20 9 1 TRUE
## 16 2020-04-20 9 1 TRUE
## 17 2020-04-15 6 2 TRUE
## 18 2020-04-15 6 2 TRUE
## 19 2020-03-28 1 0 TRUE
## 20 2020-04-23 8 5 TRUE
El estrato que estbalecí en este muestreo fueron los dias en los que Zacatecas haya tenido más casos que San Luis Potosí, me pareció un dato interesante y como podemos observar, de 178 días en total solo hubo 10 en que Zacatecas tuvo más casos que en San Luis Potosí, lo cual es poco (5.6%).
- Realice un muestreo ponderado
## # A tibble: 13 x 3
## Fecha Zacatecas SLP
## <date> <dbl> <dbl>
## 1 2020-03-16 1 1
## 2 2020-05-19 0 26
## 3 2020-06-10 34 84
## 4 2020-04-10 0 1
## 5 2020-06-29 43 127
## 6 2020-04-06 1 3
## 7 2020-05-21 5 37
## 8 2020-03-29 0 6
## 9 2020-06-07 12 49
## 10 2020-06-08 20 114
## 11 2020-03-20 1 3
## 12 2020-04-04 1 3
## 13 2020-05-11 10 32
El ponderado de este caso es que los casos de San Luis Potosí sean mas de 0, esto paso en 13 días en total.
- Realice un muestreo de fracción
## [1] 156 20 44 121 87 70
## Fecha Zacatecas SLP
## 1 2020-02-02 0 0
## 2 2020-05-05 5 17
## 3 2020-04-24 5 4
## 4 2020-03-21 1 4
## 5 2020-07-04 15 31
## 6 2020-07-05 4 1
## [1] 14 3
Prueba de hipótesis
Relice sus hipótesis y aplique lo siguiente
| Fecha | Zacatecas | SLP |
|---|---|---|
| 2020-01-12 | 0 | 0 |
| 2020-01-13 | 0 | 0 |
| 2020-01-14 | 0 | 0 |
| 2020-01-15 | 0 | 0 |
| 2020-01-16 | 0 | 0 |
| 2020-01-17 | 0 | 0 |
| 2020-01-18 | 0 | 0 |
| 2020-01-19 | 0 | 0 |
| 2020-01-20 | 0 | 0 |
| 2020-01-21 | 0 | 0 |
| 2020-01-22 | 0 | 0 |
| 2020-01-23 | 0 | 0 |
| 2020-01-24 | 0 | 0 |
| 2020-01-25 | 0 | 0 |
| 2020-01-26 | 0 | 0 |
| 2020-01-27 | 0 | 0 |
| 2020-01-28 | 0 | 0 |
| 2020-01-29 | 0 | 0 |
| 2020-01-30 | 0 | 0 |
| 2020-01-31 | 0 | 0 |
| 2020-02-01 | 0 | 0 |
| 2020-02-02 | 0 | 0 |
| 2020-02-03 | 0 | 0 |
| 2020-02-04 | 0 | 0 |
| 2020-02-05 | 0 | 0 |
| 2020-02-06 | 0 | 0 |
| 2020-02-07 | 0 | 0 |
| 2020-02-08 | 0 | 0 |
| 2020-02-09 | 0 | 0 |
| 2020-02-10 | 0 | 0 |
| 2020-02-11 | 0 | 0 |
| 2020-02-12 | 0 | 0 |
| 2020-02-13 | 0 | 0 |
| 2020-02-14 | 0 | 0 |
| 2020-02-15 | 0 | 0 |
| 2020-02-16 | 0 | 0 |
| 2020-02-17 | 0 | 0 |
| 2020-02-18 | 0 | 0 |
| 2020-02-19 | 0 | 0 |
| 2020-02-20 | 0 | 0 |
| 2020-02-21 | 0 | 0 |
| 2020-02-22 | 0 | 0 |
| 2020-02-23 | 0 | 0 |
| 2020-02-24 | 0 | 0 |
| 2020-02-25 | 0 | 0 |
| 2020-02-26 | 0 | 0 |
| 2020-02-27 | 0 | 0 |
| 2020-02-28 | 0 | 0 |
| 2020-02-29 | 0 | 0 |
| 2020-03-01 | 0 | 0 |
| 2020-03-02 | 0 | 0 |
| 2020-03-03 | 0 | 0 |
| 2020-03-04 | 0 | 0 |
| 2020-03-05 | 0 | 0 |
| 2020-03-06 | 0 | 0 |
| 2020-03-07 | 0 | 0 |
| 2020-03-08 | 0 | 0 |
| 2020-03-09 | 0 | 0 |
| 2020-03-10 | 0 | 0 |
| 2020-03-11 | 0 | 0 |
| 2020-03-12 | 0 | 0 |
| 2020-03-13 | 0 | 2 |
| 2020-03-14 | 0 | 0 |
| 2020-03-15 | 0 | 0 |
| 2020-03-16 | 1 | 1 |
| 2020-03-17 | 0 | 5 |
| 2020-03-18 | 0 | 1 |
| 2020-03-19 | 0 | 3 |
| 2020-03-20 | 1 | 3 |
| 2020-03-21 | 1 | 4 |
| 2020-03-22 | 1 | 1 |
| 2020-03-23 | 0 | 2 |
| 2020-03-24 | 1 | 0 |
| 2020-03-25 | 0 | 0 |
| 2020-03-26 | 0 | 1 |
| 2020-03-27 | 4 | 6 |
| 2020-03-28 | 1 | 0 |
| 2020-03-29 | 0 | 6 |
| 2020-03-30 | 0 | 3 |
| 2020-03-31 | 0 | 2 |
| 2020-04-01 | 0 | 0 |
| 2020-04-02 | 1 | 0 |
| 2020-04-03 | 0 | 0 |
| 2020-04-04 | 1 | 3 |
| 2020-04-05 | 1 | 2 |
| 2020-04-06 | 1 | 3 |
| 2020-04-07 | 0 | 5 |
| 2020-04-08 | 2 | 2 |
| 2020-04-09 | 2 | 4 |
| 2020-04-10 | 0 | 1 |
| 2020-04-11 | 2 | 3 |
| 2020-04-12 | 1 | 0 |
| 2020-04-13 | 0 | 1 |
| 2020-04-14 | 1 | 1 |
| 2020-04-15 | 6 | 2 |
| 2020-04-16 | 3 | 2 |
| 2020-04-17 | 2 | 7 |
| 2020-04-18 | 7 | 1 |
| 2020-04-19 | 1 | 0 |
| 2020-04-20 | 9 | 1 |
| 2020-04-21 | 2 | 3 |
| 2020-04-22 | 2 | 3 |
| 2020-04-23 | 8 | 5 |
| 2020-04-24 | 5 | 4 |
| 2020-04-25 | 4 | 8 |
| 2020-04-26 | 3 | 3 |
| 2020-04-27 | 4 | 15 |
| 2020-04-28 | 10 | 17 |
| 2020-04-29 | 9 | 9 |
| 2020-04-30 | 4 | 10 |
| 2020-05-01 | 7 | 14 |
| 2020-05-02 | 7 | 14 |
| 2020-05-03 | 2 | 11 |
| 2020-05-04 | 5 | 28 |
| 2020-05-05 | 5 | 17 |
| 2020-05-06 | 11 | 34 |
| 2020-05-07 | 9 | 13 |
| 2020-05-08 | 9 | 26 |
| 2020-05-09 | 4 | 12 |
| 2020-05-10 | 2 | 19 |
| 2020-05-11 | 10 | 32 |
| 2020-05-12 | 3 | 23 |
| 2020-05-13 | 8 | 24 |
| 2020-05-14 | 13 | 34 |
| 2020-05-15 | 8 | 29 |
| 2020-05-16 | 3 | 25 |
| 2020-05-17 | 3 | 15 |
| 2020-05-18 | 6 | 34 |
| 2020-05-19 | 0 | 26 |
| 2020-05-20 | 15 | 39 |
| 2020-05-21 | 5 | 37 |
| 2020-05-22 | 9 | 56 |
| 2020-05-23 | 11 | 20 |
| 2020-05-24 | 6 | 20 |
| 2020-05-25 | 11 | 49 |
| 2020-05-26 | 12 | 39 |
| 2020-05-27 | 4 | 59 |
| 2020-05-28 | 7 | 38 |
| 2020-05-29 | 15 | 51 |
| 2020-05-30 | 7 | 24 |
| 2020-05-31 | 5 | 19 |
| 2020-06-01 | 16 | 51 |
| 2020-06-02 | 13 | 55 |
| 2020-06-03 | 16 | 77 |
| 2020-06-04 | 17 | 78 |
| 2020-06-05 | 17 | 79 |
| 2020-06-06 | 14 | 59 |
| 2020-06-07 | 12 | 49 |
| 2020-06-08 | 20 | 114 |
| 2020-06-09 | 27 | 92 |
| 2020-06-10 | 34 | 84 |
| 2020-06-11 | 19 | 74 |
| 2020-06-12 | 24 | 61 |
| 2020-06-13 | 19 | 29 |
| 2020-06-14 | 10 | 23 |
| 2020-06-15 | 37 | 89 |
| 2020-06-16 | 34 | 100 |
| 2020-06-17 | 21 | 113 |
| 2020-06-18 | 23 | 91 |
| 2020-06-19 | 16 | 89 |
| 2020-06-20 | 11 | 43 |
| 2020-06-21 | 9 | 40 |
| 2020-06-22 | 22 | 120 |
| 2020-06-23 | 29 | 118 |
| 2020-06-24 | 24 | 114 |
| 2020-06-25 | 32 | 119 |
| 2020-06-26 | 30 | 94 |
| 2020-06-27 | 15 | 88 |
| 2020-06-28 | 24 | 35 |
| 2020-06-29 | 43 | 127 |
| 2020-06-30 | 53 | 135 |
| 2020-07-01 | 47 | 130 |
| 2020-07-02 | 45 | 112 |
| 2020-07-03 | 46 | 126 |
| 2020-07-04 | 15 | 31 |
| 2020-07-05 | 4 | 1 |
| 2020-07-06 | 2 | 1 |
| 2020-07-07 | 0 | 0 |
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
ggplot(datos) +
ggtitle("COVID en Zacatecas y San Luis Potosí")+
geom_line(aes(x =Fecha, y =Zacatecas, colour = 'Zacatecas' )) +
geom_line(aes(x =Fecha, y =SLP, colour = 'San Luis Potosí')) +
labs(colour ='Estados') +
xlab('Fecha') +
ylab('Casos diarios') Por la tabla y la gráfica llego a la hipótesis H0: que las variables no están relacionadas ni son proporcionales.
- Prueba de shapiro wilk
##
## Shapiro-Wilk normality test
##
## data: datos$Zacatecas
## W = 0.67163, p-value < 2.2e-16
##
## Shapiro-Wilk normality test
##
## data: datos$SLP
## W = 0.6731, p-value < 2.2e-16
- Prueba de k.s.
## Warning in ks.test(datos$Zacatecas, "pnorm", mean = mean(datos$Zacatecas), :
## ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: datos$Zacatecas
## D = 0.26991, p-value = 1.091e-11
## alternative hypothesis: two-sided
## Warning in ks.test(datos$SLP, "pnorm", mean = mean(datos$SLP), sd =
## sd(datos$SLP)): ties should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: datos$SLP
## D = 0.27395, p-value = 4.99e-12
## alternative hypothesis: two-sided
- Normalidad de varianzas
##
## F test to compare two variances
##
## data: datos$Zacatecas and datos$SLP
## F = 0.091417, num df = 177, denom df = 177, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.06802271 0.12285731
## sample estimates:
## ratio of variances
## 0.09141711
- Numeros de tukey
## [1] 0 0 1 9 53
## [1] 0 0 2 29 135
- Comparativo de caja y bigote, comparativo de caja y bigote con desviación
z <-runif(datos$Zacatecas)
s <-runif(datos$SLP)
uni <-cbind(z,s)
op <- par(mfrow =c(1,2), cex.axis= 1)
boxplot(uni,cex.axis=1,col = c("grey","pink"), names=c("Zacatecas","SLP")) Se acepta la hipótesis nula, son muy parecidos pero no se relacionan entre sí, no pasa que si aumentan casos en Zacatecas, pase lo mismo en San Luis Potosi, o viceversa, o lo contrario.