Examen de la tercera unidad de competencia de la materia de probabilidad y estadística

Fecha de entrega: antes de Jueves 9 de Julio 11:00 p.m.

setwd("~/PYE VERANO")
library(pacman)
p_load("readxl","base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")

El examen se divide en 3 partes

Inferencia estadística

Describa con sus propias palabras los siguientes conceptos:

Inferencia estadística Es el conjunto de métodos que permiten inducir o representar a través de una muestra estadística, el comportamiento de una determinada población. Basándome en los ejercicios que elaboramos en clase, agregaría que la inferencia estadística sirve para sacar conclusiones, deducciones o hipótesis a un conjunto de datos.
Población La población es considerada como el conjunto universal o el total de datos que se están estudiando: por ejemplo, consideraremos como población a los estudiantes universitarios de Sonora.
Muestreo El muestreo es un pedazo, extracto de la población, o sea un sub grupo de la misma. Siguiendo el ejemplo de arriba, si los estudiantes universitarios de Sonora es la población, los estudiantes de solamente el ITSON serían una muestra (pero no aleatoria).
Estadísticamente representativo Se estaría hablando de un pedazo de la población (muestra) que representa de manera correcta muy precisa al conjunto total.
Hipótesis nula y alternativa Una hipótesis nula se basa en análisis previos o en conocimiento especializado y la alternativa es lo que se piensa que puede ser cierto, o lo que no es la hipótesis nula.
Importancia del muestreo Estudiar una población completamente es largo, tedioso e incluso caro en algunos casos, para eso existe el muestreo, para poder llevar a cabo un estudio igual de certero al que se llevaría a cabo con una población, solo que de una manera más eficaz, para esto claro que se deben de tomar muchos factores en cuenta para que sea una muestra válida y útil: la naturaleza de la muestra, para qué se necesita el estudio, que tan facil es elaborarla, etc.

En esta parte es muy importante la redacción

Muestreo y prueba de hipótesis Escogí el de archivo de covid-19 en México por estado, compararé el estado de Zacatecas y San Luis Potosí.

xfun::embed_file("COVID_CONFIRMADOS_ESTADOS.xlsx")

Download COVID_CONFIRMADOS_ESTADOS.xlsx

xfun::embed_file("covid_zacsp.xlsx")

Download covid_zacsp.xlsx

Muestreo

Importar datos y crear tabla de datos

datos <- read_xlsx("covid_zacsp.xlsx", 
                   col_types = c("date", "numeric", "numeric"))
datos$Fecha <- as.Date(datos$Fecha)
dim(datos)

## [1] 178   3

datatable(datos)

Realice un muestreo aleatorio simple

Para crear el M.A.S, con un número de datos (aleatorios) de n=13 usando la función sample:

n <- 13
mas <- sample(1:nrow(datos), size=n, replace=FALSE) 
mas

##  [1]  29  79 164 128  63  25  84 112  20  31  10 158  43

datosmas <- datos[mas, ]
head(datosmas)

## # A tibble: 6 x 3
##   Fecha      Zacatecas   SLP
##   <date>         <dbl> <dbl>
## 1 2020-02-09         0     0
## 2 2020-03-30         0     3
## 3 2020-06-23        29   118
## 4 2020-05-18         6    34
## 5 2020-03-14         0     0
## 6 2020-02-05         0     0

Ahora creamos un MAS con la biblioteca dplyr:

library(dplyr)
datosmas2 <- datos %>%
  sample_n(size=n, replace=FALSE)

head(datosmas2)

## # A tibble: 6 x 3
##   Fecha      Zacatecas   SLP
##   <date>         <dbl> <dbl>
## 1 2020-05-28         7    38
## 2 2020-03-31         0     2
## 3 2020-05-04         5    28
## 4 2020-05-15         8    29
## 5 2020-06-29        43   127
## 6 2020-06-22        22   120

La manera en la que describiría el procedimiento del muestreo simple es que tenemos el número total de detos de nuestra población, en este caso son 178 datos en tota, y de este total de datos se toma un número específico de datos, aquí tome 13 (7.3% de la población), el cual es el tamaño de la muestra, y este número de datos se toma de manera completamente aleatoria, lo que quiere decir que todos los datos tienen la misma probabilidad de ser seleccionados.

Realice un muestreo estratificado

set.seed(1)
sample_covid <- datos %>%
  group_by(Zacatecas>SLP) %>%
  sample_n(10, replace = TRUE)
sample_covid

## # A tibble: 20 x 4
## # Groups:   Zacatecas > SLP [2]
##    Fecha      Zacatecas   SLP `Zacatecas > SLP`
##    <date>         <dbl> <dbl> <lgl>            
##  1 2020-03-19         0     3 FALSE            
##  2 2020-05-30         7    24 FALSE            
##  3 2020-07-02        45   112 FALSE            
##  4 2020-02-23         0     0 FALSE            
##  5 2020-01-25         0     0 FALSE            
##  6 2020-03-02         0     0 FALSE            
##  7 2020-04-08         2     2 FALSE            
##  8 2020-02-01         0     0 FALSE            
##  9 2020-05-07         9    13 FALSE            
## 10 2020-03-26         0     1 FALSE            
## 11 2020-04-18         7     1 TRUE             
## 12 2020-04-20         9     1 TRUE             
## 13 2020-04-15         6     2 TRUE             
## 14 2020-04-15         6     2 TRUE             
## 15 2020-04-20         9     1 TRUE             
## 16 2020-04-20         9     1 TRUE             
## 17 2020-04-15         6     2 TRUE             
## 18 2020-04-15         6     2 TRUE             
## 19 2020-03-28         1     0 TRUE             
## 20 2020-04-23         8     5 TRUE

El estrato que estbalecí en este muestreo fueron los dias en los que Zacatecas haya tenido más casos que San Luis Potosí, me pareció un dato interesante y como podemos observar, de 178 días en total solo hubo 10 en que Zacatecas tuvo más casos que en San Luis Potosí, lo cual es poco (5.6%).

Realice un muestreo ponderado

pond <- datos %>%   
  sample_n(size=n, weight = datos$SLP>0)
pond

## # A tibble: 13 x 3
##    Fecha      Zacatecas   SLP
##    <date>         <dbl> <dbl>
##  1 2020-03-16         1     1
##  2 2020-05-19         0    26
##  3 2020-06-10        34    84
##  4 2020-04-10         0     1
##  5 2020-06-29        43   127
##  6 2020-04-06         1     3
##  7 2020-05-21         5    37
##  8 2020-03-29         0     6
##  9 2020-06-07        12    49
## 10 2020-06-08        20   114
## 11 2020-03-20         1     3
## 12 2020-04-04         1     3
## 13 2020-05-11        10    32

El ponderado de este caso es que los casos de San Luis Potosí sean mas de 0, esto paso en 13 días en total.

Realice un muestreo de fracción

fr <- data.frame(datos)
n <- 20
cv <- sample(1:nrow(fr), size=n, replace=FALSE)
head(cv)

## [1] 156  20  44 121  87  70

fraccion <- fr %>%
  sample_frac(0.08)
head(fraccion); dim(fraccion)

##        Fecha Zacatecas SLP
## 1 2020-02-02         0   0
## 2 2020-05-05         5  17
## 3 2020-04-24         5   4
## 4 2020-03-21         1   4
## 5 2020-07-04        15  31
## 6 2020-07-05         4   1

## [1] 14  3

Prueba de hipótesis

Relice sus hipótesis y aplique lo siguiente

knitr::kable(datos)

Fecha	Zacatecas	SLP
2020-01-12	0	0
2020-01-13	0	0
2020-01-14	0	0
2020-01-15	0	0
2020-01-16	0	0
2020-01-17	0	0
2020-01-18	0	0
2020-01-19	0	0
2020-01-20	0	0
2020-01-21	0	0
2020-01-22	0	0
2020-01-23	0	0
2020-01-24	0	0
2020-01-25	0	0
2020-01-26	0	0
2020-01-27	0	0
2020-01-28	0	0
2020-01-29	0	0
2020-01-30	0	0
2020-01-31	0	0
2020-02-01	0	0
2020-02-02	0	0
2020-02-03	0	0
2020-02-04	0	0
2020-02-05	0	0
2020-02-06	0	0
2020-02-07	0	0
2020-02-08	0	0
2020-02-09	0	0
2020-02-10	0	0
2020-02-11	0	0
2020-02-12	0	0
2020-02-13	0	0
2020-02-14	0	0
2020-02-15	0	0
2020-02-16	0	0
2020-02-17	0	0
2020-02-18	0	0
2020-02-19	0	0
2020-02-20	0	0
2020-02-21	0	0
2020-02-22	0	0
2020-02-23	0	0
2020-02-24	0	0
2020-02-25	0	0
2020-02-26	0	0
2020-02-27	0	0
2020-02-28	0	0
2020-02-29	0	0
2020-03-01	0	0
2020-03-02	0	0
2020-03-03	0	0
2020-03-04	0	0
2020-03-05	0	0
2020-03-06	0	0
2020-03-07	0	0
2020-03-08	0	0
2020-03-09	0	0
2020-03-10	0	0
2020-03-11	0	0
2020-03-12	0	0
2020-03-13	0	2
2020-03-14	0	0
2020-03-15	0	0
2020-03-16	1	1
2020-03-17	0	5
2020-03-18	0	1
2020-03-19	0	3
2020-03-20	1	3
2020-03-21	1	4
2020-03-22	1	1
2020-03-23	0	2
2020-03-24	1	0
2020-03-25	0	0
2020-03-26	0	1
2020-03-27	4	6
2020-03-28	1	0
2020-03-29	0	6
2020-03-30	0	3
2020-03-31	0	2
2020-04-01	0	0
2020-04-02	1	0
2020-04-03	0	0
2020-04-04	1	3
2020-04-05	1	2
2020-04-06	1	3
2020-04-07	0	5
2020-04-08	2	2
2020-04-09	2	4
2020-04-10	0	1
2020-04-11	2	3
2020-04-12	1	0
2020-04-13	0	1
2020-04-14	1	1
2020-04-15	6	2
2020-04-16	3	2
2020-04-17	2	7
2020-04-18	7	1
2020-04-19	1	0
2020-04-20	9	1
2020-04-21	2	3
2020-04-22	2	3
2020-04-23	8	5
2020-04-24	5	4
2020-04-25	4	8
2020-04-26	3	3
2020-04-27	4	15
2020-04-28	10	17
2020-04-29	9	9
2020-04-30	4	10
2020-05-01	7	14
2020-05-02	7	14
2020-05-03	2	11
2020-05-04	5	28
2020-05-05	5	17
2020-05-06	11	34
2020-05-07	9	13
2020-05-08	9	26
2020-05-09	4	12
2020-05-10	2	19
2020-05-11	10	32
2020-05-12	3	23
2020-05-13	8	24
2020-05-14	13	34
2020-05-15	8	29
2020-05-16	3	25
2020-05-17	3	15
2020-05-18	6	34
2020-05-19	0	26
2020-05-20	15	39
2020-05-21	5	37
2020-05-22	9	56
2020-05-23	11	20
2020-05-24	6	20
2020-05-25	11	49
2020-05-26	12	39
2020-05-27	4	59
2020-05-28	7	38
2020-05-29	15	51
2020-05-30	7	24
2020-05-31	5	19
2020-06-01	16	51
2020-06-02	13	55
2020-06-03	16	77
2020-06-04	17	78
2020-06-05	17	79
2020-06-06	14	59
2020-06-07	12	49
2020-06-08	20	114
2020-06-09	27	92
2020-06-10	34	84
2020-06-11	19	74
2020-06-12	24	61
2020-06-13	19	29
2020-06-14	10	23
2020-06-15	37	89
2020-06-16	34	100
2020-06-17	21	113
2020-06-18	23	91
2020-06-19	16	89
2020-06-20	11	43
2020-06-21	9	40
2020-06-22	22	120
2020-06-23	29	118
2020-06-24	24	114
2020-06-25	32	119
2020-06-26	30	94
2020-06-27	15	88
2020-06-28	24	35
2020-06-29	43	127
2020-06-30	53	135
2020-07-01	47	130
2020-07-02	45	112
2020-07-03	46	126
2020-07-04	15	31
2020-07-05	4	1
2020-07-06	2	1
2020-07-07	0	0

library(plotly)

## 
## Attaching package: 'plotly'

## The following object is masked from 'package:ggplot2':
## 
##     last_plot

## The following object is masked from 'package:stats':
## 
##     filter

## The following object is masked from 'package:graphics':
## 
##     layout

ggplot(datos) +
  ggtitle("COVID en Zacatecas y San Luis Potosí")+
  geom_line(aes(x =Fecha, y =Zacatecas, colour = 'Zacatecas' )) +
  geom_line(aes(x =Fecha, y =SLP, colour = 'San Luis Potosí')) +
  labs(colour ='Estados') + 
   xlab('Fecha') +
  ylab('Casos diarios')

Por la tabla y la gráfica llego a la hipótesis H0: que las variables no están relacionadas ni son proporcionales.

Prueba de shapiro wilk

shapiro.test(datos$Zacatecas)

## 
##  Shapiro-Wilk normality test
## 
## data:  datos$Zacatecas
## W = 0.67163, p-value < 2.2e-16

shapiro.test(datos$SLP)

## 
##  Shapiro-Wilk normality test
## 
## data:  datos$SLP
## W = 0.6731, p-value < 2.2e-16

Prueba de k.s.

ks.test(datos$Zacatecas,"pnorm", mean=mean(datos$Zacatecas), sd=sd(datos$Zacatecas))

## Warning in ks.test(datos$Zacatecas, "pnorm", mean = mean(datos$Zacatecas), :
## ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  datos$Zacatecas
## D = 0.26991, p-value = 1.091e-11
## alternative hypothesis: two-sided

ks.test(datos$SLP,"pnorm", mean=mean(datos$SLP), sd=sd(datos$SLP))

## Warning in ks.test(datos$SLP, "pnorm", mean = mean(datos$SLP), sd =
## sd(datos$SLP)): ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  datos$SLP
## D = 0.27395, p-value = 4.99e-12
## alternative hypothesis: two-sided

Normalidad de varianzas

var.test(datos$Zacatecas, datos$SLP)

## 
##  F test to compare two variances
## 
## data:  datos$Zacatecas and datos$SLP
## F = 0.091417, num df = 177, denom df = 177, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.06802271 0.12285731
## sample estimates:
## ratio of variances 
##         0.09141711

Numeros de tukey

fivenum(datos$Zacatecas)

## [1]  0  0  1  9 53

fivenum(datos$SLP)

## [1]   0   0   2  29 135

Comparativo de caja y bigote, comparativo de caja y bigote con desviación

z <-runif(datos$Zacatecas)
s <-runif(datos$SLP)
uni <-cbind(z,s)
op <- par(mfrow =c(1,2), cex.axis= 1)
boxplot(uni,cex.axis=1,col = c("grey","pink"), names=c("Zacatecas","SLP"))

Se acepta la hipótesis nula, son muy parecidos pero no se relacionan entre sí, no pasa que si aumentan casos en Zacatecas, pase lo mismo en San Luis Potosi, o viceversa, o lo contrario.

xfun::embed_file("EPYE3.rmd")

Download EPYE3.rmd