Examen de la tercera unidad de competencia de la materia de probabilidad y estadística

Fecha de entrega: antes de Jueves 9 de Julio 11:00 p.m.

setwd("~/proba")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")

El examen se divide en 3 partes

Inferencia estadística

Describa con sus propias palabras los siguientes conceptos:

Inferencia estadística La inferencia estadistica es la manera en la que podemos deducir algo a partir de una serie de datos o resultados aplicados en cierto numero de casos. Se podria decir que si vemos un caso muy repetitivo en una muestra seleccionada, esperariamos que se volviera a repetir a futuro.
Población Una cantidad de datos relacionados (en el tema) tomados con el fin de estudiar un comportamiento en particular.
Muestreo Estudio de una población con el fin comprobar si esta ocurriendo ( o no) algun cambio significativo mediante diversas pruebas estadisticas.
Estadísticamente representativo Es la manera en la cual ordenamos los datos con el fin de que sean legibles. Al presentar estos datos de una manera grafica u escrita podemos expresar los resultados obtenidos o demostrar algun comportamiento en especial.
Hipótesis nula y alternativa La hipotesis nula es una teoria que, de no ser, correcta, nos muestra que la teoria propia era la que en verdad tenia razón, un ejemplo de esto, es afirmar que nuestro telefono funciona, nuestra hipotesis nula seria que el telefono no sirve, al no ser correcto, comprueba que estabamos en lo correcto, pero una alternativa seria que aunque funciona, no cumple con todos nuestros requisitos deseados.
Importancia del muestreo El muestro es muy relevante ya que gracias a estudiar cierta cantidad de datos podemos saber o comprender algun tipo de comportamiento o cambio del mismo. De esta manera podemos aportar varias soluciones a diversos casos de nuestra vida cotidiana y darnos cuenta de lo que estamos o no haciendo, si algo esta funcionando o no.

En esta parte es muy importante la redacción

Muestreo y prueba de hipótesis

setwd ("~/proba")
library(readxl)
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2")
datos <- read_excel("confirmados.xlsx")

Muestreo

Bajo sus propios criterios

Realice un muestreo aleatorio simple
Realice un muestreo estratificado
Realice un muestreo ponderado
Realice un muestreo de fracción

Explique cada respuesta

Muestreo

Bajo sus propios criterios

Realice un muestreo aleatorio simple

head(datos)

## # A tibble: 6 x 2
##      DF COLIMA
##   <dbl>  <dbl>
## 1     0      0
## 2     0      0
## 3     0      0
## 4     0      0
## 5     0      0
## 6     0      0

Se determina una muestra de 30 (n) para la población

n <- 15
muestramia <- sample(1:nrow(datos), size=n, replace=FALSE)
muestramia

##  [1] 170   1 159  68 160  36 113 122 131 172  52 149  37 104 158

datosmuestramia <- datos[muestramia, ]
head(datosmuestramia)

## # A tibble: 6 x 2
##      DF COLIMA
##   <dbl>  <dbl>
## 1   865     20
## 2     0      0
## 3   809     18
## 4    39      0
## 5   774     26
## 6     0      0

En el muestreo aleatorio simple fueron asignados numeros al azar con los cuales podemos observar si sobresalen numeros mas grandes o mas pequeños, en este caso, es conveniente que se presenten numeros pequeños pues demuestra una cantidad menor de confirmados con COVID-19.

Realice un muestreo estratificado

dim(datos)

## [1] 178   2

head(datos)

## # A tibble: 6 x 2
##      DF COLIMA
##   <dbl>  <dbl>
## 1     0      0
## 2     0      0
## 3     0      0
## 4     0      0
## 5     0      0
## 6     0      0

levels(as.factor(datos$DF))

##   [1] "0"    "1"    "3"    "8"    "10"   "11"   "12"   "17"   "21"   "24"  
##  [11] "25"   "26"   "31"   "34"   "35"   "39"   "49"   "50"   "51"   "55"  
##  [21] "57"   "61"   "71"   "75"   "77"   "79"   "110"  "114"  "117"  "125" 
##  [31] "127"  "147"  "169"  "185"  "197"  "222"  "226"  "233"  "246"  "247" 
##  [41] "250"  "261"  "268"  "291"  "299"  "318"  "320"  "326"  "327"  "341" 
##  [51] "344"  "347"  "354"  "355"  "357"  "386"  "391"  "399"  "432"  "445" 
##  [61] "452"  "474"  "495"  "506"  "508"  "530"  "535"  "562"  "567"  "582" 
##  [71] "587"  "681"  "702"  "715"  "742"  "765"  "773"  "774"  "783"  "787" 
##  [81] "794"  "807"  "809"  "810"  "820"  "822"  "826"  "833"  "855"  "865" 
##  [91] "872"  "873"  "875"  "878"  "886"  "889"  "897"  "902"  "904"  "908" 
## [101] "934"  "936"  "940"  "960"  "963"  "979"  "985"  "1007" "1016" "1046"

levels(as.factor(datos$COLIMA))

##  [1] "0"  "1"  "2"  "3"  "4"  "5"  "6"  "7"  "8"  "9"  "10" "11" "12" "13" "14"
## [16] "15" "16" "17" "18" "20" "21" "23" "24" "25" "26" "27" "32"

estados <- datos
datos$id <- 1:178
estados[1, 2]

## # A tibble: 1 x 1
##   COLIMA
##    <dbl>
## 1      0

set.seed(1)
sample_datos <- datos %>%
  group_by(COLIMA) %>%
  sample_n(size=n, replace=TRUE)
sample_datos

## # A tibble: 405 x 3
## # Groups:   COLIMA [27]
##       DF COLIMA    id
##    <dbl>  <dbl> <int>
##  1    12      0    70
##  2     0      0    39
##  3     0      0     1
##  4     0      0    34
##  5   222      0   106
##  6     0      0    43
##  7     0      0    14
##  8   125      0    88
##  9     3      0    59
## 10     1      0    51
## # ... with 395 more rows

En el muestreo estratificado tenemos el tamaño de la muestra proporcional al tamaño de la poblacion, en este casi tenemos 174 filas.

Realice un muestreo ponderado

datosmuestramia3 <- datos %>%   
  sample_n(size=n, weight = DF)
head(datosmuestramia3)

## # A tibble: 6 x 3
##      DF COLIMA    id
##   <dbl>  <dbl> <int>
## 1   567     25   174
## 2   936     11   144
## 3   810      7   138
## 4   587      5   115
## 5   822     32   172
## 6   185      1    99

datosmuestramia3 <- datos %>%   
  sample_n(size=n, weight = COLIMA)
head(datosmuestramia3)

## # A tibble: 6 x 3
##      DF COLIMA    id
##   <dbl>  <dbl> <int>
## 1   773     24   166
## 2   794      6   122
## 3   582      3   126
## 4   783     12   124
## 5   233     15   162
## 6   902     24   157

En el muestreo ponderado tenemos un numero mas especifico y escencial de la muestra, asi como puede ser aleatorio, se muestran valores de suma importancia, como podemos observar, Colima sigue teniendo significativamente numeros mas pequeños.

Realice un muestreo de fracción

estados <- data.frame(datos)
n <- 50
esta2 <- sample(1:nrow(datos), size=n, replace=FALSE)
head(esta2)

## [1]  29  91 164  32  51 119

De esta manera se va muestrear una fracción 0.05 de la población

estados.pesos <- estados %>%
  sample_frac(0.05)
head(estados.pesos); dim(estados.pesos)

##    DF COLIMA  id
## 1 875      7 132
## 2   0      0  42
## 3 875      4 123
## 4 452      4 133
## 5   0      0  38
## 6 386      4 141

## [1] 9 3

Aqui se tomaron datos escogidos al azar de nuestra poblacion escogida y a partir de esos numeros muestramos el 0.05 de la misma.

Prueba de hipótesis

Relice sus hipótesis y aplique lo siguiente

Prueba de shapiro wilk
Prueba de k.s.
Normalidad de varianzas
Numeros de tukey
Comparativo de caja y bigote, comparativo de caja y bigote con desviación
Prueba de shapiro wilk

shapiro.test(datos$DF)

## 
##  Shapiro-Wilk normality test
## 
## data:  datos$DF
## W = 0.79219, p-value = 1.238e-14

shapiro.test(datos$COLIMA)

## 
##  Shapiro-Wilk normality test
## 
## data:  datos$COLIMA
## W = 0.6679, p-value < 2.2e-16

Prueba de k.s.

ks.test(datos$DF,"pnorm", mean=mean(datos$DF), sd=sd(datos$DF))

## Warning in ks.test(datos$DF, "pnorm", mean = mean(datos$DF), sd = sd(datos$DF)):
## ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  datos$DF
## D = 0.22978, p-value = 1.373e-08
## alternative hypothesis: two-sided

ks.test(datos$COLIMA,"pnorm", mean=mean(datos$COLIMA), sd=sd(datos$COLIMA))

## Warning in ks.test(datos$COLIMA, "pnorm", mean = mean(datos$COLIMA), sd =
## sd(datos$COLIMA)): ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  datos$COLIMA
## D = 0.28729, p-value = 3.472e-13
## alternative hypothesis: two-sided

Normalidad de varianzas

var.test(datos$COLIMA, datos$DF)

## 
##  F test to compare two variances
## 
## data:  datos$COLIMA and datos$DF
## F = 0.00037306, num df = 177, denom df = 177, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.0002775877 0.0005013573
## sample estimates:
## ratio of variances 
##       0.0003730558

Numeros de tukey

fivenum(datos$COLIMA)

## [1]  0  0  0  6 32

fivenum(datos$DF)

## [1]    0    0  112  582 1046

Comparativo de caja y bigote, comparativo de caja y bigote con desviación

boxplot(datos)

op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(datos$DF ~ datos$COLIMA, col="grey", main="A"  )

Podemos observar que a comparacion de CDMX, Colima no presenta tantos casos confirmados dentro de su estado, mostrando una diferencia realmente significativa dentro de sus graficas y poblacion escogida para el estudio.

Pregunta de rescate

Solo suma pero no resta

¿La gente realmente quiere ser feliz o es una idea que nos vendieron?

Una de las primeras cosas que el ser humano tuvo seguridad en su vida, es que poseía de sentimientos y conciencia propia. Es un hecho, pues, que lo que sentimos es real, por el simple motivo de que tenemos conciencia para guardar el sentimiento y usarlo de referencia para diversos eventos de nuestras vidas. Si bien el ser humano tiene esta conciencia para saber lo que siente, tambien tiene suficiente de la misma para saber lo que prefiere sentir. En este caso, podemos decir que talvez una persona sabe que quiere ser feliz por el simple hecho de que no quiere sentirse triste. Pero exactamente, ¿Qué nos hace felices? Considero que aunque el ser humano tiene la plena seguridad de que quiere ser feliz, la industrializacion y las incesantes estrategias de ventas tienen como objetivo convencernos de lo que en realidad nos traerá felicidad, puesto que la globalización nos ha llevado a observar y desear diversos tipos de productos con lo que podriamos vivir sin, pero, nos satisface y nos hace sentir completos tener y acumular estos objetos de valor (hasta que sale una nueva versión). Podemos concluir que la felicidad es comparable entre culturas y sociedades y la manera en que nos dejamos influenciar por ellas ya que, en algunos países la felicidad puede llegar con el simple hecho de tener comida en la mesa. Creo que los seres humanos genuinamente deseamos ser felices a lo largo de nuestras vidas, sin embargo, lo que nos venden, es la idea de lo que pensamos nos traerá esa felicidad.

EPyE3

Larissa Castilla Padilla

8/7/2020

Examen de la tercera unidad de competencia de la materia de probabilidad y estadística

Inferencia estadística

Muestreo

Muestreo

Prueba de hipótesis

Pregunta de rescate