setwd("~/PyE_206145")
library(pacman)
library(readxl)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc", "knitr","DT", "ggplot2", "tidyr", "plotly", "dplyr")

Inferencia estadística

1. Describa con sus propias palabras los siguientes conceptos

Inferencia estadística

Lo entiendo como la deducción de ciertas suposiciones que hacemos al realizar un trabajo que involucre acciones estadísticas tales como el muestreo al conjuntar datos.

Población

Este concepto se puede referir no solo a población de personas, sino que es básicamente un conjunto de una muestra de la misma especie, por ejemplo, el conjunto de manzanas es una poblacion y el conjunto de naranjas puede ser otra. El punto sería en que mostraran características semejantes para poder estudiarlas.

Muestreo

Retomando la respuesta anterior, el muestreo se basa en el fin que tiene la recolección de un conjunto poblacional, el cual es poder convertirse en el objeto de estudio principal y lograr proyectar el resultado obtenido en dicha muestra poblacional.

Estadísticamente representativo

Entiendo que hace referencia a que la toma de una muestra sea representativa para el análisis estadístico, por ejemplo si se quiere estudiar una población de mil de manzanas, tomar una muestra representativa de ella, para lograr que los resultados sean lo más acertados posibles.

Hipótesis nula y alternativa

Representan básicamente la exclusión de una población. La prueba de hipótesis puede determinar mediante el análisis de alguna muestra si una hipótesis nula se rechaza. En cambio, la alternativa es lo que se cree que podría pasar, en espera de que esta sea acertada o no acertada.

Importancia del muestreo

El muestreo es lo más importante al querer realizar un análisis estadístico, pues en base a él, como mencionaba arriba, se puede estudiar una población mediante su muestra representativa, y así lograr que dichos datos nos arrojen una ventaja en alguna investigación y corroborar que, efectivamente, los resultados sí son representativos.

Muestreo

aguasub <- read_excel("aguasubterranea.xlsx")
dim(aguasub)

## [1] 586   3

A continuación se anexa una tabla con un total de 586 posiciones, en donde las posiciones de cada variable (PH/TEMP) se ocupan con los numeros del 1 al 586,los cuales la mitad (1 a 293) son de pH y la segunda mitad (294 a 586) son de temperatura, mismas que no se deben confundir con el valor N en donde se numera tanto pH como temperatura del 1 al 293, el cual indica la relación de una variable con otra, por ejemplo, N=1 de pH esta relacionada con la N=1 de Temperatura y así consecutivamente. El motivo de iniciar con la tabla es que quede entendido lo anteriormente mencionado y poder guiarnos con ella al momento de obtener los resultados de nuestros muestreos.

datatable(aguasub)

2. Realice un muestreo aleatorio simple

Se determina una muestra de 50 para la población de agua:

Ahora si queremos una muestra de 50, no vamos a poner una n=50, sino de la mitad (indicaría 25 muestras de pH y otras 25 de temperatura), pero ¿por qué es así? porque como hemos estado viendo, los datos vienen de 2 poblaciones diferentes que dependen una de otra pero de una sola muestra que es la del agua, con esto me refiero a que la muestra subpoblacion, por ejemplo, de pH=6.8 se tomó en conjunto de una temperatura=23°C, razón por la cual no podemos muetrear sin tomar en cuenta esto. Dicho lo anterior, veamos que los resultados serán nuevamente las posiciones; si n1=129, entonces N=129, PH=6.7 y TEMP= 28.5, y esto lo sabemos, basándonos en la tabla, y esto es muy facil, puesto que la tabla es sencilla de analizar y manejar.

~Ejemplo de la corroboración de datos en tabla

set.seed(1)
n <- 25
muestramia <- sample(1:nrow(aguasub), size = n, replace = FALSE)
muestramia

##  [1] 129 509 471 299 270 187 307 277 494 330  37 105 485 382 326 577 554 422 111
## [20] 404 532 506 556 343 121

¿Por qué no tomar la opción de modificar excel? y trabajar con ella:

Porque funcionaria solo para la primera parte que sería el muestreo, pero para las siguientes preguntas no, y así poder trabajar con un solo archivo,
Porque el concepto anteriormente mostrado, se tendía que volver a explicar en el uso de los comandos de las siguientes respuestas y es mejor trabajar entendiendo todo desde el principio.
Porque el examen lo presentamos al maestro, que entiende mejor a lo que se quiere llegar, (el público es limitado, a quien va dirigido el documento le entiende), en cambio si fuera un documento abierto al público sí sería más viable trabajar en un segundo ejemplo con un segundo excel para que comprendan quizá más rápido. Aunque considero que la explicación es lo suficientemente detallada para que lo comprenda cualquier persona.

Asignar los elementos de la muestra al marco de datos:

asubmuestramia <- aguasub[muestramia, ]
head(asubmuestramia)

## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   129 PH         6.7
## 2   216 TEMP      27.8
## 3   178 TEMP      28.8
## 4     6 TEMP      28.4
## 5   270 PH         6.8
## 6   187 PH         6.8

Aquí tenemos que recordar nuevamente que tanto pH como Temperatura no son variables tomadas independientemente y aplicar lo redactado al inicio.

Por ser una muestra pequeña de una población relativamente pequeña también, se elige el muestreo aleatorio simple sin reemplazo

3. Realice un muestreo estratificado

set.seed(7)
sample_aguasub <- aguasub %>%
  group_by(MEDICION) %>%
  sample_n(10)
sample_aguasub

## # A tibble: 20 x 3
## # Groups:   MEDICION [2]
##        N MEDICION VALOR
##    <dbl> <chr>    <dbl>
##  1   103 PH         6.8
##  2   194 PH         6.9
##  3   271 PH         6.9
##  4   218 PH         6.8
##  5   118 PH         6.1
##  6   168 PH         7  
##  7    22 PH         7.3
##  8    59 PH         7.1
##  9    90 PH         7.1
## 10   268 PH         6.8
## 11   287 TEMP      27.7
## 12   207 TEMP      28  
## 13   134 TEMP      27.5
## 14   150 TEMP      29.2
## 15   187 TEMP      29.1
## 16    21 TEMP      29.8
## 17   282 TEMP      27.9
## 18   215 TEMP      28.2
## 19   100 TEMP      28.6
## 20   166 TEMP      26.9

Al realizar este tipo de muestreo, nos arrojará como resultado dos apartados, una de la sub-poblacion pH y otra de la sub-población temperatura, en este caso elegimos 10 datos de cada una con la función “sample_n” indicándonos su N lugar correspondiente, que no se debe confundir con la posición, ya que recordando la conclusión en el muestreo simple, su posición se halla dentro de los 586 datos en total, y su N PH en los primeros 293 lugares y su N TEMP en los siguientes 293 lugares etonces en total se estarían muestreando 40 datos.

4. Realice un muestreo ponderado

Ponderación usando los valores:

asubmuestramia2 <- aguasub %>%
  sample_n(size = n, weight = VALOR)
head(asubmuestramia2)

## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1    55 TEMP      28.6
## 2   160 TEMP      26.2
## 3    27 TEMP      28.8
## 4   168 TEMP      27.3
## 5   115 TEMP      28.6
## 6   221 PH         6.9

Aquí nos arroja datos al azar no solo de temperatura o de pH, sino de los 2, no como anteriormente que era uno u otro, o los dos pero en diferentes tablas

5. Realice un muestreo de fracción

n <- 50
aguasub2 <- sample(1:nrow(aguasub), size = n, replace = FALSE)
head(aguasub2)

## [1] 186 174 378 488 343 389

Ahora se va a muestrar una fracción 0.05 de la población

aguasub.p <- aguasub %>%
  sample_frac(0.05)
head(aguasub.p); dim(aguasub.p)

## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   125 TEMP      27.3
## 2    45 TEMP      29.2
## 3   227 TEMP      28.1
## 4   149 PH         7.3
## 5   112 PH         6.8
## 6   164 TEMP      27.9

## [1] 29  3

Aquí obtenemos la proporcion del tamaño de la muestra con “dim” obteniendo solo datos de cabecera pero totalmente al azar del 0.05 de la población en total que recordando, seria 0.1 en realidad, para poder considerar las 2 variables o sub-poblaciones

Prueba de hipótesis

Sospecho que, en realidad, en este conjunto de datos o caso, la temperatura no tiene relación con el pH.

H0: La temperatura afecta el pH del agua.

H1: La temperatura y el pH no tienen relación alguna y existe otra variable por la cuál este cambie.

Decidí aplicarlos tanto a PH como a TEMP

pH <- subset(aguasub, MEDICION == "PH") 
Temp <- subset(aguasub, MEDICION == "TEMP")

6. Prueba de Shapiro Wilk

pH:

shapiro.test(pH$VALOR)

## 
##  Shapiro-Wilk normality test
## 
## data:  pH$VALOR
## W = 0.95932, p-value = 2.661e-07

Temperatura:

shapiro.test(Temp$VALOR)

## 
##  Shapiro-Wilk normality test
## 
## data:  Temp$VALOR
## W = 0.98362, p-value = 0.001981

7. Prueba de k.s.

pH:

ks.test(pH$VALOR, "pnorm", mean=mean(pH$VALOR), sd=sd(pH$VALOR))

## Warning in ks.test(pH$VALOR, "pnorm", mean = mean(pH$VALOR), sd = sd(pH$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  pH$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided

Temperatura:

ks.test(Temp$VALOR, "pnorm", mean=mean(Temp$VALOR), sd=sd(Temp$VALOR))

## Warning in ks.test(Temp$VALOR, "pnorm", mean = mean(Temp$VALOR), sd =
## sd(Temp$VALOR)): ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  Temp$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided

8. Normalidad de varianzas

var.test(pH$VALOR, Temp$VALOR)

## 
##  F test to compare two variances
## 
## data:  pH$VALOR and Temp$VALOR
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.03767300 0.05965831
## sample estimates:
## ratio of variances 
##         0.04740789

9. Números de Tukey

pH:

fivenum(pH$VALOR)

## [1] 6.1 6.8 6.9 7.0 7.5

Temperatura:

fivenum(Temp$VALOR)

## [1] 25.6 28.0 28.7 29.2 32.1

10. Comparativo de caja y bigote, comparativo de caja y bigote con desviación

Caja y bigote para los subconjuntos PH y TEMP

boxplot(aguasub$VALOR ~ aguasub$MEDICION, col= "magenta1")

Para mejor visualización:

pH:

boxplot(pH$VALOR ~ pH$MEDICION, col = "maroon3")

Temperatura:

boxplot(Temp$VALOR ~ Temp$MEDICION, col= "magenta3")

Caja y bigote con desviación:

op <- par(mfrow =c(1,2), cex.axis=.7, cex.lab=.9 )

boxplot(aguasub$VALOR ~ aguasub$MEDICION, col= "skyblue", main="A"  )
barplot(tapply(aguasub$VALOR, list(aguasub$MEDICION), mean ), beside = T, main="B", col="darkblue"                            )

Ultima prueba:

t.test(Temp$VALOR, pH$VALOR, var.equal = T, )

## 
##  Two Sample t-test
## 
## data:  Temp$VALOR and pH$VALOR
## t = 358.45, df = 584, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  21.68802 21.92700
## sample estimates:
## mean of x mean of y 
## 28.697952  6.890444

Como nuestras p-value son mucho menores que nuestro nivel de significancia (0.05)¨, la normalidad de los datos y nuestras varianzas no son iguales, por lo tanto se rechaza la hipótesis nula y aceptamos la hipótesis alternativa.

Pregunta de rescate

¿La gente realmente quiere ser feliz o es una idea que nos vendieron?

La gente sí quiere ser feliz, más sin embargo, esa no es la idea que nos vendieron, la que nos han estado imponiendo es un concepto muy distinto de felicidad al que realmente es. Lo que quiero decir es que, la gente no busca ser feliz, la gente busca ser exitosa, y confunden muy comunmente estos dos conceptos. A menudo, asumen que el éxito significa tener o ser más que los demás, y que serían feliz con ello, un ejemplo sería un médico haciendo menos a un pintor, creyéndose este más exitoso que el otro por los estigmas sociales “un pintor se morirá de hambre”, “al médico siempre le irá mejor económicamente”. Es ahí donde se relacionan de una u otra manera el concepto del éxito con el de felicidad. Si bien algunos tenemos claro lo que nos apasiona, y nos hace feliz, la mayoría de la gente cree que será feliz alcanzando el éxito, pero no el éxito como tal, sino el éxito como la idea/concepto mencionado anteriormente. En fin, mi conclusión es que por el “grado de éxito” no se le etiqueta a una persona como fracasada o no, o infeliz o no. Existen millonarios frustrados o infelices, o simplemente malas personas, y gente humilde que es feliz con lo que tiene y le enorgullecen los logros que ha tenido, valorándolos más por el trabajo que le ha costado llegar a ellos.

Examen 3, Unidad III de Probabilidad y Estádistica

Daniela Zazueta

8/7/2020

Inferencia estadística

Muestreo

Prueba de hipótesis

Pregunta de rescate