EPYE3

Lopez Dorado Carlos Alberto

8/7/2020

Examen de la tercera unidad de competencia de la materia de probabilidad y estadística

Examen de la tercera unidad de competencia de la materia de probabilidad y estadística

setwd("~/verano")
library(pacman)
p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2","readxl")

Inferencia estadística

1. Describa con sus propias palabras los siguientes conceptos:

Inferencia estadística

La inferencia estadística es un conjunto de métodos los caules nos permiten inducir, a través de la obtencion de una muestra estadística, cual seria el comportamiento de una población determinada.al igual que estudia el como, a través de una aplicación de dichos métodos en los cuales los datos de una muestra, se pueden obtener conclusiones acerca de los parámetros de la población de datos.

Población

Cuando se trata de Una población de datos, este es el conjunto total de los datos que existen sobre un variable.

Muestreo

El muestreo hace referencia es el proceso de seleccionar un conjunto de individuos de una población con la finalidad de que los estudiemos y podamos darnos una idea del total de la población.

Estadísticamente representativo

Cuando utilizamos una muestra pequeña esto nos muestra con mucha precisión o por puede representar a una muestra más grande.

Hipótesis nula y alternativa

La hipótesis nula trata de hacer una afirmación con respecto de la población del origen de la muestra. Regularmente, es más facil (menor número de parámetros) que su antagonista.

AL igual que la hipotesis nula, la hipótesis alternativa es una afirmación sobre la población de origen. Aunque en algunas ocaciones , no siempre, se trata simplemente en negar la afirmación de la hipotesis nula.

Importancia del muestreo

Es muy importante lo que es el muestreo puesto que, con las muestras tomadas y los analisis que se le realizan podemos dar nuestro punto de vista al respecto, por ejemplo: que indice de obesidad es mayor por estados o en que stados hace mas calor. Y ademas que si tomamos una pequeña muestra que sea significativa, podemos inferir en cuales serian las mejores dediciones a tomar.

En esta parte es muy importante la redacción

Muestreo y prueba de hipótesis Escoja alguno de los 3 archivos con datos para realizar su examen:

#Datos de agua subterranea
#Datos de salud 
#Datos de calidad del aire

\[Datos \ de \ Aguas\ subterraneas\]

aguas <- read_excel("aguasubterranea.xlsx")
dim(aguas)

## [1] 586   3

datatable(aguas)

Muestreo

Bajo sus propios criterios

2. Realice un muestreo aleatorio simple

PH <- subset(aguas, MEDICION == "PH" )
TEMP <- subset(aguas, MEDICION == "TEMP" )

n <- 15
muestramia <- sample(1:nrow(aguas), size=n, replace=FALSE)
muestramia

##  [1] 566 578 108  95 482 271 522 264 438 386 341 447 253 458 237

aguasmuestramia <- aguas %>%
  sample_n(size=n, replace=FALSE)
head(aguasmuestramia)

## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   239 TEMP      29  
## 2    23 PH         6.7
## 3    95 PH         6.6
## 4   251 PH         7  
## 5    48 TEMP      28.4
## 6   208 TEMP      27.9

En el muestreo aleatorio consideramos 15 muestras, los número indicado no nos muestran el valor de PH y ni el de la temperatura, pero si en el número de fila en que se encuantran los datos tomados.

3. Realice un muestreo estratificado

dim(aguas)

## [1] 586   3

head(aguas)

## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1     1 PH         6.8
## 2     2 PH         6.9
## 3     3 PH         6.8
## 4     4 PH         7.1
## 5     5 PH         6.6
## 6     6 PH         6.8

set.seed(1)
sample_agua <- aguas %>%
  group_by(MEDICION) %>%
  sample_n(10)
sample_agua

## # A tibble: 20 x 3
## # Groups:   MEDICION [2]
##        N MEDICION VALOR
##    <dbl> <chr>    <dbl>
##  1   167 PH         6.5
##  2   129 PH         6.7
##  3   270 PH         6.8
##  4   187 PH         6.8
##  5    85 PH         6.9
##  6   277 PH         7.1
##  7   263 PH         6.5
##  8    79 PH         6.8
##  9   213 PH         6.8
## 10    37 PH         7  
## 11   105 TEMP      29.8
## 12   217 TEMP      28.1
## 13   165 TEMP      27.5
## 14   290 TEMP      28  
## 15    89 TEMP      30  
## 16    42 TEMP      26.4
## 17   111 TEMP      28.5
## 18    20 TEMP      29  
## 19    44 TEMP      28  
## 20    70 TEMP      31.2

A diferencia del caso anterior aqui en el muestreo estratificado utilizando el comando sample y dando un número semilla que es 1, nos da un muestreo el caul podría ser representativo dado que los datos arrojados son de pH y de temperatura.

4. Realice un muestreo ponderado

aguas.pe <- aguas %>%   
  sample_n(size=n, weight = VALOR)
head(aguas.pe)

## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   102 PH         7  
## 2   109 TEMP      28.6
## 3   104 TEMP      29.1
## 4    41 TEMP      30.1
## 5   103 TEMP      29.9
## 6   193 TEMP      28.9

Con nuestro muestreo ponderado nos arroja seis muestras de las cuales tienen un tamaño de 15 que es nuestra n . Podemos decir, que no son muestras representativas ya que se estan tomando más datos de temperatura que de PH.

5. Realice un muestreo de fracción

aguasub <- data.frame(aguas)
n <- 20
agusub <- sample(1:nrow(aguasub), size=n, replace=FALSE)
head(agusub)

## [1]  45 402  22 193 371 499

aguas.pe <- aguas %>%
  sample_frac(0.12)
head(aguas.pe); dim(aguas.pe)

## # A tibble: 6 x 3
##       N MEDICION VALOR
##   <dbl> <chr>    <dbl>
## 1   264 TEMP      30.2
## 2   287 PH         6.4
## 3   145 PH         7  
## 4    36 TEMP      30.5
## 5   194 TEMP      29.4
## 6   205 TEMP      29.4

## [1] 70  3

En este muestreo fraccional se consideró la fracción de 0.12 de la población y los datos, con lo cual podemos decir que son mas representativos que el resto, puesto que son mitad de PH y mitad de Temperatura.

Explique cada respuesta

Prueba de hipótesis

Relice sus hipótesis y aplique lo siguiente

HIPOTESIS

Debido a que PH depende de la temperatura, y ya comprobado de que al incrementar la temperatura, el PH baja y al reves; cuando la temperatura baja, el PH sube. Dados estos datos podemos decir que estos dos parametros estan ligados o por lo menos tienen una gran relacion.

6. Prueba de shapiro wilk

shapiro.test(PH$VALOR)

## 
##  Shapiro-Wilk normality test
## 
## data:  PH$VALOR
## W = 0.95932, p-value = 2.661e-07

shapiro.test(TEMP$VALOR)

## 
##  Shapiro-Wilk normality test
## 
## data:  TEMP$VALOR
## W = 0.98362, p-value = 0.001981

De acuerdo con el test de Shapiro Wilk si nuestro valor de probabilidad es menor a 0.05 se rechaza la hipótesis nula. Por lo que en este caso rechazamos la hipótesis nula

7. Prueba de k.s.

ks.test(PH$VALOR,"pnorm", mean=mean(PH$VALOR), sd=sd(PH$VALOR))

## Warning in ks.test(PH$VALOR, "pnorm", mean = mean(PH$VALOR), sd = sd(PH$VALOR)):
## ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  PH$VALOR
## D = 0.1436, p-value = 1.129e-05
## alternative hypothesis: two-sided

ks.test(TEMP$VALOR, "pnorm", mean = mean(TEMP$VALOR), sd = sd(TEMP$VALOR))

## Warning in ks.test(TEMP$VALOR, "pnorm", mean = mean(TEMP$VALOR), sd =
## sd(TEMP$VALOR)): ties should not be present for the Kolmogorov-Smirnov test

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  TEMP$VALOR
## D = 0.071961, p-value = 0.09618
## alternative hypothesis: two-sided

Con la prueba de k.s, buscamos lo que es la bondad de ajuste, es decir que sirve para comprobar si sigue o no una distribución normal, en este caso como ya que de igual manera los valores de probabilidad son muy bajos quiere decir que : no sigue con una distribución normal.

8. Normalidad de varianzas

var.test(PH$VALOR, TEMP$VALOR)

## 
##  F test to compare two variances
## 
## data:  PH$VALOR and TEMP$VALOR
## F = 0.047408, num df = 292, denom df = 292, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.03767300 0.05965831
## sample estimates:
## ratio of variances 
##         0.04740789

La prueba de varianzas la utilizamos cuanod queremos comprobar la homogeneidad de los datos, es decir; para esto la varianza que debe de tener el PH tanto como la de la temperatura deben de ser iguales. Dados los datos arrojaodos los valores son de: P= < 2.2e-16, un valor muy por debajo del 0.05, por eso es correcto decir que se rechaza la hipótesis nula.

9. Numeros de tukey

#Para kilogramos
fivenum(PH$VALOR)

## [1] 6.1 6.8 6.9 7.0 7.5

fivenum(TEMP$VALOR)

## [1] 25.6 28.0 28.7 29.2 32.1

Los números de Tukey muestran la primer cuartila, el número menor, la tercer cuartila, el valor medio y el valor maximo de todos los datos analizados. En este caso el valor mínimo para PH es 6.1 y el de TEMP 25.6 y sus valores máximos son 7.5 y 32.1 por lo que se puede deducir que los números estan muy alejados uno del otro comparando el PH contra TEMP.

10. Comparativo de caja y bigote, comparativo de caja y bigote con desviación

boxplot(aguas$VALOR  ~ aguas$MEDICION, col = "darkred"  )

op <- par(mfrow = c(1,2), cex.axis = 0.7, cex.lab = 0.9)
boxplot(aguas$VALOR ~ aguas$MEDICION, col = "turquoise", main = "A")
barplot(tapply(aguas$VALOR, list(aguas$MEDICION), mean), beside = T, main = "B" , col = "lightgreen")

Dadas las grafica caja y bigote, es facil el observar que la grafica del PH está muy por abajo,a diferencia de la de Temperatura que está muy por arriba, esto se presenta por que: los intervalos que son del PH van de entre 6 a 8 y los de la Temperatura de 20 a 30, ya que el pH va desde 1 hasta 14 y las termperaturas van desde 0 hasta los 50°C. Por lo tanto es decir que dadas las representaciones en las graficas nuestra hipotesis es rechazada.

Pregunta de rescate

Solo suma pero no resta

¿La gente realmente quiere ser feliz o es una idea que nos vendieron?

Las personas todos los dias salen a ganarse la vida, ya sean microempresarios, macroempresario o simples trabajadores, ellos salen a luchar dia a dia con tal de ganarse la vida. Probablemente usen su dinero para comprarse lujos o necesidades, en cualquiera que sea el caso ellos gastan ese fruto de horas de trabajo sin descanso y al gastarlo en cosas o en las personas que quieren como seria: hijos, padres, hermanos, abuelos, etc., al gastarlo de esta forma ellos sentiran una gratitud con ellos mismos lo que podria llamarse felicidad, pero,¿ es esa la felicidad que buscamos o es simplemente un truco usado por las empresas para promocionar productos?

Cada persona vive en un mundo distinto, es decir cada persona piensa a su manera, cada quien decide que la hace feliz y que no, puesto que no todos buscamos la riqueza, o el amor, o una familia, para ser felices. Las personas que salen e trabajar arduamente todos los dias desde temprano, para comprarse algo de su antojo, ellos buscan una felicidad material. Las personas que solo trabajan para darle un futuro digno a su familia, buscan una felicidad a lado de us familia. Las personas que trabajan pero no gozan de lujos, y solo trabajan para subsistir y en el camino se encuentran algun hobby o alguna actividad recreativa que los haga estar felices con ellos mismo, ese tipo de personas buscan una felicidad interna. La felicidad que busquemos dependera de nuesto mundo o mas bien de nuestras decisiones y lo que creamos que es mejor para nosotros, pero sin importar la que sea con la que nos identifiquemos debemos de llevarla con nosotros para de esta forma alejar las malas decisiones o las malas actitudes, las cuales pueden llevarnos a perder nuestra familia, trabajo y amigos.