--- title: "Lab_4" author: "Grupo_2_B" date: "12/11/2020" output: html_document --- ## INTEGRANTES Fabricio Murillo Flores FabricioMF72@gmail.com Gustavo Trejos Marin maringfa@gmail.com jeffrey Gonzalez jeffreygonzalezs@gmail.com ```{r setup, include=FALSE} knitr::opts_chunk$set(echo = TRUE) ``` ##"1- Cargue el archivo unemploymentClaims.csv Provisto por el profesor en el siguiente link Debe hacerlo directamente desde la función read.csv ```{r inicio, include=FALSE} library(dlookr) library(scales) library(dplyr) library(lubridate) library(ggplot2) emplomentClaims <- read.csv("https://raw.githubusercontent.com/DFJL/Datasets/master/unemploymentClaims.csv", sep = ";") View(emplomentClaims) ``` ## Pregunta 2 ```{r Pregunta 2, include=FALSE} #Previanmente he cargado el archivo con el nombre de claims emplomentClaims$date <- as.Date(emplomentClaims$Filed.week.ended, format = '%m/%d/%Y') emplomentClaims2 <- emplomentClaims %>% mutate(year= year(date), month= month(date)) %>% filter(year==2020) %>% group_by(State,year,month,date) %>% summarise(emplomentClaims= sum(Continued.Claims), TotalEmployment=sum(Covered.Employment)) %>% ungroup() ``` ## "Pregunta 3, Escoja un estado y filtre los datos en un nuevo dataframe Utilice este dataframe para posteriores ejercicios". ```{r Pregunta 3, include=FALSE} emplomentClaims2state <- emplomentClaims2 %>% filter(State=='Florida') View(emplomentClaims2state) ``` ##" pregunta 4, Cree un boxplot por la variable month para la variable claims." ```{r Pregunta 4, include=FALSE, datos_aleatorios} boxemplomenteClaims2state <- boxplot(emplomentClaims2state$month, emplomentClaims2state$emplomentClaims, main = "Cambio procentual de moth por emplomentClaims", xlab = "Month", ylab = "EmplomenteClaims", col = "orange", border = "brown", horizontal = TRUE) boxemplomenteClaims2state ``` ## "Pregunta 5, Realice un diagnostico de outliers" ```{r Pregunta 5, include=FALSE, datos_aleatorios} outliers <- diagnose_outlier(emplomentClaims2state) %>% mutate(outliers_ratio= percent(outliers_ratio/100,accuracy = 2)) outliers outliersVars <- diagnose_outlier(emplomentClaims2state) %>% filter(outliers_ratio >= 0.01) %>% select(variables) %>% unlist() plot_outlier(emplomentClaims2state,outliersVars) ``` ## "Pregunta 6, - Corrija la columna with_mean y without_mean en caso de ser necesario, para que el resultado se muestre en notación numérica( Investigue la función format)" ```{r Pregunta 6, include=FALSE, datos_aleatorios} outliers <- diagnose_outlier(emplomentClaims2state) %>% mutate(outliers_ratio= percent(outliers_ratio/100,accuracy = 2)) outliers ``` "En caso de que las columnas with_mean y without_mean den sus resultados en notacion cientifica, agregamos la funcion notacion = false, para que la visualizacion del resultado sea en notacion numerica, en nuestro caso no fue necesario utilizarlo." ## "Pregunta 7 y 8, Grafique el diagnóstico de outliers para la variable claims y analice los resultados" ```{r Pregunta 7, include=FALSE, datos_aleatorios} outliersVars <- diagnose_outlier(emplomentClaims2state) %>% filter(outliers_ratio >= 0.01) %>% select(variables) %>% unlist() plot_outlier(emplomentClaims2state,outliersVars) ``` "En el grafico podemos observar que para el estado de Florida que utilizando los outliers podemos graficar datos de una manera mas especifica, como que el promedio de TotalEmployment se mantiene dentro del rango y tambien se observa la cantidad de obs distribuida de manera clara en el grafico, esto comparandolo con los graficos que no poseen los outliers" ## "Pregunta 9, realice un análisis de la curtosis de la distribución" ```{r Pregunta 9, include=FALSE, datos_aleatorios} describe(emplomentClaims2state) ``` ## "Pregunta 10, Realice un análisis de la asimetría de la distribución " ```{r Pregunta 10, include=FALSE, datos_aleatorios} emplomentClaims2state %>% describe() %>% select(variable, skewness, mean, p25, p50, p75) %>% filter(!is.na(skewness)) %>% arrange(desc(abs(skewness))) ``` Note that the `echo = FALSE` parameter was added to the code chunk to prevent printing of the R code that generated the plot. ‘{r datos_aleatorios} x <- 1:50 # asignamos a x los valores de 1 a 50 y <- x + rnorm(x) # rnorm() genera datos aleatorios con probabilidad normal plot(x,y) #nube de puntos de x,y