file.choose()
## [1] "C:\\Users\\ximen\\OneDrive\\Escritorio\\Recibo de luz.Rmd"
poblacion <- read.csv("C:\\Users\\ximen\\Downloads\\poblacion.csv")
View(poblacion)
file.choose()
## [1] "C:\\Users\\ximen\\OneDrive\\Escritorio\\Recibo de luz.Rmd"
muestra <- read.csv("C:\\Users\\ximen\\Downloads\\muestra.csv")
View(muestra)
N <- length(poblacion$Pago)
N
## [1] 12
n <- length(muestra$Pago)
n
## [1] 5
Permiten conocer el valor al que tiende el conjunto de datos.
Valor que se obtiene al sumar todos los datos y dividirlos entre la cantidad total de datos.
media_poblacional <- mean(poblacion$Pago)
media_poblacional
## [1] 245.0167
media_muestral <- mean(muestra$Pago)
media_muestral
## [1] 249.432
Valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.
mediana_poblacional <- median(poblacion$Pago)
mediana_poblacional
## [1] 228.63
mediana_muestral <- median(muestra$Pago)
mediana_muestral
## [1] 230.46
Valor que aparece con mayor frecuencia en un conjunto de datos.
mode <- function(x){
ux <- unique(x)
ux [which.max(tabulate(match(x, ux)))]
}
Nota: Si un dato se repite, la función colora el primer valor en lugar de marcar error.
moda_poblacional <- mode(poblacion$Pago)
moda_poblacional
## [1] 266.63
moda_muestral <- mode(muestra$Pago)
moda_muestral
## [1] 266.63
Si la media = mediana = moda, los datos tienen una DISTRIBUCIÓN
SIMÉTRICA.
Si la media < mediana < moda, los datos tienen SESGO
NEGATIVO.
Si la moda < mediana < media, los datos tienen SESGO POSITIVO.
hist(poblacion$Pago)
La población tiene sesgo positivo.
Miden qué tan esparcidos se encuentran los datos.
Intervalo o diferencia entre el valo máximo y el mínimo de un conjunto de datos.
rango_poblacional <- max(poblacion$Pago)- min(poblacion$Pago)
rango_poblacional
## [1] 180.86
r <- range(poblacion$Pago)
r
## [1] 162.64 343.50
La función range() devuelve el valor mínimo y máximo, pero no su diferencia, que es el valor que buscamos.
rango_muestral <- max(muestra$Pago)- min(muestra$Pago)
rango_muestral
## [1] 156.34
Promedio elevado al cuadrado de las desviaciones individuales de cada observación con respecto a la media de una distribución. Si es población se divide entre N; si es Muestra se divide entre n-1.
varianza_poblacional <- var(poblacion$Pago)*(N-1)/N
varianza_poblacional
## [1] 3614.659
varianza_muestral <- var(muestra$Pago)
varianza_muestral
## [1] 3570.905
Raíz cuadrada de la varianza.
desviacion_estandar_poblacional <- sqrt(varianza_poblacional)
desviacion_estandar_poblacional
## [1] 60.12203
desviacion_estandar_muestral <- sqrt(varianza_muestral)
desviacion_estandar_muestral
## [1] 59.75705
En conclusión, se puede decir que, como se dice de acuerdo a investigaciones y al debate que se hizo en clase, R definitivamente es un programa estadístico, ya que, como se puede observar en el programa, tiene muchas funciones de probabilidad y estadística que permite obtener información en un corto tiempo con una pequeña función.
Aunque pareciera perfecto para fines estadísticos, se encontro una pequeña área de oportunidad dentro del programa, ya que, no cuenta con ninguna función para sacar la “moda”, lo cual dentro de la estadística es un dato importante, y aunque se encontro un sustituto, no puede funcionar a la perfección en cualquier tipo de situación a trabajar.
Sin embargo, fue muy interesante observar la gran cantidad de información que se puede adquirir con una base de datos y funciones de estadística que permiten obtener datos de una muestra y hasta de una población.
En este caso, un ejemplo, es el promedio de lo que paga la población, que son 245, y el de la muestra que es de 249, que son pagos muy parecidos, lo que nos lleva a concluir que estas funciones si ayudan. De igual forma, lo puede desarrollar en meses, si es el caso de la función utilizada.