Objetivo

El objetivo es llevar a cabo un análisis descriptivo de la variable ‘promedioalumnos’, obteniendo datos a partir de su población total de datos y de una muestra de los mismos. Se importarán los datos de una dirección web y se almacenarán en un archivo .csv

Descripción

Desarrollo

Importar los datos

promedioalumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/promedios.csv")

Mostrar los primeros y los últimos registros

Con las funciones head() y tail() es posible extraer ciertos registros, en este caso los primeros y últimos diez registros.

head(promedioalumnos, 10)
##    no promedios
## 1   1  91.60891
## 2   2  86.68564
## 3   3  84.06292
## 4   4  80.94624
## 5   5  88.49800
## 6   6  85.42097
## 7   7  81.11855
## 8   8  78.97463
## 9   9  75.81317
## 10 10  86.60781
tail(promedioalumnos, 10)
##        no promedios
## 5591 5591  83.61431
## 5592 5592  78.48419
## 5593 5593  79.59696
## 5594 5594  83.86262
## 5595 5595  81.04476
## 5596 5596  87.74938
## 5597 5597  86.64384
## 5598 5598  88.44429
## 5599 5599  88.19806
## 5600 5600  83.74940

La variable de interés es ‘promedioalumnos’

Con la función str() se identifican las variables y el tipo de datos del conjunto de datos.

str(promedioalumnos)
## 'data.frame':    5600 obs. of  2 variables:
##  $ no       : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedios: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la función sample() para determinar la muestra, se usa una variable llamada ‘cuantas’ que representa los registros que serán mostrados, y a partir de ella se determina la muestra.

  • ¿Que es una muestra? Sería una parte representativa y aleatoria de una población.

  • ¿Como se determina una muestra? Se utiliza la función sample().

Determinar la variable N que representa el total de registros de la población, usando la función nrow() para determinar cuántos registros.

N <- nrow(promedioalumnos)

Se determinan los registros de la muestra que pueden estar entre 1 y N con 1:N, replace= FALSE significa que el valor numérico encontrado aleatoriamente por sample() no se puede repetir o por el contrario si se puede repetir con la opción TRUE.

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales
##   [1] 3837 3455 5377 5214 5045 4113 1019 3016   36 5593  561 3224 4988 1236 1721
##  [16] 1348 2073 1257 2890 4399 4441 4702 1766 3118  946  357  773 4358 2517 4025
##  [31] 3905 3749 1414 1972 3012 4523 3557 4107 3241 2219 1651 5114 3383  547 1927
##  [46] 1094 2845 4503 4628 3547 3899 2233 2876 3737 3559 5489 2726 1872 4005 3195
##  [61]  937 3811  992 1306 5490 2312 3586  145 3903 3917  685  538 1426 4778 4118
##  [76] 3584 4888 4995  988 3271 1501 4958 5198 4959 2369 3983 3348 1817 2064 3945
##  [91] 3481 5019 3699 5417   94 2887 4183 2732 3392 3355 2077 4588 3477 3762 1681
## [106] 1771 3991  950 3658  133 1224 1825 4687 1487 5555 3191 4568 1984 1012   28
## [121] 4873 3410 4609 2787 3950  177 5454 3598  918 4860 5339  904 4819 3852 4902
## [136] 5096 2894 1655  827 4647 4205  441 3952 4815 1921  398  641 1333 2365  754
## [151]  366 4026 5472 2537 2528 5584 3555 3325  172 4255 2319 2509 2712   52 4632
## [166] 2671 1418 4977  394 2388 3111 5143 4515 4945 4313 2180 1402 4406 3544  954
## [181]   10 2560 5439 2951 3428 3132 1674 2494 1488 2220 4961  201 4312 3232 5264
## [196]  802 3641 1846 3472 3385 1924 1091 4722 2422 1843 1734  766 3438 4152 5085
## [211] 4250 2558 2429 1107 3122  745  240 1511 1067 4698 2125 4375 1188 1389  914
## [226]   70  502 1566 3751 3454 2566 5317 2251 5297 1703 3090 4063  174 2243  546
## [241]  973 1001 2052 5148 5545 4275  607  103  989  520  969   81 3426 2260 2114
## [256] 4416  888 1116 2731 1340 2315 3381  560 3120 2785 4794 5078 2242 2576 3029
## [271]  338 1231 1443 1344  511   11  486 1518  788  910 4567 4244 3591 1299 2190
## [286] 4979 1028 5012 5311 2168 5497  550 2195 1580 3435 2595  809  842 2842 2611

Se determina la muestra de los valores numéricos que arroja la variable cuales con respecto a la población.Se utilizan los corchetes en formato [renglones, columnas] para identificar los registros.

muestra.alumnos <- promedioalumnos[cuales, ]
head(muestra.alumnos, 10)
##        no promedios
## 3837 3837  77.25056
## 3455 3455  80.67348
## 5377 5377  81.68311
## 5214 5214  76.95176
## 5045 5045  86.45053
## 4113 4113  84.38520
## 1019 1019  86.22552
## 3016 3016  78.70822
## 36     36  79.69977
## 5593 5593  79.59696
tail(muestra.alumnos, 10)
##        no promedios
## 5497 5497  83.11135
## 550   550  82.50753
## 2195 2195  81.67346
## 1580 1580  80.86086
## 3435 3435  73.28589
## 2595 2595  79.97902
## 809   809  86.05846
## 842   842  83.33544
## 2842 2842  82.18868
## 2611 2611  87.44362

Media de la población

Se obtiene la media aritmética de la variable promedio de toda la población con la función mean().

mediapromedios <- mean(promedioalumnos$promedios)
mediapromedios
## [1] 84.01415

Media de la muestra

Se obtiene la media aritmética de la variable promedio de la muestra con la función mean().

mediamuestra <- mean(muestra.alumnos$promedios)
mediamuestra
## [1] 83.81766

Histograma

Un histograma es una representación visual de datos cuantitativo en dos ejes: x & y, la gráfica es en forma de barras y representa como se distribuyen los datos cuantitativos, la altura de la barra indica cuantos datos hay de cada valor.

Se utiliza la función hist() para representar el histograma.

hist(x = promedioalumnos$promedios, main = "Histograma - Promedio de la población", xlab = "Promedios", ylab = "Cantidad")

hist(x = muestra.alumnos$promedios, main = "Histograma - Promedio de la muestra", xlab = "Promedios", ylab = "Cantidad")

Interpretación

Se hace un análisis descriptivo obteniendo el parámetro media poblacional y el estadístico media de la muestra de la variable promedio; se visualiza mediante un histograma la distribución de los datos con respecto a la población y a la muestra.

La población se compone de 6500 registros u observaciones.

La muestra que se obtiene es de 300 registros.

La variable de interés es el promedio que significa un valor numérico que tiene cada alumno con respeto a calificaciones académicas.

EL promedio de la población es de 84.01415

La media aritmética de la muestra de promedio es de 84.17876

Los valores de las medias se parecen o son similares, lo que representa que al sacar muestras aleatorias a partir de poblaciones los estadísticos deben ser representativos con respecto a los parámetros de la población.

Las muestras son parte de una población y deben ser aleatorias y representativas.

El histograma representa como se distribuyen los datos, significa que hay muchos promedios entre valores de 80 y 88 aproximadamente.