Objetivo

Elaborar un análisis descriptivo de la variable promedios de alumnos una muestra de la población a partir de la lectura de un archivo promedios.csv

Descripción

Importar datos de promedio en la dirección: https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv y dejarlo en un data.frame.
Mostrar solo los primeros diez registros y los últimos diez registros.
Identificar la variable de interés llamada promedio.
Determinar una muestra de 300 registros de la población. La población es todos los registros del archivo y la muestra es una parte de la población
Identifica la media de la población
Identificar la media de la muestra
Comparar las medias aritméticas
Crear un histograma de los datos
Realizar interpretación

Desarrollo

importar los datos

poblacion.alumnos = read.csv("https://raw.githubusercontent.com/rpizarrog/Trabajos-en-R-AD2021/main/datos/promedios.csv")

Mostrar los primeros y últimos registros

Con head() y trail()

head(poblacion.alumnos, 10)

##    no promedio
## 1   1 91.60891
## 2   2 86.68564
## 3   3 84.06292
## 4   4 80.94624
## 5   5 88.49800
## 6   6 85.42097
## 7   7 81.11855
## 8   8 78.97463
## 9   9 75.81317
## 10 10 86.60781

tail(poblacion.alumnos, 10)

##        no promedio
## 5591 5591 83.61431
## 5592 5592 78.48419
## 5593 5593 79.59696
## 5594 5594 83.86262
## 5595 5595 81.04476
## 5596 5596 87.74938
## 5597 5597 86.64384
## 5598 5598 88.44429
## 5599 5599 88.19806
## 5600 5600 83.74940

La variable de interés es promedio

str(poblacion.alumnos)

## 'data.frame':    5600 obs. of  2 variables:
##  $ no      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ promedio: num  91.6 86.7 84.1 80.9 88.5 ...

Muestra de 300 registros

Se utiliza la funcion sample() para determinar la muestra, primero se determina con una variable llamada cuantas los registros que seran muestreados, y a partir de ella se determina la muestra.

¿Que seria una muestra?. Sera una parte representativa y aleatoria de una poblacion

¿Como determinar una muestra? Se utiliza la funcion sample()

promedios\$promedios significa la variable especifica del conjunto de datos promedios

Determinando la variable N el total de registros de la poblacion

N <- nrow(poblacion.alumnos)

Se determinan los registros de la muestra

cuales <- sample(x = 1:N, 300, replace = FALSE)
cuales

##   [1] 3596 2113 5432 4200 2345 4250 5042 5448 2984 4915 2688 3789 5463 2696  595
##  [16] 3976 2028 3997 1687  538 3205 3864 1618 2705  558  603 5371 1362 4597  374
##  [31] 4761 3232 2534 3339 1353 1943 1506  200 2764 5418 3436 4638  101 5547 4759
##  [46] 1882   20 1559 4645 1379 2055  949 3478 3302 3958 2753 1075 2854 4341 2514
##  [61] 4564  229 5470 4399 4596 1906 2459 5591 4062 5317  678 2521 3070 1606 3429
##  [76] 4190 2099 2020 4539 1248 1275 1421 5566 5047  534  572 5340 3945 1033 5199
##  [91]  182 1504 4322 2338 3157 2996 3094 3105 4160 1215 4264 1669 3008 4327 4368
## [106] 2286 2631 4677 5486 5207  847 1418 2899 1744 2434 4470 1378 2535 4397 5530
## [121] 4747 4073 1159  523  452 4260 4131 4725 1187 5313  880 2525 2485 4227 3800
## [136] 2492 1227 1127 1482 3959 1250 1465 2942 2867 1857 3810 1570 2800 1819 5309
## [151] 1977 5160 5043 1445 2142 2019 1162 1397 2590 1447  206 1179 3750  227 5304
## [166] 3155 5471 2261 4926 1453 1212 1480 4113 3523 5187 1207 1039 1682 3199 2676
## [181]  985  117 5058  569 3465 1289  192 5415  637  513 4455 2343 4294 3422 2719
## [196]  296 2348  920 4858  561 1661 3373 5457 1246 3776  148 5225 4933 4713 4144
## [211] 2293 2835 1718 3082 5488 2585 3583 3173 5216  965 1334 1722 4185 1619   95
## [226] 5456 1798  295 4553  761 3405 1080 3089  733 3095 2392 4041  582 3153  372
## [241] 3019  178 2968 2986 4084 1902 1829 4168 5185 2297 2133 1354 1077 3204 1958
## [256]  183 2805   98 5582 5525 1737 2526 4001 5178 2491 5253 3313 5473  467 4216
## [271] 3867 3862 1690 2900 4514 5117 2465  518 3057 4452 3558 2337 1614 2990 2173
## [286] 4252 3759 5061  878 3909 4346 1917  890  703 4621 2901  215    4 1412 2692

Se determina la muestra

muestra.alumnos <- poblacion.alumnos[cuales, ] 
head(muestra.alumnos, 10)

##        no promedio
## 3596 3596 84.22249
## 2113 2113 76.14497
## 5432 5432 90.02219
## 4200 4200 79.29059
## 2345 2345 89.73796
## 4250 4250 81.98017
## 5042 5042 85.96199
## 5448 5448 78.71979
## 2984 2984 88.99671
## 4915 4915 77.01376

tail(muestra.alumnos, 10)

##        no promedio
## 4346 4346 86.64510
## 1917 1917 89.33050
## 890   890 81.38805
## 703   703 87.51301
## 4621 4621 81.18611
## 2901 2901 88.32810
## 215   215 91.22700
## 4       4 80.94624
## 1412 1412 89.25495
## 2692 2692 81.81213

Media de la población

media.poblacion <- mean(poblacion.alumnos$promedio)
media.poblacion

## [1] 84.01415

Media de la muestra

media.muestra <- mean(muestra.alumnos$promedio)
media.muestra

## [1] 83.55435

Interpretación

haciendo uso de comando y tecnicas en RStudio logramos :

Mostrar solo los primeros 10 registros y los ultimos 10 registros, con el comando: head() y trail()

Identificar la variable de interes llamada promedio, con los comandos : rnow(), sample(), trail() y head()

Determinar una muestra de 300 registros de la poblacion, con el comando: mean()

Identifica la media de la poblacion, con el comando: mean()

Identificar la media de la muestra, con el comando :mean()

Comparar las medias aritmeticas,

Crear un histograma de los datos,

con una base de datos traida de la web haciendo uso del comando: read.csv

Caso 1. Analisis de promedios de alumnos

Oscar Omar Garcia Gonzalez

9/9/2021

Objetivo

Descripción

Desarrollo

importar los datos

La variable de interés es promedio