Analisis de las variables de forma independiente

En esta parte del informe hare la interpretacion de cada variable ya sea cuantitativa o cualitatva apoyandome en una grafica apta para el tipo de variable que se analice. Se tendra en cuenta las caracteristicas principales para describir una grafica (forma, tendencia y dispersion)

Variables discretas y continuas

1.Tiempo invertido

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   29.00   33.00   38.00   38.39   44.00   49.00

Podemos observar en la grafica (histograma) que existe una variable de tipo cuantitativa discreta llamada tiempo invertido. Esta esta basada en alguna accion que ejecuta alguna persona. Observamos que no hay una tendencia a un solo valor, la forma no es ni sesgada a la derecha ni izquierda por el mismo comportamiento de la tendencia de la variable, y al ver la dispersion de la misma, podemos notar que los datos estan muy repartidos en el rango de valores que toma la variable.

2.Tiempo de ejecucion

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Tenemos un coeficiente de variacion de 1 Para el analisis de esta variable se hace uso de la grafica diagrama de puntos.Esta variable toma valores dentro del rango 0-150 segundos. Al observarla, notamos que los valores son demasiado dispersos ya que no hay frecuencia en los valores, es decir que uno de los valores que tome la variable se repita. La forma de la grafica es de tipo simetrica ya que los datos no se inclinan ni para el lado izquierdo, ni para el lado derecho, es decir que no es sesgada hacia ninguno de los valores mayores o menores que tome la variable, pero existen unos ciertos valores que estan apartados del conjunto de los valores que tienen mas asociacion entre si.

## [1] 4.583288
## [1] 3.31633
## [1] 72.35701
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1235  2.1456  3.5682  4.5833  6.2452 14.8955

3.Eficacia

## 
##   The decimal point is 1 digit(s) to the right of the |
## 
##    2 | 0
##    2 | 5
##    3 | 2
##    3 | 5557
##    4 | 001
##    4 | 79
##    5 | 00012234444444
##    5 | 666666788
##    6 | 0000001233
##    6 | 5555557788999
##    7 | 0000000134444444
##    7 | 555568888
##    8 | 0000000000144444
##    8 | 55555555566778889999
##    9 | 0000000234
##    9 | 556678899
##   10 | 00000000000

Se hace uso del diagrama de tallos para variables de tipo continuo o discreto.Observamos que los valores de esta variable tienden a tomar valores alrededor de 80 ya que este es el que tiene mas hojas de los tallos que observamos ahi, que son de un rango de 20 a 100. El diagrama tiende a ser sesgado hacia los valores mas grandes dentro del rango ya que si observamos dentro del rango de 20-40 hay un total de hojas de 12 hojas, mientras que en el intervalo 50-100 hay muchisimas mas hojas.Haciendo una observacion el diagrama de tallo y hojas funciona igual que un histograma solo que es enforma vertical.

4.Edad

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning: Removed 1 rows containing missing values (geom_bar).

El diagrama de caja tiene una ventaja sobre los demas tipos de graficos, nos muestra los datos atipicos como en este caso, podemos observar una dispersion en la parte derecha de la grafica ya que vemos un punto en el valor maximo que puede tomar la variable y ese esta fuera del bigote de la caja. Ademas el diagrama de caja nos brinda informacion acerca de los cuartiles y la media de los datos analizados. La media la podemos ver que es aproximadamente 19 y que el cuartil uno esta en aproximadamente 18 y el 2 en 20. La mayoria de los datos estan entre 18 y 20 es decir que las personas encuestadas teniaan edades entre 18 y 20 y que el encuestado con mayor edad fue 24 el cual es el que llamamos dato atipico.

5.Genero

## 
##  Femenino Masculino 
##        58        91

Podemos observar una variable discreta (genero),la cual es analizada con un diagrama de ponque. Esta nos muestra que la mayoria de datos pertenecen al genero masculino, y el genero femenino es mas o menos un medio de el total de hombres. Ahora con ayuda del comando table podemos hallar la cantidad exacta de hombre y mujeres que estan recopilados en la variable genero de la base de datos.Encontramos que en la variable genero hay tendencia hacia el rotulo masculino ya que la cntidad nos lo indica.

6.Sistema Operativo (OS)

Para la variable discreta sistema operativo hacemos uso del diagrama de pastel tambien, solo que esta vez se hace con datos mas completos sin necesidad de hacer uso del comando table. Podemos ver en la grafica que la mayoria de personas tendieron a elegir el sistema operativo windows. Si vemos es un poco mas de la mitad del pastel, y si interpretamos que el pastel equivale a un 100% entonces, el rotulo windows el equivalente a un 52% aproximadamente.El rotulo de Linux toma un poco mas de un cuarto del pastel es decir un 28% aproximadamente. Por ultimo el rotulo MacOS toma menos de un cuarto del pastel es decir el restante (20%) para completar el 100% del pastel.

7. Tema

En este diagrama de barras representamos la variable Tema, en donde esta variara en tres categorias; Academico,Empresarial, Investigativo, Recreativo. Se observa que la forma de la grafica es sesgada a la derecha pero es muy minima, su tendecia es hacia la categoria academico seguido de la categoria empresarial. Podemos ver una dispersion clara ya que en cada categoria a un cantidad considerable, y por esto nunca se tendio a una en una mayor magnitud.

8.Lenguaje

C C# C++ HTML5 Java JavaScript Pearl PHP Phyton Ruby Visual Basic Xcode
13 7 24 6 25 11 10 11 21 10 4 7

La variable a analizar es el lenguje computacional.Se observa una tabla con la cantidad de personas que elijen los diversos tipos de de lenguajes.Podemos identificar que la variable con la mayor cantidad de “votos” es para el lenguaje Java y el de menor cantidad es el de Basic con solo 4 puntos. Existe una dispersion entre los datos ya que el total de datos varia demasiado segun el tipo de lenguaje.Para la estructuracion de la table utilizamos tanto el comando de table como tablas Rmarkdown para informe.

9.Calidad

Podemos observar dos graficas una con los porcentajes de cada valor que puede tomar la variable y otra con sus respesctivos nombres y su parte de pastel que le pertenece. Ahora, si observamos los valores de el pastel con porcentaje nos podemos dar cuenta que hay dos valores (bajo y medio) tienen el mismo porcentaje es decir que la minoria tuvo notas altas ya que el porcentaje de los que son iguales es practicamente el 80% del pastel quedando un minimo valor para el valor alto.

10.Errores

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   1.000   2.000   2.255   3.000  10.000

En este diagrama de caja podemos observar como la variavle Errores tiene 3 valores atipicos los cuales esta dentro del rango (8,10) fuera del bigote de la caja. Vemos que el valor minimo que toma la variable es 0 ya que el bigote en la parte izquiera empieza en este valor y su maximo es 10 donde se encuentra el valor atipico que toma el mayor valor. Ahora observamos que el primer cuartil esta en 1 y equivale al 25% de los datos recolectados en el intervalo (0,1), luego encontramos al segundo cuartil, el cual lo identificamos en el valor 2, en donde este valor equivale tambien a la mediana de los datos, el tercer quartil se encuentra en 3 y es el 75% de los datos.Ahora si observamos la caja es el 50% de los datos totales la cual esta delimitada por el cuartil 1 y el 3.

11.Tamaño del programa

El rango en el cual se encuentran los datos de la variable tamaño del programa es de 0 a 150, en el cual vemos, demasiada dispersion de los datos ya que no hay datos que tomen los mismos valores o valores cercanos entre si. La forma de la grafica es simetrica ya que no se encuentra ni sesgada a la derecha ni sesgada a la izquierda. La tendencia de los datos no se puede evidenciar por la misma variabilidad de los mismo y es muy dificil saber que valores tiende los datos. Se puede decir que los datos que toman valores dentro del rango tiende a ser repetitivos en un valor minimo.

12.Nota

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.300   3.200   3.800   3.795   4.500   5.000

En este histograma de nota podemos interpretar de manera clara la los datos. Empezaremos con la forma; esta es sesgada a la derecha, la dispersion de los datos no es tanta, ya que los datos se encuentran en su mayoria arriba de 3, y la tendencia de los datos es hacia los valores de 3 a 4 y de 4,5 a 5. Muy pocos estudiantes sacaron una nota por debajo de 2,5 , eso quiere decir que la mayoria paso por sus buenas notas. La minima nota que obtuvo un estudiante fue 1,3 y la maxima 5. ahora con el comando summary logramos saber cual es la media y la mediana al ugal que el cuartil 1 el 2 y el 3.

Relacion entre variables

13.NOTA VS GENERO

##    Length     Class      Mode 
##       149 character character

Observando las graficas notamos que los datos de las mujeres con respecto a su nota son mucho mas dispersos que en los hombre ya que el 50% de los datos en el intervalo del cuartil 1 al 3 en las mujeres va de 3 a 4.5 aproximadamentmientras que en los hombre se encuentra en un intervalo mucho mas pequeño el cual es de 3,5 aproxoimadamente a 4,5. Por otro lado los presentan un dato atipico que se puede verantes de que empiece el primer bigote de la grafica masculina, y ese bigote es el valor minimo que toma en general la variable nota pero que pertenece al genere masculino.

14.ASOCIACION LINEAL ENTRE EFICACIA Y NOTA

En esta grafica encontramos la las variables nota y eficacia las cuales estas relacionadas segun el diagrama de dispersion que observamos. Se evidencia un tipo de asociacion lineal directa, es decir una que la relacion es ascendente y ademas que las variables al estar tan relacionadas su coeficiente de correlacion es igual a 1. LA forma como podemos comprobar esto es con el comando round(cor()) el cual nos si es 0 1 o -1 segun el tipo de asociacion presentada en la grafica.Ademas podemos ver que mientras una aumneta la otra tambien es decir que son directamente proporcionales.

15.SISTEMA OPERATIVO (OS) Y LENGUAJE

Esta grafica nos muestra la relacion entre el sistema operativo y el lenguaje usado. Notamos que para todos los lenguajes el sistema operativo mas usado es el de windows, no solo por que esta en todos si no por que esta en un mayor porcentaje que los otros dos.para el sistema operativo macOS notamos que es el menos usado ademas que esta ausente en uno de los lenguajes y el sistema operativo linux esta en el intermedio de los dos y tambien esta ausente en uno de los lenguajes.La moda entonces cera el procesador windows y el lenguaje java cuando estan relacionados.

16.MATRIZ DE VARIABLES

##                  Edad Tiempo_invertido Eficacia Errores Tiempo_ejecución
## Edad                1                0        0       0                0
## Tiempo_invertido    0                1        0       0                0
## Eficacia            0                0        1       0                0
## Errores             0                0        0       1                0
## Tiempo_ejecución    0                0        0       0                1
## Tamaño_programa     0                0        0       0                0
## Nota                0                0        1       0                0
##                  Tamaño_programa Nota
## Edad                           0    0
## Tiempo_invertido               0    0
## Eficacia                       0    1
## Errores                        0    0
## Tiempo_ejecución               0    0
## Tamaño_programa                1    0
## Nota                           0    1

Finalizando el informe podemos observar en esta matriz de graficas de dispersion relacionando variables. Observamos como no hay en casi ninguna grafica correlacion ya que las variables estan demasiado dispersas. Se puede ver una cierta relacion entre la variable eficacia y nota (asociacion lineal direcrta), tambien en eficacia con nota (asociacion lineal directa). No se alcanza a identificar en ninguna mas. Para tener un conteo exacto hacemos uso del comando cor (corelacion) y asi asegurarse de cuales tienen asociacion lineal o de otro tipo.

17. NOTA VS EFICACIA

En esta grafica podemos observar una estrecha asociacion lineal directa ya que si observamos los valores de la variable Genero(masculino y femenino) en el eje x y la varable Eficacia en el eje y notamos que las dos variables son directamente proporcionales una con la otra, es decir, si una aumenta la otra tambien.

18.Relación OS VS EDAD

Se puede observar en la grafica que para la poblacion entre las edades de 17.5 y 20 aproximadamente el sistema operativo mas usado es Windows y el menos masOS.La grafica muestra una forma acampanada es decir que en el centro de todo el diagrama de barras la cantidad de personas segun OS en un cierto intervalo de edad es mayor que en los extremos de la figura 18.

19.RELACION LENGUAJE VE EDAD

Se puede observar en la figura 19 la existenca de datos atipicos en los lenguajes C++, Java, Pearl, Ruby; es decir que hay una dispersion notoria en estos rotulos de la variable lenguaje con respecto a la variable Edad. Tambien podemos ver como la media de cada lenguaje esta aproximadamente entre las edades 18-19, es decir que no hay tanta variacion entre el promedio de cada lenguaje segun las edades de los encuestados.

20. RELACION ENTRE ERRORES Y OS

En la figura 20 no observamos ningun tipo de asociacion ya que los datos no se encuentran agrupados en un intervalo de los valores que pueden tomar las variable, esta tanto para los hombres como para las mujeres . Se observa en el sistema operativo macOS solo hay hombres que la usen. En el sitema operativo Linux se nota que fue el que tuvo mayos cantidad de errores ademas que fue por parte de las mujeres.