Analisis de las variables de forma independiente

En esta parte del informe hare la interpretacion de cada variable ya sea cuantitativa o cualitatva apoyandome en una grafica apta para el tipo de variable que se analice. Se tendra en cuenta las caracteristicas principales para describir una grafica (forma, tendencia y dispersion)

Variables discretas y continuas

1.Tiempo invertido

Min.	1st Qu.	Median	Mean	3rd Qu.	Max.
29	33	38	38.39	44	49

Podemos observar en la grafica (histograma) que existe una variable de tipo cuantitativa discreta llamada tiempo invertido. Esta esta basada en alguna accion que ejecuta alguna persona. Observamos que no hay una tendencia a un solo valor, la forma no es ni sesgada a la derecha ni izquierda por el mismo comportamiento de la tendencia de la variable, y al ver la dispersion de la misma, podemos notar que los datos estan muy repartidos en el rango de valores que toma la variable.

2.Tiempo de ejecucion

Tenemos un coeficiente de variacion de 1 Para el analisis de esta variable se hace uso de la grafica diagrama de puntos.Esta variable toma valores dentro del rango 0-150 segundos. Al observarla, notamos que los valores son demasiado dispersos ya que no hay frecuencia en los valores, es decir que uno de los valores que tome la variable se repita. La forma de la grafica es de tipo simetrica ya que los datos no se inclinan ni para el lado izquierdo, ni para el lado derecho, es decir que no es sesgada hacia ninguno de los valores mayores o menores que tome la variable, pero existen unos ciertos valores que estan apartados del conjunto de los valores que tienen mas asociacion entre si.

\[coeficienten.de.variacion= (desviacion.estandar/media)*100\]

\[CV=(s/M)*100\] \[CV=(3.3163 3/4.5833)*100\] \[CV=72.35701\]

Min.	1st Qu.	Median	Mean	3rd Qu.	Max.
0.1235	2.1456	3.5682	4.5833	6.2452	14.8955

3.Eficacia

## 
##   The decimal point is 1 digit(s) to the right of the |
## 
##    2 | 0
##    2 | 5
##    3 | 2
##    3 | 5557
##    4 | 001
##    4 | 79
##    5 | 00012234444444
##    5 | 666666788
##    6 | 0000001233
##    6 | 5555557788999
##    7 | 0000000134444444
##    7 | 555568888
##    8 | 0000000000144444
##    8 | 55555555566778889999
##    9 | 0000000234
##    9 | 556678899
##   10 | 00000000000

Se hace uso del diagrama de tallos para variables de tipo continuo o discreto.Observamos que los valores de esta variable tienden a tomar valores alrededor de 80 ya que este es el que tiene mas hojas de los tallos que observamos ahi, que son de un rango de 20 a 100. El diagrama tiende a ser sesgado hacia los valores mas grandes dentro del rango ya que si observamos dentro del rango de 20-40 hay un total de hojas de 12 hojas, mientras que en el intervalo 50-100 hay muchisimas mas hojas.Haciendo una observacion el diagrama de tallo y hojas funciona igual que un histograma solo que es enforma vertical.

4.Edad

## Warning: Removed 1 rows containing missing values (geom_bar).

El diagrama de caja tiene una ventaja sobre los demas tipos de graficos, nos muestra los datos atipicos como en este caso, podemos observar una dispersion en la parte derecha de la grafica ya que vemos un punto en el valor maximo que puede tomar la variable y ese esta fuera del bigote de la caja. Ademas el diagrama de caja nos brinda informacion acerca de los cuartiles y la media de los datos analizados. La media la podemos ver que es aproximadamente 19 y que el cuartil uno esta en aproximadamente 18 y el 2 en 20. La mayoria de los datos estan entre 18 y 20 es decir que las personas encuestadas teniaan edades entre 18 y 20 y que el encuestado con mayor edad fue 24 el cual es el que llamamos dato atipico.

5.Genero

FEMENINO	MASCULINO
58	91

Podemos observar una variable discreta (genero),la cual es analizada con un diagrama de ponque. Esta nos muestra que la mayoria de datos pertenecen al genero masculino, y el genero femenino es mas o menos un medio de el total de hombres. Ahora con ayuda del comando table podemos hallar la cantidad exacta de hombre y mujeres que estan recopilados en la variable genero de la base de datos.Encontramos que en la variable genero hay tendencia hacia el rotulo masculino ya que la cntidad nos lo indica.

6.Sistema Operativo (OS)

Para la variable discreta sistema operativo hacemos uso del diagrama de pastel tambien, solo que esta vez se hace con datos mas completos sin necesidad de hacer uso del comando table. Podemos ver en la grafica que la mayoria de personas tendieron a elegir el sistema operativo windows. Si vemos es un poco mas de la mitad del pastel, y si interpretamos que el pastel equivale a un 100% entonces, el rotulo windows el equivalente a un 52% aproximadamente.El rotulo de Linux toma un poco mas de un cuarto del pastel es decir un 28% aproximadamente. Por ultimo el rotulo MacOS toma menos de un cuarto del pastel es decir el restante (20%) para completar el 100% del pastel.

7. Tema

En este diagrama de barras representamos la variable Tema, en donde esta variara en tres categorias; Academico,Empresarial, Investigativo, Recreativo. Se observa que la forma de la grafica es sesgada a la derecha pero es muy minima, su tendecia es hacia la categoria academico seguido de la categoria empresarial. Podemos ver una dispersion clara ya que en cada categoria a un cantidad considerable, y por esto nunca se tendio a una en una mayor magnitud.

8.Lenguaje

C	C#	C++	HTML5	Java	JavaScript	Pearl	PHP	Phyton	Ruby Visual	Basic	Xcode
13	7	24	6	25	11	10	11	21	10	4	7

La variable a analizar es el lenguje computacional.Se observa una tabla con la cantidad de personas que elijen los diversos tipos de de lenguajes.Podemos identificar que la variable con la mayor cantidad de “votos” es para el lenguaje Java y el de menor cantidad es el de Basic con solo 4 puntos. Existe una dispersion entre los datos ya que el total de datos varia demasiado segun el tipo de lenguaje.Para la estructuracion de la table utilizamos tanto el comando de table como tablas Rmarkdown para informe.

9.Calidad

Podemos observar dos graficas una con los porcentajes de cada valor que puede tomar la variable y otra con sus respesctivos nombres y su parte de pastel que le pertenece. Ahora, si observamos los valores de el pastel con porcentaje nos podemos dar cuenta que hay dos valores (bajo y medio) tienen el mismo porcentaje es decir que la minoria tuvo notas altas ya que el porcentaje de los que son iguales es practicamente el 80% del pastel quedando un minimo valor para el valor alto.

10.Errores

Min.	1st Qu.	Median	Mean	3rd Qu.	Max.
0.000	1.000	2.000	2.255	3.000	10.0

En este diagrama de caja podemos observar como la variavle Errores tiene 3 valores atipicos los cuales esta dentro del rango (8,10) fuera del bigote de la caja. Vemos que el valor minimo que toma la variable es 0 ya que el bigote en la parte izquiera empieza en este valor y su maximo es 10 donde se encuentra el valor atipico que toma el mayor valor. Ahora observamos que el primer cuartil esta en 1 y equivale al 25% de los datos recolectados en el intervalo (0,1), luego encontramos al segundo cuartil, el cual lo identificamos en el valor 2, en donde este valor equivale tambien a la mediana de los datos, el tercer quartil se encuentra en 3 y es el 75% de los datos.Ahora si observamos la caja es el 50% de los datos totales la cual esta delimitada por el cuartil 1 y el 3.

11.Tamaño del programa

El rango en el cual se encuentran los datos de la variable tamaño del programa es de 0 a 150, en el cual vemos, demasiada dispersion de los datos ya que no hay datos que tomen los mismos valores o valores cercanos entre si. La forma de la grafica es simetrica ya que no se encuentra ni sesgada a la derecha ni sesgada a la izquierda. La tendencia de los datos no se puede evidenciar por la misma variabilidad de los mismo y es muy dificil saber que valores tiende los datos. Se puede decir que los datos que toman valores dentro del rango tiende a ser repetitivos en un valor minimo.

12.Nota

Min.	1st Qu.	Median	Mean	3rd Qu.	Max.
1.300	3.200	3.800	3.795	4.500	5.000

En este histograma de nota podemos interpretar de manera clara la los datos. Empezaremos con la forma; esta es sesgada a la derecha, la dispersion de los datos no es tanta, ya que los datos se encuentran en su mayoria arriba de 3, y la tendencia de los datos es hacia los valores de 3 a 4 y de 4,5 a 5. Muy pocos estudiantes sacaron una nota por debajo de 2,5 , eso quiere decir que la mayoria paso por sus buenas notas. La minima nota que obtuvo un estudiante fue 1,3 y la maxima 5. ahora con el comando summary logramos saber cual es la media y la mediana al ugal que el cuartil 1 el 2 y el 3.

Relacion entre variables

13.NOTA VS GENERO

Observando las graficas notamos que los datos de las mujeres con respecto a su nota son mucho mas dispersos que en los hombre ya que el 50% de los datos en el intervalo del cuartil 1 al 3 en las mujeres va de 3 a 4.5 aproximadamentmientras que en los hombre se encuentra en un intervalo mucho mas pequeño el cual es de 3,5 aproxoimadamente a 4,5. Por otro lado los presentan un dato atipico que se puede verantes de que empiece el primer bigote de la grafica masculina, y ese bigote es el valor minimo que toma en general la variable nota pero que pertenece al genere masculino.

14.ASOCIACION LINEAL ENTRE EFICACIA Y NOTA

En esta grafica encontramos la las variables nota y eficacia las cuales estas relacionadas segun el diagrama de dispersion que observamos. Se evidencia un tipo de asociacion lineal directa, es decir una que la relacion es ascendente y ademas que las variables al estar tan relacionadas su coeficiente de correlacion es igual a 1. LA forma como podemos comprobar esto es con el comando round(cor()) el cual nos si es 0 1 o -1 segun el tipo de asociacion presentada en la grafica.Ademas podemos ver que mientras una aumneta la otra tambien es decir que son directamente proporcionales.

15.SISTEMA OPERATIVO (OS) Y LENGUAJE

Esta grafica nos muestra la relacion entre el sistema operativo y el lenguaje usado. Notamos que para todos los lenguajes el sistema operativo mas usado es el de windows, no solo por que esta en todos si no por que esta en un mayor porcentaje que los otros dos.para el sistema operativo macOS notamos que es el menos usado ademas que esta ausente en uno de los lenguajes y el sistema operativo linux esta en el intermedio de los dos y tambien esta ausente en uno de los lenguajes.La moda entonces cera el procesador windows y el lenguaje java cuando estan relacionados.

16.MATRIZ DE VARIABLES

##                  Edad Tiempo_invertido Eficacia Errores Tiempo_ejecución
## Edad                1                0        0       0                0
## Tiempo_invertido    0                1        0       0                0
## Eficacia            0                0        1       0                0
## Errores             0                0        0       1                0
## Tiempo_ejecución    0                0        0       0                1
## Tamaño_programa     0                0        0       0                0
## Nota                0                0        1       0                0
##                  Tamaño_programa Nota
## Edad                           0    0
## Tiempo_invertido               0    0
## Eficacia                       0    1
## Errores                        0    0
## Tiempo_ejecución               0    0
## Tamaño_programa                1    0
## Nota                           0    1

Finalizando el informe podemos observar en esta matriz de graficas de dispersion relacionando variables. Observamos como no hay en casi ninguna grafica correlacion ya que las variables estan demasiado dispersas. Se puede ver una cierta relacion entre la variable eficacia y nota (asociacion lineal direcrta), tambien en eficacia con nota (asociacion lineal directa). No se alcanza a identificar en ninguna mas. Para tener un conteo exacto hacemos uso del comando cor (corelacion) y asi asegurarse de cuales tienen asociacion lineal o de otro tipo.

17. NOTA VS EFICACIA

En esta grafica podemos observar una estrecha asociacion lineal directa ya que si observamos los valores de la variable Genero(masculino y femenino) en el eje x y la varable Eficacia en el eje y notamos que las dos variables son directamente proporcionales una con la otra, es decir, si una aumenta la otra tambien.

18.RELACION OS VS EDAD

Se puede observar en la grafica que para la poblacion entre las edades de 17.5 y 20 aproximadamente el sistema operativo mas usado es Windows y el menos masOS.La grafica muestra una forma acampanada es decir que en el centro de todo el diagrama de barras la cantidad de personas segun OS en un cierto intervalo de edad es mayor que en los extremos de la figura 18.

19.RELACION LENGUAJE VS EDAD

Se puede observar en la figura 19 la existenca de datos atipicos en los lenguajes C++, Java, Pearl, Ruby; es decir que hay una dispersion notoria en estos rotulos de la variable lenguaje con respecto a la variable Edad. Tambien podemos ver como la media de cada lenguaje esta aproximadamente entre las edades 18-19, es decir que no hay tanta variacion entre el promedio de cada lenguaje segun las edades de los encuestados.

20. RELACION ENTRE ERRORES Y OS

En la figura 20 no observamos ningun tipo de asociacion ya que los datos no se encuentran agrupados en un intervalo de los valores que pueden tomar las variable, esta tanto para los hombres como para las mujeres . Se observa en el sistema operativo macOS solo hay hombres que la usen. En el sitema operativo Linux se nota que fue el que tuvo mayos cantidad de errores ademas que fue por parte de las mujeres.

21. TIEMPO INVERTIDO VS NOTA

Se puede observar que en la grafica existe una gran dispersion entre la variables comparadas en la figura 14. no existe nigun tipo de asociacion lineal ya que la relacion entre los valores que toman en las variables se encuentran verdaderamente dispersos. Se observa tambien que los datos tienden a estar mas hacia las notas mas altas pero no se puede identificar que segun un cierto tiempo los estudiantes tuvieron buena nota lo cual nos dice que las variables no influyen la una con la otra.

22. NOTA VS TEMA

Se puede observar que el Tema escogido por los estudiantes no influyo mucho para su nota ya que se identifica que los datos en general no estan muy dispersos a pesar de que se encuentran variaciones entre todos los boxplot de la figura 22.Se observa que con el tema empresarial la mayoria de los estudiantes en general tuvo las mejores notas ademas de que las notas para este tema son mucho menos dispersas que en los otros temas.El Tema que tuvo las peores notas fue el empresaria ya que la caja para esta esta mas abajo que las demas ademas de que la media de esta misma tambien esta por debajo de la de los otros temas.

23. GENERO VS OS

La tabla anteriormente propuesta se denomina tabla de contigencia la cual nos proporcionara las probabilidades condicionales, probabilidades marginales y probabilidades conjuntas. Observaremos en primer lugar las Probabilidades marginales las cuales seran las siguientes:

\[P(linux)=43/149\] \[P(macOS)=28/149\] \[P(Windows)=78/149\] \[P(Femenino)=58/149\] \[P(Masculino)=91/149\]

Informe Analisis de Datos software

Nataly Vanessa Avila Espinel

20 de octubre de 2017

Analisis de las variables de forma independiente

Variables discretas y continuas

Relacion entre variables