exploracion

EXPLORACION DATASET DEC15

##(1) Cual es el grupo objetivo, y descripción, de la poblacion y muestra de cada encuesta. 
#Conocer la data, comenzamos a ver las dimensionales, es decir el numero de filas y columnas del datawt, y luego desglosamos cada variable y su estructura.
dim(data)     #1500 filas, y 140 columnas
str(data)     #las primeras 18 columnas, son variables, y luego las demas son las preguntas que se realizaron a cada sujeto en las llamadas realizadas. 

*Para ver la cantidad que conforma nuestra muestra, utlizamos la funcion length de cualquier variable*. 

length(data$llitext0)     #1,500 ciudadanos de US. 
levels(data$llitext0)
#"Youngest Male First"   "Youngest Female First" , es una descripcion generalizada del sujeto entrevistado en la llamada. 

#Ver los titulos de mi data, sin contar las preguntas que lo conforman
titulo <- data[,1:20]    #Obervamos que hay una variable en especifico que indica el genero de cada sujeto. 

##Averiguar, la frecuencia de mis datos es decir cuantos de ellos pertenecen al sexo masculino y femenino. Para ello instalamos el paquete y libreria plyr

install.packages("plyr")
library(plyr)
frencuenciasexo <- count(data, "igender")
#Son 481 hombres y 1019 mujeres. 
#Con operadores matematicos, lo expreso en porcentaje. 
(481*100) / 1500 #32.06667 % son hombres
(1019*100) / 1500  #67.93333 % son mujeres

#Para votar, deben ser ciudadanos de 18 años en adelante. 

#Averiguaremos, de la variable sample la cual nos dice si eran de Linea Fja, o de celular. Para tener en mas detalle la muestra analizada. 

count(data, "sample")
#LLWEIGHT analysis de landline, son 525
##CELLWEIGHT analysis of the cell, son 975

#Y de elos para filtrar aun más la data, vemos en que idioma se trevisto al individuo. 
count(data, "ilang")
#Ingles 1450, español a 50

#Es importante saber que rango de edad, fue el que se entrevistó con mas incidencia, para ellos es util sacar la moda. No hay una funcion en especifico que me muestre la moda. Podemos a primera instancia genrear una tabla con la freciencia de la edad para corrobar nuestras respuestas al crear una función que me devuelva la moda de cualquier variable que se especifique. 

vec <- count(data, "age")
attach(data)
moda<-function(age){
  frec.var<-table(age)
  valor<-which(frec.var==max(frec.var))  # Elementos con el valor
  names(valor)
}

moda(age)
#La edad que posee mayor frecuencia, dos dos rangos los individuos con 55 y 63 años de edad.  
##RESUMEN, en conclusión el grupo objetivo fue de 1500 observaciones, con sujetos de 18 años en adelante y con una persona con edad maxima de 99 años. El grupo objetivo en porcentaje eran  68% mujeres. En su mayoria con la lengua materna del ingles. Y de la muestra, el medio que mas se utlizo fueron numeros pertenecientes a lineas celulares.

##(2)5 variables numéricas importantes de cada dataset,y con estas obtenga: minimo, maximo, media , mediana, rango, rango intercuartil, cuartiles 1-4. Determine, para estas variables sus medidas de variabilidad.Desviación estandar, varianza y comparelas.

class(data$age) #numerica, me dice la edad de los entrevistados.

#RANGO
rango <- range(data$age)
#18 es la edad minima, y 99 años la edad mayor


#Maximo y Minimo
max(data$age)-min(data$age)     #81 es la diferencia, entre la edad maxima y minima de la columna age.

#MEDIA
mean(data$age)       #52.532

#Mediana
median(data$age)     #54 años, es la edad que es el dato que aparece en medio de nuestro grupo. 


quantile(data$age,.25)   #38 años
quantile(data$age,.50)   #54 años
quantile(data$age,.75)   #67 años 

summary(data$age)
#Observaremos y se corrobora la información que el maximo es de 99 años y el minimo de 18 años, y el Q1 de 38 años, Q2 de 54 años, Q3 de 67 años. 

#Grafico de raiz y hojas.
stem(data$age)

#InterQuartile Range
IQR(data$age)     #diferencia entre el tercer y el primer cuartil, la cual es 29. 

#STANDARD DEVIATION
Muestra la dispersión de datos. Mientras mayor es la ds, mayor es la dispersión de la población. La desviación estándar es un promedio de las desviaciones individuales de cada observación con respecto a la media de una distribución.

desviacionst <- sd(data$age)     #18.38839   es el grado de dispersión o variabilidad en la edad de los entrevistados.

#VARIANZA, es la desviacion estandar al cuadrado. 
#varianza es cada numero del data menos el mean todo eso al cuadrado es como decir que tan lejos esta cada dato del prom y eso al cuadrado. Divido el numero de datos que le restamos el prom. y el resultado sera la medida de dispersion. 

varianza <- 18.38839^2       #338.1329 

#VARIABLE 2, NUMERICA RELEVANTE
#WEIGHT

weight <- data$weight
#Guardamos una variable en donde se me muestre solo la oclumna de weight de nuestro data para mayor facilidad al utlizarla. Y abrimos para analizarla

#Observamos que hay muchos valores NA, entonces procedemos a eliminarlos para mejor comprension 
weightna <- weight[!is.na(weight)]

#Asi procedemos con los dos tipos de linea que existen para las llamadas. 
weightll <- data$llweight
weightcell <- data$cellweight

weightllna <- weightll[!is.na(weightll)]
weightcellna <- weightcell[!is.na(weightcell)]

#RANGO
rango <- range(weightna)
#vemos que el intervalo donde oscila este valor
#1 - 8.37037

rangoll <- range(weightllna)
#1.00000- 34.85714

rangocell <- range(weightcellna)
#1.000000 -  4.607843

#Maximo y Minimo
max(weightna)-min(weightna)    #7.37037

max(weightllna)-min(weightllna)    #33.85714

#Cuartiles, y minimo maximo tambien pueden ser observados en el summary 
#Variable weight
summary(weightna)
#Q1, 1.852
#Q2 3.553
#Q3 4.778

#Corroboramos
quantile(weightna,.25)   #1.851852 
quantile(weightna,.50)   #3.092593 
quantile(weightna,.75)   #4.777778 

summary(weightllna)

quantile(weightllna,.25)   #2.714286 
quantile(weightllna,.50)   #6.285714 
quantile(weightllna,.75)   #15.42857

#Promedio 
mean(weightllna)   #10.48272
mean(weightna)    #3.55279

#Mediana
median(weightllna)   #6.285714


summary(weightcellna)

quantile(weightcellna,.25)   #1.43472  
quantile(weightcellna,.50)   #2.056432 
quantile(weightcellna,.75)   #2.967958

median(weightcellna)   #2.056432

mean(weightcellna)  #2.319721

max(weightcellna)-min(weightcellna)  #3.607843

#STANDARD DEVIATION
 sd(weightna)   #2.088094
 sd(weightcellna) #1.075258
 sd(weightllna)   #10.26299
 
 #VARIANZA
varweight <- 2.088094^2   #4.360137
varweightll <- 1.075258^2  #1.15618
varweightcell <- 10.26299^2 #105.329

#INTERQUARTILE
IQR(weightna) #2.925926
IQR(weightcellna)  #1.533238
IQR(weightllna)  #12.71429

## (3) Grafique las variables numericas creando histogramas de frecuencias

#Box and Whisttle plots.
#AGE boxplot 
boxplot(data$age)   #the height of the box is the interquartile range
#Cada linea horizontal represena los diferentes cuartiles de la data espcificamente de la columna de edad. Y las lineas horizontales que estan alejdas representan los datos mayores y menores. 

#AGE histogram
#Podemos observarlo a travez de un histograma. 
hist(data$age, xlab="Edad de los votantes", main="")

#Weight histograms



hist(weightna, xlab="Peso", main="")
hist(weightcellna, xlab="Peso lineas moviles", main="")
hist(weightllna, xlab="Peso de lineas fijas", main="")

#Weight boxplots
boxplot(weightna)
boxplot(weightcellna)
boxplot(weightllna)

#Defina las caracteristicas del dataset que son categoria, y haga sus reportes sumarios de cada uno 

##Variables que me parecen relevantes (factores)

Ilang 
Es una variable relevante, ya que puede que el idioma en el cual respondieron a esta encuesta no lo dominen bien las personas, por ejemplo, alguien que su idioma materno es el español que no domine bien el ingles solo con el hecho de mencionar a Trump, puede que digan que no sin siquiera saber la pregunta.

 Urs  
 Determina el tipo de comunida, puede que no todas las personas no esten enteradas de todo lo que esta pasando con las elecciones dependiendo del tipo de comunidad en la que viven, pues no tienen el mismo estilo de vida, por lo mismo pueden tener distintas opinions.

Cregion / state ??? 
Son variables relevantes y complementarias ya que dependiendo de cada estado y region pueden tener distintas opiniones (dependen de su entorno)

Igender / Ilitext0 
Es una variable relevante, ya que los hombres y las mujeres piensan de manera distinta, es mas nadie piensa igual que otra persona, pueden tener pensamientos y opinions ismilares, como tambien opuestas.

Irace 
La que la raza afecta el criterio de las personas, pues con ciertas personas de distinto tipo de raza pueden tener mas dificultades, pues se comenten mas injusticias.

Form  
Indica que tipo de encuesta se paso y pues seria relevante para comparer las formas y las respuestas que se obtuvieron de cada una.

Qnumero
Son las respuestas de los que fueron entrevistados y las preguntas que se plantearon a los etrevistados.
##

#Codigo para sacar los summaries
summary(data)

#En columnas se enlista los cuartiles, el minimo maximo de los datos

exploracion

datateam

5 de octubre de 2016

EXPLORACION DATASET DEC15