Pregunta 1.
Desarrolle una función o rutina que les permita transformar variables de texto o de cadena en variables numéricas (específicamente en variables dicotómicas o indicadoras). De lo anterior suponga que usted ha creado un vector de caracteres aleatorio llamado género de un grupo de \(40\) empleados de cierto empresa entre hombres y mujeres con el fin de usarla en un análisis de regresión múltiple. Sin embargo, esto no será posible debido a que los datos son categóricos; por ello usted requiere hacer una transformación de éstos, cambiándolos a una variable dicotómica bajo la siguiente codificación: el valor de \(0\) para Hombre y el valor de \(1\) para Mujer.
Pregunta 2.
Abajo se muestra la rutina de una función que a partir de un data.frame, realiza un análisis descriptivo numérico y gráfico de ciertas variables(diferenciando el tipo de variable: categórica o cuantitativa) y que además realiza una gráfica de dispersión por pares (utilizar función pairs) para las variables continuas.
De lo anterior su objetivo es realizar un análisis de la rutina línea por línea escribiendo al lado un # comentario.
Rutina:
descriptiva<-function(df){
if(!is.data.frame(df)) stop("Se requiere un data frame")
aux<-numeric(length(df))
for(i in c(1:length(df)))
{
if(is.factor(df[[i]]))
{
y<-table(df[i])
pie(table(df[i]),main=names(df)[i])
}
else
{
y<-summary(df[i])
hist(df[[i]],main=names(df)[i]) ; boxplot(df[i])
aux<-c(aux,i)
}
print(y)
}
pairs(df[aux])
}NOTA: Puede usar el data frame iris para su comprobabión o cualquier otra base de datos que usted desee.
Pregunta 3.
Asuma que usted tiene una oficina de consultoría estadística en la ciudad de Barranquilla, Medellin o Bucaramanga y suponga que le ha llegado un cliente muy preocupado diciéndole que se le han perdido dos conjuntos de datos que tenía que analizar y de ellos solo tiene o recuerda sus nombres:
- cats
- Prestige
Él entiende que cada uno de estos conjuntos de datos se encuentra dentro del espacio de R. Donde se requiere:
- Indicar en qué paquete se encuentra cada uno de ellos.
- Describa brevemente lo que significa cada conjunto.
Para cats:
- Construya un histograma para la variable “Hwt”. Use regla de Sturges y al menos 6 argumentos para su ejecución.
- Agregue la curva de distribución normal al histograma. Use la función lines para su ejecución.
- Construya un diagrama de cajas y bigotes para la variable “Hwt” separada por la variable “Sex” e identifique datos atípicos si los hay. Interprete los resultados.
Para Prestige:
- Construya una tabla de frecuencias no agrupadas para la variable “type”.
- Usando los resultados del inciso a), construya un diagrama de sectores, donde emplee al menos \(4\) argumentos, donde se muestre la distribución porcentual de cada uno de ellos, en lugar de los nombres. Estos últimos deben mostrarse como una leyenda.
Pregunta 4.
Utilizando nuevamente el fichero de datos peso_altura.dat realice los siguientes ejercicios:
- Obtenga el intervalo de confianza del 99% para el peso de las mujeres utilizan Ca Antagonísta + Diurético como fármaco.
- Obtenga el intervalo de confianza del 90% para el peso de los hombres que utilizan Ca Antagonísta + Diurético como fármaco.
- De lo anterior podríamos contrastar la hipótesis de que si las medias de los pesos de los hombres difieren en el de las mujeres utilizando Ca Antagonísta + Diurético como fármaco. Utilice un nivel de significancia del 1%.