Cargamos la base con la que queremos trabajar en archivos, posteriormente la seleccionamos y nos mostrara la ruta y las caracteristicas.
En nuestra consola copiamos y pegamos este codigo:
PROC IMPORT DATAFILE ="Ruta del archivo en SAS"
DBMS= Tipo del archivo
OUT=Donde se almacenara los datos importados;
GETNAMES= Avisa al programa si la primera fila son los nombres de las variables;
RUN;
IMPORTANTE: En caso que se trabaje con una base de datos
delimitas por un tipo de caracter debe informarle al programa incluyendo
el codigo delimiter="Caracter";
En caso de querer eliminar la base de datos se puede hacer con el
siguiente comando: proc delete data=NOMBRE DE LA BASE;
En caso de que necesitemos trabajar con nuevas variables condicionadas a las variables que ya tenemos se puede hacer de la siguiente forma:
data NOMBRE_DE_LA_BASE;
set NOMBRE_DE_LA_BASE;
if (variableA condicion) then NOMBRE_NUEVA_VARIABLE=VALOR_QUE_SE_LE_DESEE_DAR;
RUN;
La siguiente tablas son algunas de las que se pueden crear
Tabla de frecuencia
proc freq data=NOMBRE_DE_LA_BASE;
tables Variable1 Variable2;
run;
Tabla de doble entrada cruzada
title "Nombre que se le quiera dar";
proc freq data=NOMBRE_DE_LA_BASE;
tables VariableA*VariableB;
run;
Tabla de doble entrada condicionada
proc freq data=NOMBRE_DE_LA_BASE;
tables VariableA*VariableB;
where(CONDICION);
run;
En stata se puede importar escribiendo directamente en la consola, la forma de importar varia levemente dependiendo del tipo de archivo.
Txt delimitado por un caracter
import delimited RUTA_DEL_ARCHIVO, delimiter("CARACTER")
Excel
import excel "Ruta del archivo", sheet("hoja del excel con la que queremos trabajar") firstrow
El firstrow le indica al programa que la primera fila es
el nombre de las variables
Algunas de las tablas que se pueden crear en Stata:
Tabla de doble entrada cruzada
tab VariableA VariableB
Tabla de pocentaje condicionada
*Por Fila*
tab Variable1 Variable2 if Variable3(condicion),row
*Por Columna*
tab Variable1 Variable2 if Variable3(condicion),col
*Por Total de la tabla*
tab Variable1 Variable2 if Variable3(condicion),cell
Dependiendo del tipo de archivo con el que vayamos a trabajar hay que
ocupar una u otra libreria. Para trabajar con una base excel
necesitaremos la libreria readxl
librery(readxl)
read_xlsx(RUTA DEL ARCHIVO)
Para trabajar con una base txt necesitamos rbase o la libreria
readr
read.table("RUTA DEL ARCHIVO",header=T,sep="Caracter")
Header=T indica que la primera columna corresponde al nombre de las variables
sep="" debes indicarle al programa con que esta separado cada columna
Dependiendo del tipo de variable es el codigo que se ocupa para la
creacion de nuevas. Para crear nuevas columnas a nuestra base es
necesario trabajar con la funcion Mutate que la contiene la
libreria Dplyr:
librery(dplyr)
NOMBRE_DE_LA_BASE <- NOMBRE_DE_LA_BASE %>%
mutate(NUEVA_VARIABLE = factor(Variable1, levels = c("", "", ""))
*Factor* lo que hace es asignarle valores a las distintas variables
Cuando trabajamos con variables numericas y queremos estratificarlas por rangos lo podemos hacer de esta manera
NUEVA_VARIABLE = factor(case_when(between(VARIABLE2, Rang1, Rang2) ~ "Nombre de ese estrato",
*Case_when* nos permite trabajar con condicionales en una sola linea
*Between* Evaluo los valores dentro del rango
Las librerias en R son paquetes que contienen funciones que proporcionan herramientas que no las contiene como tal el programa Algunas de las librerias mas comunes son:
Esta libreria nos proporciona funciones para el manejo de datos, algunas de las funciones que contiene permiten agregar y agrupar datos, fitrar filas o columnas.
select: Retorna un conjunto de columnas específicas de
un data frame.filter: Retorna un conjunto de filas de un data frame
que cumplen con una o varias condiciones lógicas.arrange: Reordena las filas de un data frame basándose
en el valor de una o más columnas.rename: Renombra las variables (columnas) de un data
frame.mutate: Agrega nuevas variables o transforma las
existentes en un data frame.summarise/summarize: Genera resúmenes
estadísticos de diferentes variables en el data frame, posiblemente con
estratificación.%>%: Se le dice”pipe”. Su función principal es
simplificar la escritura de código y hacer que el flujo de trabajo de
manipulación de datos sea más claroNos permite obtener una tabla de descripción de datos con número total de casos, valores mínimos, máximos y promedio, frecuencias, datos válidos y perdidos, así como la gráfica de barras correspondiente.
freq: Tablas de frecuencia con recuentos, proporciones,
estadísticas acumuladas y informes de datos faltantes.ctable: Tabulaciones cruzadas entre pares de variables
discretas/categóricas, que presentan sumas marginales, así como
proporciones de filas, columnas o totalesdescr: Estadística descriptiva para datos numéricos,
que presenta medidas comunes de tendencia central y dispersión.dfSummary: Resúmenes de marcos de datos que presentan
información específica del tipo para todas las variables: estadísticas
univariadas y/o distribuciones de frecuencia, gráficos de barras o
histogramas, así como recuentos y proporciones de datos faltantes.Es uno de los paquetes mas conocidos debido que permite crear multiples graficos personalizados y de una calidad muy alta.
ggplot: El padre de este paquete, con la que se hace
todos los graficos, depende de con que lo acompañes hace uno u otro
grafico. Aca esta la base minima:ggplot(NOMBRE_DE_LA_BASE, aes() ) + geom_tipo()
aes: se emplea para indicar los ejes x e y. También para controlar colores, tamaños, formas, alturas, etc....
geometry: aquí indicaremos el tipo de gráfico (histograma, box plot, líneas,...densidades, puntos,...)
Si uno decea hacer el grafico interactivo puede agregar la libreria *plotly* y el comando *ggplotly* de esta manera:
ggplot(NOMBRE_DE_LA_BASE, aes() ) + geom_tipo() %>% ggplotly()