Sas

Importas bases

Cargamos la base con la que queremos trabajar en archivos, posteriormente la seleccionamos y nos mostrara la ruta y las caracteristicas.

En nuestra consola copiamos y pegamos este codigo:

PROC IMPORT DATAFILE ="Ruta del archivo en SAS" 
  DBMS= Tipo del archivo 
  OUT=Donde se almacenara los datos importados; 
  GETNAMES= Avisa al programa si la primera fila son los nombres de las variables;
RUN; 

IMPORTANTE: En caso que se trabaje con una base de datos delimitas por un tipo de caracter debe informarle al programa incluyendo el codigo delimiter="Caracter";

Eliminar base

En caso de querer eliminar la base de datos se puede hacer con el siguiente comando: proc delete data=NOMBRE DE LA BASE;

Crear Nuevas variables

En caso de que necesitemos trabajar con nuevas variables condicionadas a las variables que ya tenemos se puede hacer de la siguiente forma:

data NOMBRE_DE_LA_BASE;
set NOMBRE_DE_LA_BASE;
if (variableA condicion) then NOMBRE_NUEVA_VARIABLE=VALOR_QUE_SE_LE_DESEE_DAR;
RUN;

Tablas

La siguiente tablas son algunas de las que se pueden crear

Tabla de frecuencia

proc freq data=NOMBRE_DE_LA_BASE;
tables Variable1 Variable2;
run;

Tabla de doble entrada cruzada

title "Nombre que se le quiera dar";
proc freq data=NOMBRE_DE_LA_BASE;
tables VariableA*VariableB;
run;

Tabla de doble entrada condicionada

proc freq data=NOMBRE_DE_LA_BASE;
tables VariableA*VariableB;
where(CONDICION);
run;

Stata

Importar base

En stata se puede importar escribiendo directamente en la consola, la forma de importar varia levemente dependiendo del tipo de archivo.

Txt delimitado por un caracter

import delimited RUTA_DEL_ARCHIVO, delimiter("CARACTER")

Excel

import excel "Ruta del archivo", sheet("hoja del excel con la que queremos trabajar") firstrow

El firstrow le indica al programa que la primera fila es el nombre de las variables

Tablas

Algunas de las tablas que se pueden crear en Stata:

Tabla de doble entrada cruzada

tab VariableA VariableB

Tabla de pocentaje condicionada

*Por Fila*
tab Variable1 Variable2 if Variable3(condicion),row
*Por Columna*
tab Variable1 Variable2 if Variable3(condicion),col
*Por Total de la tabla*
tab Variable1 Variable2 if Variable3(condicion),cell

R

Importar base

Dependiendo del tipo de archivo con el que vayamos a trabajar hay que ocupar una u otra libreria. Para trabajar con una base excel necesitaremos la libreria readxl

librery(readxl)
read_xlsx(RUTA DEL ARCHIVO)

Para trabajar con una base txt necesitamos rbase o la libreria readr

read.table("RUTA DEL ARCHIVO",header=T,sep="Caracter")

Header=T indica que la primera columna corresponde al nombre de las variables 
sep="" debes indicarle al programa con que esta separado cada columna

Crear nuevas variables

Dependiendo del tipo de variable es el codigo que se ocupa para la creacion de nuevas. Para crear nuevas columnas a nuestra base es necesario trabajar con la funcion Mutate que la contiene la libreria Dplyr:

librery(dplyr)
NOMBRE_DE_LA_BASE <- NOMBRE_DE_LA_BASE %>%
  mutate(NUEVA_VARIABLE = factor(Variable1, levels = c("", "", ""))
*Factor* lo que hace es asignarle valores a las distintas variables

Cuando trabajamos con variables numericas y queremos estratificarlas por rangos lo podemos hacer de esta manera

NUEVA_VARIABLE = factor(case_when(between(VARIABLE2, Rang1, Rang2) ~ "Nombre de ese estrato",
*Case_when* nos permite trabajar con condicionales en una sola linea
*Between* Evaluo los valores dentro del rango

                                  

Librerias en Rstudio

Las librerias en R son paquetes que contienen funciones que proporcionan herramientas que no las contiene como tal el programa Algunas de las librerias mas comunes son:

Dplyr

Esta libreria nos proporciona funciones para el manejo de datos, algunas de las funciones que contiene permiten agregar y agrupar datos, fitrar filas o columnas.

Algunas Funciones

  • select: Retorna un conjunto de columnas específicas de un data frame.
  • filter: Retorna un conjunto de filas de un data frame que cumplen con una o varias condiciones lógicas.
  • arrange: Reordena las filas de un data frame basándose en el valor de una o más columnas.
  • rename: Renombra las variables (columnas) de un data frame.
  • mutate: Agrega nuevas variables o transforma las existentes en un data frame.
  • summarise/summarize: Genera resúmenes estadísticos de diferentes variables en el data frame, posiblemente con estratificación.
  • %>%: Se le dice”pipe”. Su función principal es simplificar la escritura de código y hacer que el flujo de trabajo de manipulación de datos sea más claro

Summarytools

Nos permite obtener una tabla de descripción de datos con número total de casos, valores mínimos, máximos y promedio, frecuencias, datos válidos y perdidos, así como la gráfica de barras correspondiente.

Algunas Funciones

  • freq: Tablas de frecuencia con recuentos, proporciones, estadísticas acumuladas y informes de datos faltantes.
  • ctable: Tabulaciones cruzadas entre pares de variables discretas/categóricas, que presentan sumas marginales, así como proporciones de filas, columnas o totales
  • descr: Estadística descriptiva para datos numéricos, que presenta medidas comunes de tendencia central y dispersión.
  • dfSummary: Resúmenes de marcos de datos que presentan información específica del tipo para todas las variables: estadísticas univariadas y/o distribuciones de frecuencia, gráficos de barras o histogramas, así como recuentos y proporciones de datos faltantes.

Ggplot2

Es uno de los paquetes mas conocidos debido que permite crear multiples graficos personalizados y de una calidad muy alta.

La funciones

  • ggplot: El padre de este paquete, con la que se hace todos los graficos, depende de con que lo acompañes hace uno u otro grafico. Aca esta la base minima:
ggplot(NOMBRE_DE_LA_BASE, aes() ) + geom_tipo() 

aes: se emplea para indicar los ejes x e y. También para controlar colores, tamaños, formas, alturas, etc....
geometry: aquí indicaremos el tipo de gráfico (histograma, box plot, líneas,...densidades, puntos,...)

Si uno decea hacer el grafico interactivo puede agregar la libreria *plotly* y el comando *ggplotly* de esta manera:

ggplot(NOMBRE_DE_LA_BASE, aes() ) + geom_tipo() %>% ggplotly()