El fichero .xlsx dado para esta práctica POSTsenta dos
páginas. Cada una de estas páginas rePOSTsenta un grupo,
Antagonistas o Gestágenos, para cada
grupo se tienen una serie de variables comunes, y unos parámetros
correspondientes a la primera estimulación y la
segunda estimulación.
El objetivo entonces de este apartado será manipular este fichero
.xlsx para convertirlo en diversos ficheros
.csv, formato con el cual es más fácil trabajar en R. Se ha
dividido entonces el fichero original en 6
ficheros:
Un total de 3 ficheros correspondientes al grupo de Antagonistas. Uno para las muestras de las variables de primera estimulación, otro para las de segunda estimulación, y uno para las variables comunes a ambos.
Un total de 3 ficheros correspondientes al grupo de Gestágenos. Uno para las muestras de las variables de primera estimulación, otro para las de segunda estimulación, y uno para las variables comunes a ambos.
Este procedimiento nos deja una serie de ficheros .csv
con nombres de variables que no ayudan a distinguir entre la primera y
la segunda estimulación. Es por esto que el siguiente paso será
manipular los nombres de las variables, los cambios
realizados son los siguientes:
En este apartado se van a tratar las variables categóricas. Un paso
muy importante para su tratamiento es la conversión de estas columnas al
tipo de factor factor, sin embargo, antes de poder realizar
este cambio, se deben manipular los valores de estas variables por las
siguientes razones:
Hay valores que R toma como valores únicos, pero que realmentes
son typos o errores de escritura que los profesionales de
la salud tuvieron a la hora de hacer los datos. Por ejemplo, en
BLASTUL_1ESTIM, el valor N0 realmente se
refiere a NO.
Se han introducido valores de cadena de texto en variables de
naturaleza numérica. Este tipo de valores deben ser imputados para no
perder la muestra y poder tratar la variable como numérica. Un ejemplo
lo tendríamos en la variable FERTILIZ_1ESTIM, que muestra
valores numéricos excepto una muestra, con un valor anómalo
VITRI.
Por POSTferencia del personal clínico, se harán algunos cambios en la codificación de determinadas variables. Todos estos cambios serán detallados más adelante.
Para resolver los casos (1) y (3) se hará un cambio manual, indicando
el anterior valor y el nuevo -esto se realizará con el paquete
dplyr. Para el caso (2), se hará un cambio manual de los
valores anómalos por NA_character, de esta forma estos
valores se imputarán por medidas de tendencia central o de otra
naturaleza numérica a la hora de imputar valores faltantes.
Se han hecho entonces estos cambios:
Cambios para DOSIS Primera Estimulación
CLOMIF = NA_character, CLOMIFENO =
NA_character
Cambios para DOSIS Segunda Estimulación
CLOMIF = NA_character, CLOMIFENO =
NA_character
Cambios para FETILIZ Primera Estimulación
VITRI = NA_character
Cambios para Factor Femenino Edad =
“BR”, EDAD = “BR”, BR = “BR”,
BR/EDAD = “BR”, EDAD/BR = “BR”,
ADENO = “ENDO/SI/ADENO”, ADENO/ENDO =
“ENDO/SI/ADENO”, Endo/ADENO = “ENDO/SI/ADENO”,
ENDO = “ENDO/NO/ADENO”, UTERO D =
“ENDO/NO/ADENO”
Cambios para Factor Masculino DONANTE =
“NO”, No = “NO”, SEVERO = “SI”,
SI Fragment = “SI”, SI LEVE = “SI”
Cambios para Blástula Primera Estimulación
N0 = “NO”
Como se pudo observar en el conjunto de datos (objeto
data.frame) de la sección “Organización de los
.xlsx”, nuestro dataset contiene una serie de valores faltantes o
valores NA(Not Avaiable). Los conjuntos de datos
clínicos tienen una gran cantidad de estos valores, sin embargo, al
contener también una cantidad moderada de muestras, estos valores deben
imputarse con medidas representativas de la columna para no perder
información. Este paso es crucial para poder tener suficientes datos
para poder aplicar modelos explicativos, predictivos, o hacer
estadística.
NA por el valor con mayor frecuencia de la
columna).boxplot de cada columna, que representan
medidas como la dispersión, media, mediana, IRQ o valores atípicos. Con
esta información, se decidirá si imputar los valores NA con
la media o la mediana.NA de variables
numéricas con la mediana.NA de las variables
categóricas con la moda.AMH por su alto porcentaje
de valores faltantes.NA por variableNA relativa al total de muestras por cada
columna.NA han
sido imputados.Se muestran los gráficos de caja individuales de cada variable
numérica del conjunto de datos. Después de una exhaustiva observación
podemos ver que hay variables con un alto grado de dispersión o valores
atípicos, es por esto que se ha decidido imputar los valores
NA de variables numéricas con una medida de tendencia
central más estable; la mediana.
Se evidencia en el data.frame de la columna adyacente la
eliminación de los valores faltantes (NA), así como la
recodificación de las variables categóricas conforme a las
especificaciones de los trabajadores de la clínica de fertilidad,
incluyendo la corrección de valores atípicos.
La imputación de los valores faltantes mediante métodos apropiados ha preservado la representatividad de las muestras que inicialmente presentaban NA, lo cual es de suma importancia para el análisis de la variable de estudio. Esta medida resulta crítica dada la naturaleza limitada de los conjuntos de datos clínicos, donde es fundamental aprovechar todos los datos disponibles para obtener conclusiones realistas y prácticas.
En esta página se presentan medidas representativas de las columnas de tipo numérico del dataset clínico. La estadística univariante numérica es una herramienta fundamental para explorar y comprender la estructura de los datos, permitiéndonos identificar patrones significativos como la tendencia central, la dispersión, la simetría y la forma de la distribución. Esto nos ayuda a tomar decisiones fundamentadas en base a la información obtenida.
| Medida | Significado |
|---|---|
| Media | La media aritmética es el promedio de un conjunto de números, obtenido sumando todos los valores y dividiendo entre el número total de valores. Representa el valor típico o central del conjunto de datos. Si la distribución de datos es simétrica, la media coincide con la mediana. Sin embargo, puede verse afectada por valores atípicos. |
| Mediana | La mediana es el valor que se encuentra en el centro de un conjunto de datos ordenados de menor a mayor. Si el número de datos es impar, la mediana es el valor central; si es par, es el promedio de los dos valores centrales. La mediana es una medida robusta de la centralidad, ya que no se ve influenciada por valores extremos. |
| Q1 | El primer cuartil (Q1) es el valor que deja a un cuarto de los datos por debajo y tres cuartos por encima cuando los datos están ordenados de menor a mayor. También se conoce como el percentil 25. Indica el valor por debajo del cual se encuentra el 25% de los datos. |
| Q3 | El tercer cuartil (Q3) es el valor que deja a tres cuartos de los datos por debajo y un cuarto por encima cuando los datos están ordenados de menor a mayor. También se conoce como el percentil 75. Indica el valor por debajo del cual se encuentra el 75% de los datos. |
| IQR | El rango intercuartil (IQR) es la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1). Representa la dispersión de los datos en torno a la mediana. Cuanto mayor sea el IQR, mayor será la dispersión de los datos. Es una medida robusta de la dispersión, ya que no se ve afectada por valores extremos. |
| Desviación típica | La desviación típica es una medida de dispersión que indica cuánto varían los valores de un conjunto de datos con respecto a la media. Es la raíz cuadrada de la varianza. Una desviación típica alta indica que los valores están muy dispersos alrededor de la media, mientras que una desviación típica baja indica que los valores están más cerca de la media. |
[1] "AFC" "DOSIS_1ESTIM" "HMG_1ESTIM" "FERTILIZ_1ESTIM"
[5] "BT_AA_1ESTIM" "CONG_1ESTIM" "DOSIS_2ESTIM" "HMG_2ESTIM"
[9] "BT_AA_2ESTIM" "CONG_2ESTIM"