Organización de los .xlsx

## Column 1

División del fichero original

El fichero .xlsx dado para esta práctica POSTsenta dos páginas. Cada una de estas páginas rePOSTsenta un grupo, Antagonistas o Gestágenos, para cada grupo se tienen una serie de variables comunes, y unos parámetros correspondientes a la primera estimulación y la segunda estimulación.

El objetivo entonces de este apartado será manipular este fichero .xlsx para convertirlo en diversos ficheros .csv, formato con el cual es más fácil trabajar en R. Se ha dividido entonces el fichero original en 6 ficheros:

  • Un total de 3 ficheros correspondientes al grupo de Antagonistas. Uno para las muestras de las variables de primera estimulación, otro para las de segunda estimulación, y uno para las variables comunes a ambos.

  • Un total de 3 ficheros correspondientes al grupo de Gestágenos. Uno para las muestras de las variables de primera estimulación, otro para las de segunda estimulación, y uno para las variables comunes a ambos.

Manipulación del nombre de las variables

Este procedimiento nos deja una serie de ficheros .csv con nombres de variables que no ayudan a distinguir entre la primera y la segunda estimulación. Es por esto que el siguiente paso será manipular los nombres de las variables, los cambios realizados son los siguientes:

  • Adición del sufijo 1ESTIM para las variables de primera estimulación.
  • Adición del sufijo 2ESTIM para las variables de segunda estimulación.
  • Cambio de los caracteres “.”, “-”, “/” a **“_“** para evitar errores de referencia en el código.

## Column 2

Antagonistas.csv

Gestagenos.csv

Combinado.csv

Recodificación de Variables Categóricas

## Columna 1

Planteamiento del problema

En este apartado se van a tratar las variables categóricas. Un paso muy importante para su tratamiento es la conversión de estas columnas al tipo de factor factor, sin embargo, antes de poder realizar este cambio, se deben manipular los valores de estas variables por las siguientes razones:

  1. Hay valores que R toma como valores únicos, pero que realmentes son typos o errores de escritura que los profesionales de la salud tuvieron a la hora de hacer los datos. Por ejemplo, en BLASTUL_1ESTIM, el valor N0 realmente se refiere a NO.

  2. Se han introducido valores de cadena de texto en variables de naturaleza numérica. Este tipo de valores deben ser imputados para no perder la muestra y poder tratar la variable como numérica. Un ejemplo lo tendríamos en la variable FERTILIZ_1ESTIM, que muestra valores numéricos excepto una muestra, con un valor anómalo VITRI.

  3. Por POSTferencia del personal clínico, se harán algunos cambios en la codificación de determinadas variables. Todos estos cambios serán detallados más adelante.

Resumen de la solución

Para resolver los casos (1) y (3) se hará un cambio manual, indicando el anterior valor y el nuevo -esto se realizará con el paquete dplyr. Para el caso (2), se hará un cambio manual de los valores anómalos por NA_character, de esta forma estos valores se imputarán por medidas de tendencia central o de otra naturaleza numérica a la hora de imputar valores faltantes.

Se han hecho entonces estos cambios:

Cambios para DOSIS Primera Estimulación CLOMIF = NA_character, CLOMIFENO = NA_character

Cambios para DOSIS Segunda Estimulación CLOMIF = NA_character, CLOMIFENO = NA_character

Cambios para FETILIZ Primera Estimulación VITRI = NA_character

Cambios para Factor Femenino Edad = “BR”, EDAD = “BR”, BR = “BR”, BR/EDAD = “BR”, EDAD/BR = “BR”, ADENO = “ENDO/SI/ADENO”, ADENO/ENDO = “ENDO/SI/ADENO”, Endo/ADENO = “ENDO/SI/ADENO”, ENDO = “ENDO/NO/ADENO”, UTERO D = “ENDO/NO/ADENO”

Cambios para Factor Masculino DONANTE = “NO”, No = “NO”, SEVERO = “SI”,
SI Fragment = “SI”, SI LEVE = “SI”

Cambios para Blástula Primera Estimulación N0 = “NO”

## Column 2

Menú de gráficas generadas

  • PRE. Se refiere a las gráficas correspondientes a las distribuciones de las variables categóricas antes de realizar la recodificación.
  • POST. Se refiere a las gráficas correspondientes a las distribuciones de las variables categóricas después de realizar la recodificación.

Factor Masculino - PRE

Factor Femenino - PRE

Dosis 1ESTIM - PRE

Fertilización 1ESTIM - PRE

Blastulación 1ESTIM - PRE

Feto 1ESTIM - PRE

Dosis 2ESTIM - PRE

Blastulación 2ESTIM - PRE

Feto 2ESTIM - PRE

Grupo - PRE

Factor Masculino - POST

Factor Femenino - POST

Blastulación 1ESTIM - POST

Feto 1ESTIM - POST

Blastulación 2ESTIM - POST

Feto 2ESTIM - POST

Grupo - POST

Imputación de datos faltantes (NA)

## Column 1

Planteamiento del problema

Como se pudo observar en el conjunto de datos (objeto data.frame) de la sección “Organización de los .xlsx”, nuestro dataset contiene una serie de valores faltantes o valores NA(Not Avaiable). Los conjuntos de datos clínicos tienen una gran cantidad de estos valores, sin embargo, al contener también una cantidad moderada de muestras, estos valores deben imputarse con medidas representativas de la columna para no perder información. Este paso es crucial para poder tener suficientes datos para poder aplicar modelos explicativos, predictivos, o hacer estadística.

  • Para variables categóricas se ha elegido imputar con la moda (sustituir NA por el valor con mayor frecuencia de la columna).
  • Para variables numéricas se ha tomado un acercamiento más cauteloso. Se explorarán los boxplot de cada columna, que representan medidas como la dispersión, media, mediana, IRQ o valores atípicos. Con esta información, se decidirá si imputar los valores NA con la media o la mediana.
  • Variables que presenten más de la mitad de datos faltantes se tomarán como no representativas y se eliminará la columna.

Resumen de la solución

  • Se ha decidido imputar los valores NA de variables numéricas con la mediana.
  • Se han imputado los valores NA de las variables categóricas con la moda.
  • Se ha eliminado la columna AMH por su alto porcentaje de valores faltantes.

## Columna 2

Porcentaje de valores NA por variable

  • La primera gráfica muestra en un gráfico de barras la cantidad de valores NA relativa al total de muestras por cada columna.
  • La segunda gráfica muestra lo mismo, pero se puede notar que es después del procesamiento, ya que todos los valores NA han sido imputados.

Distribución de valores NA - PRE

Distribución de valores NA - POST

## Columna 3

Boxplots de las variables numéricas

Se muestran los gráficos de caja individuales de cada variable numérica del conjunto de datos. Después de una exhaustiva observación podemos ver que hay variables con un alto grado de dispersión o valores atípicos, es por esto que se ha decidido imputar los valores NA de variables numéricas con una medida de tendencia central más estable; la mediana.

Boxplot de Recuento de Folículos Antrales

Boxplot Dosis (1ESTIM)

Boxplot HMG (1ESTIM)

Boxplot Fertilización (1ESTIM)

Boxplot Número de Blastos de buena Calidad (1ESTIM)

Boxplot CONG (1ESTIM)

Boxplot Dosis (2ESTIM)

Boxplot HMG (2ESTIM)

Boxplot Número de Blastos de buena Calidad (2ESTIM)

Boxplot CONG (2ESTIM)

Discusión de los resultados del pre-procesamiento

## Column 1

Resultados

Se evidencia en el data.frame de la columna adyacente la eliminación de los valores faltantes (NA), así como la recodificación de las variables categóricas conforme a las especificaciones de los trabajadores de la clínica de fertilidad, incluyendo la corrección de valores atípicos.

La imputación de los valores faltantes mediante métodos apropiados ha preservado la representatividad de las muestras que inicialmente presentaban NA, lo cual es de suma importancia para el análisis de la variable de estudio. Esta medida resulta crítica dada la naturaleza limitada de los conjuntos de datos clínicos, donde es fundamental aprovechar todos los datos disponibles para obtener conclusiones realistas y prácticas.

## Columna 2

Conjunto de datos pre-procesado final

Numérica

## Columna 1

Estadística Univariante Numérica

En esta página se presentan medidas representativas de las columnas de tipo numérico del dataset clínico. La estadística univariante numérica es una herramienta fundamental para explorar y comprender la estructura de los datos, permitiéndonos identificar patrones significativos como la tendencia central, la dispersión, la simetría y la forma de la distribución. Esto nos ayuda a tomar decisiones fundamentadas en base a la información obtenida.

Descripción de las medidas del estudio

Medida Significado
Media La media aritmética es el promedio de un conjunto de números, obtenido sumando todos los valores y dividiendo entre el número total de valores. Representa el valor típico o central del conjunto de datos. Si la distribución de datos es simétrica, la media coincide con la mediana. Sin embargo, puede verse afectada por valores atípicos.
Mediana La mediana es el valor que se encuentra en el centro de un conjunto de datos ordenados de menor a mayor. Si el número de datos es impar, la mediana es el valor central; si es par, es el promedio de los dos valores centrales. La mediana es una medida robusta de la centralidad, ya que no se ve influenciada por valores extremos.
Q1 El primer cuartil (Q1) es el valor que deja a un cuarto de los datos por debajo y tres cuartos por encima cuando los datos están ordenados de menor a mayor. También se conoce como el percentil 25. Indica el valor por debajo del cual se encuentra el 25% de los datos.
Q3 El tercer cuartil (Q3) es el valor que deja a tres cuartos de los datos por debajo y un cuarto por encima cuando los datos están ordenados de menor a mayor. También se conoce como el percentil 75. Indica el valor por debajo del cual se encuentra el 75% de los datos.
IQR El rango intercuartil (IQR) es la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1). Representa la dispersión de los datos en torno a la mediana. Cuanto mayor sea el IQR, mayor será la dispersión de los datos. Es una medida robusta de la dispersión, ya que no se ve afectada por valores extremos.
Desviación típica La desviación típica es una medida de dispersión que indica cuánto varían los valores de un conjunto de datos con respecto a la media. Es la raíz cuadrada de la varianza. Una desviación típica alta indica que los valores están muy dispersos alrededor de la media, mientras que una desviación típica baja indica que los valores están más cerca de la media.

## Columna 2

Valores de la estadística

Shiny applications not supported in static R Markdown documents

p1

 [1] "AFC"             "DOSIS_1ESTIM"    "HMG_1ESTIM"      "FERTILIZ_1ESTIM"
 [5] "BT_AA_1ESTIM"    "CONG_1ESTIM"     "DOSIS_2ESTIM"    "HMG_2ESTIM"     
 [9] "BT_AA_2ESTIM"    "CONG_2ESTIM"    

## Columna 3

Interpretación

  1. AFC (Antral Follicle Count):
    • La distribución de los recuentos de folículos antrales muestra una dispersión moderada alrededor de la mediana, sin embargo, se debe recalcar la presencia de algunos valores atípicos que podrían requerir una mayor investigación sobre cómo se han tomado esos datos.
  2. DOSIS_1ESTIM (Dosis de la primera estimulación):
    • La dosis de la primera estimulación tiende a ser alta, con la mayoría de los valores concentrados alrededor del tercer cuartil, sin la presencia de valores atípicos.
  3. HMG_1ESTIM (Hormona Gonadotropina Menopáusica):
    • La distribución de la hormona gonadotropina muestra una dispersión moderada alrededor de la mediana, con algunos valores atípicos que podrían influir en el análisis.
  4. FERTILIZ_1ESTIM (Fertilización en la primera estimulación):
    • La tasa de fertilización en la primera estimulación muestra una dispersión moderada alrededor de la mediana, con la presencia de algunos valores atípicos.
  5. BT_AA_1ESTIM (Biopsia Testicular Asistida):
    • La frecuencia de la biopsia testicular asistida en la primera estimulación es relativamente baja, con algunos valores atípicos que podrían indicar situaciones excepcionales que no son representativas del procedimiento normal. La mediana está cerca de la media, pero la desviación típica es relativamente alta en comparación con la media, lo que sugiere una distribución sesgada hacia valores más altos.
  6. CONG_1ESTIM (Congelación en la primera estimulación):
    • La frecuencia de la congelación en la primera estimulación muestra una dispersión moderada alrededor de la mediana, sin la presencia de valores atípicos.
  7. DOSIS_2ESTIM (Dosis de la segunda estimulación):
    • Al igual que en la primera estimulación, la dosis de la segunda estimulación tiende a ser alta, con la mayoría de los valores concentrados alrededor del tercer cuartil, y sin valores atípicos.
  8. HMG_2ESTIM (Hormona Gonadotropina Menopáusica en la segunda estimulación):
    • La distribución de la hormona gonadotropina en la segunda estimulación muestra una dispersión moderada alrededor de la mediana, con algunos valores atípicos.
  9. BT_AA_2ESTIM (Biopsia Testicular Asistida en la segunda estimulación):
    • La frecuencia de la biopsia testicular asistida en la segunda estimulación es similar a la primera, con la presencia de algunos valores atípicos.
  10. CONG_2ESTIM (Congelación en la segunda estimulación):
    • La frecuencia de la congelación en la segunda estimulación muestra una dispersión moderada alrededor de la mediana, con algunos valores atípicos.