\(INDICE\)

\(RESUMEN\)

En el presente artículo se mostrará un análisis de datos sobre las enfermedad trasmitida por vector (dengue) a partir de una base de datos utilizando herramientas bioinformáticas para realizar el análisis en este caso utilizando el lenguaje R, además de mostrar el código que se utilizó para elaborar los filtrados de los datos determinados ya sea de las columnas de la base de datos original que fueron más relevantes para realizar el análisis, elaboración de graficas de los resultado de los filtrado y elaboración de subtablas resultantes a partir de los filtrados elaborados; teniendo como conclusión la obtención de los datos más relevantes de la base de datos original para realizar un análisis del comportamiento y contagio que tiene el dengue registrado en la base de datos además de mostrar las diferentes hipótesis realizadas para encontrar una posible respuesta de su comportamiento y contagio.

\(INTRODUCCION\)

Las herramientas bioinformáticas nos ayudan a analizar, procesar y gestionar datos biológicos con el fin de obtener información importante de base de datos para una mejor investigación. En el presente trabajo se mostrará el código realizado como proyecto para la asignatura de bioinformática donde se explicará el propósito de la base de datos elegido, su objetivo, la información obtenida y el código que se realizó.

La base de datos que se presentara fue elegida por y para analizar datos epidemiológicos que conllevan mucha relación con la carrera que se está estudiando llamada “Ciencias genómicas” donde lleva esta asignatura para el apoyo a investigaciones que conlleven investigar especies de virus, bacterias, vectores, entre otros; que son de alta información que se necesita ser procesada y analizada correctamente para analizar por ejemplo el comportamiento que tienen en los países o estados, a qué tipo de poblaciones afecta más, entre otros.

Pero es relevante saber que un vector en el contexto de las enfermedades son un organismo vivo que tiene la capacidad de transportar patógenos y que estos se multipliquen dentro de su cuerpo para poderse transmitir los agentes infecciosos de un animal a un humano o viceversa, los tipos de vectores que existen suelen ser los mosquitos, garrapatas, pulgas o piojos.

\(MARCO TEORICO\)

Recopilación y análisis de datos a partir de una base de datos CVS sobre las enfermedades infecciosas transmitidas por vector en este caso Dengue, esto tiene como propósito recolectar información esencial para entender el comportamiento y contagio del virus del dengue.

Según el subsecretario de los servicios de salud en México José Robles M.C y el director general de investigación epidemiológica de México Héctor Gómez M.C exponen que “UBICAR EL PESO de una enfermedad en el contex­to de prioridades en salud requiere de informa­ción de calidad para identificar aquellos problemas que demandan una atención inmediata y, anticipar los que empiezan a vislumbrarse como los retos de atención para el futuro. La selección de problemas prioritarios de salud pública gira en torno al impacto que tienen sobre la morbilidad y la mortalidad general o específica, con la discapacidad individual que producen, la carga social que generan y la disponibilidad de inter­venciones efectivas y de bajo costo para que se apliquen a la población.” Esto es importante ya que los medios como las bases de datos sirven como apoyo a una recopilación de datos y ayudan a realizar investigaciones más específicas y de calidad para lo que se necesita como se menciona ubicar el peso de la enfermedad que implican los sectores que se dan para una mayor identificación en cuestión de comportamiento y contagio del virus y para así priorizar la salud de los pacientes.

Teniendo en cuenta esto es importante mencionar que “El dengue es una enfermedad viral, de carácter endémico-epidémico, transmitida por mosquitos del género Aedes, principalmente por Aedes aegypti, que constituye hoy la arbovirosis más importante a nivel mundial en términos de morbilidad, mortalidad y afectación económica” (Guzmán et al., 2004; Kindhauser, 2003). Igualmente se retoma que las enfermedades infecciosas han sido a nivel de salud pública o a nivel mundial se deben de toman en cuenta su morbilidad, mortalidad y afectación que entra en el contexto social para analizar qué tipo de peso tiene la enfermedad en cuestión de los problemas que pueden traer. Conceptos claves: morbilidad, mortalidad, salud pública, enfermedad, peso.

\(METODOS\)

La base de datos elegida fue las enfermedades transmitidas por vectores (Dengue) siendo obtenida por medio de la página del gobierno que proporciona datos abiertos tipo CVS de la epidemiologia.1

df=read.csv("https://docs.google.com/spreadsheets/d/e/2PACX-1vQ_s0F8BmV6imNozKTwTOlyHkHrUUFXW5X4EYdsS8WEZ6hpNVlOaRmwYWmtcbPSQE_02vtAzNYZA6Bw/pub?output=csv")

Parte 1. Se abrió la base de datos en el programa “RStudios” por medio del comando “read.csv” al cual nos ayuda a leer los archivos de formato CVS y para poder guardar el archivo en el programa se le denomino “df”, posteriormente realizo un análisis por medio de un comando denominado como “dim” que nos ayuda a saber cuántas filas y columnas contiene la base de datos, como también se utilizó el comando “colnames” para saber cuáles eran los nombres de las columnas y por último el comando “class” para saber qué tipo de datos eran las columnas elegidas siendo de tipo numérico o de caracteres, en este caso se eligieron las columnas de entidad de residencia, edad, sexo y resultados de PCR donde todas las columnas eran tipo numérico.

#¿Cuantas filas y columnas tiene la base de datos?
dim(df)
#¿Cuales son los nombres de las columnas?
colnames(df)
attach(df)
#¿Que tipo de datos contienen las columnas elegidas?
class(EDAD_ANOS)
class(SEXO)
class(ENTIDAD_RES)
class(RESULTADO_PCR)

Paso 2. Durante este paso se analizaron los datos con mejor exactitud mediante el comando “table” ya que este comando nos muestra todos los datos que posee una columna en específico en este caso se eligieron 4 columnas que se consideraron las más relevantes para el análisis siendo las columnas de entidad de residencia, las edades, el sexo y los resultados de PCR, todo esto fue con la finalidad de analizar el contenido adecuadamente para sacar la información más relevante para la investigación.

table(ENTIDAD_RES)
table(EDAD_ANOS)
table(SEXO)
table(RESULTADO_PCR)

Paso 3. Posteriormente del análisis especifico de lo que contenía cada columna se realizaron subtablas a partir del base de datos original donde se fueron creando y filtrando las columnas por medio de comandos. Se investigaron métodos que no necesitaran tanto espacio al realizar las subtablas creadas a partir de la original.

- Filtrado y muestreo de la tabla original:

A la primera subtabla se le denominó como “muestra” ya que se realizó un muestreo de 1500 pacientes a partir de 115,213 pacientes y además se eligieron las columnas del 3 al 25 ya que eran donde se encontraban las columnas de interés, todo esto fue realizado mediante el comando “muestra=df [1:1500, 3:25]” que guarda en la subtabla los primeros pacientes del 1 al 1500 y las columnas del 3 al 25.

En las siguientes subtablas se investigaron métodos que no necesitaran tantos renglones para crear nuevas subtablas filtradas por el método elegido fue “subset” este es un comando que permite obtener subconjuntos de datos en base a ciertas condiciones lógicas para objetos de tipo vector, matrices y data frames. Mediante este comando que se realizaron más subtablas a partir de la subtabla denominada “muestra”. De las cuales se obtuvieron las muestras denominadas “muestra2”, “muestra3” y por último “muestra4”:

muestra=df[1:1500,3:25]
muestra2=subset(muestra, select=c(EDAD_ANOS,ENTIDAD_RES,SEXO,RESULTADO_PCR))
muestra3=subset(muestra2, EDAD_ANOS>=11&EDAD_ANOS<=15)
muestra4=subset(muestra3, ENTIDAD_RES>=28&ENTIDAD_RES<=31)

Muestra2: se realizó el primer filtro donde se eliminaron columnas y solamente se eligieron las columnas de edad, entidad de residencia, sexo y resultados del PCR. Muestra3: Se realizo un segundo filtro donde se eliminaron las edades que no fueran mayores o iguales a 11 y edades menores o iguales a 15. * Muestra4: Por último, se realizó un tercer filtro donde se eliminaron las entidades que no fueran mayores o iguales a 28 y entidades menores o iguales a 31.

Paso 4. Como último paso se realizaron graficas de cada una de las columnas elegidas que se muestrearon y filtraron; mediante el comando de “barplot” (Crea graficas de barras) se les asigno nombres en las coordenadas x & y por medio del comando “xlab” y “ylab” (Estos comandos ayudan a poner pequeños nombres debajo de las coordenadas), además de agregar títulos por medio del comando “main”, como también colores a las gráficas por medio del comando “col” y si se requería se les daba nombre a las barras de las gráfica por el comando “names.arg”.

#Grafica de edades
barplot(table(muestra4$EDAD_ANOS),main="Edades mas afectadas",xlab= "Edades",
        ylab="Frecuencia" ,col=c("skyblue4","seashell3","salmon3","rosybrown3","grey"))

#Grafica del sexo
barplot(table(muestra$SEXO),main="Proporcion sexo",xlab="Sexo",ylab="Frecuencia", 
        names.arg= c("Mujeres","Hombres"),col=c("pink","lightblue1"))

#Graficas de entidades de residencia 
barplot(table(muestra4$ENTIDAD_RES),main="Entidades mas afectadas",xlab= "Entidades",
        ylab="Frecuencia" ,names.arg= c("Tamaulipas","Veracruz","Yucatan"),
        col=c("skyblue4","salmon3","rosybrown3"))

#Graficas del PCR
barplot(table(muestra4$RESULTADO_PCR),main="Proporcion de resultados de PCR",
        xlab="Resultado",ylab="Frecuencia", 
        names.arg= c("DENV1","DENV2","DENV3","SIN SEROTIPO"), 
        col=c("wheat","violetred3","whitesmoke", "plum"))

\(RESULTADOS\)

Resultado de la ultima tabla obtenida con un filtrado de los primeros 10 pacientes que cumplieron con los requisitos de filtros que se menciono anteriormente:

EDAD_ANOS ENTIDAD_RES SEXO RESULTADO_PCR
Paciente 1 15 31 2 3
Paciente 2 12 31 1 5
Paciente 3 12 30 1 3
Paciente 4 12 31 2 1
Paciente 5 13 30 2 2
Paciente 6 13 30 2 5
Paciente 7 12 31 2 5
Paciente 8 13 31 2 5
Paciente 9 15 31 2 3
Paciente 10 15 31 2 3

Resultados de las gráficas obtenidas:

- Graficas edades:

En la primera grafica obtenida se observa que los resultados obtenidos de la filtración de la tabla donde se muestran las edades mas afectadas que van desde los 11 a 15 años de edad.

- Grafica del sexo:

En la segunda grafica obtenida se observan que la proporción que existe entre las mujeres y los hombres fueron diferentes siendo las más mujeres que hombres.

- Grafica de entidades:

En la tercera grafica obtenida a partir del muestreo se observan las principales entidades afectadas por el dengue.

- Grafica de resultados de PCR:

Por ultimo la cuarta grafica obtenida se logra observar los resultados del PCR donde la mayoría de los pacientes del muestreo salieron sin ningún serotipo del virus, pero sin descartar que otros pacientes si desarrollaron serotipos del DENV1 al DENV3.

\(DISCUSION\)

En la primera se mencionan y se muestran las edades más afectadas por el dengue siendo desde los 11 a 15 años de edad esto se puede deber porque son más vulnerables a los efectos de las picaduras, ya que pueden no tener un sistema inmune desarrollado para este tipo de enfermedades por lo que pueden volverse más susceptibles o menos tolerables a que les afecte la enfermedad, además de otros factores.

En la segunda grafica se muestran los sexos que fueron más afectados por el dengue llegando a la pregunta ¿Los mosquitos tendrán un sexo de preferencia? No, pero si se ha mencionado en estudios que la mujer es más propensa a adquirir esta enfermedad ya que el dengue es un es criado en el hogar por lo que las mujeres amas de casa están más expuestas, además los niños normalmente pueden jugar en los criaderos de mosquitos que pueden existir en sus hogares, otro factor que puede ser relevante son las hormonas que tienen los individuos ya que el mosquito puede tener un mayor preferencia por tipos de hormonas que otras.

En la tercera grafica se muestran las entidades más afectadas, las entidades con mayor frecuencia que se sacaran de la muestra son Tamaulipas, Veracruz y Yucatán esto se puede deber a que son zonas tropicales donde se pueden reproducir de forma más rápida los moquitos del dengue.

Un poco de contexto los DENV 1-3 son siglas que se refieren a un serotipo (Variantes del mismo virus que se diferencias dependiendo de su respuesta inmunológica) de del virus, cada uno de estos tiene una composición genética diferente esto puede indicar si puede desarrollar una forma más grave de la enfermedad. En la última gráfica se muestran los serotipos que se encontraron en la muestra de pacientes, donde se ve que muchos no tienen serotipo, pero sin descartar que otros si se les diagnosticaron serotipos.

\(CONCLUSIONES\)

Se llega a la conclusión que el dengue es una enfermedad implica factores como la edad, la inmunidad previa, la salud general, tambien las hormonas, como factores genéticos y ambientales pueden influir en la forma en que una persona responde a la infección por el virus del dengue. Por lo tanto, si una persona con esos factores es picada por un mosquito infectado y no tiene inmunidad previa contra el virus puede desarrollar la enfermedad.

Otro punto a aclarar es que la gravedad de la enfermedad no está determinada por el serotipo en sí, sino que este representa como el cuerpo reacciona inmunológicamente al virus una persona puede tener un tipo de serotipo, pero eso no le da la inmunidad a otros tipos de serotipos que puedan causar un empeoramiento de la enfermedad.

Teniendo en cuenta esto los niños y las mujeres que vienen en los estados de Yucatán, Veracruz o Tamaulipas son más susceptibles a contraer esta enfermedad por estar expuestos constantemente a criaderos de mosquitos, lo que es importante tener una concientización sobre cómo manejar o identificar criaderos.

\(BIBLIOGRAFIA\)

Links