En el presente artículo se mostrará un análisis de datos sobre las enfermedad trasmitida por vector (dengue) a partir de una base de datos utilizando herramientas bioinformáticas para realizar el análisis en este caso utilizando el lenguaje R, además de mostrar el código que se utilizó para elaborar los filtrados de los datos determinados ya sea de las columnas de la base de datos original que fueron más relevantes para realizar el análisis, elaboración de graficas de los resultado de los filtrado y elaboración de subtablas resultantes a partir de los filtrados elaborados; teniendo como conclusión la obtención de los datos más relevantes de la base de datos original para realizar un análisis del comportamiento y contagio que tiene el dengue registrado en la base de datos además de mostrar las diferentes hipótesis realizadas para encontrar una posible respuesta de su comportamiento y contagio.
Las herramientas bioinformáticas nos ayudan a analizar, procesar y gestionar datos biológicos con el fin de obtener información importante de base de datos para una mejor investigación. En el presente trabajo se mostrará el código realizado como proyecto para la asignatura de bioinformática donde se explicará el propósito de la base de datos elegido, su objetivo, la información obtenida y el código que se realizó.
La base de datos que se presentara fue elegida por y para analizar datos epidemiológicos que conllevan mucha relación con la carrera que se está estudiando llamada “Ciencias genómicas” donde lleva esta asignatura para el apoyo a investigaciones que conlleven investigar especies de virus, bacterias, vectores, entre otros; que son de alta información que se necesita ser procesada y analizada correctamente para analizar por ejemplo el comportamiento que tienen en los países o estados, a qué tipo de poblaciones afecta más, entre otros.
Pero es relevante saber que un vector en el contexto de las enfermedades son un organismo vivo que tiene la capacidad de transportar patógenos y que estos se multipliquen dentro de su cuerpo para poderse transmitir los agentes infecciosos de un animal a un humano o viceversa, los tipos de vectores que existen suelen ser los mosquitos, garrapatas, pulgas o piojos.
Recopilación y análisis de datos a partir de una base de datos CVS sobre las enfermedades infecciosas transmitidas por vector en este caso Dengue, esto tiene como propósito recolectar información esencial para entender el comportamiento y contagio del virus del dengue.
Según el subsecretario de los servicios de salud en México José Robles M.C y el director general de investigación epidemiológica de México Héctor Gómez M.C exponen que “UBICAR EL PESO de una enfermedad en el contexto de prioridades en salud requiere de información de calidad para identificar aquellos problemas que demandan una atención inmediata y, anticipar los que empiezan a vislumbrarse como los retos de atención para el futuro. La selección de problemas prioritarios de salud pública gira en torno al impacto que tienen sobre la morbilidad y la mortalidad general o específica, con la discapacidad individual que producen, la carga social que generan y la disponibilidad de intervenciones efectivas y de bajo costo para que se apliquen a la población.” Esto es importante ya que los medios como las bases de datos sirven como apoyo a una recopilación de datos y ayudan a realizar investigaciones más específicas y de calidad para lo que se necesita como se menciona ubicar el peso de la enfermedad que implican los sectores que se dan para una mayor identificación en cuestión de comportamiento y contagio del virus y para así priorizar la salud de los pacientes.
Teniendo en cuenta esto es importante mencionar que “El dengue es una enfermedad viral, de carácter endémico-epidémico, transmitida por mosquitos del género Aedes, principalmente por Aedes aegypti, que constituye hoy la arbovirosis más importante a nivel mundial en términos de morbilidad, mortalidad y afectación económica” (Guzmán et al., 2004; Kindhauser, 2003). Igualmente se retoma que las enfermedades infecciosas han sido a nivel de salud pública o a nivel mundial se deben de toman en cuenta su morbilidad, mortalidad y afectación que entra en el contexto social para analizar qué tipo de peso tiene la enfermedad en cuestión de los problemas que pueden traer. Conceptos claves: morbilidad, mortalidad, salud pública, enfermedad, peso
La base de datos elegida fue las enfermedades transmitidas por vectores (Dengue) siendo obtenida por medio de la página del gobierno que proporciona datos abiertos tipo CVS de la epidemiologia.1
df=read.csv("https://docs.google.com/spreadsheets/d/e/2PACX-1vQ_s0F8BmV6imNozKTwTOlyHkHrUUFXW5X4EYdsS8WEZ6hpNVlOaRmwYWmtcbPSQE_02vtAzNYZA6Bw/pub?output=csv")
Parte 1. Se abrió la base de datos en el programa “RStudios” por medio del comando “read.csv” al cual nos ayuda a leer los archivos de formato CVS y para poder guardar el archivo en el programa se le denomino “df”, posteriormente realizo un análisis por medio de un comando denominado como “dim” que nos ayuda a saber cuántas filas y columnas contiene la base de datos, como también se utilizó el comando “colnames” para saber cuáles eran los nombres de las columnas y por último el comando “class” para saber qué tipo de datos eran las columnas elegidas siendo de tipo numérico o de caracteres, en este caso se eligieron las columnas de entidad de residencia, edad, sexo y resultados de PCR donde todas las columnas eran tipo numérico.
#¿Cuantas filas y columnas tiene la base de datos?
dim(df)
#¿Cuales son los nombres de las columnas?
colnames(df)
attach(df)
#¿Que tipo de datos contienen las columnas elegidas?
class(EDAD_ANOS)
class(SEXO)
class(ENTIDAD_RES)
class(RESULTADO_PCR)
Paso 2. Durante este paso se analizaron los datos con mejor exactitud mediante el comando “table” ya que este comando nos muestra todos los datos que posee una columna en específico en este caso se eligieron 4 columnas que se consideraron las más relevantes para el análisis siendo las columnas de entidad de residencia, las edades, el sexo y los resultados de PCR, todo esto fue con la finalidad de analizar el contenido adecuadamente para sacar la información más relevante para la investigación.
table(ENTIDAD_RES)
table(EDAD_ANOS)
table(SEXO)
table(RESULTADO_PCR)
Paso 3. Posteriormente del análisis especifico de lo que contenía cada columna se realizaron subtablas a partir del base de datos original donde se fueron creando y filtrando las columnas por medio de comandos. Se investigaron métodos que no necesitaran tanto espacio al realizar las subtablas creadas a partir de la original.
- Filtrado y muestreo de la tabla original:
A la primera subtabla se le denominó como “muestra” ya que se realizó un muestreo de 1500 pacientes a partir de 115,213 pacientes y además se eligieron las columnas del 3 al 25 ya que eran donde se encontraban las columnas de interés, todo esto fue realizado mediante el comando “muestra=df [1:1500, 3:25]” que guarda en la subtabla los primeros pacientes del 1 al 1500 y las columnas del 3 al 25.
En las siguientes subtablas se investigaron métodos que no necesitaran tantos renglones para crear nuevas subtablas filtradas por el método elegido fue “subset” este es un comando que permite obtener subconjuntos de datos en base a ciertas condiciones lógicas para objetos de tipo vector, matrices y data frames. Mediante este comando que se realizaron más subtablas a partir de la subtabla denominada “muestra”. De las cuales se obtuvieron las muestras denominadas “muestra2”, “muestra3” y por último “muestra4”:
muestra=df[1:1500,3:25]
muestra2=subset(muestra, select=c(EDAD_ANOS,ENTIDAD_RES,SEXO,RESULTADO_PCR))
muestra3=subset(muestra2, EDAD_ANOS>=11&EDAD_ANOS<=15)
muestra4=subset(muestra3, ENTIDAD_RES>=28&ENTIDAD_RES<=31)
Paso 4. Como último paso se realizaron graficas de cada una de las columnas elegidas que se muestrearon y filtraron; mediante el comando de “barplot” (Crea graficas de barras) se les asigno nombres en las coordenadas x & y por medio del comando “xlab” y “ylab” (Estos comandos ayudan a poner pequeños nombres debajo de las coordenadas), además de agregar títulos por medio del comando “main”, como también colores a las gráficas por medio del comando “col” y si se requería se les daba nombre a las barras de las gráfica por el comando “names.arg”.
#Grafica de edades
barplot(table(muestra4$EDAD_ANOS),main="Edades mas afectadas",xlab= "Edades",
ylab="Frecuencia" ,col=c("skyblue4","seashell3","salmon3","rosybrown3","grey"))
#Grafica del sexo
barplot(table(muestra$SEXO),main="Proporcion sexo",xlab="Sexo",ylab="Frecuencia",
names.arg= c("Mujeres","Hombres"),col=c("pink","lightblue1"))
#Graficas de entidades de residencia
barplot(table(muestra4$ENTIDAD_RES),main="Entidades mas afectadas",xlab= "Entidades",
ylab="Frecuencia" ,names.arg= c("Tamaulipas","Veracruz","Yucatan"),
col=c("skyblue4","salmon3","rosybrown3"))
#Graficas del PCR
barplot(table(muestra4$RESULTADO_PCR),main="Proporcion de resultados de PCR",
xlab="Resultado",ylab="Frecuencia",
names.arg= c("DENV1","DENV2","DENV3","SIN SEROTIPO"),
col=c("wheat","violetred3","whitesmoke", "plum"))
Resultado de la ultima tabla obtenida:
## EDAD_ANOS ENTIDAD_RES SEXO RESULTADO_PCR
## 48 15 31 2 3
## 49 12 31 1 5
## 53 12 30 1 3
## 185 12 31 2 1
## 241 13 30 2 2
## 255 13 30 2 5
## 257 12 31 2 5
## 267 13 31 2 5
## 304 15 31 2 3
## 307 15 31 2 3
## 335 12 31 2 1
## 336 13 31 2 1
## 342 13 30 2 5
## 405 15 31 2 5
## 407 13 31 2 5
## 428 15 31 2 5
## 437 14 31 1 5
## 466 14 31 2 5
## 481 15 31 2 5
## 615 12 31 1 1
## 627 14 31 2 5
## 666 14 31 2 5
## 683 11 30 1 5
## 706 15 31 2 5
## 711 13 30 2 5
## 764 15 31 2 5
## 784 14 28 1 5
## 800 11 31 1 5
## 850 15 30 1 5
## 879 12 30 1 5
## 904 11 28 2 5
## 910 13 28 1 5
## 917 14 31 2 3
## 919 15 28 1 5
## 929 13 30 2 5
## 983 11 31 1 3
## 992 13 28 1 5
## 1002 15 30 2 5
## 1166 12 31 1 3
## 1167 12 31 2 5
## 1171 14 30 2 5
## 1200 11 31 1 5
## 1243 12 30 2 5
## 1249 11 30 2 5
## 1260 15 30 1 5
## 1271 12 30 2 5
## 1275 12 30 1 5
## 1277 14 30 2 5
## 1324 12 30 2 5
## 1334 15 30 2 5
## 1344 13 28 1 5
## 1441 11 28 2 5
## 1448 14 31 2 5
## 1465 12 28 1 1
Resultados de las gráficas obtenidas:
- Graficas edades:
En la primera grafica obtenida se observa que los resultados obtenidos de la filtración de la tabla donde se muestran las edades mas afectadas que van desde los 11 a 15 años de edad.
- Grafica del sexo:
En la segunda grafica obtenida se observan que la proporción que existe entre las mujeres y los hombres fueron diferentes siendo las más mujeres que hombres.
- Grafica de entidades:
En la tercera grafica obtenida a partir del muestreo se observan las principales entidades afectadas por el dengue.
- Grafica de resultados de PCR:
Por ultimo la cuarta grafica obtenida se logra observar los resultados del PCR donde la mayoría de los pacientes del muestreo salieron sin ningún serotipo del virus, pero sin descartar que otros pacientes si desarrollaron serotipos del DENV1 al DENV3.
En la primera se mencionan y se muestran las edades más afectadas por el dengue siendo desde los 11 a 15 años de edad esto se puede deber porque son más vulnerables a los efectos de las picaduras, ya que pueden no tener un sistema inmune desarrollado para este tipo de enfermedades por lo que pueden volverse más susceptibles o menos tolerables a que les afecte la enfermedad, además de otros factores.
En la segunda grafica se muestran los sexos que fueron más afectados
por el dengue llegando a la pregunta ¿Los mosquitos tendrán un sexo de
preferencia? No, pero si se ha mencionado en estudios que la mujer es
más propensa a adquirir esta enfermedad ya que el dengue es un es criado
en el hogar por lo que las mujeres amas de casa están más expuestas,
además los niños normalmente pueden jugar en los criaderos de mosquitos
que pueden existir en sus hogares.
En la tercera grafica se muestran las entidades más afectadas, las
entidades con mayor frecuencia que se sacaran de la muestra son
Tamaulipas, Veracruz y Yucatán esto se puede deber a que son zonas
tropicales donde se pueden reproducir de forma más rápida los moquitos
del dengue.
Un poco de contexto los DENV 1-3 son siglas que se refieren a un serotipo (Variantes del mismo virus que se diferencias dependiendo de su respuesta inmunológica) de del virus, cada uno de estos tiene una composición genética diferente esto puede indicar si puede desarrollar una forma más grave de la enfermedad. En la última gráfica se muestran los serotipos que se encontraron en la muestra de pacientes, donde se ve que muchos no tienen serotipo, pero sin descartar que otros si se les diagnosticaron serotipos.
Se llega a la conclusión que el dengue es una enfermedad implica factores como la edad, la inmunidad previa, la salud general y otros factores genéticos y ambientales pueden influir en la forma en que una persona responde a la infección por el virus del dengue. Por lo tanto, si una persona con esos factores es picada por un mosquito infectado y no tiene inmunidad previa contra el virus puede desarrollar la enfermedad.
Otro punto a aclarar es que la gravedad de la enfermedad no está determinada por el serotipo en sí, sino que este representa como el cuerpo reacciona inmunológicamente al virus una persona puede tener un tipo de serotipo, pero eso no le da la inmunidad a otros tipos de serotipos que puedan causar un empeoramiento de la enfermedad.
Teniendo en cuenta esto los niños y las mujeres que vienen en los estados de Yucatán, Veracruz o Tamaulipas son más susceptibles a contraer esta enfermedad por estar expuestos constantemente a criaderos de mosquitos, lo que es importante tener una concientización sobre cómo manejar o identificar criaderos
Links
De Salud, S. Datos abiertos Dirección General de Epidemiología. gob.mx. https://www.gob.mx/salud/documentos/datos-abiertos-152127
Autoridad Europea de Seguridad Alimentaria. Enfermedades transmitidas por vectores https://www.efsa.europa.eu/es/topics/topic/vector-borne-diseases#:~:text=Un%20vector,%2C%20moscas%2C%20pulgas%20y%20piojos
EL DENGUE EN MÉXICO: UN PROBLEMA PRIORITARIO DE SALUD PÚBLICA.
Salud publica en Mexico. https://www.saludpublica.mx/index.php/spm/article/view/4560/5012
Torres, E. (2008). Dengue. Estudos Avanzados, 22(64), 33-52. https://doi.org/10.1590/s0103-40142008000300004