library(ggplot2)
library(tidyverse)
library(datasets)
library(DataExplorer)
library(funModeling)
library(moments)
setwd("C:/Users/franc/Downloads/Datos suelo")
data=read.table("dataset.csv",head=T,sep=",")
Este análisis me permite saber las siguientes variables
q_zeros: cuantifica la cantidad de ceros (p_zeros: in percent)
q_inf: cuantifica valores infinitos (p_inf: in percent)
q_na: cuantifica valores NA (p_na: in percent)
type: factor numérico
unique: cantidad de valores únicos
df_status(data)
## variable q_zeros p_zeros q_na p_na q_inf p_inf type unique
## 1 N 0 0 0 0 0 0 integer 135
## 2 P 0 0 0 0 0 0 integer 90
## 3 K 0 0 0 0 0 0 integer 238
## 4 ph 0 0 0 0 0 0 numeric 36
## 5 EC 0 0 0 0 0 0 numeric 210
## 6 S 0 0 0 0 0 0 numeric 314
## 7 Cu 0 0 0 0 0 0 numeric 469
## 8 Fe 0 0 0 0 0 0 numeric 554
## 9 Mn 0 0 0 0 0 0 numeric 604
## 10 Zn 0 0 0 0 0 0 numeric 574
## 11 B 0 0 0 0 0 0 numeric 586
## 12 label 0 0 0 0 0 0 character 6
Pomegranate = data %>% filter(label == "pomegranate")
Grapes = data %>% filter(label == "grapes")
Mango = data %>% filter(label == "mango")
Mulberry = data %>% filter(label == "mulberry")
Potato = data %>% filter(label == "potato")
Ragi = data %>% filter(label == "ragi")
El primero es el cultivo de mango
summary(Mango)
## N P K ph
## Min. : 80.0 Min. :24.00 Min. : 56.0 Min. :4.500
## 1st Qu.:100.0 1st Qu.:74.00 1st Qu.:140.5 1st Qu.:5.275
## Median :116.0 Median :80.00 Median :159.0 Median :5.800
## Mean :114.7 Mean :78.16 Mean :157.5 Mean :5.780
## 3rd Qu.:129.0 3rd Qu.:85.00 3rd Qu.:181.2 3rd Qu.:6.400
## Max. :149.0 Max. :89.00 Max. :200.0 Max. :7.000
## EC S Cu Fe
## Min. :0.2300 Min. :0.1320 Min. : 8.15 Min. : 50.27
## 1st Qu.:0.7475 1st Qu.:0.2000 1st Qu.:10.52 1st Qu.: 96.25
## Median :0.9400 Median :0.2500 Median :13.72 Median :134.75
## Mean :0.9801 Mean :0.2504 Mean :13.88 Mean :129.78
## 3rd Qu.:1.2200 3rd Qu.:0.3100 3rd Qu.:16.93 3rd Qu.:170.17
## Max. :1.5000 Max. :0.3500 Max. :30.01 Max. :209.20
## Mn Zn B label
## Min. : 50.50 Min. :20.66 Min. :17.02 Length:104
## 1st Qu.: 60.89 1st Qu.:27.10 1st Qu.:55.72 Class :character
## Median : 72.78 Median :34.45 Median :62.49 Mode :character
## Mean : 84.51 Mean :35.74 Mean :61.51
## 3rd Qu.: 85.83 3rd Qu.:45.02 3rd Qu.:68.82
## Max. :992.78 Max. :50.00 Max. :74.56
Antes de pasar a la varianza y desviación estándar tenemos que eliminar la columna “label”, esto debido a que nos generar un error a la hora de calcular. El primer conjunto de datos es la desviación estándar y el segundo conjunto de datos es varianza.
Mango1 = Mango[,c(1:11)]
sapply(Mango1,sd)
## N P K ph EC S
## 19.23184818 10.60510097 28.33842740 0.69315373 0.29654809 0.05874169
## Cu Fe Mn Zn B
## 3.91314015 43.80032205 93.91060362 9.37760069 9.72207633
sapply(Mango1,var)
## N P K ph EC S
## 3.698640e+02 1.124682e+02 8.030665e+02 4.804621e-01 8.794077e-02 3.450586e-03
## Cu Fe Mn Zn B
## 1.531267e+01 1.918468e+03 8.819201e+03 8.793939e+01 9.451877e+01
plot_histogram(Mango1)
Un aspecto que podemos analizar es la dispersión de los datos de las diferentes variables del cultivo mango donde hay una dispersión de datos en las variables: EC, Fe, N, ph, S, Zn.
boxplot(Mango1)
Podemos observar datos atipicos en las variables: Mn, K, P, Cu, B
El primer conjunto de datos es la asimetria y el segundo conjunto de datos es curtosis
skewness(Mango1) # asimetria
## N P K ph EC S
## -0.15472272 -3.03607773 -1.05251141 -0.09925646 0.04593150 -0.06770589
## Cu Fe Mn Zn B
## 0.70810691 -0.16696594 8.93847484 -0.04291077 -1.66956906
kurtosis(Mango1) # curtosis
## N P K ph EC S Cu Fe
## 2.033682 14.554291 5.150331 1.883897 2.117226 1.819900 4.185643 1.826167
## Mn Zn B
## 86.060351 1.601100 7.970305
Los datos que no están en el rango de -1 a 1 son las variables: P, K,
Mn, B
En la asimetría En curtosis los valores más cercanos a 0 o negativos
presenta una aproximación a una distribución platicúrtica que son las
variables: ph, S, Fe, Zn.
El segundo es el cultivo de pomegranate
summary(Pomegranate)
## N P K ph
## Min. :104.0 Min. :11.00 Min. : 67.0 Min. :5.600
## 1st Qu.:140.0 1st Qu.:33.75 1st Qu.:182.8 1st Qu.:5.900
## Median :153.0 Median :51.00 Median :194.0 Median :6.400
## Mean :153.1 Mean :48.74 Mean :193.1 Mean :6.407
## 3rd Qu.:167.2 3rd Qu.:65.25 3rd Qu.:208.2 3rd Qu.:6.900
## Max. :180.0 Max. :80.00 Max. :220.0 Max. :7.200
## EC S Cu Fe
## Min. :0.0100 Min. :0.0400 Min. : 5.350 Min. : 60.10
## 1st Qu.:0.2475 1st Qu.:0.1900 1st Qu.: 9.435 1st Qu.: 72.70
## Median :0.4600 Median :0.2200 Median :12.745 Median : 90.50
## Mean :0.4874 Mean :0.2210 Mean :13.104 Mean : 90.86
## 3rd Qu.:0.7225 3rd Qu.:0.2625 3rd Qu.:17.288 3rd Qu.:107.69
## Max. :1.1600 Max. :0.3200 Max. :20.120 Max. :148.40
## Mn Zn B label
## Min. : 20.58 Min. :20.08 Min. :10.35 Length:104
## 1st Qu.: 34.12 1st Qu.:34.05 1st Qu.:21.89 Class :character
## Median : 47.74 Median :46.44 Median :31.84 Mode :character
## Mean : 47.32 Mean :45.58 Mean :32.16
## 3rd Qu.: 56.91 3rd Qu.:55.56 3rd Qu.:42.55
## Max. :125.23 Max. :70.00 Max. :68.20
Antes de pasar a la varianza y desviación estándar tenemos que eliminar la columna “label”, esto debido a que nos generar un error a la hora de calcular. El primer conjunto de datos es la desviación estándar y el segundo conjunto de datos es varianza.
Pomegranate1 = Pomegranate[,c(1:11)]
sapply(Pomegranate1,sd)
## N P K ph EC S
## 15.80751469 20.64729005 22.33979351 0.49664201 0.28493568 0.04965981
## Cu Fe Mn Zn B
## 4.56263332 19.47178004 17.07712859 14.41190800 12.51455774
sapply(Pomegranate1,var)
## N P K ph EC S
## 2.498775e+02 4.263106e+02 4.990664e+02 2.466533e-01 8.118834e-02 2.466097e-03
## Cu Fe Mn Zn B
## 2.081762e+01 3.791502e+02 2.916283e+02 2.077031e+02 1.566142e+02
plot_histogram(Pomegranate1)
Un aspecto que podemos analizar es la dispersión de los datos de las diferentes variables del cultivo pomegranate donde hay una dispersión de datos en las variables: Cu, Ec, P, ph, Zn
boxplot(Pomegranate1)
Podemos observar datos atipicos en las variables: K, S, Mn
El primer conjunto de datos es la asimetria y el segundo conjunto de datos es curtosis
skewness(Pomegranate1) # asimetria
## N P K ph EC S
## -0.136166231 -0.281969745 -2.682585564 -0.035521217 0.230560306 -0.576351398
## Cu Fe Mn Zn B
## -0.063127130 0.147083620 0.891102946 0.002345741 0.214151624
kurtosis(Pomegranate1) # curtosis
## N P K ph EC S Cu Fe
## 2.339815 1.936010 15.548493 1.696540 1.995215 3.825176 1.746653 2.135191
## Mn Zn B
## 5.561179 1.969328 2.639438
Los datos que no están en el rango de -1 a 1 son las variables: K en
la asimetría
En curtosis los valores más cercanos a 0 o negativos presenta una
aproximación a una distribución platicúrtica que son las variables: P,
ph, EC, Cu, Zn.
El tercer es el cultivo de grapes
summary(Grapes)
## N P K ph
## Min. :101.0 Min. :27.00 Min. : 57.00 Min. :5.50
## 1st Qu.:116.8 1st Qu.:36.00 1st Qu.: 66.00 1st Qu.:5.80
## Median :142.0 Median :47.00 Median : 81.00 Median :6.10
## Mean :139.8 Mean :47.51 Mean : 83.73 Mean :6.05
## 3rd Qu.:157.8 3rd Qu.:58.00 3rd Qu.: 90.25 3rd Qu.:6.30
## Max. :179.0 Max. :95.00 Max. :342.00 Max. :7.20
## EC S Cu Fe
## Min. :0.1100 Min. :0.01420 Min. : 5.00 Min. : 50.11
## 1st Qu.:0.1400 1st Qu.:0.06475 1st Qu.:11.68 1st Qu.: 84.39
## Median :0.1700 Median :0.11250 Median :15.44 Median :108.53
## Mean :0.1958 Mean :0.10964 Mean :15.25 Mean :107.12
## 3rd Qu.:0.2000 3rd Qu.:0.15425 3rd Qu.:18.98 3rd Qu.:127.05
## Max. :1.4500 Max. :0.22300 Max. :25.99 Max. :255.99
## Mn Zn B label
## Min. : 30.01 Min. :17.99 Min. : 4.36 Length:104
## 1st Qu.: 58.88 1st Qu.:34.11 1st Qu.:29.71 Class :character
## Median : 92.69 Median :40.20 Median :37.42 Mode :character
## Mean : 97.20 Mean :39.71 Mean :36.49
## 3rd Qu.:121.91 3rd Qu.:45.36 3rd Qu.:44.05
## Max. :678.21 Max. :49.96 Max. :49.58
Antes de pasar a la varianza y desviación estándar tenemos que eliminar la columna “label”, esto debido a que nos generar un error a la hora de calcular. El primer conjunto de datos es la desviación estándar y el segundo conjunto de datos es varianza.
Grapes1 = Grapes[,c(1:11)]
sapply(Grapes1,sd)
## N P K ph EC S
## 23.83550604 13.00783572 35.73289007 0.32381224 0.15699664 0.05400461
## Cu Fe Mn Zn B
## 5.30643751 33.06031321 69.87320475 7.08065407 9.13528719
sapply(Grapes1,var)
## N P K ph EC S
## 5.681313e+02 1.692038e+02 1.276839e+03 1.048544e-01 2.464795e-02 2.916498e-03
## Cu Fe Mn Zn B
## 2.815828e+01 1.092984e+03 4.882265e+03 5.013566e+01 8.345347e+01
plot_histogram(Grapes1)
Un aspecto que podemos analizar es la dispersión de los datos de las diferentes variables del cultivo grapes donde hay una dispersión de datos en las variables: Cu, N, S, ph
boxplot(Grapes1)
Podemos observar datos atipicos en las variables: P, K, EC, Fe, ph, Mn, B
El primer conjunto de datos es la asimetria y el segundo conjunto de datos es curtosis
skewness(Grapes1) # asimetria
## N P K ph EC S
## -0.02302059 0.64366771 5.82454402 0.33703814 6.14280733 -0.13420156
## Cu Fe Mn Zn B
## -0.03958444 0.91320049 5.68623995 -0.55233078 -0.90314341
kurtosis(Grapes1) # curtosis
## N P K ph EC S Cu Fe
## 1.733037 3.250039 40.189317 2.991739 44.707326 1.854587 2.267960 5.896183
## Mn Zn B
## 47.389326 3.017189 4.286011
Los datos que no están en el rango de -1 a 1 son las variables: K,
EC, Mn en la asimetría
En curtosis los valores más cercanos a 0 o negativos presenta una
aproximación a una distribución platicúrtica que son las variables: N,
S.
El cuarto es el cultivo de Mulberry
summary(Mulberry)
## N P K ph
## Min. : 73.0 Min. :10.00 Min. : 51.00 Min. :5.80
## 1st Qu.:126.8 1st Qu.:15.75 1st Qu.: 67.75 1st Qu.:6.20
## Median :145.0 Median :20.00 Median : 82.00 Median :6.40
## Mean :144.4 Mean :21.36 Mean : 86.00 Mean :6.38
## 3rd Qu.:164.0 3rd Qu.:26.00 3rd Qu.: 97.50 3rd Qu.:6.60
## Max. :194.0 Max. :77.00 Max. :269.00 Max. :7.00
## EC S Cu Fe
## Min. :0.1000 Min. : 0.0123 Min. : 0.18 Min. : 3.81
## 1st Qu.:0.3200 1st Qu.: 0.2195 1st Qu.:19.95 1st Qu.:131.26
## Median :0.5300 Median : 0.2495 Median :25.22 Median :190.93
## Mean :0.5412 Mean : 2.1854 Mean :24.56 Mean :185.30
## 3rd Qu.:0.7400 3rd Qu.: 0.2780 3rd Qu.:28.75 3rd Qu.:249.45
## Max. :1.8900 Max. :113.2000 Max. :35.00 Max. :276.72
## Mn Zn B label
## Min. : 62.11 Min. :20.25 Min. : 8.69 Length:104
## 1st Qu.: 528.17 1st Qu.:21.97 1st Qu.:13.81 Class :character
## Median : 869.90 Median :24.89 Median :18.70 Mode :character
## Mean : 855.86 Mean :25.02 Mean :18.83
## 3rd Qu.:1198.50 3rd Qu.:27.60 3rd Qu.:23.12
## Max. :1572.54 Max. :37.86 Max. :30.00
Antes de pasar a la varianza y desviación estándar tenemos que eliminar la columna “label”, esto debido a que nos generar un error a la hora de calcular. El primer conjunto de datos es la desviación estándar y el segundo conjunto de datos es varianza.
Mulberry1 = Mulberry[,c(1:11)]
sapply(Mulberry1,sd)
## N P K ph EC S
## 22.3331399 9.7202803 32.4907754 0.2419098 0.2910520 14.0320213
## Cu Fe Mn Zn B
## 6.2027098 63.9945945 429.5730975 3.1869941 5.6952407
sapply(Mulberry1,var)
## N P K ph EC S
## 4.987691e+02 9.448385e+01 1.055650e+03 5.852035e-02 8.471128e-02 1.968976e+02
## Cu Fe Mn Zn B
## 3.847361e+01 4.095308e+03 1.845330e+05 1.015693e+01 3.243577e+01
plot_histogram(Mulberry1)
Un aspecto que podemos analizar es la dispersión de los datos de las diferentes variables del cultivo mulberry donde hay una dispersión de datos en las variables: B, Mn, Fe
boxplot(Mulberry1)
Podemos observar datos atipicos en las variables: P, K, EC, S, Cu, Zn
El primer conjunto de datos es la asimetria y el segundo conjunto de datos es curtosis
skewness(Mulberry1) # asimetria
## N P K ph EC S
## -0.22274110 3.46832847 3.48008598 0.11783377 1.30720731 7.15475340
## Cu Fe Mn Zn B
## -0.97007987 -0.32758809 0.02519479 0.59663905 0.15984128
kurtosis(Mulberry1) # curtosis
## N P K ph EC S Cu Fe
## 2.559116 20.607928 19.307128 2.414080 7.095630 52.902226 5.627716 2.489954
## Mn Zn B
## 1.856153 3.779581 1.879198
Los datos que no están en el rango de -1 a 1 son las variables: P, K,
EC, S en la asimetría
En curtosis los valores más cercanos a 0 o negativos presenta una
aproximación a una distribución platicúrtica que son las variables: Mn,
B.
El quinto es el cultivo de Patato
summary(Potato)
## N P K ph
## Min. : 30.0 Min. :15.00 Min. : 53.0 Min. :4.600
## 1st Qu.: 77.5 1st Qu.:27.00 1st Qu.:117.5 1st Qu.:4.975
## Median :109.5 Median :40.50 Median :151.0 Median :5.300
## Mean :108.9 Mean :44.27 Mean :152.2 Mean :5.276
## 3rd Qu.:150.2 3rd Qu.:59.25 3rd Qu.:195.2 3rd Qu.:5.600
## Max. :179.0 Max. :80.00 Max. :250.0 Max. :6.000
## EC S Cu Fe
## Min. :1.080 Min. :0.08001 Min. :10.00 Min. :38.00
## 1st Qu.:1.655 1st Qu.:0.08947 1st Qu.:15.00 1st Qu.:39.00
## Median :1.915 Median :0.09907 Median :20.00 Median :40.15
## Mean :1.915 Mean :0.09951 Mean :20.26 Mean :40.04
## 3rd Qu.:2.125 3rd Qu.:0.10884 3rd Qu.:25.00 3rd Qu.:41.20
## Max. :2.480 Max. :0.11971 Max. :30.00 Max. :42.00
## Mn Zn B label
## Min. : 52.56 Min. :20.49 Min. :10.16 Length:100
## 1st Qu.:105.99 1st Qu.:29.87 1st Qu.:13.32 Class :character
## Median :163.47 Median :34.52 Median :17.20 Mode :character
## Mean :168.20 Mean :35.76 Mean :17.23
## 3rd Qu.:233.50 3rd Qu.:43.44 3rd Qu.:21.17
## Max. :293.13 Max. :49.70 Max. :24.67
Antes de pasar a la varianza y desviación estándar tenemos que eliminar la columna “label”, esto debido a que nos generar un error a la hora de calcular. El primer conjunto de datos es la desviación estándar y el segundo conjunto de datos es varianza.
Potato1 = Potato[,c(1:11)]
sapply(Potato1,sd)
## N P K ph EC S
## 44.14559932 19.55352922 52.63531480 0.39057585 0.32071095 0.01174682
## Cu Fe Mn Zn B
## 5.83202583 1.14923382 70.80551250 8.33776568 4.38987541
sapply(Potato1,var)
## N P K ph EC S
## 1.948834e+03 3.823405e+02 2.770476e+03 1.525495e-01 1.028555e-01 1.379878e-04
## Cu Fe Mn Zn B
## 3.401253e+01 1.320738e+00 5.013421e+03 6.951834e+01 1.927101e+01
plot_histogram(Potato1)
Un aspecto que podemos analizar es la dispersión de los datos de las diferentes variables del cultivo patato donde hay una dispersión en todas las variables
boxplot(Potato1)
Podemos observar que no hay datos atipicos en las variables
El primer conjunto de datos es la asimetria y el segundo conjunto de datos es curtosis
skewness(Potato1) # asimetria
## N P K ph EC
## -0.0998632977 0.2411097612 -0.0008700731 -0.0025974834 0.0807974788
## S Cu Fe Mn Zn
## 0.0635670104 -0.0293870310 -0.0918829126 0.0476623468 -0.0622384331
## B
## -0.0172746371
kurtosis(Potato1) # curtosis
## N P K ph EC S Cu Fe
## 1.822724 1.806682 2.222038 1.851746 2.294771 1.746846 1.854571 1.695461
## Mn Zn B
## 1.748790 1.864975 1.628394
Los datos que no están en el rango de -1 a 1 no hay en la
asimetría
En curtosis los valores más cercanos a 0 o negativos presenta una
aproximación a una distribución platicúrtica que son la mayoría de las
variables excepto EC.
El sexto es el cultivo de Ragi
summary(Ragi)
## N P K ph
## Min. :111.0 Min. : 33.00 Min. :131.0 Min. :4.900
## 1st Qu.:129.8 1st Qu.: 62.75 1st Qu.:258.2 1st Qu.:6.100
## Median :150.0 Median : 76.50 Median :300.0 Median :6.650
## Mean :152.2 Mean : 74.69 Mean :295.5 Mean :6.713
## 3rd Qu.:176.0 3rd Qu.: 87.00 3rd Qu.:337.2 3rd Qu.:7.325
## Max. :198.0 Max. :100.00 Max. :369.0 Max. :8.000
## EC S Cu Fe
## Min. :0.1400 Min. :0.01110 Min. :10.30 Min. : 38.80
## 1st Qu.:0.9275 1st Qu.:0.01430 1st Qu.:13.26 1st Qu.: 89.49
## Median :1.2250 Median :0.01865 Median :16.04 Median :154.06
## Mean :1.2328 Mean :0.02376 Mean :16.94 Mean :147.21
## 3rd Qu.:1.5500 3rd Qu.:0.02150 3rd Qu.:20.96 3rd Qu.:207.42
## Max. :2.4500 Max. :0.27000 Max. :24.84 Max. :248.97
## Mn Zn B label
## Min. : 55.01 Min. :18.22 Min. : 1.020 Length:104
## 1st Qu.: 59.03 1st Qu.:20.59 1st Qu.: 3.000 Class :character
## Median : 61.73 Median :23.73 Median : 5.020 Mode :character
## Mean : 64.36 Mean :24.29 Mean : 5.840
## 3rd Qu.: 65.98 3rd Qu.:26.79 3rd Qu.: 7.942
## Max. :258.90 Max. :55.63 Max. :27.620
Antes de pasar a la varianza y desviación estándar tenemos que eliminar la columna “label”, esto debido a que nos generar un error a la hora de calcular. El primer conjunto de datos es la desviación estándar y el segundo conjunto de datos es varianza.
Ragi1 = Ragi[,c(1:11)]
sapply(Ragi1,sd)
## N P K ph EC S
## 26.52156111 15.55015495 47.94959390 0.73247256 0.37754047 0.03424987
## Cu Fe Mn Zn B
## 4.26157842 62.12758795 19.88340348 5.27075520 4.19196897
sapply(Ragi1,var)
## N P K ph EC S
## 7.033932e+02 2.418073e+02 2.299164e+03 5.365161e-01 1.425368e-01 1.173054e-03
## Cu Fe Mn Zn B
## 1.816105e+01 3.859837e+03 3.953497e+02 2.778086e+01 1.757260e+01
plot_histogram(Ragi1)
Un aspecto que podemos analizar es la dispersión de los datos de las diferentes variables del cultivo grapes donde hay una dispersión de datos en las variables: Cu, N, Fe, P, ph.
boxplot(Ragi1)
Podemos observar datos atipicos en las variables: K, S, Zn, Mn, B
El primer conjunto de datos es la asimetria y el segundo conjunto de datos es curtosis
skewness(Ragi1) # asimetria
## N P K ph EC S
## 0.07310232 -0.28134608 -0.46069749 -0.05997571 0.01597262 6.20359444
## Cu Fe Mn Zn B
## 0.36192193 -0.01919587 9.14786734 2.78517640 2.41120815
kurtosis(Ragi1) # curtosis
## N P K ph EC S Cu Fe
## 1.780670 2.319273 3.084289 1.957375 2.954864 42.026067 1.822585 1.672032
## Mn Zn B
## 89.875553 16.052351 11.776116
Los datos que no están en el rango de -1 a 1 son las variables: B,
Zn, Mn, S en la asimetría
En curtosis los valores más cercanos a 0 o negativos presenta una
aproximación a una distribución platicúrtica que son las variables: ph,
Cu, Fe, N.
Se puede observar que todos los 6 cultivos que se analizó, se
necesita una transformación de las variables debido a una dispersión,
valores atípicos, distribución platicurtica, etc.
Estos datos no se deben utilizar para análisis Geoestadístico, sin una
corrección o transformación previa.