llamar librerias

library(ggplot2)
library(tidyverse)
library(datasets)
library(DataExplorer)
library(funModeling)
library(moments)

lectura de Base de datos

setwd("C:/Users/franc/Downloads/Datos suelo")
data=read.table("dataset.csv",head=T,sep=",")

Analisis de la base de datos

Este análisis me permite saber las siguientes variables
q_zeros: cuantifica la cantidad de ceros (p_zeros: in percent)
q_inf: cuantifica valores infinitos (p_inf: in percent)
q_na: cuantifica valores NA (p_na: in percent)
type: factor numérico
unique: cantidad de valores únicos

df_status(data)
##    variable q_zeros p_zeros q_na p_na q_inf p_inf      type unique
## 1         N       0       0    0    0     0     0   integer    135
## 2         P       0       0    0    0     0     0   integer     90
## 3         K       0       0    0    0     0     0   integer    238
## 4        ph       0       0    0    0     0     0   numeric     36
## 5        EC       0       0    0    0     0     0   numeric    210
## 6         S       0       0    0    0     0     0   numeric    314
## 7        Cu       0       0    0    0     0     0   numeric    469
## 8        Fe       0       0    0    0     0     0   numeric    554
## 9        Mn       0       0    0    0     0     0   numeric    604
## 10       Zn       0       0    0    0     0     0   numeric    574
## 11        B       0       0    0    0     0     0   numeric    586
## 12    label       0       0    0    0     0     0 character      6

Filtrar datos por clasificacion de cultivos

Pomegranate = data %>% filter(label == "pomegranate")
Grapes = data %>% filter(label == "grapes")
Mango = data %>% filter(label == "mango")
Mulberry = data %>% filter(label == "mulberry") 
Potato = data %>% filter(label == "potato")
Ragi = data %>% filter(label == "ragi")

Mangos

El primero es el cultivo de mango

Hallamos Media, mediana, maximon, minimos, cuartil primero y tercero

summary(Mango)
##        N               P               K               ph       
##  Min.   : 80.0   Min.   :24.00   Min.   : 56.0   Min.   :4.500  
##  1st Qu.:100.0   1st Qu.:74.00   1st Qu.:140.5   1st Qu.:5.275  
##  Median :116.0   Median :80.00   Median :159.0   Median :5.800  
##  Mean   :114.7   Mean   :78.16   Mean   :157.5   Mean   :5.780  
##  3rd Qu.:129.0   3rd Qu.:85.00   3rd Qu.:181.2   3rd Qu.:6.400  
##  Max.   :149.0   Max.   :89.00   Max.   :200.0   Max.   :7.000  
##        EC               S                Cu              Fe        
##  Min.   :0.2300   Min.   :0.1320   Min.   : 8.15   Min.   : 50.27  
##  1st Qu.:0.7475   1st Qu.:0.2000   1st Qu.:10.52   1st Qu.: 96.25  
##  Median :0.9400   Median :0.2500   Median :13.72   Median :134.75  
##  Mean   :0.9801   Mean   :0.2504   Mean   :13.88   Mean   :129.78  
##  3rd Qu.:1.2200   3rd Qu.:0.3100   3rd Qu.:16.93   3rd Qu.:170.17  
##  Max.   :1.5000   Max.   :0.3500   Max.   :30.01   Max.   :209.20  
##        Mn               Zn              B            label          
##  Min.   : 50.50   Min.   :20.66   Min.   :17.02   Length:104        
##  1st Qu.: 60.89   1st Qu.:27.10   1st Qu.:55.72   Class :character  
##  Median : 72.78   Median :34.45   Median :62.49   Mode  :character  
##  Mean   : 84.51   Mean   :35.74   Mean   :61.51                     
##  3rd Qu.: 85.83   3rd Qu.:45.02   3rd Qu.:68.82                     
##  Max.   :992.78   Max.   :50.00   Max.   :74.56

la varianza y desviacion estandar

Antes de pasar a la varianza y desviación estándar tenemos que eliminar la columna “label”, esto debido a que nos generar un error a la hora de calcular. El primer conjunto de datos es la desviación estándar y el segundo conjunto de datos es varianza.

Mango1 = Mango[,c(1:11)]
sapply(Mango1,sd)
##           N           P           K          ph          EC           S 
## 19.23184818 10.60510097 28.33842740  0.69315373  0.29654809  0.05874169 
##          Cu          Fe          Mn          Zn           B 
##  3.91314015 43.80032205 93.91060362  9.37760069  9.72207633
sapply(Mango1,var)
##            N            P            K           ph           EC            S 
## 3.698640e+02 1.124682e+02 8.030665e+02 4.804621e-01 8.794077e-02 3.450586e-03 
##           Cu           Fe           Mn           Zn            B 
## 1.531267e+01 1.918468e+03 8.819201e+03 8.793939e+01 9.451877e+01

Histograma de frecuencia

plot_histogram(Mango1)

Un aspecto que podemos analizar es la dispersión de los datos de las diferentes variables del cultivo mango donde hay una dispersión de datos en las variables: EC, Fe, N, ph, S, Zn.

Grafica de cajas

boxplot(Mango1)

Podemos observar datos atipicos en las variables: Mn, K, P, Cu, B

kurtosis

El primer conjunto de datos es la asimetria y el segundo conjunto de datos es curtosis

skewness(Mango1) # asimetria
##           N           P           K          ph          EC           S 
## -0.15472272 -3.03607773 -1.05251141 -0.09925646  0.04593150 -0.06770589 
##          Cu          Fe          Mn          Zn           B 
##  0.70810691 -0.16696594  8.93847484 -0.04291077 -1.66956906
kurtosis(Mango1) # curtosis 
##         N         P         K        ph        EC         S        Cu        Fe 
##  2.033682 14.554291  5.150331  1.883897  2.117226  1.819900  4.185643  1.826167 
##        Mn        Zn         B 
## 86.060351  1.601100  7.970305

Los datos que no están en el rango de -1 a 1 son las variables: P, K, Mn, B
En la asimetría En curtosis los valores más cercanos a 0 o negativos presenta una aproximación a una distribución platicúrtica que son las variables: ph, S, Fe, Zn.

POMEGRANATE

El segundo es el cultivo de pomegranate

Hallamos Media, mediana, maximon, minimos, cuartil primero y tercero

summary(Pomegranate)
##        N               P               K               ph       
##  Min.   :104.0   Min.   :11.00   Min.   : 67.0   Min.   :5.600  
##  1st Qu.:140.0   1st Qu.:33.75   1st Qu.:182.8   1st Qu.:5.900  
##  Median :153.0   Median :51.00   Median :194.0   Median :6.400  
##  Mean   :153.1   Mean   :48.74   Mean   :193.1   Mean   :6.407  
##  3rd Qu.:167.2   3rd Qu.:65.25   3rd Qu.:208.2   3rd Qu.:6.900  
##  Max.   :180.0   Max.   :80.00   Max.   :220.0   Max.   :7.200  
##        EC               S                Cu               Fe        
##  Min.   :0.0100   Min.   :0.0400   Min.   : 5.350   Min.   : 60.10  
##  1st Qu.:0.2475   1st Qu.:0.1900   1st Qu.: 9.435   1st Qu.: 72.70  
##  Median :0.4600   Median :0.2200   Median :12.745   Median : 90.50  
##  Mean   :0.4874   Mean   :0.2210   Mean   :13.104   Mean   : 90.86  
##  3rd Qu.:0.7225   3rd Qu.:0.2625   3rd Qu.:17.288   3rd Qu.:107.69  
##  Max.   :1.1600   Max.   :0.3200   Max.   :20.120   Max.   :148.40  
##        Mn               Zn              B            label          
##  Min.   : 20.58   Min.   :20.08   Min.   :10.35   Length:104        
##  1st Qu.: 34.12   1st Qu.:34.05   1st Qu.:21.89   Class :character  
##  Median : 47.74   Median :46.44   Median :31.84   Mode  :character  
##  Mean   : 47.32   Mean   :45.58   Mean   :32.16                     
##  3rd Qu.: 56.91   3rd Qu.:55.56   3rd Qu.:42.55                     
##  Max.   :125.23   Max.   :70.00   Max.   :68.20

la varianza y desviacion estandar

Antes de pasar a la varianza y desviación estándar tenemos que eliminar la columna “label”, esto debido a que nos generar un error a la hora de calcular. El primer conjunto de datos es la desviación estándar y el segundo conjunto de datos es varianza.

Pomegranate1 = Pomegranate[,c(1:11)]
sapply(Pomegranate1,sd)
##           N           P           K          ph          EC           S 
## 15.80751469 20.64729005 22.33979351  0.49664201  0.28493568  0.04965981 
##          Cu          Fe          Mn          Zn           B 
##  4.56263332 19.47178004 17.07712859 14.41190800 12.51455774
sapply(Pomegranate1,var)
##            N            P            K           ph           EC            S 
## 2.498775e+02 4.263106e+02 4.990664e+02 2.466533e-01 8.118834e-02 2.466097e-03 
##           Cu           Fe           Mn           Zn            B 
## 2.081762e+01 3.791502e+02 2.916283e+02 2.077031e+02 1.566142e+02

Histograma de frecuencia

plot_histogram(Pomegranate1)

Un aspecto que podemos analizar es la dispersión de los datos de las diferentes variables del cultivo pomegranate donde hay una dispersión de datos en las variables: Cu, Ec, P, ph, Zn

Grafica de cajas

boxplot(Pomegranate1)

Podemos observar datos atipicos en las variables: K, S, Mn

kurtosis

El primer conjunto de datos es la asimetria y el segundo conjunto de datos es curtosis

skewness(Pomegranate1) # asimetria
##            N            P            K           ph           EC            S 
## -0.136166231 -0.281969745 -2.682585564 -0.035521217  0.230560306 -0.576351398 
##           Cu           Fe           Mn           Zn            B 
## -0.063127130  0.147083620  0.891102946  0.002345741  0.214151624
kurtosis(Pomegranate1) # curtosis 
##         N         P         K        ph        EC         S        Cu        Fe 
##  2.339815  1.936010 15.548493  1.696540  1.995215  3.825176  1.746653  2.135191 
##        Mn        Zn         B 
##  5.561179  1.969328  2.639438

Los datos que no están en el rango de -1 a 1 son las variables: K en la asimetría
En curtosis los valores más cercanos a 0 o negativos presenta una aproximación a una distribución platicúrtica que son las variables: P, ph, EC, Cu, Zn.

GRAPES

El tercer es el cultivo de grapes

Hallamos Media, mediana, maximon, minimos, cuartil primero y tercero

summary(Grapes)
##        N               P               K                ph      
##  Min.   :101.0   Min.   :27.00   Min.   : 57.00   Min.   :5.50  
##  1st Qu.:116.8   1st Qu.:36.00   1st Qu.: 66.00   1st Qu.:5.80  
##  Median :142.0   Median :47.00   Median : 81.00   Median :6.10  
##  Mean   :139.8   Mean   :47.51   Mean   : 83.73   Mean   :6.05  
##  3rd Qu.:157.8   3rd Qu.:58.00   3rd Qu.: 90.25   3rd Qu.:6.30  
##  Max.   :179.0   Max.   :95.00   Max.   :342.00   Max.   :7.20  
##        EC               S                 Cu              Fe        
##  Min.   :0.1100   Min.   :0.01420   Min.   : 5.00   Min.   : 50.11  
##  1st Qu.:0.1400   1st Qu.:0.06475   1st Qu.:11.68   1st Qu.: 84.39  
##  Median :0.1700   Median :0.11250   Median :15.44   Median :108.53  
##  Mean   :0.1958   Mean   :0.10964   Mean   :15.25   Mean   :107.12  
##  3rd Qu.:0.2000   3rd Qu.:0.15425   3rd Qu.:18.98   3rd Qu.:127.05  
##  Max.   :1.4500   Max.   :0.22300   Max.   :25.99   Max.   :255.99  
##        Mn               Zn              B            label          
##  Min.   : 30.01   Min.   :17.99   Min.   : 4.36   Length:104        
##  1st Qu.: 58.88   1st Qu.:34.11   1st Qu.:29.71   Class :character  
##  Median : 92.69   Median :40.20   Median :37.42   Mode  :character  
##  Mean   : 97.20   Mean   :39.71   Mean   :36.49                     
##  3rd Qu.:121.91   3rd Qu.:45.36   3rd Qu.:44.05                     
##  Max.   :678.21   Max.   :49.96   Max.   :49.58

la varianza y desviacion estandar

Antes de pasar a la varianza y desviación estándar tenemos que eliminar la columna “label”, esto debido a que nos generar un error a la hora de calcular. El primer conjunto de datos es la desviación estándar y el segundo conjunto de datos es varianza.

Grapes1 = Grapes[,c(1:11)]
sapply(Grapes1,sd)
##           N           P           K          ph          EC           S 
## 23.83550604 13.00783572 35.73289007  0.32381224  0.15699664  0.05400461 
##          Cu          Fe          Mn          Zn           B 
##  5.30643751 33.06031321 69.87320475  7.08065407  9.13528719
sapply(Grapes1,var)
##            N            P            K           ph           EC            S 
## 5.681313e+02 1.692038e+02 1.276839e+03 1.048544e-01 2.464795e-02 2.916498e-03 
##           Cu           Fe           Mn           Zn            B 
## 2.815828e+01 1.092984e+03 4.882265e+03 5.013566e+01 8.345347e+01

Histograma de frecuencia

plot_histogram(Grapes1)

Un aspecto que podemos analizar es la dispersión de los datos de las diferentes variables del cultivo grapes donde hay una dispersión de datos en las variables: Cu, N, S, ph

Grafica de cajas

boxplot(Grapes1)

Podemos observar datos atipicos en las variables: P, K, EC, Fe, ph, Mn, B

kurtosis

El primer conjunto de datos es la asimetria y el segundo conjunto de datos es curtosis

skewness(Grapes1) # asimetria
##           N           P           K          ph          EC           S 
## -0.02302059  0.64366771  5.82454402  0.33703814  6.14280733 -0.13420156 
##          Cu          Fe          Mn          Zn           B 
## -0.03958444  0.91320049  5.68623995 -0.55233078 -0.90314341
kurtosis(Grapes1) # curtosis 
##         N         P         K        ph        EC         S        Cu        Fe 
##  1.733037  3.250039 40.189317  2.991739 44.707326  1.854587  2.267960  5.896183 
##        Mn        Zn         B 
## 47.389326  3.017189  4.286011

Los datos que no están en el rango de -1 a 1 son las variables: K, EC, Mn en la asimetría
En curtosis los valores más cercanos a 0 o negativos presenta una aproximación a una distribución platicúrtica que son las variables: N, S.

MULBERRY

El cuarto es el cultivo de Mulberry

Hallamos Media, mediana, maximon, minimos, cuartil primero y tercero

summary(Mulberry)
##        N               P               K                ph      
##  Min.   : 73.0   Min.   :10.00   Min.   : 51.00   Min.   :5.80  
##  1st Qu.:126.8   1st Qu.:15.75   1st Qu.: 67.75   1st Qu.:6.20  
##  Median :145.0   Median :20.00   Median : 82.00   Median :6.40  
##  Mean   :144.4   Mean   :21.36   Mean   : 86.00   Mean   :6.38  
##  3rd Qu.:164.0   3rd Qu.:26.00   3rd Qu.: 97.50   3rd Qu.:6.60  
##  Max.   :194.0   Max.   :77.00   Max.   :269.00   Max.   :7.00  
##        EC               S                  Cu              Fe        
##  Min.   :0.1000   Min.   :  0.0123   Min.   : 0.18   Min.   :  3.81  
##  1st Qu.:0.3200   1st Qu.:  0.2195   1st Qu.:19.95   1st Qu.:131.26  
##  Median :0.5300   Median :  0.2495   Median :25.22   Median :190.93  
##  Mean   :0.5412   Mean   :  2.1854   Mean   :24.56   Mean   :185.30  
##  3rd Qu.:0.7400   3rd Qu.:  0.2780   3rd Qu.:28.75   3rd Qu.:249.45  
##  Max.   :1.8900   Max.   :113.2000   Max.   :35.00   Max.   :276.72  
##        Mn                Zn              B            label          
##  Min.   :  62.11   Min.   :20.25   Min.   : 8.69   Length:104        
##  1st Qu.: 528.17   1st Qu.:21.97   1st Qu.:13.81   Class :character  
##  Median : 869.90   Median :24.89   Median :18.70   Mode  :character  
##  Mean   : 855.86   Mean   :25.02   Mean   :18.83                     
##  3rd Qu.:1198.50   3rd Qu.:27.60   3rd Qu.:23.12                     
##  Max.   :1572.54   Max.   :37.86   Max.   :30.00

la varianza y desviacion estandar

Antes de pasar a la varianza y desviación estándar tenemos que eliminar la columna “label”, esto debido a que nos generar un error a la hora de calcular. El primer conjunto de datos es la desviación estándar y el segundo conjunto de datos es varianza.

Mulberry1 = Mulberry[,c(1:11)]
sapply(Mulberry1,sd)
##           N           P           K          ph          EC           S 
##  22.3331399   9.7202803  32.4907754   0.2419098   0.2910520  14.0320213 
##          Cu          Fe          Mn          Zn           B 
##   6.2027098  63.9945945 429.5730975   3.1869941   5.6952407
sapply(Mulberry1,var)
##            N            P            K           ph           EC            S 
## 4.987691e+02 9.448385e+01 1.055650e+03 5.852035e-02 8.471128e-02 1.968976e+02 
##           Cu           Fe           Mn           Zn            B 
## 3.847361e+01 4.095308e+03 1.845330e+05 1.015693e+01 3.243577e+01

Histograma de frecuencia

plot_histogram(Mulberry1)

Un aspecto que podemos analizar es la dispersión de los datos de las diferentes variables del cultivo mulberry donde hay una dispersión de datos en las variables: B, Mn, Fe

Grafica de cajas

boxplot(Mulberry1)

Podemos observar datos atipicos en las variables: P, K, EC, S, Cu, Zn

kurtosis

El primer conjunto de datos es la asimetria y el segundo conjunto de datos es curtosis

skewness(Mulberry1) # asimetria
##           N           P           K          ph          EC           S 
## -0.22274110  3.46832847  3.48008598  0.11783377  1.30720731  7.15475340 
##          Cu          Fe          Mn          Zn           B 
## -0.97007987 -0.32758809  0.02519479  0.59663905  0.15984128
kurtosis(Mulberry1) # curtosis 
##         N         P         K        ph        EC         S        Cu        Fe 
##  2.559116 20.607928 19.307128  2.414080  7.095630 52.902226  5.627716  2.489954 
##        Mn        Zn         B 
##  1.856153  3.779581  1.879198

Los datos que no están en el rango de -1 a 1 son las variables: P, K, EC, S en la asimetría
En curtosis los valores más cercanos a 0 o negativos presenta una aproximación a una distribución platicúrtica que son las variables: Mn, B.

POTATO

El quinto es el cultivo de Patato

Hallamos Media, mediana, maximon, minimos, cuartil primero y tercero

summary(Potato)
##        N               P               K               ph       
##  Min.   : 30.0   Min.   :15.00   Min.   : 53.0   Min.   :4.600  
##  1st Qu.: 77.5   1st Qu.:27.00   1st Qu.:117.5   1st Qu.:4.975  
##  Median :109.5   Median :40.50   Median :151.0   Median :5.300  
##  Mean   :108.9   Mean   :44.27   Mean   :152.2   Mean   :5.276  
##  3rd Qu.:150.2   3rd Qu.:59.25   3rd Qu.:195.2   3rd Qu.:5.600  
##  Max.   :179.0   Max.   :80.00   Max.   :250.0   Max.   :6.000  
##        EC              S                 Cu              Fe       
##  Min.   :1.080   Min.   :0.08001   Min.   :10.00   Min.   :38.00  
##  1st Qu.:1.655   1st Qu.:0.08947   1st Qu.:15.00   1st Qu.:39.00  
##  Median :1.915   Median :0.09907   Median :20.00   Median :40.15  
##  Mean   :1.915   Mean   :0.09951   Mean   :20.26   Mean   :40.04  
##  3rd Qu.:2.125   3rd Qu.:0.10884   3rd Qu.:25.00   3rd Qu.:41.20  
##  Max.   :2.480   Max.   :0.11971   Max.   :30.00   Max.   :42.00  
##        Mn               Zn              B            label          
##  Min.   : 52.56   Min.   :20.49   Min.   :10.16   Length:100        
##  1st Qu.:105.99   1st Qu.:29.87   1st Qu.:13.32   Class :character  
##  Median :163.47   Median :34.52   Median :17.20   Mode  :character  
##  Mean   :168.20   Mean   :35.76   Mean   :17.23                     
##  3rd Qu.:233.50   3rd Qu.:43.44   3rd Qu.:21.17                     
##  Max.   :293.13   Max.   :49.70   Max.   :24.67

la varianza y desviacion estandar

Antes de pasar a la varianza y desviación estándar tenemos que eliminar la columna “label”, esto debido a que nos generar un error a la hora de calcular. El primer conjunto de datos es la desviación estándar y el segundo conjunto de datos es varianza.

Potato1 = Potato[,c(1:11)]
sapply(Potato1,sd)
##           N           P           K          ph          EC           S 
## 44.14559932 19.55352922 52.63531480  0.39057585  0.32071095  0.01174682 
##          Cu          Fe          Mn          Zn           B 
##  5.83202583  1.14923382 70.80551250  8.33776568  4.38987541
sapply(Potato1,var)
##            N            P            K           ph           EC            S 
## 1.948834e+03 3.823405e+02 2.770476e+03 1.525495e-01 1.028555e-01 1.379878e-04 
##           Cu           Fe           Mn           Zn            B 
## 3.401253e+01 1.320738e+00 5.013421e+03 6.951834e+01 1.927101e+01

Histograma de frecuencia

plot_histogram(Potato1)

Un aspecto que podemos analizar es la dispersión de los datos de las diferentes variables del cultivo patato donde hay una dispersión en todas las variables

Grafica de cajas

boxplot(Potato1)

Podemos observar que no hay datos atipicos en las variables

kurtosis

El primer conjunto de datos es la asimetria y el segundo conjunto de datos es curtosis

skewness(Potato1) # asimetria
##             N             P             K            ph            EC 
## -0.0998632977  0.2411097612 -0.0008700731 -0.0025974834  0.0807974788 
##             S            Cu            Fe            Mn            Zn 
##  0.0635670104 -0.0293870310 -0.0918829126  0.0476623468 -0.0622384331 
##             B 
## -0.0172746371
kurtosis(Potato1) # curtosis 
##        N        P        K       ph       EC        S       Cu       Fe 
## 1.822724 1.806682 2.222038 1.851746 2.294771 1.746846 1.854571 1.695461 
##       Mn       Zn        B 
## 1.748790 1.864975 1.628394

Los datos que no están en el rango de -1 a 1 no hay en la asimetría
En curtosis los valores más cercanos a 0 o negativos presenta una aproximación a una distribución platicúrtica que son la mayoría de las variables excepto EC.

RAGI

El sexto es el cultivo de Ragi

Hallamos Media, mediana, maximon, minimos, cuartil primero y tercero

summary(Ragi)
##        N               P                K               ph       
##  Min.   :111.0   Min.   : 33.00   Min.   :131.0   Min.   :4.900  
##  1st Qu.:129.8   1st Qu.: 62.75   1st Qu.:258.2   1st Qu.:6.100  
##  Median :150.0   Median : 76.50   Median :300.0   Median :6.650  
##  Mean   :152.2   Mean   : 74.69   Mean   :295.5   Mean   :6.713  
##  3rd Qu.:176.0   3rd Qu.: 87.00   3rd Qu.:337.2   3rd Qu.:7.325  
##  Max.   :198.0   Max.   :100.00   Max.   :369.0   Max.   :8.000  
##        EC               S                 Cu              Fe        
##  Min.   :0.1400   Min.   :0.01110   Min.   :10.30   Min.   : 38.80  
##  1st Qu.:0.9275   1st Qu.:0.01430   1st Qu.:13.26   1st Qu.: 89.49  
##  Median :1.2250   Median :0.01865   Median :16.04   Median :154.06  
##  Mean   :1.2328   Mean   :0.02376   Mean   :16.94   Mean   :147.21  
##  3rd Qu.:1.5500   3rd Qu.:0.02150   3rd Qu.:20.96   3rd Qu.:207.42  
##  Max.   :2.4500   Max.   :0.27000   Max.   :24.84   Max.   :248.97  
##        Mn               Zn              B             label          
##  Min.   : 55.01   Min.   :18.22   Min.   : 1.020   Length:104        
##  1st Qu.: 59.03   1st Qu.:20.59   1st Qu.: 3.000   Class :character  
##  Median : 61.73   Median :23.73   Median : 5.020   Mode  :character  
##  Mean   : 64.36   Mean   :24.29   Mean   : 5.840                     
##  3rd Qu.: 65.98   3rd Qu.:26.79   3rd Qu.: 7.942                     
##  Max.   :258.90   Max.   :55.63   Max.   :27.620

la varianza y desviacion estandar

Antes de pasar a la varianza y desviación estándar tenemos que eliminar la columna “label”, esto debido a que nos generar un error a la hora de calcular. El primer conjunto de datos es la desviación estándar y el segundo conjunto de datos es varianza.

Ragi1 = Ragi[,c(1:11)]
sapply(Ragi1,sd)
##           N           P           K          ph          EC           S 
## 26.52156111 15.55015495 47.94959390  0.73247256  0.37754047  0.03424987 
##          Cu          Fe          Mn          Zn           B 
##  4.26157842 62.12758795 19.88340348  5.27075520  4.19196897
sapply(Ragi1,var)
##            N            P            K           ph           EC            S 
## 7.033932e+02 2.418073e+02 2.299164e+03 5.365161e-01 1.425368e-01 1.173054e-03 
##           Cu           Fe           Mn           Zn            B 
## 1.816105e+01 3.859837e+03 3.953497e+02 2.778086e+01 1.757260e+01

Histograma de frecuencia

plot_histogram(Ragi1)

Un aspecto que podemos analizar es la dispersión de los datos de las diferentes variables del cultivo grapes donde hay una dispersión de datos en las variables: Cu, N, Fe, P, ph.

Grafica de cajas

boxplot(Ragi1)

Podemos observar datos atipicos en las variables: K, S, Zn, Mn, B

kurtosis

El primer conjunto de datos es la asimetria y el segundo conjunto de datos es curtosis

skewness(Ragi1) # asimetria
##           N           P           K          ph          EC           S 
##  0.07310232 -0.28134608 -0.46069749 -0.05997571  0.01597262  6.20359444 
##          Cu          Fe          Mn          Zn           B 
##  0.36192193 -0.01919587  9.14786734  2.78517640  2.41120815
kurtosis(Ragi1) # curtosis 
##         N         P         K        ph        EC         S        Cu        Fe 
##  1.780670  2.319273  3.084289  1.957375  2.954864 42.026067  1.822585  1.672032 
##        Mn        Zn         B 
## 89.875553 16.052351 11.776116

Los datos que no están en el rango de -1 a 1 son las variables: B, Zn, Mn, S en la asimetría
En curtosis los valores más cercanos a 0 o negativos presenta una aproximación a una distribución platicúrtica que son las variables: ph, Cu, Fe, N.

CONCLUSIONES

Se puede observar que todos los 6 cultivos que se analizó, se necesita una transformación de las variables debido a una dispersión, valores atípicos, distribución platicurtica, etc.
Estos datos no se deben utilizar para análisis Geoestadístico, sin una corrección o transformación previa.