Buen día, profesor Justo. Gracias por la aclaración. Con los datos originales, la interpretación cambia de manera importante.

1. La variable correcta para la regresión no debería ser el C_RAW fila por fila

En el archivo original observé que hay 99 lecturas crudas del sensor, pero solo 30 observaciones completas con peso húmedo, peso seco y contenido de agua gravimétrico.

Lo más importante es esto:

  • C_RAW contiene lecturas individuales del sensor.
  • P_C_RAW es el promedio de tres lecturas C_RAW.
  • Las 30 filas con P_C_RAW y humedad gravimétrica son las que realmente forman los pares de calibración.

Por tanto, para el modelo de calibración yo no usaría directamente:

[ Y = f(C_RAW)]

sino:

[ Y = f(P_C_RAW)]

donde P_C_RAW representa la lectura promedio del sensor para cada muestra.

Esto es coherente con el protocolo, donde se plantea trabajar con 30 pares de datos, provenientes de 6 niveles de humedad × 5 repeticiones, y luego evaluar regresión lineal, regresión polinómica, R², RMSE y NSE.

2. Ahora sí aparece una relación lógica entre capacitancia y humedad

Con los datos originales, al usar P_C_RAW como variable X y el contenido de agua gravimétrico como variable Y, aparece una relación negativa:

A mayor humedad, menor lectura promedio del sensor.

Eso tiene sentido con los datos extremos del archivo:

Condición Lectura aproximada del sensor
Totalmente húmedo 960–973
Niveles intermedios 1200–1700
Sustrato seco 2337–2354
Aire seco 3137–3151

Es decir, el sensor parece responder en la dirección esperada: valores bajos indican mayor humedad; valores altos indican menor humedad.

3. Modelo lineal preliminar con los 30 pares completos

Usando los 30 datos completos, el modelo lineal aproximado es:

[ H_g(%) = 62.07 - 0.02554(P_C_RAW)]

Donde:

  • (H_g(%)) es la humedad gravimétrica en porcentaje.
  • P_C_RAW es el promedio de las lecturas del sensor.

Los indicadores aproximados fueron:

Indicador Resultado
Número de observaciones 30
0.406
RMSE 5.09 puntos porcentuales
MAE 4.18 puntos porcentuales
Correlación de Pearson -0.637
Valor p de la pendiente 0.00015

4. Interpretación estadística

La relación sí existe y es estadísticamente significativa, pero el ajuste todavía no es suficientemente fuerte para aceptar el modelo como una calibración definitiva.

El protocolo plantea como criterios de validación:

  • R² ≥ 0.85
  • RMSE ≤ 3%
  • NSE ≥ 0.80

Con los 30 pares individuales, el modelo lineal obtiene R² ≈ 0.406 y RMSE ≈ 5.09%, por lo que todavía no cumple los criterios del protocolo.

5. Pero hay una señal muy interesante: por promedios de nivel mejora mucho

Cuando se agrupan los datos por nivel de humedad, aparece una tendencia mucho más clara:

Nivel Agua añadida Promedio P_C_RAW Humedad gravimétrica media
0 0 ml 1596.87 15.54%
1 50 ml 1507.93 20.69%
2 100 ml 1516.73 21.61%
3 200 ml 1379.13 27.50%
4 300 ml 1360.60 30.46%
5 400 ml 1325.93 34.75%

Con esos promedios por nivel, el ajuste lineal da aproximadamente:

[ H_g(%) = 118.81 - 0.06473(P_C_RAW)]

y el R² sube a aproximadamente 0.966.

Pero aquí hay que ser cuidadosos: ese modelo se basa solo en 6 puntos promedio, no en las 30 observaciones individuales. Sirve para mostrar que el sensor sí tiene una tendencia general, pero no debe presentarse como validación definitiva sin aclarar que se promediaron las repeticiones.

6. Observación experimental importante

El nivel “0 ml” no corresponde a humedad cero. En los datos, ese nivel tiene una humedad gravimétrica media aproximada de 15.54%.

Eso significa que:

  • “0 ml” probablemente significa sin agua añadida, no “sustrato totalmente seco”.
  • No debe rotularse como 0% de humedad.
  • El punto seco real sería el grupo Totalmente_seco_sustrato, pero ese grupo no tiene pesos húmedos/secos asociados en el archivo, por lo que no puede incorporarse formalmente al modelo.

El protocolo, en cambio, indica que el método gravimétrico debe calcularse con peso húmedo y peso seco, usando la ecuación del contenido de humedad gravimétrico.

7. Mi opinión técnica actualizada

Mi opinión ahora es esta:

Sí hay base para una regresión simple, pero la variable X debe ser preferiblemente P_C_RAW, no cada lectura individual C_RAW. El sensor muestra una relación inversa con la humedad: cuando aumenta la humedad gravimétrica, disminuye la lectura promedio del sensor. Sin embargo, con las 30 muestras individuales el modelo lineal todavía no alcanza los criterios de validación. La tendencia se vuelve muy clara al promediar por nivel de humedad, lo cual indica que el problema principal no es necesariamente la ausencia de relación, sino la variabilidad entre repeticiones y lecturas.

8. Qué le recomendaría al profesor Quelbis

Le diría algo así:

Los datos originales muestran que el sensor sí responde al cambio de humedad, pero con variabilidad considerable entre muestras. Para construir la curva de calibración debe usarse P_C_RAW, que resume tres lecturas del sensor por muestra, contra el contenido de agua gravimétrico. El modelo lineal individual todavía no cumple los criterios de validación, aunque los promedios por nivel muestran una tendencia fuerte. Por tanto, conviene revisar las repeticiones con alta variabilidad, confirmar el procedimiento de compactación/contacto sensor-sustrato y, si es posible, completar o repetir las mediciones gravimétricas para los puntos de sustrato totalmente seco y totalmente húmedo.

El siguiente paso natural sería preparar el análisis completo en Python o R con gráficas correctas, modelo lineal, modelo polinómico, tabla de métricas, residuos y conclusión técnica para el informe del semillero.