Resumo
O presente estudo teve como intuito realizar uma análise de superfície de resposta em conjunto com o delineamento composto central em dados químicos de ph, e vazão da água, pela variável resposta de Sinal analitico resultante das medições de altura de pico instrumental. Para isso foi utilizado técnicas computacionais com auxílio do software R studio em conjunto com os principais pacotes para a realização de técnicas de processamento e análise dos dados. Foi proposto dois modelos, um de primeira ordem e de segunda de segunda ordem. Técnicas de testes estatísticos aliado a técnicas experimentais da área de planejamento de análise de experimentos foram capazes de identificar qual modelo se mostrou o mais adequado para identificar os pontos de ótimo em relação a base de dados. o modelo de segunda ordem se mostrou melhor que o de primeira ordem, obtendo um valor de \(R^2\) ajustado de aproximadamente 0,83.
Superfície de resposta
Determinação de conteúdo solído de cobre em diferentes amostras de água por espectrometria de emissão optica
X1: PH
X2: Vazão - vz(ml/min)
y: Sinal analitico resultante das medições de altura de pico instrumental, uma vez que obtidos, esses valores, o maior foi considerado como 100, e os demais como porcentagem deste máximo(sinal analitico)
Chamando nossos dados
## Warning: package 'rsm' was built under R version 4.3.3
## run.order std.order vz ph y
## 1 1 1 7.000000 7.000000 68.64
## 2 2 2 9.000000 7.000000 69.82
## 3 3 3 7.000000 9.000000 81.66
## 4 4 4 9.000000 9.000000 85.80
## 5 1 1 6.585786 8.000000 79.29
## 6 2 2 9.414214 8.000000 87.57
## 7 3 3 8.000000 6.585786 74.56
## 8 4 4 8.000000 9.414214 94.08
## 9 5 5 8.000000 8.000000 100.00
## 10 6 6 8.000000 8.000000 99.41
## 11 7 7 8.000000 8.000000 100.00
##
## Data are stored in coded form using these coding formulas ...
## x1 ~ (vz - 8)/1
## x2 ~ (ph - 8)/1
A metodologia de superfície de resposta se trata de um conjunto de técnicas estatísticas, que tem como objetivo de realizar uma modelagem de problemas onde a variável resposta é influenciada por seus fatores. Para isso, deve-se encontrar o mínimo ou máximo global, ou seja o valor ótimo(Mondim, 2014). O modelo é composto por:
\[ \hat{y} = \beta_0 + \sum_{i} \beta_i x_i + \sum_{i} \beta_{ii} x_i^2 + \sum_{i<j} \beta_{ij} x_i x_j + \epsilon_i \]
Sendo:
\[ \begin{aligned} &\hat{y}: \text{Variável Resposta}; \\ &\beta_0, \ldots, \beta_j: \text{Coeficientes do modelo}; \\ &x_1, \ldots, x_i: \text{Variáveis Independentes}; \\ &\varepsilon_\iota: \text{É o erro aleatório.} \end{aligned} \]
DELINEAMENTO COMPOSTO CENTRAL
O delineamento composto central, é um dos delineamentos mais utilizados na metodologia de superfície de resposta. Sua composição se dá em pontos fatoriais ou fracionados, pontos centrais, e os pontos axiais. Os pontos axiais representam os efeitos quadráticos e os pontos centrais representam o efeito médio dos fatores.
O delineamento composto central permite a construção de modelos considerando não só os efeitos lineares, como também os quadráticos e de interação. A vantagem do delineamento composto central é a flexibilidade das variações que acaba permitindo a utilização em várias regiões de interesse dependendo da escolha do parâmetro α.
Modelagem
modelo de primeira ordem, completo via função rsm
##
## Call:
## rsm(formula = y ~ FO(x1, x2), data = cdd1)
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 85.5300 3.3000 25.9183 5.271e-09 ***
## x1 2.1287 3.8696 0.5501 0.5973
## x2 7.0757 3.8696 1.8285 0.1049
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Multiple R-squared: 0.3131, Adjusted R-squared: 0.1414
## F-statistic: 1.823 on 2 and 8 DF, p-value: 0.2227
##
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## FO(x1, x2) 2 436.77 218.387 1.8231 0.2226508
## Residuals 8 958.31 119.789
## Lack of fit 6 958.08 159.680 1376.1553 0.0007263
## Pure error 2 0.23 0.116
##
## Direction of steepest ascent (at radius 1):
## x1 x2
## 0.2880936 0.9576023
##
## Corresponding increment in original units:
## vz ph
## 0.2880936 0.9576023
O modelo ajustado sugere que o intercepto é 85.53, representando o valor base da variável resposta quando o pH e a vazão são zero. O coeficiente para o pH é 2.13, indicando que cada aumento unitário no pH resulta em no resposta, no entanto, este efeito não é estatisticamente significativo p-valor de 0.597, o que indica que o pH não tem um impacto significativo na resposta. Por outro lado, o coeficiente para a vazão é 7.08, sugerindo que cada aumento unitário na vazão está associado a um aumento de 7.08 unidades em nossa resposta Este efeito é marginalmente significativo p-valor de 0.105, indicando que a vazão pode ter um efeito positivo em nossa resposta, mas não é conclusivo.
modelo de segunda ordem, completo via função rsm
##
## Call:
## rsm(formula = y ~ SO(x1, x2), data = cdd1)
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 99.8033 2.7683 36.0525 3.091e-07 ***
## x1 2.1287 1.6952 1.2557 0.264704
## x2 7.0757 1.6952 4.1739 0.008706 **
## x1:x2 0.7400 2.3974 0.3087 0.770021
## x1^2 -10.0354 2.0177 -4.9737 0.004199 **
## x2^2 -9.5904 2.0177 -4.7531 0.005090 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Multiple R-squared: 0.9176, Adjusted R-squared: 0.8352
## F-statistic: 11.14 on 5 and 5 DF, p-value: 0.009668
##
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## FO(x1, x2) 2 436.77 218.39 9.4991 0.019814
## TWI(x1, x2) 1 2.19 2.19 0.0953 0.770021
## PQ(x1, x2) 2 841.17 420.59 18.2941 0.005012
## Residuals 5 114.95 22.99
## Lack of fit 3 114.72 38.24 329.5566 0.003027
## Pure error 2 0.23 0.12
##
## Stationary point of response surface:
## x1 x2
## 0.1198313 0.3735164
##
## Stationary point in original units:
## vz ph
## 8.119831 8.373516
##
## Eigenanalysis:
## eigen() decomposition
## $values
## [1] -9.381169 -10.244665
##
## $vectors
## [,1] [,2]
## x1 -0.4922667 -0.8704444
## x2 -0.8704444 0.4922667
Este modelo revela que a vazão tem um impacto linear significativo na variável resposta enquanto o ph não tem um efeito linear significativo. Ambos os termos quadráticos, para ph e vazão, são significativos, sugerindo que as relações entre essas variáveis e nossa resposta são não lineares e podem ter um comportamento irregular. A interação entre ph e vazão não é significativa, indicando que seus efeitos no resultado final são principalmente independentes. O alto R ajustado de 0,8352, isso sugere que o modelo se ajusta bem aos dados, explicando uma grande parte da variabilidade na resposta.
condição de otimalidade - Análise canonica
## $xs
## x1 x2
## 0.1198313 0.3735164
##
## $eigen
## eigen() decomposition
## $values
## [1] -9.381169 -10.244665
##
## $vectors
## [,1] [,2]
## x1 -0.4922667 -0.8704444
## x2 -0.8704444 0.4922667
Checando os Pressupostos Da Metodologia de superficie de resposta, que são eles
1° Normalidade dos Resíduos
2° indepêndência dos Resíduos
3° Variância constante
Agora iremos fazer esse checagem
Teste de normalidade dos Resíduos
##
## Shapiro-Wilk normality test
##
## data: rsm2$residuals
## W = 0.92885, p-value = 0.3993
indepêndência dos Resíduos
## Warning: package 'lmtest' was built under R version 4.3.3
## Carregando pacotes exigidos: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## Breusch-Godfrey test for serial correlation of order up to 5
##
## data: rsm2
## LM test = 11, df = 5, p-value = 0.05138
Variância constante - Homodasticidade
##
## studentized Breusch-Pagan test
##
## data: rsm2
## BP = 11, df = 5, p-value = 0.05138
Após a análise, verificou-se que todos os valores de p calculados foram superiores a 0,05. Isso indica que, ao nível de significância de 5%, não há evidências suficientes para rejeitar as hipóteses nulas associadas aos pressupostos avaliados. Portanto, podemos concluir que os pressupostos necessários para a análise foram satisfeitos.
Graficamente
Os gráficos de diagnóstico indicam alguns problemas no modelo de regressão linear. O gráfico de resíduos ajustados e valores ajustados mostra um leve padrão nos resíduos, sugerindo que o modelo não está capturando todos os aspectos dos dados. O gráfico Q-Q Normal revela que os resíduos não são perfeitamente normais, especialmente nos extremos. No gráfico de localização de escala, há indicação de heterocedasticidade, onde a variabilidade dos resíduos muda com os valores ajustados. Finalmente, o gráfico de alavancagem residual sugere que alguns pontos podem estar exercendo uma influência desproporcional no modelo. Essas observações indicam a necessidade de revisar o modelo e os dados para corrigir essas questões.
Gráfico de contorno
Veja que no gráfico valida os pontos estacionários encontrados pelo modelo de segunda ordem.
Gráfico de superficie
O mesmo vale para o gráfico em 3 dimensões, onde vemos uma estrutura com concavidade voltada para baixo, com os mesmos pontos estacionários indicados pelo modelo de segunda ordem.
pontos estacionários e de Previsão
Matrizes b e B
## x1 x2
## 2.128711 7.075681
## x1 x2
## x1 -10.03542 0.370000
## x2 0.37000 -9.590417
Ponto estacionarios
## x1 x2
## 0.1198313 0.3735164
## [,1]
## x1 0.1198313
## x2 0.3735164
Deconposição em valores singulares
## eigen() decomposition
## $values
## [1] -9.381169 -10.244665
##
## $vectors
## [,1] [,2]
## [1,] -0.4922667 -0.8704444
## [2,] -0.8704444 0.4922667
## eigen() decomposition
## $values
## [1] -9.381169 -10.244665
##
## $vectors
## [,1] [,2]
## x1 -0.4922667 -0.8704444
## x2 -0.8704444 0.4922667
Previsão
## x1
## 101.2523
Conclusão
Após essa análise, pode-se perceber que as superfícies de resposta são extremamente úteis para encontrar os melhores resultados de um experimento. Em resumo, a metodologia de superfície de resposta foi bem-sucedida em ajustar e modelar os dados experimentais, proporcionando uma ferramenta poderosa para otimização e compreensão das condições experimentais ideais. A precisão dos ajustes indica que os resultados são confiáveis e úteis para guiar futuras experimentações e melhorias no processo analisado. Diante dos fatos apresentados, é possível concluir que o modelo linear não obteve o melhor desempenho em relação ao modelo de segunda ordem. Isso pode ser um indicativo que os dados não possuem uma linearidade inerente, ou seja, para realizar a modelagem e otimização dos dados de forma mais robusta, se faz necessário um modelo de segunda ordem, o modelo de segunda ordem mostrou os pontos de ótimos que aparentemente mostram os pontos que maximizam a função, o que significa que ele cumpre com seus objetivos, sendo o melhor para futuras predições.