Estrutura do minicurso

Estrutura do minicurso

  • Motivação
  • Preparação do ambiente computacional
  • Bases do mapeamento digital do solo
  • Dados do solo
  • Dados das covariáveis
  • Modelos (geo)estatísticos
  • Incerteza das predições
  • Validação das predições
  • Vamos praticar?

Motivação

Produção de informação espacial do solo

Temos informação apenas onde amostramos o solo

Temos informação apenas onde amostramos o solo

SoilGrids

Você já conhece esse portal/aplicativo?

Você já conhece esse portal/aplicativo?

Preparação do ambiente computacional

Preparação do ambiente computacional

Bases do MDS

Histórico, conceitos e definições

Em 1886, o cientista russo, Vasily Vasili’evich Dokuchaev, postulou que:

“qualquer… solo é sempre e em qualquer lugar mera função dos seguintes fatores de formação: (1) a natureza (conteúdo e estrutura) da rocha parental; (2) o clima do terreno; (3) a massa e carácter da vegetação; (4) a idade do terreno; e, finalmente, (5) a topografia do terreno.”

Equação dos fatores de formação do solo – modelo CLORPT:

s = f(cl, o, r, p, t, …)

Histórico, conceitos e definições

Resulta que (a) se os fatores mencionados são os mesmos em dois locais diferentes (por muito separados que estejam), os solos resultantes nos dois locais também devem ser similares, e vice-versa; em consequência, (b) se tivermos estudado a fundo esses fatores, podemos predizer de antemão como deveria ser o solo. (Florinsky (2012))

Componentes básicos

Dados do solo

Dados do solo

  • Variável resposta ou variável dependente
    • Representação: \(Y\)
  • Natureza
    • Qualitativa (ordinal ou nominal) ou quantitativa (contínua ou discreta)
  • Suporte amostral
    • Areal ou pontual
  • Latitude e longitude
    • Representação: \(\boldsymbol{s}\)
  • Uma observação de uma variável do solo: \(y(\boldsymbol{s}_i)\)

Fontes de dados do solo

Existem duas fontes principais de dados do solo:

  • Dados preexistentes
    • Dados legados, coletados nas muitas décadas passadas
    • Deixados para as próximas gerações
    • Disponíveis em repositórios de dados
  • Amostragem no campo
    • Amostragem não-probabilística (otimização amostral – calibração dos modelos)
    • Amostragem probabilística (amostragem aleatória simples ou estratificada – validação dos modelos)

Fontes de dados preexistentes

No Brasil, existem múltiplas fontes de dados legados do solo

A principal fonte de dados é o Repositório Brasileiro Livre para Dados Abertos do Solo (febr)

URL: http://www.ufsm.br/febr/

Amostragem no campo

Dados das covariáveis

Dados das covariáveis

  • Indicadores dos fatores de formação do solo
  • Variáveis explicativas, variáveis preditoras, variáveis independentes
  • Covariação espacial e/ou temporal

Dados das covariáveis

s = f(s, c, o, r, p, a, n)

  • s, solo
  • c, clima
  • o, organismos
  • r, relevo
  • p, material de origem
  • a, idade
  • n, coordenadas espaciais

(McBratney, Mendonça-Santos, and Minasny 2003)

Precipitação pluviométrica

Índice de área foliar

Índice de umidade topográfica

Idades geológicas

Duas covariáveis “novas”

O modelo SCORPAN possui dois elementos bastante diferentes do modelo CLORPT

s = f(s, c, o, r, p, a, n)

  • n são as coordenadas espaciais (latitude e longitude, ou northing e easting)
  • s são informações preexistentes do solo (mapas pedológicos antigos)

Vejamos dois exemplos!

Precipitação pluviométrica (latitude)

Informações preexistentes do solo

Podemos pensar nas informações preexistentes do solo da seguinte maneira:

s’ = f(c’, o’, r’, p’, a’, n’)

s = f(c’, o’, r’, p’, a’, n’, c, o, r, p, a, n)

Grupo de solo dominante

Modelos (geo)estatísticos

Dados do solo e covariáveis (calibração)

Temos um conjunto de n = 100 observações com coordenadas espaciais (latitude e longitude) e dados da variável do solo (argila) e das covariáveis espaciais (elevação e declividade)

observação latitude longitude argila elevacao declividade
001 -31,45 -53,14 450 100 5
002 -32,14 -53,79 460 97 6
100 -33,78 -52,99 350 10 1

Dados das covariáveis (predição)

Queremos saber o valor da variável do solo (argila) em três locais onde temos apenas dados das covariáveis espaciais (elevação e declividade)

observacao latitude longitude argila elevacao declividade
101 -31,46 -53,24 ? 88 25
102 -31,12 -54,79 ? 102 4
103 -31,88 -54,15 ? 77 1

Para fazer isso, primeiro usamos os dados da tabela completa para construir (calibrar) um modelo (geo)estatístico. Com o modelo (geo)estatístico, predizemos o valor da variável do solo na tabela imcompleta.

Modelos (geo)estatísticos

No mapeamento digital do solo utilizamos modelos (geo)estatísticos para tratar a variação espacial do solo

\[Y(\boldsymbol{s}) = \mu(\boldsymbol{s}) + Z(\boldsymbol{s}) + \varepsilon(\boldsymbol{s})\]

  • \(Y(\boldsymbol{s})\) – característica (variável) do solo
  • \(\mu(\boldsymbol{s})\) – características do ambiente (neste minicurso)
  • \(Z(\boldsymbol{s})\) – dependência espacial
  • \(\varepsilon(\boldsymbol{s})\) – erro

Modelos (geo)estatísticos

  • O uso de modelos (geo)estatísticos tem implicações na maneira como entendemos e representamos a propriedade do solo sendo mapeada
    • Endentemos uma propriedade do solo como uma variável aleatória
    • Representamos uma variável aleatória usando uma função de distribuição de probabilidade
  • Variáveis aleatórias qualitativas (classe de solo, classe textural):
    • \(Y(\boldsymbol{s})\) = \(p\)[LV] + \(p\)[NV] + \(p\)[RR] + \(p\)[GX] = 0,70 + 0,25 + 0,03 + 0,02 = 1,00
  • Variáveis aleatórias quantitativas (conteúdo de argila, pH, conteúdo de carbono):
    • \(Y(\boldsymbol{s})\) = 12,45 g kg-1 \(\pm\) 2,27 g kg-1

Regressão linear simples

Árvore de classificação e regressão

Análise discriminante linear

Máquina de vetor de suporte

Incerteza das predições

Representação da incerteza

Uma aspecto muito importante do MDS é sua capacidade de informar a incerteza sobre as predições

A incerteza advém do fato de estarmos “adivinhando” – predizendo – os valores das variáveis do solo sem coletar amostras do solo

  • A maneira de representar a incerteza depende do tipo de variável do solo sendo mapeada
    • Variáveis quantitativas: desvio padrão e intervalo de predição
    • Variáveis qualitativas: pureza teórica, entropia de Shannon e índice de confusão

Desvio padrão

O desvio padrão de uma variável é uma medida bastante conhecida

Aqui temos como exemplo uma variável com distribuição normal e representações de seu desvio padrão \(\sigma\)

Desvio padrão

Predições do conteúdo de argila na camada superficial do solo (esquerda) e o desvio padrão do erro dessas predições (direita) como medida de incerteza

Intervalo de predição

O intervalo de predição é representado como uma faixa (faixa de valores mais prováveis de serem encontrados no campo) em torno do valor predito (valor mais provável de ser encontrado no campo)

Pureza teórica

Maior valor de probabilidade predita em um ponto de interesse

\[\varPi(\boldsymbol{s}) = \max\limits_{i \in k}(\hat{\pi}(y_i, \boldsymbol{s}))\]

Qual é o valor da pureza teórica?

\(Y(\boldsymbol{s})\) = \(p\)[LV] + \(p\)[NV] + \(p\)[RR] + \(p\)[GX] = 0,70 + 0,25 + 0,03 + 0,02 = 1,00

p <- c(0.70, 0.25, 0.03, 0.02)
max(p)
## [1] 0.7

Pureza teórica

Maior valor de probabilidade predita em um ponto de interesse

  • Para isso precisamos conhecer a probabilidade de ocorrência de cada uma das classes
    • A chance de encontrarmos aquela classe no campo

Entropia de Shannon

Grau de “desordem” das predições

\[H(\boldsymbol{s}) = - \sum_{i = 1}^k \hat{\pi}(y_i, \boldsymbol{s})\log_k\hat{\pi}(y_i, \boldsymbol{s})\]

Qual é o valor da entropia de Shannon?

\(Y(\boldsymbol{s})\) = \(p\)[LV] + \(p\)[NV] + \(p\)[RR] + \(p\)[GX] = 0,70 + 0,25 + 0,03 + 0,02 = 1,00

p <- c(0.70, 0.25, 0.03, 0.02)
-sum(p * log(p, base = length(p)))
## [1] 0.5624226

Entropia de Shannon

Grau de “desordem” das predições

  • Uma medida da dificuldade que o modelo (geo)estatístico tem para decidir, entre todas as classes existentes, qual é a classe mais provável de encontrar em um determinado local
    • Quanto maior a entropia, maior a dificuldade encontrada pelo modelo

Índice de confusão

Confusão entre as duas classes mais prováveis

\[CI(\boldsymbol{s}) = 1 - (\max\limits_{i \in k}(\hat{\pi}(y_i, \boldsymbol{s})) - \max\limits_{i \in k-1}(\hat{\pi}(y_i, \boldsymbol{s})))\]

Qual é o valor do índice de confusão?

\(Y(\boldsymbol{s})\) = \(p\)[LV] + \(p\)[NV] + \(p\)[RR] + \(p\)[GX] = 0,70 + 0,25 + 0,03 + 0,02 = 1,00

p <- c(0.70, 0.25, 0.03, 0.02)
1 - (max(p) - max(p[-which.max(p)]))
## [1] 0.55

Índice de confusão

Assim como a entropia, é uma medida da “desordem” das predições

  • A principal diferença é que meda a dificuldade que o modelo (geo)estatístico tem para decidir-se entre as duas classes mais prováveis de encontrar em um determinado local
    • Quanto maior o índice de confusão, maior a dificuldade encontrada pelo modelo

Validação das predições

Validação estatística

  • Feitas as predições, precisamos saber quão boas elas são – para isso serve a validação
  • Comparamos os valores preditos (argilaPred) com valores medidos no campo (argilaObs)
perfil latitude longitude argilaPred argilaObs
101 -31,46 -53,24 542 530
102 -31,12 -54,79 345 360
103 -31,88 -54,15 652 648

Validação cruzada

Dividimos os dados em grupos. Alguns grupos são usados para calibrar o modelo. Um dos grupos é usado para validar o modelo. E assim sucessivamente, até usar todos os grupos em algum momento para validar o modelo.

Validação externa

A validação cruzada é usada quando temos pouca disponibilidade de recursos.

O mais apropriado é usar a validação externa: dados adicionais coletados especialmente para a validação do modelo

  • Prova real da qualidade de um mapa
  • Reduzir vieses/vícios
  • Amostragem probabilística
    • Simples
    • Estratificada

Amostragem probabilística

Medidas de qualidade das predições

  • Variáveis quantitativas
    • Erro médio – diferença média em relação aos valores reais
    • Erro absoluto e quadrático – dispersão dos erros
    • Raiz quadrada do erro quadrático médio – dispersão dos erros
    • Eficiência do modelo – quantidade de variância explicada
perfil latitude longitude argilaPred argilaObs
101 -31,46 -53,24 542 530
102 -31,12 -54,79 345 360
103 -31,88 -54,15 652 648

Medidas de qualidade das predições

  • Variáveis quantitativas
    • Erro médio – quanto mais próximo de zero, melhor
    • Erro absoluto e quadrático – quanto mais baixo, melhor
    • Raiz quadrada do erro quadrático médio – quanto mais baixo, melhor
    • Eficiência do modelo – quanto mais próximo de um, melhor
perfil latitude longitude argilaPred argilaObs
101 -31,46 -53,24 542 530
102 -31,12 -54,79 345 360
103 -31,88 -54,15 652 648

Medidas de qualidade das predições

  • Variáveis qualitativas
    • Pureza geral e por classe – percentual de acerto
    • Kappa geral e por classe – proporção de acerto comparada a um classificador aleatório
perfil latitude longitude classPred classeObs
101 -31,46 -53,24 LV NV
102 -31,12 -54,79 NV LV
103 -31,88 -54,15 RR RR

Medidas de qualidade das predições

  • Variáveis qualitativas
    • Pureza geral e por classe – quanto mais próximo de um, melhor
    • Kappa geral e por classe – quanto mais próximo de um, melhor
perfil latitude longitude classPred classeObs
101 -31,46 -53,24 LV NV
102 -31,12 -54,79 NV LV
103 -31,88 -54,15 RR RR

Vamos praticar!!!

Referências

Florinsky, I. V. 2012. “The Dokuchaev Hypothesis as a Basis for Predictive Digital Soil Mapping (on the 125th Anniversary of Its Publication).” Eurasian Soil Science 45: 445–51. https://doi.org/10.1134/S1064229312040047.

Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2009. The Elements of Statistical Learning. 2nd ed. New York: Springer.

Hengl, Tomislav, Jorge Mendes de Jesus, Robert A. MacMillan, Niels H. Batjes, Gerard B. M. Heuvelink, Eloi Ribeiro, Alessandro Samuel-Rosa, et al. 2014. “Soil Grids1km–Global Soil Information Based on Automated Mapping.” Edited by BenEditor Bond-Lamberty. PLoS ONE 9 (8): e105992. https://doi.org/10.1371/journal.pone.0105992.

Jenny, Hans. 1941. Factors of Soil Formation – a System of Quantitative Pedology. Toronto: Dover Publications.

McBratney, A. B., M. L. Mendonça-Santos, and B. Minasny. 2003. “On Digital Soil Mapping.” Geoderma 117: 3–52. https://doi.org/10.1016/S0016-7061(03)00223-4.

McKenzie, Neil J., and Philip J. Ryan. 1999. “Spatial Prediction of Soil Properties Using Environmental Correlation.” Geoderma 89: 67–94. https://doi.org/10.1016/S0016-7061(98)00137-2.

Samuel-Rosa, Alessandro. 2012. “Funções de Predição Espacial de Propriedades Do Solo.” Master’s thesis, Santa Maria: Programa de Pós-graduação em Ciência do Solo, Universidade Federal de Santa Maria; Federal University of Santa Maria. http://w3.ufsm.br/ppgcs/.

Samuel-Rosa, Alessandro, Gerard B M Heuvelink, Gustavo Mattos Vasques, and Lúcia Helena Cunha Anjos. 2015. “Do More Detailed Environmental Covariates Deliver More Accurate Soil Maps?” Geoderma 243–244 (May): 214–27. https://doi.org/10.1016/j.geoderma.2014.12.017.