BIBLIOTECA

Abordagens de pré-processamento em águas subterrâneas baseadas em aprendizado automático para mapeamento de potencial: uma aplicação ao Koulikoro e regiões de Bamako, Mali

Resumo

Aprendizado automático – A água subterrânea é crucial para o abastecimento doméstico em Sahel (região do leste da Tunísia), onde a importância estratégica dos aquíferos aumentará nos próximos anos, devido às mudanças climáticas. O mapeamento do potencial das águas subterrâneas é uma ferramenta valiosa para sustentar a gestão da água na região e, assim, melhorar o consumo e o acesso à água. Este artigo apresenta um método de aprendizado automático (machine learning) para mapear o potencial das águas subterrâneas. Isso é ilustrado por meio de sua aplicação em duas regiões administrativas do Mali (país Africano). Em primeiro lugar, é desenvolvido um conjunto de variáveis ​ explicativas para a presença de águas subterrâneas. Métodos de dimensionamento (padronização, normalização, valor absoluto máximo e escala max-min) são usados para evitar as armadilhas associadas à reclassificação. Barulho, variáveis ​​colineares e contraproducentes são identificadas e excluídas do conjunto de dados de entrada. Um total de 20 classificadores de aprendizado automático são treinados e testados em um grande banco de dados (n = 3345) para encontrar correlações significativas entre a presença ou ausência de água subterrânea e as variáveis ​​explicativas. O valor absoluto máximo e a padronização provaram as técnicas de escalonamento mais eficientes, enquanto algoritmos baseados em árvore (precisão >0,85) superaram consistentemente outros classificadores. Os dados de vazão do poço foram então usado para calibrar os resultados além da máquina padrão métricas de aprendizagem, adicionando assim robustez às previsões. A parte sul da área de estudo apresenta a melhor perspectiva de águas subterrâneas, o que é consistente com o cenário geológico e climático. Os resultados levam a três grandes conclusões: (1) escolher os melhores desempenhos de um grande número de classificadores de aprendizado automático é recomendado como uma boa prática metodológica, (2) no aprendizado automático padrão as métricas devem ser complementadas com indicadores hidrogeológicos adicionais, sempre que possível e (3) escala variável contribui para minimizar o viés do especialista.

Introdução

Hoje, 2,5 bilhões de pessoas em todo o mundo dependem das águas subterrâneas para abastecimento doméstico (Grönwall e Danert, 2020). A água subterrânea é crucial em regiões áridas, como o Sahel, onde os aquíferos fornecem uma fonte permanente de água de boa qualidade durante os meses do ano em que as chuvas e as águas superficiais estão ausentes (Llamas e Martínez-Santos, 2005; Díaz-Alcaide et al., 2017). Em um contexto de mudança climática, com previsão de diminuição das chuvas e secas mais intensas (Arneth et al., 2019), os recursos hídricos subterrâneos serão cada vez mais confiáveis. Este pode ser o caso na zona rural do Mali, onde o acesso à água potável e ao saneamento é uma preocupação. Em 2017, apenas 68 % da população rural tinha acesso “pelo menos básico” à água potável, enquanto 24 % dependiam de fontes de água não melhoradas, como nascentes e poços desprotegidos (UNICEF/OMS, 2019).

O mapeamento do potencial das águas subterrâneas (GPM sigla em inglês para Groundwater potential mapping) é reconhecido como uma ferramenta valiosa para apoiar o planejamento e a exploração dos recursos hídricos subterrâneos (Elbeih, 2015). Não existe um consenso universal sobre o que significa o potencial das águas subterrâneas. Assim, o GPM pode consistir em desenvolver estimativas espaciais de armazenamento de água subterrânea em uma determinada região, medindo a probabilidade de encontrar água subterrânea ou prevendo onde podem ocorrer os maiores rendimentos de poços (Díaz-Alcaide e Martínez-Santos, 2019). Os últimos anos testemunharam um interesse crescente em estudos de potencial de águas subterrâneas em toda a África, em grande parte como resultado da necessidade de alcançar o Objetivo de Desenvolvimento Sustentável 6. A maioria desses estudos depende de uma combinação de sensoriamento remoto, sistemas de informação geográfica e geofísica (Delgado, 2018 ; Adeyeye et al., 2019; Magaia et al., 2018; Mpofu et al., 2020; Owolabi et al., 2020; Saadi et al., 2021; Al-Djazouli et al., 2021), enquanto outros interpretam diretamente a informação das bases de dados de poços (Díaz-Alcaide et al., 2017).

Existem duas abordagens principais para o GPM, ou seja, sistemas de decisão baseados em especialistas e métodos de aprendizado de máquina. Técnicas baseadas em especialistas são usadas há muito tempo (DEP, 1993) e incluem abordagens de fatores multi-influenciadores (Magesh et al., 2012; Nasir et al., 2018; Martín-Loeches et al., 2018), hierarquia analítica processos (Mohammadi-Behzad et al., 2019; Al-Djazouli et al., 2021) e modelos Dempster-Shafer (Mogaji e Lim, 2018; Obeidavi et al., 2021). Outros métodos de especialistas frequentemente usados ​​são o peso da evidência e a análise da razão de frequência (Falah e Zeinivand, 2019; Boughariou et al., 2021). O aprendizado automático é comparativamente mais recente. Uma grande diferença entre as abordagens de aprendizado automático e de especialistas é que, a classificação de aprendizado automático usa as vantagens da inteligência artificial para encontrar associações intrinsecas entre variáveis ​​explicativas que, de outra forma, poderiam passar despercebidas. Portanto, o aprendizado automático é adequado para mapear variáveis ​​complexas espacialmente distribuídas, como a ocorrência de águas subterrâneas. A literatura GPM apresenta uma ampla variedade de abordagens de classificação supervisionada. Por exemplo, Al-Fugara et al. (2020) usaram análise discriminante mista para mapear o potencial de nascentes em uma bacia hidrográfica da Jordânia, assim como Odzemir (2011) mapeou o potencial de nascentes em uma bacia turca por meio de um método de regressão logística. As florestas aleatórias provaram ser capazes de mapear o potencial das águas subterrâneas, tanto em aquíferos rochosos de montanha (Moghaddam et al., 2020) quanto em grandes bacias metassedimentares (Martínez-Santos e Renard, 2020). Outros métodos de classificação supervisionada usados ​​no campo do GPM incluem árvores de regressão impulsionadas (Naghibi et al., 2016), máquinas de vetor de suporte (Naghibi et al., 2017b), redes neurais (Lee et al., 2012; Panahi et al., 2020) e métodos de conjunto (Naghibi et al., 2017a; Martínez-Santos e Renard, 2020; Nguyen et al., 2020b).

O GPM baseia-se na suposição de que a ocorrência de águas subterrâneas pode ser parcialmente inferida a partir de características de superfície. Algumas das variáveis ​​explicativas mais frequentemente utilizadas em estudos de GPM incluem litologia, lineamentos geológicos, formas de relevo, topografia, solo, uso/cobertura do solo, drenagem e variáveis ​​relacionadas à inclinação, precipitação e índices de vegetação (Jha et al., 2007). Algoritmos de classificação supervisionada são treinados para encontrar as associações entre essas variáveis ​​e dados conhecidos de águas subterrâneas. Uma vez que os algoritmos produzem previsões precisas, suas descobertas são extrapoladas para estimar o potencial das águas subterrâneas em uma determinada área de estudo.

A maioria dos estudos de GPM de aprendizado automático enfrenta duas grandes deficiências. Primeiro, como o número de furos disponíveis para treinar e testar os algoritmos é geralmente “pequeno” e o número de variáveis ​​explicativas pode ser comparativamente alto, uma questão crucial é como reclassificar as variáveis ​​explicativas para minimizar o ruído e diminuir a variabilidade de cada fator condicionante . Em última análise, variáveis ​​categóricas e contínuas precisam ser reclassificadas como números inteiros ou em intervalos. Como a reclassificação depende muito do operador, isso implica que o viés pode ser incorporado desde o início (Martínez-Santos e Renard, 2020).

Um segundo problema é que os resultados dos estudos de aprendizado automático são quase invariavelmente avaliados por meio de métricas padrão de big data, como precisão, recall e área sob a curva característica de operação do receptor (Pradhan, 2013; Naghibi et al., 2016; Chen et al. al., 2019). Embora úteis, eles podem ser de valor limitado nos casos em que o conjunto de dados de entrada consiste apenas em exemplos inequívocos. Além disso, há dúvidas sobre se essas métricas são realmente representativas no desenvolvimento de estimativas espacialmente distribuídas (Martínez-Santos et al., 2021a). Em alguns casos, o uso de elementos de calibração ad hoc, como informações complementares de poço, pode contribuir para uma melhor interpretação dos resultados.

O objetivo desta pesquisa é aproveitar a literatura existente, apresentando duas adições metodológicas ao GPM de aprendizado automático. Primeiro, exploramos diferentes métodos de escalonamento para evitar as armadilhas associadas à reclassificação de variáveis ​​explicativas; mais especificamente, comparamos várias abordagens automatizadas para dimensionamento de dados, incluindo padronização, normalização, valor absoluto máximo e otimização max-min (Pedregosa et al., 2011).  A segunda novidade tem a ver com a forma como são avaliados os resultados desta investigação. Nesse contexto, as taxas de fluxo de poço são usadas como um meio para complementar as métricas padrão de aprendizado de máquina, fornecendo assim robustez adicional às previsões. O nosso método está descrito na Fig. 1 e é demonstrado através da sua aplicação para mapear o potencial das águas subterrâneas em duas regiões do Mali. A configuração geográfica também representa um valor agregado para a literatura porque há consideravelmente menos estudos de aprendizado de máquina na África do que em outros continentes (Naghibi et al., 2017a; Chen et al., 2018; Panahi et al., 2020).

Autores: Víctor Gómez-Escalonilla, Pedro Martínez-Santos e Miguel Martín-Loeches.

Traduzido por: Jaqueline Morinelli

 aprendizado automático


LEIA TAMBÉM: ESTUDO DE CASO DO REÚSO DE ÁGUA COMO UMA ALTERNATIVA À ESCASSEZ HÍDRICA EM UMA INDÚSTRIA PETROQUÍMICA

ÚLTIMOS ARTIGOS: