Sampling design and machine learning optimization for the application of soil sensing data in digital soil mapping

DSpace Repository


Dateien:

URI: http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-67123
http://hdl.handle.net/10900/49834
Dokumentart: PhDThesis
Date: 2013
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Geographie, Geoökologie, Geowissenschaft
Advisor: Scholten, Thomas (Prof. Dr.)
Day of Oral Examination: 2013-02-08
DDC Classifikation: 550 - Earth sciences
Keywords: Bodenkartierung , Infrarotspektroskopie , Maschinelles Lernen , Chemometrie
Other Keywords: Bodenlandschaftsmodellierung , Stichprobenverfahren
Data mining , Digital soil mapping , Calibration sampling , Memory-based learning
License: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Order a printed copy: Print-on-Demand
Show full item record

Abstract:

 
The general aim of this thesis was to develop innovative methods to build and optimize empirical soil models based on soil sensing data. The combination of effective sampling schemes with geophysical sensing techniques is an active branch of soil scientific research. This approach aims to provide high resolution soil property data for flood forecasting and protection, agricultural management as well as for developing strategies to adapt to global climate change. This thesis comprises four manuscripts. The first two manuscripts are dedicated to calibration sampling strategies. Sampling design is crucial in predictive modeling, since all results and interpretation are based on the selected samples. Hence, the first manuscript investigates the effect of the calibration set size and the calibration sampling strategy on the generalization error of visible and near infrared (vis–NIR) models. Furthermore, a method useful for identifying the optimal sample set size necessary for calibrating vis–NIR models of soil attributes is developed. Within the context of digital soil mapping, the second manuscript focuses on a comparison of different calibration sampling strategies for building predictive models of soil properties based on soil sensing. An improved version of the well-known conditioned Latin hypercube sampling algorithm, which is proposed in this manuscript, outperforms other approaches. The third and fourth manuscripts are devoted to the development of novel methods and algorithms for dealing with large, heterogeneous and therefore complex soil sensing datasets. Generally in vis–NIR spectroscopy, there is a lack of methods for assessing the reliability of distance metrics for soil similarity analysis, required for building predictive models. In addition, the relationship between soil spectral similarity and soil compositional similarity has not been explored yet. For the third manuscript several distance metric algorithms for assessing the vis–NIR spectral similarity between soil samples are developed. The results show that some of the proposed algorithms outperform the standard methods signifi-cantly and adequately reflect the similarity in the compositional domain. The methods developed in the third manuscript are used in the fourth for developing an algorithm named spectrum based–learner (SBL). The SBL is inspired by memory–based learning (MBL). While a global target function may be very complex, MBL methods describe the target function as a collection of less complex local (or locally stable) approximations. The results presented in this manuscript show that in terms of predictive accuracy the SBL outperforms several other ma-chine learning algorithms, which are usually employed in soil sensing.
 
Ziel der vorliegenden Dissertation war die Entwicklung innovativer Ansätze zum Aufbau und zur Optimierung von Bodenprognosemodellen auf Basis geophysikalischer Naherkundungsdaten. Die Kombination effektiver Stichprobenverfahren mit geophysikalischen Naherkundungsverfahren stellt einen aktuellen Forschungszweig der Bodenkunde und der Geoinformatik dar, welcher kosteneffizient hochauflösende Bodeninformationen für die Anbauplanung, den Hochwasserschutz oder die Erarbeitung von notwendigen Anpassungen an den Klimawandel liefern kann. Die Arbeit umfasst vier Manuskripte. Die ersten beiden behandeln die Entwicklung und den Vergleich von Stichprobenverfahren zum Aufbau von Prognosemodellen. Stichprobenverfahren stellen ein zentrales Glied im Rahmen der Bodenlandschaftsmodellierung dar, da alle weiteren Ergebnisse und Interpretationen auf der Auswahl der Stichprobe basieren. Im ersten Manuskript werden daher die Auswirkungen des Stichprobenumfangs und des jeweiligen Stichprobenverfahrens im Hinblick auf die Generalisierungsleistung von Modellen auf Basis von vis–NIR Spektroskopiedaten untersucht. Des Weiteren wird eine neue Methode zur Identifizierung des optimalen Stichprobenumfangs vorgestellt. Das zweite Manuskript behandelt neben der Einführung einer verbesserten Version des Latin Hypercube Sampling-Algorithmus schwerpunktmäßig den Vergleich von Stichprobenverfahren zum Aufbau von Bodeneigenschaftsmodellen mit Hilfe quasi-kontinuierlicher geophysikalischer Feldmessungen. Das dritte und vierte Manuskript behandelt die Entwicklung neuer effizienter Modellierungsverfahren zur Bearbeitung großer, heterogener und komplexer vis–NIR Datensätze. In der vis–NIR Spektroskopie fehlen generell Ansätze zur Bewertung von Ähnlichkeitsmaßen, die die Grundlage für Prognosen darstellen. Darüber hinaus wurde der Zusammenhang zwischen der spektralen Ähnlichkeit und der Ähnlichkeit in der mineralischen und organischen Zusammensetzung der Böden bisher noch nicht untersucht. Im dritten Manuskript werden daher verschiedene Maße zur Abschätzung der spektralen Ähnlichkeit entwickelt und untersucht, die die Zusammensetzung des Boden adäquat widerspiegeln und im Vergleich bessere Ergebnisse als die bisher eingesetzten Standardmethoden liefern. Die vorgestellten Methoden dienen in der vierten Publikation der Entwicklung des sogenannten Spectrum-Based-Learner-Algorithmus (SBL). Hierbei handelt es sich um einen neuen leistungsfähigen Prognose-Algorithmus. Der SBL beruht auf der memory-based learning-Methode (MBL) und berücksichtigt auch die Ähnlichkeit in der Zusammensetzung der Böden. Dabei werden im Vergleich zu globalen Regressionsmodellen, viele jedoch weniger komplexe, lokaler Modelle erstellt. Die Ergebnisse zeigen, dass der SBL-Algorithmus anderen Regressionsverfahren überlegen ist.
 

This item appears in the following Collection(s)