Inhaltszusammenfassung:
Eine der wichtigsten diagnostischen Methoden, die den ärztlichen Entscheidungsprozess in der Geburtshilfe unterstützen, ist die Kardiotokographie. Diese Überwachungsmethode besteht aus der gleichzeitigen Ableitung der fetalen Herzaktion und der uterinen Kontraktionen sowie deren Darstellung in digitaler und Papierform.
Die Sensitivität der Methode ist mit 99% hoch, die Spezifität ist jedoch mit 77% niedrig. Die Einführung der peripartalen CTG-Überwachung anstelle der intermittierenden Auskultation hat zwar zu einer Senkung der Rate an neonatalen Krampfanfällen geführt, andere Faktoren wie die perinatale Mortalität, Geburtsazidose oder Zerebralparese blieben unverändert. Seit der Verbreitung kontinuierlicher CTG-Anwendungen in der Wehenphase wurde eine Steigerung der Rate an operativen Entbindungsmodi beobachtet.
Um die Effizienz der CTG-Anwendung zu verbessern, werden Möglichkeiten der automatisierten CTG-Auswertung erforscht, unter anderem das Oxford-CTG, das STAN-CTG und das INFANT-System. Für keines dieser Systeme konnte eine bessere als die ärztliche Leistungsfähigkeit in den randomisierten Studien für das Niedrigrisiko-Kollektiv bestätigt werden.
Ziel dieser Arbeit war der Aufbau eines auf KI-Methoden basierenden CTG-Auswertungssystems. Es wurden 1394 Fälle von Einlingsschwangerschaften der Patientinnen ausgewählt, die in den Jahren 2015-2021 in der Tübinger Klinik entbunden haben. Nach manueller Qualitätssicherung sind 18,9 % der Fälle ausgeschlossen worden und die endgültige Fallzahl betrug 1131. Die wichtigsten Ausschlusskriterien waren eine Signalverlustrate über 20% und eine fragliche Qualität der arteriellen Nabelschnur-pH-Probe. Ein 30-minütiger Ausschnitt des vorgeburtlichen CTG wurde für die Analyse verwendet. Die Patientendaten enthielten die wichtigsten und am häufigsten in der Geburtshilfe vorkommenden Risikofaktoren (siehe Kapitel 2.4).
Die Patientendaten wurden statistisch in Bezug auf den arteriellen Nabelschnur-pH-Wert untersucht. In der Gesamtpopulation wirkten die Faktoren Frühgeburt, Z.n.Sectio, hypertensive SS-Erkrankung, BMI > 30 oder Schätzgewicht unter 2.5kg protektiv auf den arteriellen Nabelschnur-pH-Wert. Die Mehrheit dieser Patientinnen (55-77 %) erhielt einen Kaiserschnitt. In der Subpopulation der 51 Patientinnen, die spontan entbunden haben, zeigte der Faktor "Z.n. Sectio" eine signifikante Rolle in der Senkung des arteriellen Nabelschnur-pH-Wertes (p value 0.04) und der Faktor "Übertragung des Termins über 41+3 SSW" eine Tendenz (p-value 0.08). Diese Subpopulation bildete den Geburtsstress für den Fetus besser ab.
Es wurde ein KI-Modell erstellt, dessen Aufgabe es war, die Kardiotokogramme dem pH-Bereich zuzuordnen. Der Cut-off-Wert betrug 7.2. Zum Aufbau des Modells wurde ein CNN benutzt. Die erste Analyse ergab eine Leistungsfähigkeit des Algorithmus von 0.68 AUC. Der AUC-Zielwert in künstlicher Intelligenz ist größer als 0.7.
Bei der Konstruktion des Modells sind zwei Eigenschaften der Datenbank aufgefallen. Zum einen beinhaltete die Subgruppe der Sectio-CTG ein Muster, das einer Pause in der Ableitung bei der präoperativen Vorbereitung der Patientin entsprach. Zum anderen unterschieden sich die beiden Subgruppen signifikant, was den durchschnittlichen pH-Wert angeht (7.21 in der SG-Gruppe, 7.27 in der Sectio-Gruppe).
Die separate Analyse der Subgruppe spontaner Geburten ergab eine Leistungsfähigkeit des Algorithmus von 0.57 AUC. Dieses Phänomen wird in der Literatur als Clever-Hans-Phänomen bezeichnet, und es bedeutet, dass das Modell anhand falscher Assoziationen gelernt hat. Obwohl die statistische Analyse einen signifikanten Einfluss der Patientendaten auf den Nabelschnur-pH-Wert ergab, verbesserte die Eingabe dieser Daten in das KI-Modell dessen Leistungsfähigkeit lediglich um 0.01 AUC.
Die in dieser Arbeit erstellte Datenbank (1097 Fälle) enthält eine durchschnittliche Rate an pathologischen Fällen: 0,6 % schweren Azidosen mit einem pH-Wert unter 7.05. Nach Eingabe von weiteren 34 extrem pathologischen Fällen wuchs diese Rate auf 3.6 % und die Leistungsfähigkeit des Modells verbesserte sich auf 0.6 AUC. Die vorherigen Studien der anderen Arbeitsgruppen basierten auf Datenbanken mit einem überdurchschnittlichen Anteil an Pathologien und hatten entsprechend hohe Ergebnisse. Diese Arbeit unterstreicht die Wichtigkeit der Validation eines Modells auf einer Datenbank, die einem realen Kollektiv entspricht.
Deep Learning ist ein Wissensgebiet, das in den letzten zehn Jahren eine größte Entwicklung erlebt hat. Weitere Forschung im Thema CTG-Auswertung mit KI-Methoden sind daher wünschenswert.