Über 350.000 Gesundheits-Apps bevölkern heute die App-Stores von Apple und Google. Millionen Menschen nutzen täglich Anwendungen wie MyFitnessPal, Strava oder Samsung Health, um ihre Schritte zu zählen, Kalorien zu tracken oder Trainingspläne zu verfolgen. Doch eine aktuelle systematische Übersichtsarbeit im renommierten Journal “JMIR mHealth and uHealth” stellt eine unbequeme Frage: Haben wir eigentlich wissenschaftlich fundierte Belege dafür, dass diese Apps gesunden Erwachsenen tatsächlich helfen? Die Antwort ist überraschend ernüchternd.
Hintergrund und Kontext
Mobile Gesundheits-Apps – auch mHealth genannt – gelten als eine der vielversprechendsten Entwicklungen im Gesundheitswesen der letzten Jahre. Der Begriff “mHealth” steht für “mobile Health” und umfasst alle Anwendungen mobiler Technologien zur Gesundheitsförderung und medizinischen Versorgung. Die Grundidee ist bestechend einfach: Warum nicht das Smartphone, das ohnehin fast jeder bei sich trägt, nutzen, um Menschen dabei zu helfen, gesünder zu leben?
Die theoretischen Vorteile liegen auf der Hand. Apps können rund um die Uhr verfügbar sein, personalisierte Rückmeldungen geben, Fortschritte visualisieren und durch Gamification-Elemente – also spielerische Belohnungssysteme – die Motivation aufrechterhalten. Sie könnten besonders wertvoll für die Primärprävention sein, also die Verhinderung von Krankheiten bei noch gesunden Menschen. Statt zu warten, bis chronische Erkrankungen wie Diabetes oder Herz-Kreislauf-Probleme auftreten, könnten Apps Menschen schon frühzeitig zu mehr Bewegung, besserer Ernährung und insgesamt gesünderen Gewohnheiten motivieren.
Bisherige Forschung hat sich oft auf Menschen mit bereits bestehenden Gesundheitsproblemen konzentriert – etwa Diabetiker, die ihre Blutzuckerwerte überwachen, oder Herzpatienten, die ihre körperliche Aktivität steigern sollen. Für diese Gruppen gibt es durchaus vielversprechende Studienergebnisse. Doch wie sieht es bei gesunden Erwachsenen aus? Können Apps auch bei Menschen ohne Vorerkrankungen messbare Verbesserungen von Gesundheitsparametern bewirken? Diese Frage ist besonders relevant, weil Millionen von Menschen genau in diese Kategorie fallen und täglich Gesundheits-Apps nutzen – oft ohne zu wissen, ob ihre Investment von Zeit und Aufmerksamkeit wissenschaftlich gerechtfertigt ist.
Der Markt für Gesundheits-Apps wächst exponentiell. Allein im Jahr 2023 wurden Gesundheits-Apps über 4,2 Milliarden Mal heruntergeladen. Gleichzeitig investieren Krankenkassen und Gesundheitssysteme zunehmend in digitale Präventionsprogramme, die oft auf mobilen Anwendungen basieren. Diese Entwicklung macht eine fundierte wissenschaftliche Bewertung der Wirksamkeit umso dringlicher.
Die Studie im Detail
Die vorliegende systematische Übersichtsarbeit, durchgeführt von einem internationalen Forscherteam, setzte sich ein ambitioniertes Ziel: Sie wollte die Wirksamkeit von mobilen Apps zur Verbesserung von Gesundheitsparametern bei gesunden Erwachsenen bewerten. Die Forscher suchten speziell nach Studien, die sich mit Apps zur Förderung körperlicher Aktivität, zur Verbesserung der Ernährung oder einer Kombination aus beiden beschäftigten.
Das Studiendesign war methodisch anspruchsvoll. Die Wissenschaftler durchsuchten systematisch drei große medizinische Datenbanken: Medline (über PubMed), die Cochrane Library-CENTRAL und Embase. Diese Datenbanken enthalten zusammen Millionen von wissenschaftlichen Publikationen und gelten als die wichtigsten Quellen für evidenzbasierte Medizin. Die Suche erfasste alle verfügbaren Studien bis Juni 2025.
Doch bereits die Einschlusskriterien zeigen, wie rigoros die Forscher vorgingen. Sie akzeptierten ausschließlich randomisierte kontrollierte Studien – den Goldstandard der klinischen Forschung. Diese Studien mussten eine von zwei sehr spezifischen Vergleichsarten aufweisen: Entweder wurde die gleiche Intervention einmal mit und einmal ohne mobile App durchgeführt, oder eine Behandlung mit App wurde mit derselben Behandlung ohne App verglichen. Das bedeutet, die Forscher wollten den isolierten Effekt der App-Nutzung messen, nicht den Gesamteffekt einer kompletten Lifestyle-Intervention.
Das Ergebnis war schockierend: Von den Tausenden von Studien, die initial gefunden wurden, erfüllten nur zwei die strengen Einschlusskriterien für Apps zur Förderung körperlicher Aktivität. Für Apps zur Ernährungsverbesserung oder kombinierte Ansätze fand sich keine einzige qualifizierte Studie. Diese beiden verbliebenen Studien zeigten zudem erhebliche methodische Mängel.
Die Forscher bewerteten die Qualität der beiden eingeschlossenen Studien mit dem Risk of Bias Tool 2.0, einem etablierten Instrument zur Bewertung der wissenschaftlichen Rigorosität. Das Ergebnis war ernüchternd: Beide Studien wiesen ein hohes Risiko für systematische Verzerrungen auf. Es gab mehrere fehlende Datenpunkte, Abweichungen von den ursprünglich geplanten Interventionen und andere methodische Schwächen, die die Aussagekraft der Ergebnisse stark einschränkten.
Zusätzlich verwendeten die Forscher das GRADE-System (Grading of Recommendations, Assessment, Development and Evaluation), um die Sicherheit der Evidenz zu bewerten. GRADE ist ein international anerkanntes System, das die Qualität wissenschaftlicher Evidenz in vier Kategorien einteilt: hoch, moderat, niedrig und sehr niedrig. Die beiden identifizierten Studien erreichten nur die Kategorie “niedrig”, was bedeutet, dass die Forscher wenig Vertrauen in die Genauigkeit der geschätzten Effekte haben.
So wurde die Studie durchgeführt
Eine systematische Übersichtsarbeit, auch systematisches Review genannt, ist eine der anspruchsvollsten Formen medizinischer Forschung. Anders als eine einzelne Studie, die ein spezifisches Experiment durchführt, sammelt und analysiert ein systematisches Review alle verfügbaren hochwertigen Studien zu einer bestimmten Fragestellung. Das Ziel ist es, ein umfassendes und möglichst unverzerrtes Bild der aktuellen Evidenz zu erstellen.
Der Prozess beginnt mit der Definition sehr präziser Forschungsfragen und Suchkriterien. Die Forscher entwickelten eine detaillierte Suchstrategie, die verschiedene Begriffskombinationen für mobile Apps, Gesundheitsparameter, körperliche Aktivität und Ernährung umfasste. Diese Suchstrategie wurde dann in den drei großen Datenbanken angewendet, wobei verschiedene Synonyme und medizinische Fachbegriffe berücksichtigt wurden.
Die gefundenen Studien durchliefen anschließend einen mehrstufigen Auswahlprozess. Zunächst wurden Titel und Abstracts aller gefundenen Arbeiten von mindestens zwei unabhängigen Gutachtern überprüft. Studien, die offensichtlich nicht relevant waren, wurden ausgeschlossen. Die verbliebenen Arbeiten wurden dann vollständig gelesen und erneut bewertet. Nur Studien, die alle Einschlusskriterien erfüllten und keine Ausschlusskriterien aufwiesen, kamen in die finale Analyse.
Ein entscheidendes Kriterium war der Studientyp: Nur randomisierte kontrollierte Studien (RCTs) wurden akzeptiert. RCTs gelten als Goldstandard, weil sie durch die zufällige Zuteilung der Teilnehmer zu verschiedenen Behandlungsgruppen systematische Verzerrungen minimieren. Zusätzlich mussten die Studien gesunde Erwachsene untersuchen – Menschen mit chronischen Krankheiten oder anderen Gesundheitsproblemen wurden ausgeschlossen.
Die Bewertung der Studienqualität erfolgte mit etablierten, international anerkannten Instrumenten. Das Risk of Bias Tool 2.0 bewertet verschiedene Aspekte einer Studie: Wie wurde die Randomisierung durchgeführt? Waren die Studienteilnehmer und Forscher verblindet? Gab es relevante Datenausfälle? Wurde selektiv über Ergebnisse berichtet? Jeder dieser Punkte wird systematisch bewertet und fließt in eine Gesamtbeurteilung der Studienqualität ein.
Das GRADE-System geht noch einen Schritt weiter und bewertet nicht nur einzelne Studien, sondern die gesamte verfügbare Evidenz zu einer Fragestellung. Es berücksichtigt Faktoren wie die Qualität der einzelnen Studien, die Konsistenz der Ergebnisse zwischen verschiedenen Studien, die Direktheit der Evidenz (wie gut passen die Studienergebnisse zur Forschungsfrage?) und die Präzision der Schätzungen.
Stärken der Studie
Die methodische Strenge dieser systematischen Übersichtsarbeit ist beeindruckend und stellt eine ihrer größten Stärken dar. Die Forscher hielten sich an die etablierten PRISMA-Richtlinien (Preferred Reporting Items for Systematic Reviews and Meta-Analyses), die international als Standard für die Durchführung und Berichterstattung systematischer Reviews gelten. Dies gewährleistet Transparenz und Reproduzierbarkeit ihrer Arbeit.
Besonders wertvoll ist der fokussierte Ansatz der Studie. Anstatt alle möglichen Gesundheits-Apps zu untersuchen, konzentrierten sich die Forscher gezielt auf gesunde Erwachsene und spezifische Interventionsbereiche: körperliche Aktivität, Ernährung und deren Kombination. Diese Präzision ist wichtig, weil verschiedene Populationen und Interventionsarten völlig unterschiedliche Wirksamkeitsprofile haben können.
Die Tatsache, dass nur randomisierte kontrollierte Studien eingeschlossen wurden, mag zunächst als Einschränkung erscheinen, ist aber tatsächlich eine methodische Stärke. Beobachtungsstudien oder nicht-kontrollierte Interventionsstudien können zwar interessante Hinweise liefern, sind aber anfällig für verschiedene Formen systematischer Verzerrungen. Menschen, die freiwillig Gesundheits-Apps nutzen, unterscheiden sich möglicherweise systematisch von denen, die es nicht tun – sie könnten grundsätzlich gesundheitsbewusster oder technikaffiner sein.
Die Verwendung mehrerer Datenbanken erhöht die Vollständigkeit der Literatursuche erheblich. Verschiedene Datenbanken haben unterschiedliche Schwerpunkte und erfassen teilweise verschiedene Zeitschriften. Die Kombination von Medline, Cochrane Library und Embase stellt sicher, dass auch weniger bekannte oder spezialisierte Publikationen nicht übersehen werden.
Ein weiterer Pluspunkt ist die transparente Berichterstattung über die strengen Bewertungskriterien und deren Anwendung. Die Forscher machten deutlich, warum sie bestimmte Studien ausgeschlossen haben und welche methodischen Standards sie angelegt haben. Diese Transparenz ermöglicht es anderen Wissenschaftlern, die Ergebnisse zu überprüfen und gegebenenfalls eigene Analysen mit modifizierten Kriterien durchzuführen.
Einschränkungen und Grenzen
Die Ergebnisse dieser systematischen Übersichtsarbeit müssen im Kontext ihrer Limitationen interpretiert werden, die teilweise erheblich sind und die praktische Anwendbarkeit der Schlussfolgerungen beeinträchtigen. Die vielleicht wichtigste Einschränkung liegt in den extrem strengen Einschlusskriterien, die zwar methodisch gerechtfertigt, aber möglicherweise zu restriktiv für die Realität des App-Einsatzes sind.
Die Forscher verlangten, dass Studien den isolierten Effekt der App-Nutzung messen – das bedeutet, sie wollten Vergleiche zwischen identischen Interventionen mit und ohne App-Komponente. In der Praxis werden Gesundheits-Apps aber selten als isoliertes Tool eingesetzt. Sie sind meist Teil umfassenderer Lifestyle-Interventionen, die gleichzeitig Beratung, Gruppensupport, Bildungsmaterialien und andere Komponenten beinhalten. Die strengen Kriterien schließen somit viele Studien aus, die durchaus relevante Erkenntnisse über die Wirksamkeit app-basierter Interventionen liefern könnten.
Ein weiteres Problem liegt in der Definition “gesunder Erwachsener”. Diese Kategorie ist in der Realität fließend – viele Menschen befinden sich in Graubereichen zwischen vollständiger Gesundheit und manifesten Krankheiten. Menschen mit Übergewicht, leicht erhöhten Blutdruckwerten oder beginnenden Stoffwechselveränderungen wurden möglicherweise ausgeschlossen, obwohl sie eine wichtige Zielgruppe für präventive App-Interventionen darstellen.
Die zeitliche Beschränkung der Literatursuche bis Juni 2025 ist theoretisch, da die Studie vermutlich früher durchgeführt wurde. Dennoch ist der sich schnell entwickelnde Bereich der Gesundheits-Apps besonders anfällig für Aktualitätsprobleme. Neue Studien erscheinen regelmäßig, und technologische Entwicklungen können die Wirksamkeit von Apps erheblich beeinflussen.
Die Qualitätsbewertung der beiden eingeschlossenen Studien offenbart ein grundsätzliches Problem in diesem Forschungsbereich: methodische Mängel in der Studiendurchführung. Hohe Ausfallraten, unzureichende Verblindung und Abweichungen von ursprünglich geplanten Interventionen sind in App-Studien häufig. Dies liegt teilweise an den praktischen Herausforderungen bei der Erforschung digitaler Interventionen – es ist beispielsweise schwierig, Teilnehmer zu verblinden, wenn sie aktiv eine App nutzen müssen.
Die Tatsache, dass keine Studien zu Ernährungs-Apps oder kombinierten Ansätzen gefunden wurden, ist besonders bedenklich. Ernährungs-Apps wie MyFitnessPal oder Noom haben Millionen von Nutzern, aber offenbar keine rigorose wissenschaftliche Evidenz für ihre Wirksamkeit bei gesunden Erwachsenen. Dies deutet auf eine erhebliche Lücke zwischen kommerzieller Verbreitung und wissenschaftlicher Validierung hin.
Was bedeutet das für Sie?
Die Ergebnisse dieser Studie bedeuten nicht, dass Gesundheits-Apps nutzlos sind oder
Quelle
Diese Zusammenfassung basiert auf: Mobile Apps to Improve Health Parameters in Healthy Adults: Systematic Review., veröffentlicht in JMIR mHealth and uHealth (2026).