Bundesgesundheitsminister Lauterbach sieht die Datennutzung im Medizinbereich als alternativlos. KI-Modelle will er dafür "mit synthetischen Daten durchspülen".
Damit meint er, dass die Systeme mit dummy daten auf Datensicherheit geprüft werden sollen. Also ein Testbetrieb, der momentan so gut wie nie in der fertigen Integration stattfindet.
So kann man vorher schon prüfen, ob irgendwo doch noch private/deanonymisierbare Daten leaken, ohne dass es - wie in der Vergangenheit - echte Daten sind.
Klingt für mich erstmal wie sinnvolle Anwendung von vorhandener best-practice.
Klingt, als ob er einen Haufen Dummy Daten reingeben will.
Zum Training ist das Schrott und beschädigt das Model.
Für Ergebnisse ist es einfach sinnlos.
Relevant ist unter anderem, ob der Anbieter vertrauenswürdig ist und wie weit man die Daten anonymisieren kann.
Bei Gesundheitsdaten dürfte da trotzdem für jeden ein eindeutiger Fußabdruck entstehen.
Klingt, als ob er einen Haufen Dummy Daten reingeben will.
Zum Training ist das Schrott und beschädigt das Model.
Für Ergebnisse ist es einfach sinnlos.
So habe ich es eben auch verstanden. Mir ist der Sinn dahinter nicht so ganz klar… Aber wäre ja auch komisch, wenn ein journalistischer Artikel mal tiefer auf solche Dinge eingehen würde.
So wie ich das verstanden habe (aber natürlich keinerlei Garantie dass das wirklich so gemeint war, insgesamt halt ein bisschen ein Schrottartikel) ist, wie auch andere hier schon vermutet haben, dass es nicht um‘s Training geht sondern einen Testbetrieb. Haufenweise Fake-Daten rein und dann schauen ob die nicht ungewollt an anderer Stelle sichtbar werden.
Ich verstehe sowieso überhaupt erstmal gar nicht, was er mit “durchspülen” meint. Wie sieht die Praxis dahinter aus und wie soll das helfen?
Damit meint er, dass die Systeme mit dummy daten auf Datensicherheit geprüft werden sollen. Also ein Testbetrieb, der momentan so gut wie nie in der fertigen Integration stattfindet.
So kann man vorher schon prüfen, ob irgendwo doch noch private/deanonymisierbare Daten leaken, ohne dass es - wie in der Vergangenheit - echte Daten sind.
Klingt für mich erstmal wie sinnvolle Anwendung von vorhandener best-practice.
Klingt, als ob er einen Haufen Dummy Daten reingeben will.
Zum Training ist das Schrott und beschädigt das Model.
Für Ergebnisse ist es einfach sinnlos.
Relevant ist unter anderem, ob der Anbieter vertrauenswürdig ist und wie weit man die Daten anonymisieren kann. Bei Gesundheitsdaten dürfte da trotzdem für jeden ein eindeutiger Fußabdruck entstehen.
So habe ich es eben auch verstanden. Mir ist der Sinn dahinter nicht so ganz klar… Aber wäre ja auch komisch, wenn ein journalistischer Artikel mal tiefer auf solche Dinge eingehen würde.
So wie ich das verstanden habe (aber natürlich keinerlei Garantie dass das wirklich so gemeint war, insgesamt halt ein bisschen ein Schrottartikel) ist, wie auch andere hier schon vermutet haben, dass es nicht um‘s Training geht sondern einen Testbetrieb. Haufenweise Fake-Daten rein und dann schauen ob die nicht ungewollt an anderer Stelle sichtbar werden.