Bundesgesundheitsminister Lauterbach sieht die Datennutzung im Medizinbereich als alternativlos. KI-Modelle will er dafür "mit synthetischen Daten durchspülen".
Ich stimme dir bei allem zu, aber woher kriegt Lauterbach so einen mächtigen Integrationstest für ein Konstrukt (große Sprachmodelle und ähnliche KIs), deren Indeterminismus ja die Herausforderung ist?
Wenn die jetzt erst einmal mit synthetischen Daten ein Model trainieren und dann die generierten Ausgaben testen wollen, dann muss man ja beweisen können, dass man jede Kombination bedacht hat. Es reicht ja nicht, einfach nur die Ausgabequalität zu erhöhen, was ja das ist wofür solche Test für LLMs geschrieben werden.
aber woher kriegt Lauterbach so einen mächtigen Integrationstest
Es reicht, wenn das in Ausschreibungstexten oder Verordnungen steht.
Wenn die jetzt erst einmal mit synthetischen Daten ein Model trainieren
Du stellst dir das zu kompliziert vor. Man trainiert nicht nur ein Modell, man testet ALLES komplett. Also z.B. auch die Datenweitergabe in die USA. Wenn dann jemand am anderen Ende private/geheime synthetische Daten extrahieren kann, ist nichts wichtiges verloren.
Abgesehen davon weiß momentan vermutlich kaum jemand, was konkret geplant ist. Dafür muss man vermutlich noch auf Konkretes warten. Das war ja nur eine Ankündigung bisher.
Ich rede hier über die KI selbst und nicht was mit den Daten vor der Eingabe bzw. nach der Ausgabe geschieht. Und da ist das Testen weder trivial noch lange nicht vollständig gelöst. Es einfach zu fordern hilft da wenig.
Daher muss mMn immer davon ausgegangen, dass solche KI es schafft Daten zu deanonymisieren. Entsprechend muss auch die Verantwortung für und Transparenz über deren Nutzung sowie der gesammelten Eingabedaten strikt reguliert werden, wovon wir ja auch noch weit entfernt sind.
Ich stimme dir bei allem zu, aber woher kriegt Lauterbach so einen mächtigen Integrationstest für ein Konstrukt (große Sprachmodelle und ähnliche KIs), deren Indeterminismus ja die Herausforderung ist?
Wenn die jetzt erst einmal mit synthetischen Daten ein Model trainieren und dann die generierten Ausgaben testen wollen, dann muss man ja beweisen können, dass man jede Kombination bedacht hat. Es reicht ja nicht, einfach nur die Ausgabequalität zu erhöhen, was ja das ist wofür solche Test für LLMs geschrieben werden.
Es reicht, wenn das in Ausschreibungstexten oder Verordnungen steht.
Du stellst dir das zu kompliziert vor. Man trainiert nicht nur ein Modell, man testet ALLES komplett. Also z.B. auch die Datenweitergabe in die USA. Wenn dann jemand am anderen Ende private/geheime synthetische Daten extrahieren kann, ist nichts wichtiges verloren.
Abgesehen davon weiß momentan vermutlich kaum jemand, was konkret geplant ist. Dafür muss man vermutlich noch auf Konkretes warten. Das war ja nur eine Ankündigung bisher.
Ich rede hier über die KI selbst und nicht was mit den Daten vor der Eingabe bzw. nach der Ausgabe geschieht. Und da ist das Testen weder trivial noch lange nicht vollständig gelöst. Es einfach zu fordern hilft da wenig.
Daher muss mMn immer davon ausgegangen, dass solche KI es schafft Daten zu deanonymisieren. Entsprechend muss auch die Verantwortung für und Transparenz über deren Nutzung sowie der gesammelten Eingabedaten strikt reguliert werden, wovon wir ja auch noch weit entfernt sind.
Das ist aber das einzig relevante. Ein Modell selbst enthält nie wirklich schützenswerte Daten im Sinne des Datenschutz.
Deswegen wird vorher getestet. Aber mit synthetischen Daten.
Da bin ich voll bei dir. Wird auch gemacht soweit das technisch machbar und sinnvoll ist.
Was würdest du vorschlagen, was über die EU Initiative hinaus geht?