KI und Datenschutz (II)

(Wiederholung) Zusammenfassung Überwachungswirtschaft

privatwirtschaftliche Überwachung entsteht (nach Zuboff: Surveillance Capitalism) aus

Bsp: Walmart buying TV-brand Vizio for its ad-fueling customer data, (Scharon Harding, 20. Febr. 2024, Ars Technica) https://arstechnica.com/gadgets/2024/02/walmart-buying-tv-brand-vizio-for-its-ad-fueling-customer-data/

Walmart announced an agreement to buy Vizio today. Irvine, California-based Vizio is best known for lower-priced TVs, but its real value to Walmart is its advertising business and access to user data.

Überwachungswirtschaft und staatliches Handeln

Bsp: Clearview AI aims to put almost every human in facial recognition database (Jon Brodkin, Febr. 2022) https://arstechnica.com/tech-policy/2022/02/clearview-ai-aims-to-put-almost-every-human-in-facial-recognition-database/

Bsp: Spain tells Sam Altman, Worldcoin to shut down its eyeball-scanning orbs (George Hammond et al., Financial Times, 3. Juni 2024) https://arstechnica.com/tech-policy/2024/03/spain-tells-sam-altman-worldcoin-to-shut-down-its-eyeball-scanning-orbs/

Sprachmodelle (Definition, erhoffte Anwendung)

Def: Sprachmodell ist eine verlustbehaftete Repräsentation von Rohdaten (Texten).

Anwendung: Bestimmung der (bzgl. Rohdaten) wahrscheinlichsten Fortsetzung eines Anfragetextes (Prompt).

Technik von Sprachmodellen

das grundsätzliche Modell:

Bsp: Implementierung https://git.imn.htwk-leipzig.de/waldmann/ki-ss23/-/tree/main/markov

Modell ergänzt durch:

ausführlich siehe VL KI (Master) SS 23 https://www.imn.htwk-leipzig.de/~waldmann/edu/ss23/ki/folien/#(113)

und dort angegebene Quellen , insbesondere Nelson Elhage et al.: A Mathematical Framework for Transformer Circuits, 2021. https://transformer-circuits.pub/2021/framework/

Falsche Tatsachenbehauptungen von Sprachmodellen

Ausgabetexte können plausibel klingen, sind aber nicht “wahr” (das Modell hat gar keinen Wahrheitsbegriff), auch wenn sie wie Tatsachenbehauptungen, Quellenangaben oder logische Herleitungen aussehen.

Das wird zu einem Problem, wenn der Leser diese Eigenschaft nicht kennt, z.B. weil der Anbieter sie verschweigt und gerade dadurch das Angebot erst attraktiv erscheint.

Bsp: New York lawyers sanctioned for using fake ChatGPT cases in legal brief (Sara Merken, Reuters, 26. Juni 2023) https://www.reuters.com/legal/new-york-lawyers-sanctioned-using-fake-chatgpt-cases-legal-brief-2023-06-22/

Bsp: chatgpt behauptet das Geburtsdatum einer Person NOYB Wien, Beschwerde gegen OpenAI vom bei der Österreichischen Datenschutzbehörde https://noyb.eu/en/chatgpt-provides-false-information-about-people-and-openai-cant-correct-it

Schlechte und weiter abnehmende Qualität der Rohdaten

Verkauf und illegale Benutzung von guten Rohdaten

Rekonstruktion von Bestandteilen von Rohdaten

Durch geeignete Gestaltung von Prompts kann man erreichen, daß Ausschnitte von Rohdaten ausgeben werden.

Personal Information Exploit With OpenAI’s ChatGPT Model Raises Privacy Concerns, (Jeremy White, NYT, Dez. 2023) https://www.nytimes.com/interactive/2023/12/22/technology/openai-chatgpt-privacy-exploit.html

Milad Nasr et al., Extracting Training Data from ChatGPT, 28. Nov. 2023 https://arxiv.org/abs/2311.17035 https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html

Preisgabe von Geheimnissen in Prompts

es ist anzunehmen, daß Dienstanbieter die Prompts der Anwender speichern (über die eigentliche Anfrage hinaus)

das könnte zunächst der Dokumentation und Qualitätskontrolle dienen,

aber sicher können die Prompts auch Teil der Rohdaten für das nächste Sprachmodell sein. (wie immer: die Daten liegen vor, also besteht Anreiz, sie auch wirtschaftlich zu verwerten)

wer also im Prompt Firmengeheimnisse oder personenbezogene Daten preisgibt (eigene, von dritten), muß damit rechnen, daß diese veröffentlicht werden.

Deswegen ist ein Verwendung von Dritt-Anbietern für Texterzeugung für Unternehmensdokumentation oder Personaldokumente völlig ausgeschlossen.

Politische Regelung der “KI” - UN

Politische Regelung der “KI” - EU

Politische Regelung der “KI” - DE

Bundesforschungsministerin Stark-Watzinger hat dazu aufgerufen, die Potenziale Künstlicher Intelligenz insbesondere für Bildung, Forschung und Wirtschaft zu heben. KI brauche klare Regeln, sie dürfe aber nicht dämonisiert werden, so die Ministerin bei der Vorstellung des KI-Aktionsplans. Dieser sieht bis 2025 Investitionen von mehr als 1,6 Milliarden Euro vor.

… in besonderem Maße das Bildungsystem … KI-unterstützte Prüfungsformate

Inbesondere denke ich, daß die semantische Bewertung der Einsendungen das System tatsächlich resistent macht gegen Betrugsversuche mit derzeitiger “KI” (d.h., Textmodellen). Bsp:

Gesucht ist eine Ableitung mit genau 4 Reduce-Schritten , die
    (\ z -> (\ u -> z) ((\ u -> z) z)) ((\ z -> y) (\ z -> y)) (x x)
überführt in
    (\ u -> y) y (x x)
...
gelesen: 
[ Step 
    { position = [ ]
    , action = Reduce { formal = x, body = x, argument = \ x -> x } 
    }
, Step { position = [ 0 ], action = Rename { from = x, to = y } } 
]
...
Teilterm an Position [ ] ist
    (\ z -> z z) ((\ z -> y) (\ z -> (\ u -> u) y) x)
der formale Parameter ist nicht x

Probieren Sie das aus, schreiben Sie Bachelorarbeit darüber.

Andererseits - die Fehlermeldungen des autotool sind so ausführlich, daß man in einigen Fällen tatsächlich eine Korrelation zu der nötigen Korrektur der Eingabe herstellen könnte.

Trotzdem bleibt das Halteproblem unentscheidbar (Folgerung: keine “KI” kann jede Programmieraufgabe korrekt lösen)

und das aussagenlogische Erfüllbarkeitsproblem bleibt wohl noch außerhalb von P (deterministischer Polynomialzeit).