privatwirtschaftliche Überwachung entsteht (nach Zuboff: Surveillance Capitalism) aus
Bsp: Walmart buying TV-brand Vizio for its ad-fueling customer data, (Scharon Harding, 20. Febr. 2024, Ars Technica) https://arstechnica.com/gadgets/2024/02/walmart-buying-tv-brand-vizio-for-its-ad-fueling-customer-data/
Walmart announced an agreement to buy Vizio today. Irvine, California-based Vizio is best known for lower-priced TVs, but its real value to Walmart is its advertising business and access to user data.
Beeinflussung des staatlichen Handelns, (d.h., des Gesetzgebungsprozesses, d.h., der Abgeordneten, der Wähler) im Interesse der Ü-Wirtschaft
Bsp: Beschwerde von NOYB Europ. Zentrum für digitale Rechte, Wien, gegen: Bildungsministerium Österreich, Microsoft, vom 4. Juni 2024 https://noyb.eu/en/microsoft-violates-childrens-privacy-blames-your-local-school
Direkte Überwachung der Bürger durch den Staat ist in demokratischen Gesellschaften eingeschränkt (durch Gesetze) und überprüfbar (durch unabhängige Gerichte)
Staat kann indirekt überwachen durch Zugriff auf Daten, die von der privaten Überwachungswirtschaft gesammelt wurden
Bsp: Electronic Privacy Information Center: EPIC Seeks ODNI-Led Report on Government Data Purchases, 29. März 2023 https://epic.org/epic-seeks-odni-led-report-on-government-data-purchases/
der Unternehmenszweck kann genau dieser Verkauf an den Staat sein
Bsp: Clearview AI aims to put almost every human in facial recognition database (Jon Brodkin, Febr. 2022) https://arstechnica.com/tech-policy/2022/02/clearview-ai-aims-to-put-almost-every-human-in-facial-recognition-database/
Bsp: Spain tells Sam Altman, Worldcoin to shut down its eyeball-scanning orbs (George Hammond et al., Financial Times, 3. Juni 2024) https://arstechnica.com/tech-policy/2024/03/spain-tells-sam-altman-worldcoin-to-shut-down-its-eyeball-scanning-orbs/
Def: Sprachmodell ist eine verlustbehaftete Repräsentation von Rohdaten (Texten).
Anwendung: Bestimmung der (bzgl. Rohdaten) wahrscheinlichsten Fortsetzung eines Anfragetextes (Prompt).
das grundsätzliche Modell:
Bsp: Implementierung https://git.imn.htwk-leipzig.de/waldmann/ki-ss23/-/tree/main/markov
Modell ergänzt durch:
ausführlich siehe VL KI (Master) SS 23 https://www.imn.htwk-leipzig.de/~waldmann/edu/ss23/ki/folien/#(113)
und dort angegebene Quellen , insbesondere Nelson Elhage et al.: A Mathematical Framework for Transformer Circuits, 2021. https://transformer-circuits.pub/2021/framework/
Ausgabetexte können plausibel klingen, sind aber nicht “wahr” (das Modell hat gar keinen Wahrheitsbegriff), auch wenn sie wie Tatsachenbehauptungen, Quellenangaben oder logische Herleitungen aussehen.
Das wird zu einem Problem, wenn der Leser diese Eigenschaft nicht kennt, z.B. weil der Anbieter sie verschweigt und gerade dadurch das Angebot erst attraktiv erscheint.
Bsp: New York lawyers sanctioned for using fake ChatGPT cases in legal brief (Sara Merken, Reuters, 26. Juni 2023) https://www.reuters.com/legal/new-york-lawyers-sanctioned-using-fake-chatgpt-cases-legal-brief-2023-06-22/
Bsp: chatgpt behauptet das Geburtsdatum einer Person NOYB Wien, Beschwerde gegen OpenAI vom bei der Österreichischen Datenschutzbehörde https://noyb.eu/en/chatgpt-provides-false-information-about-people-and-openai-cant-correct-it
Rohdaten sind Texte von Webseiten,
dort steht schon bisher nicht viel vernünftiges, sondern im wesentlichen SEO-Spam.
Dieser Spam wird nun ergänzt durch Texte, die mittels Sprachmodellen erzeugt wurden.
.. kann man diese erkennen (und ausschließen aus Rohdaten)?
Es gibt Unternehmen, die (z.B. den Hochschulen) Dienste zur “KI-Erkennung” (in schriftlichen Prüfungsarbeiten) anbieten.
Das kann nicht gutgehen: mit genau den Methoden, nach denen die Fälschung erkannt werden soll, könnte man stattdessen auch eine bessere Fälschung herstellen.
Eine clevere Firma würde beides verkaufen (das eine an die Prüfungsbehörde, das andere an die Prüflinge)
ein sachlich guter Text ist ein solcher, der von Experten geschrieben wurde und objekte editorische und inhaltliche Begutachtung durchlaufen hat (peer review).
solche Texte sind wertvoll: ihre Nutzungsrechte werden teuer verkauft.
Bsp: (schon seit Jahrzehten) Verkauf an den Staat, der bereits die Arbeitszeit der Wissenschaftler zur Herstellung und Begutachtung der Publikationen bezahlt hat, vgl. Tim Gowers, Scott Aaronson et al., The Cost Of Knowledge, 2012 https://gowers.wordpress.com/2012/01/21/elsevier-my-part-in-its-downfall/ http://thecostofknowledge.com/
Bsp: Your posts are the product — Reddit cashes in on AI gold rush with $203M in LLM training license fees (Kyle Orland, Ars Technica 23. Febr. 2024) https://arstechnica.com/ai/2024/02/reddit-has-already-booked-203m-in-revenue-licensing-data-for-ai-training/
… Google had agreed to license Reddit’s massive corpus of billions of posts and comments to help train its large language models.
diesen hohen Preis will nicht jedes KI-Startup zahlen.
Bsp: The New York Times prohibits using its content to train AI models (Jess Weatherbed, 14. Auf. 2023, The Verge)
NYT updated its Terms of Service on August 3rd to prohibit its content — inclusive of text, photographs, images, audio/video clips, “look and feel,” metadata, or compilations — from being used in the development of “any software program, including, but not limited to, training a machine learning or artificial intelligence (AI) system.”
Bsp: Declaration of AI Training Opt Out, SONY Music, 16. Mai 2024, https://www.sonymusic.com/sonymusic/declaration-of-ai-training-opt-out/
– opts out of any text or data mining, web scraping or similar reproductions, extractions or uses (“TDM”) of any SME and/or SMP content (including, without limitation, musical compositions, lyrics, audio recordings, audiovisual recordings, artwork, images, data, etc.) for any purposes, including in relation to training, developing or commercializing any AI system, …
Deswegen Klassifizierung/Bereiningung von Rohdaten durch menschliche Arbeiter.
Bsp: How Indian tech companies are carrying out data cleansing for AI, (Suparna Goswami, IndiAI, 19. März 2020) https://indiaai.gov.in/article/how-indian-tech-companies-are-carrying-out-data-cleansing-for-ai
Vgl. Amazon’s Just Walk Out technology relies on hundreds of workers in India watching you shop (Alex Bitter, Business Insider, 3. April 2024) https://www.businessinsider.com/amazons-just-walk-out-actually-1-000-people-in-india-2024-4
Sowie Zugriff auf Rohdaten, die das Unternehmen aus anderen Dienstleistungen gewinnt - und die andere nicht haben
Bsp: Slack under attack over sneaky AI training policy, (Ivan Mehta, Ingrid Lunden, Techcrunch, 17. Mai 2024) https://techcrunch.com/2024/05/17/slack-under-attack-over-sneaky-ai-training-policy/
The company (Slack), like many others, is tapping its own user data to train some of its new AI services. But, it turns out that if you don’t want Slack to use your data, you have to email the company to opt out.
Durch geeignete Gestaltung von Prompts kann man erreichen, daß Ausschnitte von Rohdaten ausgeben werden.
Personal Information Exploit With OpenAI’s ChatGPT Model Raises Privacy Concerns, (Jeremy White, NYT, Dez. 2023) https://www.nytimes.com/interactive/2023/12/22/technology/openai-chatgpt-privacy-exploit.html
Milad Nasr et al., Extracting Training Data from ChatGPT, 28. Nov. 2023 https://arxiv.org/abs/2311.17035 https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html
es ist anzunehmen, daß Dienstanbieter die Prompts der Anwender speichern (über die eigentliche Anfrage hinaus)
das könnte zunächst der Dokumentation und Qualitätskontrolle dienen,
aber sicher können die Prompts auch Teil der Rohdaten für das nächste Sprachmodell sein. (wie immer: die Daten liegen vor, also besteht Anreiz, sie auch wirtschaftlich zu verwerten)
wer also im Prompt Firmengeheimnisse oder personenbezogene Daten preisgibt (eigene, von dritten), muß damit rechnen, daß diese veröffentlicht werden.
Deswegen ist ein Verwendung von Dritt-Anbietern für Texterzeugung für Unternehmensdokumentation oder Personaldokumente völlig ausgeschlossen.
The UN General Assembly … adopted a landmark resolution on the promotion of “safe, secure and trustworthy” artificial intelligence (AI) systems
… opportunity and the responsibility of the international community “to govern this technology rather than let it govern us”.
https://undocs.org/A/78/L.49 https://news.un.org/en/story/2024/03/1147831
EU AI Act: first regulation on artificial intelligence, https://www.europarl.europa.eu/topics/en/article/20230601STO93804/eu-ai-act-first-regulation-on-artificial-intelligence 19. Dez. 2023
https://www.europarl.europa.eu/doceo/document/TA-9-2024-0138_EN.html
Art 8(2) … providers shall be responsible for ensuring that their product is fully compliant with all applicable requirements.
Art 10(2) Training, validation and testing data sets shall be subject to data governance and management practices …
Art 50 (3) Deployers of an emotion recognition system or a biometric categorisation system shall inform the natural persons exposed thereto of the operation of the system, and shall process the personal data in accordance with Regulations (EU) 2016/679
Art 86 (1) Any affected person subject to a decision which is taken by the deployer on the basis of the output from a high-risk AI system … and which produces legal effects or similarly significantly affects that person in a way that they consider to have an adverse impact on their health, safety or fundamental rights shall have the right to obtain from the deployer clear and meaningful explanations of the role of the AI system in the decision-making procedure and the main elements of the decision taken.
Art 99(3) Non-compliance with the prohibition of the AI practices referred to in Article 5 shall be subject to administrative fines of up to 35 000 000 EUR or, if the offender is an undertaking, up to 7 % of its total worldwide annual turnover for the preceding financial year, whichever is higher.
Nationale Strategie für Künstliche Intelligenz (Bundesregierung, 2018) https://www.ki-strategie-deutschland.de/
NB: beachte dort: “Definitionen, Begriffbestimmung KI, 1. Deduktionssysteme, maschinelles Beweisen”.
KI-Aktionsplan des Bundesforschungsministeriums (7. Nov. 2023) https://www.bundesregierung.de/breg-de/themen/digitalisierung/kuenstliche-intelligenz/aktionsplan-kuenstliche-intelligenz-2215658
Bundesforschungsministerin Stark-Watzinger hat dazu aufgerufen, die Potenziale Künstlicher Intelligenz insbesondere für Bildung, Forschung und Wirtschaft zu heben. KI brauche klare Regeln, sie dürfe aber nicht dämonisiert werden, so die Ministerin bei der Vorstellung des KI-Aktionsplans. Dieser sieht bis 2025 Investitionen von mehr als 1,6 Milliarden Euro vor.
… in besonderem Maße das Bildungsystem … KI-unterstützte Prüfungsformate
Inbesondere denke ich, daß die semantische Bewertung der Einsendungen das System tatsächlich resistent macht gegen Betrugsversuche mit derzeitiger “KI” (d.h., Textmodellen). Bsp:
Gesucht ist eine Ableitung mit genau 4 Reduce-Schritten , die
(\ z -> (\ u -> z) ((\ u -> z) z)) ((\ z -> y) (\ z -> y)) (x x)
überführt in
(\ u -> y) y (x x)
...
gelesen:
[ Step
{ position = [ ]
, action = Reduce { formal = x, body = x, argument = \ x -> x }
}
, Step { position = [ 0 ], action = Rename { from = x, to = y } }
]
...
Teilterm an Position [ ] ist
(\ z -> z z) ((\ z -> y) (\ z -> (\ u -> u) y) x)
der formale Parameter ist nicht x
Probieren Sie das aus, schreiben Sie Bachelorarbeit darüber.
Andererseits - die Fehlermeldungen des autotool sind so ausführlich, daß man in einigen Fällen tatsächlich eine Korrelation zu der nötigen Korrektur der Eingabe herstellen könnte.
Trotzdem bleibt das Halteproblem unentscheidbar (Folgerung: keine “KI” kann jede Programmieraufgabe korrekt lösen)
und das aussagenlogische Erfüllbarkeitsproblem bleibt wohl noch außerhalb von P (deterministischer Polynomialzeit).