Haus-Aufgaben

WS23: (1 oder 2) und (4 oder 5) und 7

Lesen Sie E. W. Dijkstra: On the foolishness of "natural language programming" https://www.cs.utexas.edu/users/EWD/transcriptions/EWD06xx/EWD667.html

und beantworten Sie
- womit wird “einfaches Programmieren” fälschlicherweise gleichgesetzt?
- welche wesentliche Verbesserung brachten höhere Programmiersprachen, welche Eigenschaft der Maschinensprachen haben sie trotzdem noch?
- warum sollte eine Schnittstelle narrow sein?
- welche formalen Notationen von Vieta, Descartes, Leibniz, Boole sind gemeint? (jeweils: Wissenschaftsbereich, (heutige) Bezeichnung der Notation, Beispiele)
- warum können Schüler heute das lernen, wozu früher nur Genies in der Lage waren?
- Übersetzen Sie den Satz “the naturalness of …obvious”.
Geben Sie dazu jeweils an:
- die Meinung des Autors, belegt durch konkrete Textstelle und zunächst wörtliche, dann sinngemäße Übersetzung
- Beispiele aus Ihrer Erfahrung
zu John C. Reynolds: Some Thoughts on Teaching Programming and Programming Languages 2008, von An additional reason for teaching programming languages… bis Ende:
- Warum wird auf Turing-Vollständigkeit verwiesen?
- Geben Sie Beispiele aus Ihrer Erfahrung für problematische input formats, oder problemfreie.
- partial list of the kind of capabilities…: ordnen Sie die Listenelemente konkreten Lehrveranstaltungen zu (bereits absolvierte oder noch kommende)
zu Skriptsprachen: finde die Anzahl der "*.java"-Dateien unter $HOME/workspace, die den Bezeichner String enthalten (oder eine ähnliche Anwendung) (Benutze eine Pipe aus drei Unix-Kommandos.)

Lösungen:
```
find workspace/ -name "*.java" | xargs grep -l String       | wc -l
find workspace/ -name "*.java"   -exec grep -l String {} \; | wc -l
```
Das dient als Wiederholung zur Benutzung von Unix (GNU/Linux): führen Sie vor:
- eine Shell öffnen
- in der Manpage von find die Beschreibung von -exec anzeigen. Finden Sie (mit geeignetem Shell-Kommandos) den Quelltext dieser Manpage, zeigen diesen an. (Wie benutzt man man? so: man man.)
- was bedeutet der senkrechte Strich? in welcher Manpage steht das? in welcher Vorlesung war das dran?
- erklären Sie https://xkcd.com/378/, führen Sie die vier genannten Editoren vor, in dem Sie jeweils eine einzeilige Textdatei erzeugen.
Bei Vorführung (dann mit Screen-Sharing)
- schwarze Schrift auf weißem Grund
- große Schrift
funktionales Programmieren in Haskell (http://www.haskell.org/)
```
ghci
:set +t
length $ takeWhile (== '0') $ reverse $ show $ product [ 1 .. 100 ]
```
- zeigen Sie (den Studenten, die das noch nicht gesehen haben), wo die Software (hier ghc) im Pool installiert ist, und wie man sie benutzt und die Benutzung vereinfacht (PATH)
- Werten Sie den angegebenen Ausdruck aus sowie alle Teilausdrück ([1..100], product [1..100], usw.
- den Typ von reverse durch ghci anzeigen lassen
- nach diesem Typ in https://hoogle.haskell.org/ suchen. (Einschränken auf package:base) Die anderen (drei) Funktionen dieses Typs aufrufen.
- eine davon erzeugt unendliche Listen, wie werden die im Speicher repräsentiert, wie kann man sie benutzen? (Am Beispiel zeigen.)
PostScript
```
42 42 scale 7 9 translate .07 setlinewidth .5 setgray/c{arc clip fill
setgray}def 1 0 0 42 1 0 c 0 1 1{0 3 3 90 270 arc 0 0 6 0 -3 3 90 270
arcn 270 90 c -2 2 4{-6 moveto 0 12 rlineto}for -5 2 5{-3 exch moveto
9 0 rlineto}for stroke 0 0 3 1 1 0 c 180 rotate initclip}for showpage
```
In eine Text-Datei what.ps schreiben (vgl. Aufgabe [edit]) ansehen mit gv what.ps (im Menu: State $\to$ watch file).

Mit Editor Quelltext ändern, Wirkung betrachten.
- Ändern Sie die Strich-Stärke!
- wie funktioniert die Steuerung einer Zählschleife?
- warum ist PostScript: imperativ? strukturiert? prozedural?
- führen Sie wenigstens ein weiteres ähnliches PostScript-Programm vor (kurzer Text, aber nichttriviale Rechnung). Quelle angeben, Programmtext erklären!
- nennen Sie einige Aspekte von PS, die in PDF übernommen wurden (Beantworten Sie anhand der Original-Dokumentation.)
- Warum sollte man niemals “online und ganz umsonst PS to PDF converter” benutzen?
In SICP 1.1 werden drei Elemente der Programmierung genannt. Illustrieren Sie diese Elemente durch Beispiele aus http://99-bottles-of-beer.net/

Führen Sie nach Möglichkeit vor (im Pool, nicht in irgendeiner Web-Oberfläche von Dritt-Anbietern).
Stellen Sie Ihren Browser datenschutzgerecht ein (Wahl des Browsers, der Default-Suchmaschine, Blockieren von Schadsoftware.)

In einem neuen Firefox-Profil (about:profiles) ausprobieren und diskutieren: Umatrix (dessen Log betrachten), Temporary Containers.

Vgl.

https://restoreprivacy.com/firefox-privacy/

(hat selbst viele Tracker!) und weitere.

Syntax von Programmiersprachen

Programme als Bäume

ein Programmtext repräsentiert eine Hierarchie (einen Baum) von Teilprogrammen
Die Semantik des Programmes wird durch Induktion über diesen Baum definiert.
dieses Prinzip kommt aus der Mathematik (arithmetische Ausdrücke, logische Formeln, Beweise — sind Bäume)
In den Blättern des Baums stehen Token,
jedes Token hat einen Inhalt (eine Zeichenkette, Bsp 12.34E5) und eine Klasse (Bsp Gleitkomma-Literal)

Token-Klassen

reservierte Wörter (if, while, class, …)
Bezeichner (foo, bar, …)
Literale für ganze Zahlen, Gleitkommazahlen, Strings, Zeichen, …
Trenn- und Schlußzeichen (Komma, Semikolon)
Klammern (runde: paren(these)s, eckige: brackets, geschweifte: braces, spitze: angle brackets)
Operatoren (=, +, &&, …)
Leerzeichen, Kommentare (whitespace)

alle Token einer Klasse bilden eine formale Sprache.

Formale Sprachen

ein Alphabet ist eine Menge von Zeichen,
ein Wort ist eine Folge von Zeichen,
eine formale Sprache ist eine Menge von Wörtern.

Beispiele:

Alphabet $\Sigma=\{a,b\}$,
Wort $w=ababaaab$,
Sprache $L=$ Menge aller Wörter über $\Sigma$ gerader Länge.
Sprache (Menge) aller Gleitkomma-Literale in C.

Lexik (Bsp): numerische Literale

Ada (2012) http://www.ada-auth.org/standards/rm12_w_tc1/html/RM-2-4.html

Beispiele (Elemente der Literalmenge)

12     0    1E6    123_456    --  integer literals
12.0   0.0  0.456  3.14159_26 --  real literals

formale Definition der Literalmenge

numeric_literal ::= decimal_literal | based_literal  
decimal_literal ::= numeral [.numeral] [exponent]
numeral ::= digit {[underline] digit}
exponent ::= E [+] numeral | E - numeral
digit ::= 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9

benutzt eine Notation f. reguläre Ausdrücke

Spezifikation formaler Sprachen

man kann eine formale Sprache beschreiben:

algebraisch (Sprach-Operationen)

Bsp: reguläre Ausdrücke
generativ (Grammatik), Bsp: kontextfreie Grammatik,
durch Akzeptanz (Automat), Bsp: Kellerautomat,
logisch (Eigenschaften), $\left\{ w\mid \forall p,r: \left(\begin{array}{ll} & (p<r \wedge w[p]=a \wedge w[r]=c) \\ \Rightarrow & \exists q: (p<q \wedge q<r\wedge w[q]=b) \end{array} \right) \right\}$

Sprach-Operationen

Aus Sprachen $L_1, L_2$ konstruiere:

Mengenoperationen
- Vereinigung $L_1\cup L_2$,
- Durchschnitt $L_1\cap L_2$, Differenz $L_1\setminus L_2$;
Verkettung $L_1\cdot L_2 ~=~ \{w_1\cdot w_2 \mid w_1\in L_1, w_2\in L_2\}$
Stern (iterierte Verkettung) $L_1^* ~=~ \bigcup_{k\ge 0} L_1^k$

Def: Sprache regulär $:\iff$ kann durch diese Operationen aus endlichen Sprachen konstruiert werden.

Satz: Durchschnitt und Differenz braucht man dabei nicht.

Reguläre Sprachen/Ausdrücke

Die Menge $E(\Sigma)$ der regulären Ausdrücke
über einem Alphabet (Buchstabenmenge) $\Sigma$
ist die kleinste Menge $E$, für die gilt:

für jeden Buchstaben $x \in \Sigma: x\in E$

(autotool: Ziffern oder Kleinbuchstaben)
das leere Wort $\epsilon \in E$ (autotool: Eps)
die leere Menge $\emptyset \in E$ (autotool: Empty)
wenn $A, B\in E$, dann
- (Verkettung) $A \cdot B \in E$ (autotool: * oder weglassen)
- (Vereinigung) $A + B \in E$ (autotool: +)
- (Stern, Hülle) $A^* \in E$ (autotool: ^*)

Jeder solche Ausdruck beschreibt eine reguläre Sprache.

Beispiele/Aufgaben zu regulären Ausdrücken

Wir fixieren das Alphabet $\Sigma=\{a,b\}$.

alle Wörter, die mit $a$ beginnen und mit $b$ enden: $a \Sigma^* b$.
alle Wörter, die wenigstens drei $a$ enthalten $\Sigma^* a \Sigma^* a \Sigma^* a \Sigma^*$
alle Wörter mit gerade vielen $a$ und beliebig vielen $b$?
Alle Wörter, die ein $aa$ oder ein $bb$ enthalten: $\Sigma^* (aa \cup bb) \Sigma^*$
(Wie lautet das Komplement dieser Sprache?)

Erweiterte reguläre Ausdrücke

zusätzliche Operatoren (Durchschnitt, Differenz, Potenz),

die trotzdem nur reguläre Sprachen erzeugen

Beispiel: $\Sigma^* \setminus ( \Sigma^* ab \Sigma^*)^2$

ähnlich in Konfiguration der autotool-Aufgaben
zusätzliche nicht-reguläre Operatoren

Beispiel: exakte Wiederholungen $L^{\fbox{$k$}} := \{ w^k \mid w\in L \}$

Bsp.: $(ab^*)^{\fbox{2}} = \{aa, abab, abbabb, ab^3ab^3, \dots\}\notin\mathsf{REG}$
Markierung von Teilwörtern, definiert (evtl. nicht-reguläre) Menge von Wörtern mit Positionen darin

Implementierung regulärer Ausdrücke

die richtige Methode ist Kompilation des RE in einen endlichen Automaten

Ken Thompson: Regular expression search algorithm, Communications of the ACM 11(6) (June 1968)
wenn nicht-reguläre Sprachen entstehen können (durch erweiterte RE), ist keine effiziente Verarbeitung (mit endlichen Automaten) möglich.
auch reguläre Operatoren werden gern schlecht implementiert.

Russ Cox: Regular Expression Matching Can Be Simple And Fast (but is slow in Java, Perl, PHP, Python, Ruby, ...), 2007

https://swtch.com/~rsc/regexp/regexp1.html

Bemerkung zu Reg. Ausdr.

Wie beweist man $w\in \operatorname{L}(X)$?

(Wort $w$ gehört zur Sprache eines regulären Ausdrucks $X$)

wenn $X = X_1 + X_2$:

beweise $w\in \operatorname{L}(X_1)$ oder beweise $w\in \operatorname{L}(X_2)$
wenn $X = X_1 \cdot X_2$:

zerlege $w = w_1 \cdot w_2$ und beweise $w_1\in \operatorname{L}(X_1)$ und beweise $w_2 \in\operatorname{L}(X_2)$.
wenn $X = X_1^*$:

wähle einen Exponenten $k\in \mathbb{N}$ und beweise $w\in \operatorname{L}(X_1^k)$ (nach vorigem Schema)

Beispiel: $w = abba, X = (ab^*)^*$.

$w = abb\cdot a = ab^2 \cdot a b^0 \in ab^* \cdot ab^* \subseteq (ab^*)^2 \subseteq (ab^*)^*$.

Übungen zu Lexik (Testfragen)

(ohne Wertung, zur Wiederholung und Unterhaltung)

was ist jeweils Eingabe und Ausgabe für: lexikalische Analyse, syntaktische Analyse?
warum werden reguläre Ausdrücke zur Beschreibung von Tokenmengen verwendet? (was wäre die einfachste Alternative? für welche Tokentypen funktioniert diese?)
$(\Sigma^*,\cdot,\epsilon)$ ist Monoid, aber keine Gruppe
$(\operatorname{Pow}(\Sigma^*),\cup,\cdot,\dots,\dots)$ ist Halbring (ergänzen Sie die neutralen Elemente)
In jedem Monoid: Damit $a^{b+c}=a^b\cdot a^c$ immer gilt, muß man $a^0$ wie definieren?

Aufgaben zu regulären Ausdrücken: autotool. Das ist Wiederholung aus VL Theoretische Informatik—Automaten und Formale Sprachen. Fragen dazu notfalls im Git.Imn-Tracker.

Hausaufgaben

WS 23: KW 44 keine Ü wegen Feiertag. Ein bis zwei Aufgaben von 3 …7 können in KW 45 präsentiert werden.

Für jedes Monoid $M=(D,\cdot,1)$ definieren wir die Teilbarkeits-Relation $u\mid w := \exists v: u \cdot v = w$

Geben Sie Beispiele $u\mid w$, $\neg(u\mid w)$ an in den Monoiden
- $(\mathbb{N},+,0)$
- $(\mathbb{Z},+,0)$
- $(\mathbb{N},\cdot,1)$
- $(\{a,b\}^*,\cdot,\epsilon)$
- $(2^\mathbb{N},\cup,\emptyset)$
Zeigen Sie (nicht für ein spezielles Monoid, sondern allgemein): die Relation $\mid$ ist reflexiv und transitiv.

Ist sie antisymmetrisch? (Beweis oder Gegenbeispiel.)

NB: Beziehung zur Softwaretechnik:
- Monoid ist die Schnittstelle (API, abstrakter Datentyp),
- $(\mathbb{N},0,+)$ ist eine Implementierung (konkreter Datentyp).
- allgemein zeigen bedeutet: nur die in den Axiomen des ADT (API-Beschreibung) genannten Eigenschaften benutzen
Zeichnen Sie jeweils das Hasse-Diagramm dieser Teilbarkeitsrelation
- für $(\mathbb{N},+,0)$, eingeschränkt auf $\{0,1,\dots,4\}$
- für $(\mathbb{N},\cdot,1)$, eingeschränkt auf $\{0,1,\dots,10\}$
- für $(2^{\{p,q,r\}},\cup,\emptyset)$
- für $(\{a,b\}^*,\cdot,\epsilon)$ auf $\{a,b\}^{\le 2}$
Geben Sie eine Halbordnung auf $\{0,1,2\}^2$ an, deren Hasse-Diagramm ein auf der Spitze stehendes Quadratnetz ist.

Diese Halbordnung soll intensional angegeben werden (durch eine Formel), nicht extensional (durch Aufzählen aller Elemente).
Führen Sie vor (auf Rechner im Pool Z430, vorher von außen einloggen und probieren)

Editieren, Kompilieren, Ausführen eines kurzen (maximal 3 Zeilen) Pascal-Programms

Der Compiler fpc (https://www.freepascal.org/) ist installiert (/usr/local/waldmann/opt/fpc/latest).

(Zweck dieser Teilaufgabe ist nicht, daß Sie Pascal lernen, sondern der Benutzung von ssh, evtl. tmux, Kommandozeile (PATH), Text-Editor wiederholen)

Zu regulären Ausdrücke für Tokenklassen in der Standard-Pascal-Definition https://archive.org/details/iso-iec-7185-1990-Pascal/

Welche Notation wird für unsere Operatoren $+$ und Stern benutzt? Was bedeuten die eckigen Klammern?

In Ihrem Beispiel-Programm: erproben Sie mehrere (korrekte und fehlerhafte) Varianten für Gleitkomma-Literale. Vergleichen Sie Spezifikation (geben Sie den passenden Abschnitt der Sprachdefinition an) und Verhalten des Compilers.

Dieser Compiler (fpc) ist in Pascal geschrieben. Was bedeutet das für: Installation des Compilers, Entwicklung des Compilers?
Führen Sie vor (wie und warum: siehe Bemerkungen vorige Aufgabe): Editieren, Kompilieren (javac), Ausführen (java) eines kurzen (maximal 3 Zeilen) Java-Programms.

Suchen und buchmarken Sie die Java Language Specification (Primärquelle in der aktuellen Version) Beantworten Sie damit (und nicht mit Hausaufgabenwebseiten und anderen Sekundärquellen):

gehören in Java
- null
- Namen für Elemente von Aufzählungstypen
zur Tokenklasse Literal, reserviertes Wort (Schlüsselwort), Bezeichner (oder evtl. anderen)?

Wo stehen die Token-Definitionen im javac-Compiler? https://hg.openjdk.java.net/jdk/jdk15/file/ (bzw. aktuelle Version)

In Ihrem Beispiel-Programm: erproben Sie verschiedene Varianten von Ganzzahl-Literalen (siehe vorige Aufgabe)
Führen Sie vor (wie vorige Aufgaben): Kompilation und Ausführung eines sehr kurzen Ada-Programms
```
with Ada.Text_IO; use Ada.Text_IO;
procedure floating is
begin put_line (float'image( 2)); -- fehlerhafter Quelltext!
end floating;
```
Verwenden Sie den GNU Ada Translator, ist Teil von GCC (GNU Compiler Collection).

Ist im Pool installliert, siehe https://www.imn.htwk-leipzig.de/~waldmann/etc/pool/

Aufrufen mit gnatmake floating.adb (kompilieren und linken), ausführen mit ./floating.

Erläutern Sie die Fehlermeldung durch Verweis auf den Sprachstandard. Setzen Sie passende Literale ein (ändern Sie den Rest des Programms nicht). Probieren Sie dabei alle Zweige und Optionen in den regulären Ausdrücken des Standards (2.4.1).
Im WS22 hatten Teilnehmer dieser LV diese Fehler im GNU Ada Translator (gnat, Teil von gcc) gefunden:
- excessive compilation time for decimal literal—that should be rejected as type-error https://gcc.gnu.org/bugzilla/show_bug.cgi?id=107392
- decimal literal with long exponent: Constraint Error https://gcc.gnu.org/bugzilla/show_bug.cgi?id=107391
Untersuchen Sie ähnliches für Compiler für andere Sprachen.
Suchen und diskutieren Sie Wadler’s law (of language design).

Am Entwurf welcher Programmiersprachen war der Autor beteiligt? Welche Sprache hat er in einem aktuellen Lehrbuch benutzt?

Untersuchen Sie für (wenigstens) Java und Haskell, ob Block-Kommentare geschachtelt werden können. Belegen Sie durch
- Sprachstandard (exakte Definition von Kommentaren)
- und eigene Beispiele (einfachste Programme, die vom Compiler akzeptiert oder abgelehnt werden)
Gelten die Aussagen von Cox (2007) (but it’s slow in…) jetzt immer noch? Überprüfen Sie das praktisch (die Testfälle aus dem zitierten Paper oder ähnliche).

Wort-Ersetzungs-Systeme

Berechnungs-Modell (Markov-Algorithmen)

Zustand (Speicherinhalt): Zeichenfolge (Wort)
Schritt: Ersetzung eines Teilwortes

Syntax: Programm ist Regelmenge $R \subseteq \Sigma^* \times \Sigma^*$,
Semantik: die 1-Schritt-Ableitungsrelation $\to_R$, Hülle $\to_R^*$

$u \to_R v \iff \exists x,z\in\Sigma^*, (l,r) \in R: u = x \cdot l\cdot z \wedge x \cdot r \cdot z = v$.

Bubble-Sort: $\{ba \to ab, ca \to ac, cb \to bc\}$
Potenzieren: $ab \to bba$ (Details: Übung)
gibt es unendlich lange Ableitungen für: $R_1 = \{ 1000 \to 0001110 \}, R_2= \{ aabb \to bbbaaa \}$?

Grammatiken

Grammatik $G$ besteht aus:

Terminal-Alphabet $\Sigma$

(üblich: Kleinbuchst., Ziffern)
Variablen-Alphabet $V$

(üblich: Großbuchstaben)
Startsymbol $S \in V$
Regelmenge
(Wort-Ersetzungs-System)

$R \subseteq (\Sigma\cup V)^* \times (\Sigma\cup V)^*$

Grammatik
  { terminale 
       = mkSet "abc"
  , variablen
       = mkSet "SA"
  , start = 'S'
  , regeln = mkSet
       [ ("S", "abc")
       , ("ab", "aabbA")
       , ("Ab", "bA")
       , ("Ac", "cc")
       ]
  }

von $G$ erzeugte Sprache: $L(G) = \{ w \mid S \to_R^* w \wedge w \in \Sigma^* \}$.

Formale Sprachen: Chomsky-Hierarchie

(Typ 0) aufzählbare Sprachen (beliebige Grammatiken, Turingmaschinen)
(Typ 1) kontextsensitive Sprachen (monotone Grammatiken, linear beschränkte Automaten)
(Typ 2) kontextfreie Spr. (kf. Gramm., Kellerautomaten)
(Typ 3) reguläre Sprachen (rechtslineare Grammatiken, reguläre Ausdrücke, endliche Automaten)

Tokenklassen sind meist reguläre Sprachen.

Syntax von Programmiersprachen meist kontextfrei.

Zusatzbedingungen (Bsp: Benutzung von Bezeichnern nur nach Deklaration) meist Teil der statischen Semantik

(Menge der stat. korrekten Programme ist nicht kontextfrei)

Typ-3-Grammatiken

($=$ rechtslineare Grammatiken)

jede Regel hat die Form

Variable $\to$ Terminal Variable
Variable $\to$ Terminal
Variable $\to \epsilon$

(vgl. lineares Gleichungssystem)

Beispiele

$G_1=(\{a,b\},\{S,T\},S,\{S\to \epsilon, S\to aT, T\to bS\})$
$G_2=(\{a,b\},\{S,T\},S,\{S\to\epsilon, S\to aS, S\to bT, T\to aT, T\to bS\})$

Sätze über reguläre Sprachen

Für jede Sprache $L$ sind die folgenden Aussagen äquivalent:

es gibt einen regulären Ausdruck $X$ mit $L=\operatorname{L}(X)$,
es gibt eine Typ-3-Grammatik $G$ mit $L=\operatorname{L}(G)$,
es gibt einen endlichen Automaten $A$ mit $L=\operatorname{L}(A)$.

Beweispläne:

Grammatik $\leftrightarrow$ Automat (Variable $=$ Zustand)
Ausdruck $\rightarrow$ Automat (Teilbaum $=$ Zustand)
Automat $\rightarrow$ Ausdruck (dynamische Programmierung)

$L_A(p,q,r)=$ alle Pfade von $p$ nach $r$ über Zustände $\le q$.

Kontextfreie Sprachen

Def (Wdhlg): $G$ ist kontextfrei (Typ-2), falls $\forall (l,r) \in R(G): l \in V^1$

geeignet zur Beschreibung von Sprachen mit hierarchischer Struktur.

Anweisung -> Bezeichner = Ausdruck
    | if Ausdruck then Anweisung else Anweisung
Ausdruck -> Bezeichner | Literal
    | Ausdruck Operator Ausdruck

Bsp: korrekt geklammerte Ausdrücke: $G = ( \{ a,b\}, \{S\}, S, \{ S \to aSbS, S \to \epsilon \} )$.

Bsp: Palindrome: $G = ( \{ a,b\}, \{S\}, S, \{ S \to aSa, S \to bSb, S \to \epsilon )$.

Bsp: alle Wörter $w$ über $\Sigma=\{a,b\}$ mit $|w|_a = |w|_b$

Klammer-Sprachen

Abstraktion von vollständig geklammerten Ausdrücke mit zweistelligen Operatoren

(4*(5+6)-(7+8)) $\Rightarrow$ (()()) $\Rightarrow aababb$

Höhendifferenz: $h : \{a,b\}^* \to \mathbb{Z}: w \mapsto |w|_a - |w|_b$

Präfix-Relation: $u \le w :\iff \exists v: u\cdot v = w$

Dyck-Sprache: $D=\{w \mid h(w)=0 \wedge \forall u\le w: h(u)\ge 0\}$

CF-Grammatik: $G = (\{a,b\},\{S\},S,\{S\to\epsilon,S\to aSbS\})$

Satz: $L(G)=D$. Beweis (Plan):

$L(G)\subseteq D$ Induktion über Länge der Ableitung

$D\subseteq L(G)$ Induktion über Wortlänge

(erweiterte) Backus-Naur-Form

Noam Chomsky: Struktur natürlicher Sprachen (1956)
John Backus, Peter Naur: Definition der Syntax von Algol (1958)

Backus-Naur-Form (BNF) $\approx$ kontextfreie Grammatik

<assignment> -> <variable> = <expression>
<number> -> <digit> <number> | <digit>

Erweiterte BNF

Wiederholungen (Stern, Plus) <digit>^+
Auslassungen
```
if <expr> then <stmt> [ else <stmt> ]
```

kann in BNF übersetzt werden

Ableitungsbäume für CF-Sprachen

Def: ein geordneter Baum $T$ mit Markierung $m: T \to \Sigma\cup\{\epsilon\}\cup V$ ist Ableitungsbaum für eine CF-Grammatik $G$, wenn:

für jeden inneren Knoten $k$ von $T$ gilt $m(k) \in V$
für jedes Blatt $b$ von $T$ gilt $m(b) \in\Sigma \cup \{\epsilon\}$
für die Wurzel $w$ von $T$ gilt $m(w)=S(G)$ (Startsymbol)
für jeden inneren Knoten $k$ von $T$ mit Kindern $k_1, k_2, \ldots, k_n$ gilt $(m(k), m(k_1) m(k_2) \ldots m(k_n)) \in R(G)$ (d. h. jedes $m(k_i) \in V \cup\Sigma$)
für jeden inneren Knoten $k$ von $T$ mit einzigem Kind $k_1 = \epsilon$ gilt $(m(k), \epsilon)\in R(G)$.

Ableitungsbäume (II)

Def: der Rand eines geordneten, markierten Baumes $(T,m)$ ist die Folge aller Blatt-Markierungen (von links nach rechts).
Beachte: die Blatt-Markierungen sind $\in \{\epsilon\} \cup \Sigma$, d. h. Terminalwörter der Länge 0 oder 1.
Für Blätter: $\operatorname{rand}(b)=m(b)$,
für innere Knoten: $\operatorname{rand}(k)=\operatorname{rand}(k_1) \operatorname{rand}(k_2)\ldots \operatorname{rand}(k_n)$
Satz: $w \in L(G) \iff$ existiert Ableitungsbaum $(T,m)$ für $G$ mit $\operatorname{rand}(T,m)=w$.

Eindeutigkeit

Def: $G$ heißt eindeutig : $\forall w \in L(G)$ $\exists$ genau ein Ableitungsbaum $(T,m)$ für $G$ mit $\operatorname{rand}(T,m)=w$.

Bsp: $(\{a,b\},\{S\},S,\{ S \to aSb | SS | \epsilon \})$ ist mehrdeutig.

(beachte: mehrere Ableitungen $S \to_R^* w$ sind erlaubt

und wg. Kontextfreiheit auch gar nicht zu vermeiden.)
Die naheliegende Grammatik für arith. Ausdr.
```
expr -> number | expr + expr | expr * expr
```
ist mehrdeutig (aus zwei Gründen!) — Auswege:
- Transformation zu eindeutiger Grammatik (benutzt zusätzliche Variablen)
- Operator-Assoziativitäten und -Präzedenzen

Assoziativität

(Wdhlg.) Definition: Operation ist assoziativ
für nicht assoziativen Operator $\odot$ muß man festlegen,
was $x \odot y \odot z$ bedeuten soll: \[\begin{aligned} (3+2)+4 \stackrel{?}{=} 3+2+4 \stackrel{?}{=} 3+(2+4) \\ (3-2)-4 \stackrel{?}{=} 3-2-4 \stackrel{?}{=} 3-(2-4) \\ (3**2)**4 \stackrel{?}{=} 3**2**4 \stackrel{?}{=} 3**(2**4) \end{aligned}\]
…und dann die Grammatik entsprechend einrichten

(d.h., eine äquivalente eindeutige Grammatik konstruieren, deren Ableitungsbäume die gewünschte Struktur haben)

Assoziativität (II)

X1 - X2 + X3 auffassen als (X1 - X2) + X3

Grammatik-Regeln

Ausdruck -> Zahl | Ausdruck + Ausdruck
                 | Ausdruck - Ausdruck

ersetzen durch

Ausdruck -> Summe 
Summe    -> Summand | Summe + Summand
                    | Summe - Summand
Summand  -> Zahl

Präzedenzen

Beispiel \[(3+2)*4 \stackrel{?}{=} 3+2*4 \stackrel{?}{=} 3+(2*4)\]
Grammatik-Regel
```
summand -> zahl
```

erweitern zu

summand -> zahl | produkt
produkt -> ...

(Assoziativität beachten)

Zusammenfassung Operator/Grammatik

Ziele:

Klammern einsparen
trotzdem eindeutig bestimmter Syntaxbaum

Festlegung:

Assoziativität:
bei Kombination eines Operators mit sich
Präzedenz:
bei Kombination verschiedener Operatoren

Realisierung in CFG:

Links/Rechts-Assoziativität $\Rightarrow$ Links/Rechts-Rekursion
verschiedene Präzedenzen $\Rightarrow$ verschiedene Variablen

Hausaufgaben

WS 23: Aufgabe 6. falls Zeit ist: 4 oder 5

Definition: für ein Wortersetzungssystem $R$:

Die Menge der $R$-Normalformen eines Wortes $x$ ist: $\textsf{Nf}(R,x):=\{y \mid x\to_R^* y \wedge \neg\exists z: y\to_R z\}$

Für das $R=\{ab\to baa\}$ über $\Sigma=\{a,b\}$:

bestimmen Sie die $R$-Normalformen von
- $a^3 b$, allgemein $a^kb$,
- $a b^3$, allgemein $a b^k$,
die allgemeinen Aussagen exakt formulieren, für $k=3$ überprüfen, durch vollständige Induktion beweisen.
Für Alphabet $\Sigma=\{a,b\}$, Sprache $E=\{w : w\in \Sigma^* \wedge |w|_a=|w|_b \}$, Grammatik $G=(\Sigma,\{S\}, S,\{ S\to \epsilon, S\to SS, S\to aSb, S\to bSa \})$:
- Geben Sie ein $w\in E$ mit $|w|=8$ an mit zwei verschiedenen $G$-Ableitungsbäumen.
- Beweisen Sie $L(G)\subseteq E$ durch strukturelle Induktion über Ableitungsbäume.
- Beweisen Sie $E\subseteq L(G)$ durch Induktion über Wortlänge. Benutzen Sie im Induktionsschritt diese Fallunterscheidung für $w\in E$: hat $w$ einen nicht leeren echten Präfix $u$ mit $u\in E$? Wenn ja, dann beginnt eine Ableitung für $w$ mit $S\to SS$. Wenn nein, dann mit welcher Regel?
Vergleichen sie Definitionen und Bezeichnungen für phrase structure grammars Noam Chomsky: Three Models for the Description of Language, 1956, Abschnitt 3, https://chomsky.info/articles/, mit den heute üblichen (kontextfreie Grammatik, Ableitung, erzeugte Sprache, Ableitungsbaum)

Erläutern Sie The rule (34) … cannot be incorporated… (Ende Abschnitt 4.1)
vergleichen Sie die Syntax-Definitionen von Fortran (John Backus 1956) und Algol (Peter Naur 1960),

Quellen: Historic Documents in Computer Science, collected by Karl Kleine, http://web.eah-jena.de/~kleine/history/ (benutze Wayback Machine https://web.archive.org/)

Führen Sie Kompilation und Ausführen eines Fortran-Programms vor (im Pool ist gfortran installiert, als Teil von GCC (GNU Compiler Collection))

Verwenden Sie dabei nur einfache Arithmetik und einfache Programmablaufsteuerung.

Geben Sie den Assembler-Code aus (Option -S). Vergleichen Sie mit Assembler-Code des entsprechenden C-Programms.
für die Java-Grammatik (nach JLS in aktueller Version)
- es werden tatsächlich zwei Grammatiken benutzt (lexikalische, syntaktische), zeigen Sie deren Zusammenwirken an einem einfachen Beispiel (eine Ableitung, bei der in jeder Grammatik nur wenige Regeln benutzt werden)
- bestimmen Sie den Ableitungsbaum (bzgl. der syntaktischen Grammatik) für das übliche hello world-Programm,
- Beispiele in jshell vorführen. Wie lautet die Grammatik für die dort erlaubten Eingaben? Ist das Teil der JLS? Wenn nein, finden Sie eine andere Primärquelle.
bzgl. der eindeutigen Grammatik für arithmetische Ausdrücke (aus diesem Skript):
- Ableitungsbaum für 1*2-3*4
- Grammatik erweitern für geklammerte Ausdrücke,
  
  Eindeutigkeit begründen,
  
  Ableitungsbaum für 1*(2-3)*4 angeben
arithmetische Ausdrücke in Java:
- welche Variable der Java-Grammatik erzeugt arithmetische Ausdrücke?
- Ableitungsbaum für 1*(2-3)*4 von dieser Variablen aus angeben (und live vorführen durch Verfolgung der URLs der Grammatik-Variablen)
- Beziehung herstellen zu den Regeln auf Folie Zusammenfassung Operator/Grammatik.

Semantik von Programmiersprachen

Statische und dynamische Semantik

Definition:
- Semantik $=$ Bedeutung
- (vgl. Syntax $=$ Form)
dynamische S. (beschreibt Ausführung des Programms)

Beschr.-Methoden: operational, axiomatisch, denotational
statische Semantik

(Vorhersage der dyn. Semantik zur Übersetzungszeit)

Beispiele (in C, Java, …)
- Typ-Korrektheit von Ausdrücken,
- deklarationsgemäße Benutzung von Bezeichnern

Bsp statische/dynamische Semantik

Benutzung eines nicht deklarierten Namens:

ECMA-Script (Javascript): Programm wird ausgeführt, dynamische Semantik ist Exception wird ausgelöst
```
> {console.log("foo"); console.log(x);}
foo
Thrown:
ReferenceError: x is not defined
```
Java: verhindert durch statische Semantik-Prüfung (Programm ist statisch falsch, wird nicht in Bytecode übersetzt, nicht ausgeführt, hat keine dyn. Sem.)
```
{ System.out.print("foo"); System.out.println(x);}
|  Error:  cannot find symbol
|    symbol:   variable x
```

Attributgrammatiken (I)

Attribut: Annotation an Knoten des Syntaxbaums.

$A : \text{Knotenmenge} \to \text{Attributwerte}$ (Bsp: $\mathbb{N}$)
Attributgrammatik besteht aus:
- kontextfreier Grammatik $G$, Bsp: $(\dots,\{S\to \epsilon \mid aSbS\})$
- für jeden Knotentyp (Terminal $+$ Regel)
  
  eine Menge (Relation) $E$ von erlaubten Attribut-Tupeln $(A(X_0), A(X_1), \ldots, A(X_n))$
  
  für Knoten $X_0$ mit Kindern $[X_1,\ldots,X_n]$
Beispiel: Terminale: $A(\epsilon)=A(a)=A(b)=0$

innere Knoten: $S \to \epsilon$ , $A(X_0)=A(X_1)$;
$S \to aSbS$, $A(X_0) = \max(1+A(X_2),A(X_4))$;

Attributgrammatiken (II)

ein Ableitungsbaum $T$ mit Annotationen $A$ ist
korrekt bezüglich einer Attributgrammatik $(G,E)$, wenn

$T$ ein Ableitungsbaum für $G$ ist
in jedem Knoten $X_0$ mit Kindern $[X_1,\ldots,X_n]$

gilt $(A(X_0),A(X_1),\ldots,A(X_n))\in E$.

Plan:

Baum beschreibt Syntax, Attribute beschreiben Semantik

Ursprung: Donald Knuth: Semantics of Context-Free Languages, (Math. Systems Theory 2, 1968)

technische Schwierigkeit: Existenz und effiziente Berechnung der Attributwerte

Donald E. Knuth

The Art Of Computer Programming (1968, …)

(Band 3: Sortieren und Suchen)
TeX, Metafont, Literate Programming (1983, …)

(Leslie Lamport: LaTeX)
Attribut-Grammatiken (1968)
Anwendung der Landau-Notation ($O(f)$, Analysis) und Erweiterung ($\Omega, \Theta$) für asymptotische Komplexität
…

https://www-cs-faculty.stanford.edu/~uno/

Arten von Attributen

synthetisiertes Attribut:

hängt nur von Attributwerten in Kindknoten ab

Bsp: Typ von Ausdrücken, Wert von Ausdrücken
ererbtes (inherited) Attribut:

hängt nur von Attributwerten in Elternknoten und (linken) Geschwisterknoten ab Bsp: deklarierte Typen für Namen
Wenn Abhängigkeiten bekannt sind, kann man Attributwerte durch Werkzeuge bestimmen lassen.

(Bransen et al.: Linearly Ordered Attribute Grammar Scheduling …, TACAS 2015

https://doi.org/10.1007/978-3-662-46681-0_24

)
wir betrachten jetzt nur synthetisierte Attribute.

Attributgrammatiken–Beispiele

Auswertung arithmetischer Ausdrücke (dynamisch)

jedes Attribut ist eine Zahl
Typprüfung (statisch)

jedes Attribut ist ein Typ-Ausdruck
Kompilation (für Kellermaschine) (statisch)

jedes Attribute ist eine Befehlsfolge
Bestimmung des abstrakten Syntaxbaumes

jedes Attribut ist ein Baum
alles diese Attr. sind synthetisiert, können durch Induktion über den Ableitungsbaum (d.h., von Blättern zu Wurzel) berechnet werden

Konkrete und abstrakte Syntax

konkreter Syntaxbaum $=$ der Ableitungsbaum
abstrakter Syntaxbaum (AST) $=$ wesentliche Teile des konkreten Baumes
unwesentlich sind Knoten, die zu Hilfsvariablen gehören,

die eingeführt wurden, damit Grammatik eindeutig ist

abstrakter Syntaxbaum ist synthetisiertes Attribut:

E -> E + P  ;  E.abs = new Plus(E.abs, P.abs)
E -> P  ;  E.abs = P.abs  // kein neuer AST-Knoten

Typisierung von Funktionsaufrufen

- Funktion $f$ hat Typ $A \to B$
- Ausdruck $X$ hat Typ $A$
- dann hat Ausdruck $f(X)$ den Typ $B$
Notation als Inferenz-Regel $\displaystyle \frac{f : A \to B \quad X : A}{f(X) : B}$

Beispiel

class C {
  static class A {}  static class B {}
  static B f (A y) { .. }
  static A g (B x) { .. }
  .. 
  .. C.g (C.f (new C.A()))  .. }

Bsp. Operationale Semantik: Keller

Kellerspeicher
- Zustand ist Zahlenfolge $s \in \mathbb{Z}^*$, $\textsf{Empty}=[]$
- Operationen:
  - $\textsf{Push}(x)$, Semantik: $[s_1,\ldots,s_n]\to[x,s_1,\ldots,s_n]$
  - $y := \textsf{Pop}()$, Semantik: $[y,s_1,\ldots,s_n]\to [s_1,\ldots,s_n]$
Realisierung zweistelliger Verknüpfungen: Argumente vom Keller holen, Resultat auf Keller schreiben, z.B.

$\textsf{Plus}\equiv \{ a:=\textsf{Pop}(); b:=\textsf{Pop}(); \textsf{Push}(a+b) \}$
benutzt in Prog.-Spr. Forth (1970), PostScript (1982),

JVM (Java Virtual Machine, 1994), Bsp: 6.5 iadd

Kompilation für Kellermaschine

Spezifikation:
- Eingabe: Java-Ausdruck $A$, Bsp. $3*x + 1$
- Ausgabe: JVM-Programm $P$, Bsp:
  
  push 3; push x; imul; push 1; iadd;
- Zusammenhang: $[]\stackrel{P}{\longrightarrow} [\textsf{Wert}(A)]$
- dann gilt auch $\forall k\in\mathbb{Z}^*: k\stackrel{P}{\longrightarrow} ([\textsf{Wert}(A)]\circ k)$
Realisierung (Kompilation):
- Code für Konstante/Variable $c$ : push c;
- Code für Ausdruck $x \circ y$: code(x); code(y); o;
der so erzeugte Code ist synthetisiertes Attribut
JVM-Programm (Bytecode) ansehen mit javap -c,

Attributgrammatiken mit SableCC

Etienne Gagnon, 1998–, https://sablecc.org/

SableCC is a parser generator for building compilers, interpreters …, strictly-typed abstract syntax trees and tree walkers

Syntax einer Regel

linke-seite { -> attribut-typ } 
   = { zweig-name } rechte-seite { ->  attribut-wert }

Bespiel: siehe Verzeichis pps-ws23/rechner

Benutzung: make ; make test ; make clean
Struktur:
- rechner.grammar enthält Attributgrammatik, diese beschreibt die Konstruktion des abstrakten Syntaxbaumes (AST) aus dem Ableitungsbaum (konkreten Syntaxbaum)
- Eval.java enthält Besucherobjekt, dieses beschreibt die Attributierung der AST-Knoten durch Zahlen
- Hauptprogramm in Interpreter.java
- bauen, testen, aufräumen: siehe Makefile
- generierte Dateien in rechner/*

Bemerkungen (häufige/nicht offensichtliche Fehlerquellen)

Redefinition of ... : nicht so: foo -> bar ; foo -> baz; sondern so: foo -> {eins} bar | {zwei} baz;

Regeln mit gleicher linker Seite zusammenfassen,

die rechten Seiten durch Label ({eins},{zwei}) unterscheiden
... conflict ... :

die Grammatik ist nicht eindeutig (genauer: wird von Sablecc nicht als eindeutig erkannt)

Kommentar: in Java fehlen: algebraische Datentypen, Pattern Matching, Funktionen höherer Ordnung. Deswegen muß SableCC das simulieren — das sieht nicht schön aus. Die richtige Lösung sehen Sie später im Compilerbau.

Abstrakter Syntaxbaum, Interpreter: https://www.imn.htwk-leipzig.de/~waldmann/edu/ws11/cb/folien/main/node12.html, Kombinator-Parser: https://www.imn.htwk-leipzig.de/~waldmann/edu/ws11/cb/folien/main/node70.html

Auswertung arithmetischer Ausdrücke

(das ist ungefähr die erste VL Compilerbau)

abstrakter Syntaxbaum (AST)

data Exp = Literal Integer 
  | Plus Exp Exp  | Times Exp Exp

Auswertung (Rekursion über AST, ist ein Fold)

value :: Exp -> Integer
value e = case e of
  Literal i -> i
  Plus  l r -> value l + value r
  Times l r -> value l * value r

Kombinator-Parser f. arith. Ausdrücke

Daan Leijen: Parsec, a fast combinator parser, 2001,

https://web.archive.org/web/20140528151730/http://legacy.cs.uu.nl/daan/download/parsec/parsec.pdf

https://hackage.haskell.org/package/parsec-3.1.14.0/docs/Text-Parsec-Expr.html

expr    = buildExpressionParser table term
term    =  parens expr  <|> natural
table   = [ [ binary "*" (*) AssocLeft
            , binary "/" (div) AssocLeft ]
          , [ binary "+" (+) AssocLeft
            , binary "-" (-)   AssocLeft ] ]
binary  name fun assoc = 
  Infix (reservedOp name >> return fun) assoc

ist embedded (in Haskell) DSL

Hausaufgaben

WS 23: Aufgabe 1 hier (und Aufgabe 6 von voriger Woche)

arithmetische Ausdrücke (keine Programmablaufsteuerung), Beispiel
```
class C { static int f (int x) {return 3*x; }}
```
von Java nach Java-Bytecode übersetzen mit javac und Resultat betrachten mit javap -c.

Zeigen Sie durch ähnnliche Beispiele, daß richtig behandelt werden:
- Links-Assoziativität der Subtraktion
- Punkt- vor Strich-Rechnung
Vergleichen Sie den Bytecode mit dem Verfahren aus VL.

Schlagen Sie für einige der vorkommenden Bytecode-Befehle die Semantik in der JVM-Spezifikation (aktuelle Version) nach.

Erläutern Sie die JVM-Befehle dup, pop. Geben Sie Java-Programme an, in dessen Bytecode diese vorkommen.
zum angegebenen Beispiel Sablecc
- Test vorführen.
- das dabei verwendete Makefile erklären.
  
  Was ist die Semantik der Ziele und Regeln eines Makefiles? Was ist bei der Syntax zu beachten? (Hinweis: ein besonderer Whitespace)
- Grammatik ergänzen: Multiplikation.
  
  Eindeutigkeit der Grammatik und semantisch korrekte Auswertung vorführen und begründen.
- (in der Übung, jeder selbst) Subtraktion, Klammern.
(Zusatz) Generalized Algebraic Data Types (ein Thema aus OS FKPS SS22)

Verwenden/ergänzen Sie diesen AST-Typ
```
{-# language GADTs #-}
data Exp a where
  Literal :: Integer -> Exp Integer
  Plus :: 
    Exp Integer -> Exp Integer -> Exp Integer
  Greater :: 
    Exp Integer -> Exp Integer -> Exp Bool
  Ifthenelse :: Exp Bool -> ...
```
Erklären Sie den Fehler in Ifthenelse (Literal 0) (Literal 1) (Literal 2). Rufen Sie Ifthenelse typkorrekt auf.

Passen Sie den Interpreter (die Funktion value) an.
(Zusatz) Kombinatorparser (ein Thema aus VL Compilerbau SS22)

einfache Beispiele vorführen und erklären (elementare Parser char, eof; Kombinatoren (>>), many, sepBy; ggf. buildExpressionParser)
```
cabal install --lib parsec
ghci
import Text.Parsec
parseTest (many (char 'f') >> many (char 'o')) "foobar"
```

Der Nutzen der statische Typisierung

Typ ist Menge von Werten mit Operationen

für jede eigene Menge von Werten aus dem Anwendungsbereich benutze einen eigenen Typ
statische Typisierung gibt
- Sicherheit: findet Entwurfsfehler im Programm
- Effizienz: verringert Platz (Typ-Angaben) und Arbeit (Typ-Prüfung) zur Laufzeit
mit ausdrucksstarken Typsystemen kann man weitere Laufzeit-Arbeiten in die Übersetzungszeit verschieben,

Konstruktion von Wörterbüchern f. Typklassen in Haskell

Typ-Information und Laufzeitdaten

jedes Datum wird zur Laufzeit des Programms im zugeordneten Speicher binär repräsentiert (als Bitfolge)
richtige Verarbeitung ist nur möglich, wenn bekannt ist, welcher Typ dort repräsentiert wird
dynamische Typisierung: der Typ steht in der Speicherstelle selbst (z.B. OO: jedes Objekt enthält Verweis auf seine Klasse)
statische Typisierung: der Typ steht nicht im Speicher, sondern im Quelltext
Mischform (in statisch typisierten OO Sprachen) keine Laufzeitrepräsentation von statischen Methoden

Historische Entwicklung

keine Typen (nur ein Typ: alles ist Maschinenwort)
vorgegebene Typen (Fortran: Integer, Real, Arrays)
benutzerdefinierte Typen

(algebraische Datentypen;

Spezialfälle: enum, struct, class)
abstrakte Datentypen (interface)
polymorphe Typen (z.B. List<E>, Arrays, Zeiger)
(data) dependent types (z.B. in Agda, Idris)

Überblick

einfache (primitive) Typen
- Zahlen, Wahrheitswerte, Zeichen
- benutzerdefinierte Aufzählungstypen
- Teilbereiche
zusammengesetzte (strukturierte) Typen
- Produkt (record)
- Summe (union) (Spezialfall: Aufzählungen)
- rekursive Typen (Anwendung: Listen, Bäume)
- Potenz (Funktionen): Unterprogramme, Arrays, (Tree/Hash-)Maps
  
  Verweistypen (Zeiger) als Speziallfall von Arrays

Zahlenbereiche

Maschinenzahlen (oft im Sprachstandard festgelegt)
- ganze Zahlen (in binärem Zweierkomplement)
- gebrochene Zahlen (in binärer Gleitkommadarstellung)
  
  Goldberg 1991: What Every Computer Scientist Should Know About Floating-Point Arithmetic
  
  https://docs.oracle.com/cd/E19957-01/806-3568/ncg_goldberg.html
Abstraktionen (oft in Bibliotheken, Bsp. https://gmplib.org//manual/)
- beliebig große Zahlen
- exakte rationale Zahlen

Aufzählungstypen

können einer Teilmenge ganzer Zahlen zugeordnet werden

durch Sprache vorgegeben: z.B. int, char, boolean
anwendungsspezifische (benutzerdef.) Aufzählungstypen
```
typedef enum { 
  Mon, Tue, Wed, Thu, Fri, Sat, Sun 
} day;
```
data Day = Mon | Tue | Wed | Thu | Fri | Sat | Sun

Ü: enum in Java

Designfragen:

automatische oder manuelle Konversion zw. Aufzählungstyp und zugrundeliegendem Zahltyp

Maßeinheiten in F#

physikalische Größe $=$ Maßzahl $\times$ Einheit.
viele teure Softwarefehler durch Ignorieren der Einheiten.

in F# (Syme, 200?), aufbauend auf ML (Milner, 197?)

[<Measure>] type kg ;; let x = 1<kg> ;; 
x * x ;;
[<Measure>] type s ;;  let y = 2<s> ;; 
x * y ;; x + y ;;

https://docs.microsoft.com/en-us/dotnet/fsharp/language-reference/units-of-measure

Zeichen und Zeichenketten

das naive Modell ist:
- Zeichen paßt in (kurze) Maschinenzahl (z.B. char = byte)
- Zeichenketten sind (Zeiger auf) Arrays
das ist historisch begründet (US-amerikanische Hardware-Hersteller, lateinisches Alphabet)
das umfassende Modell ist https://www.unicode.org/versions/Unicode14.0.0/ (insbes. Kapitel 2)

jedes Zeichen wird durch encoding scheme (z.B. UTF8) auf Folge von code units (z.B. Bytes) abgebildet.

Zusammengesetzte Typen

Typ $=$ Menge, Zusammensetzung $=$ Mengenoperation:

Produkt (record, struct), z.B.

data C = C { real :: Double, imag :: Double }

disjunkte Summe (union, case class, enum), z.B.
```
data Ordering = LT | EQ | GT
```
Rekursion, z.B.
```
data List a = Nil | Cons a (List a)
```
Potenz (Funktion), z.B.
```
type Sorter a = (List a -> List a)
```

Produkttypen (Records)

$R = A \times B \times C$

Kreuzprodukt mit benannten Komponenten:

typedef struct {
    A foo; B bar; C baz;
} R;
R x; ...  B y = x.bar; ...

erstmalig in COBOL ($1960$) (Bromberg et al. 1960), basiert auf Flow-Matic (Hopper, 1959),

https://archive.computerhistory.org/resources/text/Oral_History/Hopper_Grace/102702026.05.01.pdf)

Summen-Typen

$R = A \cup B \cup C$

disjunkte (diskriminierte) Vereinigung

(Pascal, Niklas Wirth 1970)

type tag = ( eins, zwei, drei );
type R = record case t : tag of
    eins : ( a_value : A );
    zwei : ( b_value : B );
    drei : ( c_value : C );
end record;

nicht diskriminiert (C, Dennis Ritchie 1972):

typedef union {
    A a_value; B b_value; C c_value;
} R;

Vereinigung mittels Interfaces

$I$ repräsentiert die Vereinigung von $A$ und $B$:

interface I { }
class A implements I { int foo; }
class B implements I { String bar; }

Notation dafür in Scala (M. Odersky, 2004, https://scala-lang.org/)

abstract class I
case class A (foo : Int) extends I
case class B (bar : String) extends I

Verarbeitung durch Pattern matching

def g (x : I): Int = x match {
    case A(f) => f + 1
    case B(b) => b.length()  }

Rekursive algebraische Datentypen

Haskell (Simon Peyton Jones et al, 1990,

data Tree a = Leaf a 
            | Branch ( Tree a ) ( Tree a )

Java (James Gosling, 1995)

interface Tree<A> { }
class Leaf<A> implements Tree<A> { A key }
class Branch<A> implements Tree<A> 
  { Tree<A> left, Tree<A> right }

Tree a ist ein algebraischer Datentyp:
- die Signatur der Alg.: die Konstruktoren (Leaf, Branch)
- die Elemente der Algebra sind Terme (Bäume)

Potenz-Typen

$B^A := \{ f : A \to B \}$ (Menge aller Funkt. von $A$ nach $B$)
Potenz ist sinnvolle Notation, denn $|B|^{|A|} = \left|B^A\right|$
Realisierungen:
- Funktionen (Unterprogramme)
- Wertetabellen (Funktion mit endlichem Definitionsbereich) (Assoziative Felder, Hashmaps)
- Felder (Definitionsbereich ist Aufzählungstyp) (Arrays)
- Zeiger (Hauptspeicher als Array)
- Zeichenketten (Strings)
die unterschiedliche Notation dafür ist bedauerlich.
```
f(42);  f.get(42); f[42]; *(f+42); f.charAt(42)
```

Felder (Arrays)

Realisierung einer Abbildung, Definitionsbereich ist Intervall von Zahlen, Wertebereich ist benutzerdefiniert.
Motivation: Zugriff auf beliebiges Element in konstanter Zeit (unabhängig von Intervallgröße)

a[i] = * (a + w * i)
Design-Entscheidungen:
- welche Index-Typen erlaubt? (Zahlen? Aufzählungen?)
- Bereichsprüfungen bei Indizierungen? (C:nein, Java:ja)
- Allokation statisch oder dynamisch?
- Index-Bereiche statisch oder dynamisch?
- mehrdimensionale Felder (gemischt oder rechteckig)?

Felder in C

int main () {
    int a [10][10]; 
    a[3][2] = 8;
    a[2][12] = 5;
    printf ("%d\n", a[3][2]);   
}

statische Dimensionierung,
dynamische Allokation,
keine Bereichsprüfungen.

Form: rechteckig, Adress-Rechnung:

int [M][N];  a[x][y]  ==>  *(&a + (N*x + y))

Felder in Javascript

die Notation a[i] wird verwendet für Felder (Zugriff über Index) und (Hash)Maps (Zugriff über Schlüssel).
durch das Fehlen statischer Typisierung sowie implizite Umwandlung zwischen Zahl und Zeichenkette wird absurdes Verhalten spezifiziert, vgl. (2017) https://news.ycombinator.com/item?id=14675706
```
var arr1 = []; arr1[4294967296]=1; 
  // arr1.length == 0
var arr2 = []; arr2[2147483647]=1; 
  // arr2.length == 2147483648
var arr3 = []; arr3[-1]=1; 
  // arr3.length == 0
```

Felder in Java

int [][] feld = 
         { {1,2,3}, {3,4}, {5}, {} };
for (int [] line : feld) {
    for (int item : line) {
       System.out.print (item + " ");  }
    System.out.println (); }

dynamische Dimensionierung und Allokation,
Bereichsprüfungen.
Arrays sind immer eindimensional, aber man kann diese schachteln. (Kosten?)

Kosten der Bereichsüberprüfungen

es wird oft als Argument für C (und gegen Java) angeführt, daß die erzwungene Bereichsüberprüfung bei jedem Array-Zugriff so teuer sei.
sowas sollte man erst glauben, wenn man es selbst gemessen hat.
moderne Java-Compiler sind sehr clever und können theorem-prove away (most) subscript range checks
das kann man auch in der Assembler-Ausgabe des JIT-Compilers sehen.

https://www.imn.htwk-leipzig.de/~waldmann/etc/safe-speed/

Felder in C#

Übung: Unterschiede zwischen

int [][] a geschachtelt (wie in Java)
int [,] a mehrdimensional rechteckig

Benutzung (Zugriff)
Konstruktion/Initialisierung

Verweistypen

Typ $T$, Typ der Verweise auf $T$.
Operationen: new, put, get, delete
ähnlich zu Arrays (das Array ist der Hauptspeicher)
explizite Verweise in C, Pascal

int x = 2 ; int *p = &x; ... *p + 3
implizite Verweise: Java:

alle nicht primitiven Typen sind Verweistypen, De-Referenzierung ist implizit

Object a = ...; Object b = a; kopiert Verweis
C#: class ist Verweistyp, struct ist Werttyp

Verweis- und Wertsemantik in C#

für Ausdrücke, deren Typ class ... ist:

Verweis-Semantik, implizite Verweise (wie in Java)
für Ausdrücke, deren Typ struct ... ist:

Wert-Semantik, keine Verweise

Testfall (hier class durch struct ersetzen)

class s {public int foo; public string bar;}
s x = new s(); x.foo = 3; x.bar = "bar";
s y = x; y.bar = "foo";
Console.WriteLine (x.bar);

ähnlicher Plan: value class für Java (JEP 401)

Algebraische Datentypen in Pascal, C

Rekursion unter Verwendung von Verweistypen

Pascal:

type Tree = ^ Node ;
type Tag = ( Leaf, Branch );
type Node = record case t : Tag of
  Leaf : ( key : T ) ; 
  Branch : ( left : Tree ; right : Tree );
end record;

C: ähnlich, benutze typedef

Null-Zeiger: der Milliarden-Dollar-Fehler

Tony Hoare (2009): [The null reference] has led to innumerable errors, vulnerabilities, and system crashes, which have probably caused a billion dollars of pain and damage in the last forty years.

(https://www.infoq.com/presentations/Null-References-The-Billion-Dollar-Mistake-Tony-Hoare)
Das Problem sind nicht die Zeiger selbst, sondern daß (in vielen Sprachen) der Wert null zu jedem Zeigertyp gehört — obwohl er gar kein Zeiger ist.

Das ist die Verwechslung zwischen t und Maybe t.

(data Maybe t = Nothing | Just t)

Hausaufgaben Typen

WS 23: INM/MIM jeweils eine von 1/2, 3/4. Zusatz: eine von 5/6/7

für Mengen $A=\emptyset,B=\{0\},C=\{1,2\},D=\{3,4,5\},E=\{6,7,8,9\}$,

geben Sie an:
- alle Elemente von $A\times C, B\times D, A\cup B, B^A, A^B,C^B,B^C,C^D$
- ein Element aus $(C\times D)^E$
- die Kardinalitäten von $(C\times D)^E, C^{D\cup E}$
ähnliche Aufgabenstellungen vorbereiten, die Sie dann in der Übung den anderen Studenten stellen.
Geben Sie eine Isomorphie zwischen den Mengen $(A^B)^C$ und $A^{(B\times C)}$ an.

Illustrieren Sie das durch konkrete kleine endliche Mengen $A,B,C$.

Diskutieren Sie auch die Fälle, daß $A,B,C$ leer sind.

Diese Isomorphie wird in Haskell durch die Funktion curry realisiert. Zeigen Sie das in ghci. Verwenden Sie dabei für $A,B,C$ paarweise verschiedene Typen. Wie lautet die Umkehrfunktion?

Begründen Sie, daß $(A^B)^C$ nicht immer isomorph ist zu $A^{(B^C)}$. In welchen Fällen besteht Isomorphie?
zur Folie Felder in C:

Programm kompilieren, ausführen.

Assembler-Code ausgeben und erklären (gcc -S oder clang -S)

Unterschiede zwischen -O0 und -O3?
zu Folie Felder in Javascript:

das zitierte Beispiel vorführen (node), mit Verweisen auf Sprachstandard erklären.

Untersuchen Sie die Aussage eines Kommentators: Typescript prevents all of these errors. (Lokal im Pool: npm install typescript; npx tsc, auch ts-node ist nützlich. Keine Online-Dienste verwenden.)
Erläutern und variieren Sie das Verhalten von
```
#include <stdio.h>
typedef union { double foo; long int bar; } U;
int main () 
  { U x;
    x.bar =   0; printf ("%ld\n", x.bar);
    x.foo = 7.0; printf ("%ld\n", x.bar);
  }
```
Wiederholen Sie dabei die Gleitkomma-Darstellung (genau — welche Bits bedeutet was?)

Fügen Sie zu der Vereinigung einen weiteren Typ der gleichen Länge hinzu, z.B. Array von Bytes;

sowie einen Typ anderer Länge, z.B. float.
zu Folie Kosten der Bereichsprüfungen und dort angegebener Quelle:

führen Sie den Testfall vor, analysieren Sie die Ausgabe des Disassemblers (im Pool installiert). Vergleichen Sie verschiedene JIT/JVM-Versionen.

Schreiben Sie das äquivalente Matrix-Multiplikationsprogramm in C, betrachten Sie den Assembler-Code, vergleichen Sie.
Beispiele vorführen, Spezifikation zeigen (Primärquellen) zum Vergleich von
- Data.Maybe (Haskell),
- java.util.Optional,
- nullable in C#

Bezeichner, Bindungen, Bereiche

Variablen

vereinfacht: Variable bezeichnet eine Speicherstelle
genauer: Variable besitzt Attribute
- Name
- Adresse
- Wert
- Typ
- Lebensdauer
- Sichtbarkeitsbereich
Festlegung dieser Attribute statisch oder dynamisch

Namen in der Mathematik

ein Name bezeichnet einen unveränderlichen Wert

$\displaystyle e = \sum_{n\ge 0} \frac{1}{n!}, \quad \sin = (x \mapsto \sum_{n\ge 0} (-1)^n \frac{x^{2n+1}}{(2n+1)!} )$
auch $n$ und $x$ sind dabei lokale Konstanten (werden aber gern Variablen genannt)
auch die Variablen in Gleichungssystemen sind (unbekannte) Konstanten $\{ x + y = 1 \wedge 2x + y = 1 \}$

in der Programmierung:

Variable ist Name für Speicherstelle ($=$ konstanter Zeiger)
implizite Dereferenzierung beim Lesen und Schreiben
Konstante: Zeiger auf schreibgeschützte Speicherstelle

Konkrete Syntax von Namen

…wird definiert durch die Tokenklasse Bezeichner
welche Buchstaben/Zeichen sind erlaubt?
reservierte Bezeichner?
Groß/Kleinschreibung?
Konvention: long_name oder longName (camel-case)

(Fortran: long name)

im Zweifelsfall: Konvention der Umgebung einhalten
Konvention: Typ im Namen (Bsp.: myStack = ...)
- verrät Details der Implementierung
- ist ungeprüfte Behauptung
besser: Stack<Ding> rest_of_input = ...

Deklaration und Definition

Bsp: int x = 8;
int x ist Deklaration, = 8 ist Definition
Bsp: static int f(int y) { return y+1; }
static int f(int y) ist Deklaration,
(int y) { return y+1; } ist Definition.
Deklaration:
- statische Semantik: der Name ist ab hier sichtbar
- dynamische S.: dem Namen ist Speicherplatz zugeordnet
Definition:
- dynamische Semantik: dem Namen ist Wert zugeordnet
- statische S.: (siehe garantierte Initialisierung später)

Typen für Variablen

dynamisch (Wert hat Typ)
statisch (Name hat Typ)
- deklariert (durch Programmierer)
- inferiert (durch Übersetzer)
  
  z. B. var in C#
Vor/Nachteile: Lesbarkeit, Sicherheit, Kosten

der Typ eines Bezeichners ist seine beste Dokumentation

(weil sie maschinell überprüft wird - bei statischer Typisierung)

Dynamisch typisierte Sprachen

Daten sind typisiert, Namen sind nicht typisiert.
LISP, Clojure, PHP, Python, Perl, Javascript, …

let foo = function(x) {return 3*x;};
foo(1);
foo = "bar";
foo(1);

Ü: zum Vergleich: dieses Beispiel in Typescript (statisch typisiert)

Statisch typisierte Sprachen

Namen sind typisiert, Daten sind typisiert (? siehe unten)
Invariante:

zur Laufzeit ist der dynamische Typ des Namens (der Typ des Datums auf der durch den Namen bezeichneten Speicherstelle)

immer gleich dem statischen Typ des Namens
woher kommt der statische Typ?
- Programmierer deklariert Typen von Namen (C, Java)
- Compiler inferiert Typen von Namen (ML, C# (var))
dynamischer Typ muß zur Laufzeit nicht repräsentiert werden (das spart Platz u. Zeit): Compiler erzeugt Code, der das Resultat der Laufzeittypprüfung vorwegnimmt.

Typdeklarationen

im einfachsten Fall (Java, C#):

Typname Variablenname [ = Initialisierung ] ;
int []  a = { 1, 2, 3 };
Func<double,double> f = (x => sin(x));

gern auch komplizierter (C): dort gibt es keine Syntax für Typen, sondern nur für Deklarationen von Namen.
```
double f (double x) { return sin(x); }
int * p;  double ( * a [2]) (double) ;
```
Beachte: * und [] werden von außen nach innen angewendet
Ü: Syntaxbäume zeichnen, a benutzen

Typinferenz in C# und Java

für lokale Variablen in C#, Java: var

public class infer {  
    public static void Main (string [] argv) {
        var arg = argv[0];
        var len = arg.Length;
        System.Console.WriteLine (len);  }   }

Ü: dieses var ist nicht das var aus Javascript.
für formale Parameter von anonymen Unterprogrammen
```
Function<Integer,Integer> f = (x) -> x; 
```
Typ von f wird nicht inferiert: var f = (x)-> x

Code-Inferenz

in vielen einfachen Sprachen dienen Typen tatsächlich nur zur Spezifikation und Dokumentation

…man könnte sie also doch weglassen, wenn man nur die Implementierung selbst braucht?
moderne, ausdrucksstarke Typsysteme nützen deutlich mehr und tragen auch zur Code-Erzeugung bei.

Sandy Maguire: https://thinkingwithtypes.com/
Anwendungen/Beispiele (u.a. in autotool)
- typgesteuerte Testdatenerzeugung, Rudy Matela, 2017,
  
  https://hackage.haskell.org/package/leancheck
- Type-Level Web APIs with Servant, Alp Mestanogullari et al., 2015, https://www.servant.dev/

Konstanten

$=$ Variablen, an die genau einmal zugewiesen wird
- C: const (ist Attribut für Typ)
- Java: final (ist Attribut für Variable)

Vorsicht:

class C { int foo; }
static void g (final C x) { x.foo ++; }

alle Deklarationen so lokal und so konstant wie möglich!

(d. h., Attribute immutable usw.)

denn das verringert den Umfang der Dinge, über die man nachdenken muß, um das Programm zu verstehen

Lebensort und -Dauer von Name und Daten

statisch (auf statisch zugeordneter Adresse im Hauptspeicherbereich)
```
int f (int x) {
    static int y = 3; y++; return x+y; }
```
dynamisch (auf zur Laufzeit bestimmter Adresse)
- Stack (Speicherbereich für Unterprogramm-Aufruf) { int x = ... }
- Heap (Hauptspeicherbereich)
  - explizit (new/delete, malloc/free)
  - implizit (kein delete, sondern automatische Freigabe)
Beachte (in Java, C#) in { C x = new C(); } ist x stack-lokal, Inhalt ist Zeiger auf das heap-globale Objekt.

Sichtbarkeit von Namen

eine Deklaration ist sichtbar, wenn die Verwendung des Namens ein Bezug auf die deklarierte Variable ist
üblich ist: Sichtbarkeit beginnt nach Deklaration und endet am Ende des umgebenden Blockes.
Import-Deklarationen machen Namen aus anderen Namensbereichen sichtbar
(Java) ohne Import-D. besteht qualifizierte Sichtbarkeit
(C): Sichtbarkeit beginnt in der Initalisierung
```
int x = sizeof(x); printf ("%d\n", x);
```
Ü: ähnliches Beispiel für Java? Vgl. JLS Kapitel 6.

Verdeckung von Deklarationen

Namen sind auch in inneren Blöcken sichtbar:

int x;
while (..) {
  int y;  ... x + y ... 
}

innere Deklarationen verdecken äußere:

int x;
while (..) {
  int x;   ... x ... 
}

Sichtbarkeit in JavaScript

Namen sind sichtbar
- Deklaration mit var: im (gesamten!) Unterprogramm
```
(function() { { var x = 8; } return x; } ) ()
```
- Deklaration mit let: im (gesamten!) Block
```
(function() { { let x = 8; } return x; } ) ()
```

Ü: erkläre (durch Verweis auf Sprachspezifikation)

(function(){let x=8; {x=9} return x} )()
(function(){let x=8; {x=9;let x=10} return x} )()
(function(){let x=8; {y=9;let x=10} return x} )()

Hausaufgaben

Beobachten und erklären Sie die Ausgabe von
```
#include <stdio.h>
int main (int argc, char **argv) {
  int x = 3;
  { printf ("%d\n", x);
    int x = 4;
    printf ("%d\n", x);
  }
  printf ("%d\n", x);
}
```
schreiben Sie ein entsprechendes Java-Programm und vergleichen Sie (statische und dynamische Semantik: experimentell und mit Sprachspezifikation)
Sichtbarkeit von Deklarationen in Javascript.

Siehe Folie, Original-Dokumentation zeigen und Beispiele vorführen (node), ergänzen durch weitere Beispiele mit nicht offensichtlicher Semantik, Bsp: Variablen-Deklaration in einem Zweig einer Verzweigung.

nur Sichtbarkeiten — Programmablaufsteuerung soll trival sein (keine Schleifen, keine Unterprogramme)
frühere Folie Verweis- und Wertsemantik in C#: den angegebenen Testfall durchführen (mit Mono C# Shell, csharp), Lebensort (Stack, Heap) der Daten angeben, dann class durch struct ersetzen.

Definition, Abgrenzung

Ausdruck hat Wert (Zahl, Objekt, …)

(Ausdruck wird ausgewertet)
Anweisung hat Wirkung (Änderung des Speicher/Welt-Zustandes)

(Anweisung wird ausgeführt)

Vgl. Trennung (in Pascal, Ada)

Funktion (Aufruf ist Ausdruck)
Prozedur (Aufruf ist Anweisung)

Ü: wie in Java ausgedrückt? wie stark getrennt?

Syntax von Ausdrücken

einfache Ausdrücke : Literale, (Variablen-)Namen
zusammengesetzte Ausdrücke:
- Operator-Symbol zwischen Argumenten
- Funktions-Symbol vor Argument-Tupel

wichtige Spezialfälle für Operatoren:

arithmetische (von Zahlen nach Zahl)
relationale (von Zahlen nach Wahrheitswert)
boolesche (von Wahrheitswerten nach Wahrheitsw.)

Wdhlg: Syntaxbaum, Präzedenz, Assoziativität.

Designfragen für Ausdrücke

Syntax
- Präzedenzen (Vorrang)
- Assoziativitäten (Gruppierung)
- kann Programmierer neue Operatoren definieren?
statische Semantik
- …vorhandene Operatornamen überladen?
- Typen der Operatoren?
- implizite, explizite Typumwandlungen?
dynamische Semantik
- Ausdrücke dürfen (Neben-)Wirkungen haben?
- falls mehrere: in welcher Reihenfolge treten diese ein?
- verkürzte Auswertung (nicht alle NW treten ein)?

Beziehungen zw. Ausdruck und Anweisung

in allen imperativen Sprachen gibt es Ausdrücke mit Nebenwirkungen (nämlich Unterprogramm-Aufrufe)
in den rein funktionalen Sprachen gibt es keine (Neben-)Wirkungen, also keine Anweisungen

(sondern nur Ausdrücke).
in den C-ähnlichen Sprachen ist = ein Operator,

(d. h. die Zuweisung ist syntaktisch ein Ausdruck,

kann Teil von anderen Ausdrücken sein)

int x = 3; int y = 4; int z = x + (y = 5);
in den C-ähnlichen Sprachen:

Ausdruck ist als Anweisung gestattet (z.B. in Block)

{ int x = 3; x++ ; System.out.println(x); }

Überladene Operatornamen

Def: Name $n$ überladen, falls $n$ mehrere Bedeutungen (gleichzeitig sichtbare Deklarationen) hat
in vielen Sprachen sind arithmetische und relationale Operatornamen überladen …

weil das Typsystem keine flexiblere Lösung gestattet, wie z.B. class Num a where (+) :: a -> a -> a
Überladung wird statisch aufgelöst (vom Compiler, anhand der Typen der Argument-Ausdrücke)

int x = 3; int y = 4; ... x + y ...
double a;   double b; ... a + b ...
String p;   String q; ... p + q ...

Automatische Typanpassungen

in vielen Sprachen postuliert man eine Hierarchie von Zahlbereichstypen:

$\textrm{byte} \subseteq \textrm{int} \subseteq \textrm{float} \subseteq \textrm{double}$

im allgemeinen ist das eine Halbordnung.
Operator mit Argumenten verschiedener Typen: (x :: int) + (y :: float)

beide Argumente werden zu kleinstem gemeinsamen Obertyp promoviert, falls dieser eindeutig ist (sonst statischer Typfehler)

(Halbordnung $\to$ Halbverband)
(das ist die richtige Benutzung von promovieren)

Wahrheitswerte in C, C++

der Typ der Wahrheitswerte ist bool

(in C: #include <stdbool.h>)
mit impliziter Konversion:
- zu int: false $\to 0$, true $\to$ 1
- von int: $\to$ false, alles andere $\to$ true

bool x = false; bool y = true; bool z = true;
int a = x + y + z;
int b = x || (y + z);

Der Plus-Operator in Java

hat diese Überladungen: Addition von int, Addition von double, …, Verkettung von String

System.out.println ("foo" + 3 + 4);
System.out.println (3 + 4 + "bar");

Vorgehen für die Analyse:
- abstrakten Syntaxbaum bestimmen
- Typen (als Attribute der AST-Knoten) bestimmen,
- dabei implizite Typ-Umwandlungen einfügen
  
  (in diesem Fall Integer.toString())
- Werte (als Attribute) bestimmen

Explizite Typumwandlungen

sieht gleich aus und heißt gleich (cast), hat aber verschiedene Bedeutungen:

Datum soll in anderen Typ gewandelt werden, Repräsentation ändert sich:

int x = 4; double y = (double) x / 5;
/* Ü : */ double z = (double) (x / 5) ;

Programmierer weiß es besser als der Compiler,
Code für Typprüfung zur Laufzeit wird erzeugt,
Repräsentation ändert sich nicht:
```
List books; Book b = (Book) books.get (7);
```

Typumwandlungen in Haskell

Joachim Breitner et al.: Safe zero-cost coercions for Haskell, JFP 2016, https://dblp.org/rec/journals/jfp/BreitnerEJW16.html

Umwandlung zwischen Basistyp und abgeleitetem Typ mit gleicher Laufzeit-Repräsentation
- sicher: durch Compiler bewiesen
- kostenlos: keine Laufzeitkosten
```
newtype Foo = Foo Int
data Bar a = Bar Bool a
xs = replicate 10 (Bar True (Foo 3)) :: [Bar Foo]
ys = Data.Coerce.coerce xs :: [Bar Int]
```

Der Zuweisungs-Operator

Syntax:
- Algol, Pascal: Zuweisung :=, Vergleich =
- Fortran, C, Java: Zuweisung =, Vergleich ==
Semantik der Zuweisung a = b:
- bestimme Adresse (lvalue) $p$ von a
- bestimme Wert (rvalue) $v$ von b
- schreibe $v$ auf $p$
diese Ausdrücke haben einen lvalue:
- Variablen
- a[i], mit: rvalue von $a$ ist Array, rvalue von $i$ ist Index
- o.a, mit: rvalue von $o$ ist Objekt mit Attribut $a$
Bsp: foo()[bar()]

Weitere Formen der Zuweisung

(in C-ähnlichen Sprachen)

verkürzte Zuweisung: a += b

entsprechend für andere binäre Operatoren
- lvalue $p$ von $a$ wird bestimmt (nur einmal)
- rvalue $v$ von $b$ wird bestimmt
- Wert auf Adresse $p$ wird um $v$ erhöht
Inkrement/Dekrement
- Präfix-Version ++i, --j: Wert ist der geänderte
- Suffix-Version i++, j--: Wert ist der vorherige
Ü: experimentell bestätigen, daß lvalue des Zuweisungsziels nur einmal ausgewertet wird

Teil-Ausdrücke mit Nebenwirkungen

(side effect; falsche Übersetzung: Seiteneffekt)

in C-ähnlichen Sprachen: Zuweisungs-Operatoren bilden Ausdrücke, d. h. Zuweisungen sind Ausdrücke und können als Teile von Ausdrücken vorkommen.
Wert einer Zuweisung ist der zugewiesene Wert
```
int a; int b; a = b = 5; // wie geklammert?
```
Komma-Operator zur Verkettung von Ausdrücken (mit Nebenwirkungen) – vgl. C mit Java
```
for (... ; ... ; i++,j--) { ... }
```

Auswertungsreihenfolgen

zusammengesetzte Programme können mehrere Bestandteile mit Nebenwirkungen haben.

In welcher Reihenfolge finden diese statt?
- Anweisungen: explizite Programm-Ablauf-Steuerung
```
{ int a = 5; a = 6; int b = a + a; }
```
- Ausdrücke?
```
{ int a; int b = (a = 5) + (a = 6); }
```
C, C++: Reihenfolge nicht spezifiziert, wenn Wert davon abhängt, dann ist Verhalten nicht definiert
Java, C#: Reihenfolge genau spezifiziert (siehe JLS)

Ausdrucks-Semantik von C

Sprachstandard benutzt Begriff sequence point (Meilenstein): bei Komma, Fragezeichen, && und ||
Nebenwirkungen zwischen Meilensteinen müssen unabhängig sein (nicht die gleiche Speicherstelle betreffen),
ansonsten ist das Verhalten undefiniert, d.h., der Compiler darf beliebigen Code erzeugen, z.B. solchen, der die Festplatte löscht oder Cthulhu heraufbeschwört.
vgl. Aussagen zu sequence points in

https://gcc.gnu.org/readings.html

und

Gurevich, Huggins: Semantics of C,

https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.29.6755

Logische (Boolesche) Ausdrücke

Konjunktion &&, Disjunktion ||, Negation !

Äquivalenz, Antivalenz
verkürzte Auswertung für Konjunktion und Disjunktion: wenn nach Auswertung des linken Arguments das Resultat feststeht, denn werte rechtes nicht aus
```
int [] a = ...; int k = ...;
if ( k >= 0 && a[k] > 7 ) { ... }
```
dann tritt dessen Nebenwirkung (o. Exception) nicht auf
warum keine verkürzte Auswertung für Äquiv., Antiv.?

Der ternäre Verzweigungs-Operator ?:

if ( 0 == x % 2 ) { x = x / 2; } 
else {  x = 3 * x + 1; }

die Zuweisung herausfaktorisieren:

x = if ( 0 == x % 2 ) {  x / 2 }
    else { 3 * x + 1 } ;

historische Notation dafür benutzt ternären Operator ?:
```
x = ( 0 == x % 2 ) ? x / 2 : 3 * x + 1;
```
(x && y) $\equiv$ (x ? y : false), (x || y) $\equiv$ …

Verzweigungs-Operator auf lvalues (C++):

int a = 4; int b = 5; int c = 6;
( c < 7 ? a : b ) = 8;

Übungen

Gary Bernhardt: WAT (2012) https://www.destroyallsoftware.com/talks/wat
Wiederholung Operator-Syntax:
- ist die Mengendifferenz assoziativ?
- vgl. https://gitlab.haskell.org/ghc/ghc/issues/15892 the fix was to add a pair of parentheses
Was spricht dafür und dagegen, daß in einem Programmtext neue Operatoren definiert werden?

In C++ darf man keine neuen Operatoren deklarieren, aber vorhandene Operatoren neu implementieren. Begründen Sie diese Design-Entscheidung.

Hausaufgaben

WS 23: (1 oder 3), 4, 5

Konversion von int nach float in Java:
1. Es gilt nicht $\text{int}\subseteq\text{float}$, denn:
  - beide Mengen sind gleich groß (wie groß?)
  - und es gibt (viele) $y\in\text{float}\setminus\text{int}$ (welche?)
2. Geben Sie ein $x\in\text{int} \setminus\text{float}$ explizit an.
  
  (eine ganze Zahl, die keine exakte Darstellung als float besitzt)
3. Wo ist diese Konversion in der Sprachspezifikation (JLS) beschrieben?
4. desgleichen für long zu double
5. Gilt $\text{int}\subseteq\text{double}$? (nach JLS, nach IEEE-Standard)

durch Verweis auf JLS erklären:

System.out.println ("H" + "a");
System.out.println ('H' + 'a');

char x = 'X'; int i = 0;
System.out.print (true  ? x : 0);
System.out.print (false ? i : x);

long x = 1000 * 1000 * 1000 * 1000;
long y = 1000 * 1000;
System.out.println ( x / y );

System.out.println 
    ((int) (char) (byte) -1);

Quelle: Joshua Bloch, Neil Gafter: Java Puzzlers, Addison-Wesley, 2005.

statische Semantik (Typisierung) und dynamische Semantik (Auswertung) dieses Programms (in C, in Java)
```
int a = -4; int b = -3; int c = -2;
if (a < b < c) {
    printf ("aufsteigend");
}
```
dazu den AST für a < b < c zeichnen und annotieren.
UB (undefined behaviour) für C-Ausdrücke mit abhängigen Teilausdrücken zwischen Sequence Points:
1. Finden Sie C- oder C++- Programme, bei denen
  - verschiedene Compiler (gcc, clang, g++, clang++)
  - ein Compiler bei verschiedenen Optionen (-O0, -O3)
  - verschiedene Versionen eines Compilers (im Pool: verschiedene gcc sind installiert)
  unterschiedliche Semantik realisieren. Beispiel:
```
int y = 1; int z = (y=2) + (y=3);
```
2. Wo ist dieses (undefined) Verhalten im (draft) C++-Standard beschrieben? (http://www.open-std.org/jtc1/sc22/wg21/)
3. Vergleichen Sie mit Semantik des entsprechenden Java-Programms. (Ausführen, Bytecode ansehen, Sprachspezifikation)
4. Wer ist Cthulhu, wo wohnt er (derzeit), was hat er vor? Seine Beziehung zu Semantik von C-Programmen ist Folklore (kann nur durch Internet-Quellen belegt werden).
Verkürzte Auswertung bei logischen Operatoren in Java und JS (Tests mit jshell, node)
1. einen Testfall angeben, der die verkürzte Auswertung bei || zeigt.
2. Der Operator | verknüpft Zahlen bitweise. (Testfall angeben) Es gibt | auch für boolean. Worin besteht der Unterschied zu || ? (Testfall angeben)
3. desgl. für &
4. das gleiche für JS oder TS untersuchen
Verkürzte Auswertung bei logischen Operatoren in Ada: Sprachstandard und Vorführung. Benutze GNAT (GNU Ada Translator) als Teil von GCC (GNU Compiler Collection), ist im Pool installiert

Dynamische Semantik

Methoden zur Beschreibung der Semantik:
- operational: beschreibt Wirkung einzelner Anweisungen durch Änderung des Speicherbelegung
- denotational: ordnet jedem (Teil-)Programm einen Wert zu, Bsp: eine Funktion (höherer Ordnung).
  
  Beweis von Programmeigenschaften durch Term-Umformungen
- axiomatisch (Bsp: Hoare-Kalkül): Schlußregeln zum Beweis von Aussagen über Programme
Anwendung: die dynamische S. von zusammengesetzen Anweisungen beschreibt Programm-Ablauf-Steuerung

Anweisungen: Definition

abstrakte Syntax:
- einfache Anweisung:
  - leere Anweisung (skip), Zuweisung (l:=r),
  - Sprung goto, break, continue, return, throw
  - Unterprogramm-Aufruf (p(a,b))
- zusammengesetzte Anweisung:
  - Nacheinanderausführung (Block)
  - Verzweigung (zweifach: if, mehrfach: switch)
  - Wiederholung (Schleife)
Semantik: Ausführen einer Anweisung

bewirkt Zustandsänderung
(evtl. mit mehreren Zwischenzuständen)

Zustand: Speicherbelegung und Außenwelt (über OS)

Programm-Ablauf-Steuerung

engl. control flow, falsche Übersetzung: Kontrollfluß;

to control $=$ steuern, to check $=$ kontrollieren/prüfen
von-Neumann-Modell: jede Anweisung beschreibt
- Was? (Operation) Womit? (Operanden) Wohin? (Resultat)
- Wie weiter? (nächste Anweisung)
Programm-Ablauf dabei also durch Sprünge gesteuert
Ablaufsteuerung durch strukturierte Programmierung:

jedes Teilprogramm (Teilbaum des AST)

hat genau einen Eingang und genau einen Ausgang
vorzeitiges Verlassen eines Teilprogrogramms:

Schleife (break, continue), UP (return), throw/catch

Operationale Semantik: Sprünge

Maschinenmodell:

Variable $\textsf{PC}$ (program counter) enthält Adresse des nächsten auszuführenden Befehls
Semantik von $\textsf{Goto}(z)$ ist: $\textsf{PC}:= z$

Semantik der Nicht-Sprungbefehle: $\dots, \textsf{PC}:=\textsf{PC}+1$
andere Varianten der Programmablaufsteuerung können in Goto-Programme übersetzt werden

Bsp: Schleife while (B) A $\Rightarrow$ if (B) ...

das findet bei Kompilation von Java nach JVM statt

Axiomatische Semantik

Notation für f. Aussagen über Speicherbelegungen: Hoare-Tripel: { V } A { N }

für jede Belegung $s$, in der Vorbedingung $V$ gilt:
wenn Anweisung A ausgeführt wird

und Belegung $t$ erreicht wird,
dann gilt dort Nachbedingung $N$

Beispiel:{ x >= 5 } y := x + 3 { y >= 7 }

Beachte: {x >= 5} while (true) ; {x == 42}

Gültigkeit solcher Aussagen kann man

(vor Programm-Ausführung) beweisen (mit Hoare-Kalkül)
(während Programm-Ausführung) überprüfen (assert)

Eiffel

Bertrand Meyer, https://www.eiffel.com/

class Stack [G]     feature 
    count : INTEGER
    item : G is require not empty do ... end
    empty : BOOLEAN is do .. end
    full  : BOOLEAN is do .. end
    put (x: G) is
       require not full do ...
       ensure not empty
              item = x
              count = old count + 1

Beispiel sinngemäß aus: B. Meyer: Object Oriented Software Construction, Prentice Hall 1997

Sprachstandard: Eiffel: Analysis, design and programming language ECMA-367 (2nd edition, June 2006)

Hoare-Kalkül: Überblick

zu jedem Knotentyp in abstrakten Syntaxbäumen von strukturierten imperativen Programmen ein Axiom-Schema

elementare Anweisung:
- leere Anweisung { N } skip { N }
- Zuweisung { N[x/E] } x := E { N }

zusammengesetzte Anweisungen:

wenn { V } C { Z }  und  { Z } D { N }
dann  { V } C; D { N }

wenn { V und     B } C { N }  
und  { V und not B } D { N }
dann { V } if (B) then C else D { N }

wenn  { I and B } A { I },
dann  { I } while (B) do A { I and not B }

Axiom für Zuweisung

Axiom (-Schema): { N[x/E] } x := E { N }
dabei bedeutet $N[x/E]$:

der Ausdruck $N$, wobei jedes Vorkommen des Namens $x$ durch den Ausdruck $E$ ersetzt wird

Bsp: $(y\ge 7)[y/x+3] ~=~ (x+3\ge 7) ~=~ (x\ge 4)$
Bsp: Anwendung { ... } y := x+3 { y >= 7 }
Übung: welche Vorbedingung ergibt sich für
```
a := a + b; b := a - b ; a := a - b;
```
und Nachbedingung $a=X\wedge b=Y$?

Dabei auch Axiom für Nacheinanderausführung benutzen

Simultan-Zuweisung

Anweisung $(v_1,v_2):=(e_1,e_2)$ für $v_1\neq v_2$
axiomatische Semantik:

$\{ N[v_1/e_1,v_2/e_2] \} ~ (v_1,v_2):=(e_1,e_2) ~\{ N \}$

verwendet links simultane Ersetzung
Bsp: $\{ \dots \} ~ (a,b) := (b,a) ~ \{ a=2\wedge b=5 \}$

Bsp: $\{ \dots \} ~ (x,y) := (x+y,x-y) ~ \{ x=7\wedge y\ge 3 \}$
realisiert in der Sprache CPL 1963
in JS als destructuring assignment, ECMA 262: 12.15.5

[a,b]=[8,9]; [a,b]=[b,a]

Logische Axiome

logische Umformungen (Programm $A$ bleibt erhalten)
- Verschärfen einer Vorbedingung (von $V$ zu $V'$)
- Abschwächen einer Nachbedingung (von $N$ zu $N'$)
```
wenn { V } A { N } und V' => V und N => N'
dann { V' } A { N' }
```
Anwendung: beweise {x < 1} x := 5-x { x > 2 }
- Zuweisungs-Axiom ergibt {5-x>2} x:=5-x {x>2}
- äquivalent umgeformt zu {x<3} x:=5-x {x>2}
- dann o.g. Axiom anwenden mit V=(x<3), V'=(x<1), N=N'=(x>2)

Axiom für Verzweigung

das Axiom:

wenn { V und     B } C { N }  
und  { V und not B } D { N }
dann { V } if (B) then C else D { N }

Anwendung: beweisen Sie

{ x > 9 }
if (x > y) then a := x - 2 else a := y + 2 
{ a > 7 }

Axiom für Verzweigung (Rechnung)

wir müssen {x>9 und x>y} a:=x-2 {a>7}

und {x>9 und x<=y} a:=y+2 {a>7} zeigen,

um das Axiom-Schema anwenden zu können
Zuweisungs-Axiom ergibt {x-2>7} a:=x-2 {a>7}

äquivalent umgeformt {x>9} a:=x-2 {a>7}

Axiom-Schema zum Verschärfen der Vorbedingung ($V'=(x>9)\wedge(x>y), V=(x>9)$) ergibt erstes Teilziel
Zuweisungs-Axiom ergibt {y+2>7} a:=y+2 {a>7}

äquivalent umgeformt {y>5} a:=y+2 {a>7}

Axiom-Schema zu Verschärfen der Vorbedingung
ist anwendbar für $V'=(x>9 \wedge x\le y), V=(y>5)$ wegen $V'\Rightarrow V$, ergibt zweites Teilziel

Axiom für Schleifen

wenn  { I and B } A { I },
dann  { I } while (B) do A { I and not B }

Eingabe int p, q;   // p = P und q = Q
int c = 0;
// inv: p * q + c = P * Q 
while (q > 0) { 
   ??? := ???; q := q - 1;
}
// c = P * Q

Invariante muß: 1. vor der Schleife gelten, 2. im S.-Körper invariant bleiben, 3. nach der Schleife nützlich sein
erst Spezifikation (hier: Invariante), dann Imple- mentierung. (sonst: cart before the horse, EWD 1305)

Erweiterter Euklidische Algorithmus (Spezif.)

Def: $\gcd(x,y)$ ist das Infimum (größte untere Schranke) von $x$ und $y$ in der Teilbarkeits-Halbordnung, d.h.,

$\gcd(x,y)|x \wedge \gcd(x,y)|y \wedge \forall h: \dots$
Erweiterter Euklidischer Algorithmus, Spezifikation:
- Eingabe: $x,y\in\mathbb{N}$
- Ausgabe: $a,b\in\mathbb{Z}$ mit $g = a\cdot x+b\cdot y\wedge g|x \wedge g|y$
Ü: diese Spez. erfüllen für Eingabe $x=60,y=35$
Satz: $g=\gcd(x,y)$.
Beweis des Satzes:

1. $g|x \wedge g|y$ nach Spezifikation,

2. $\dots$

Erweiterter Euklid — imperative Impl.

Ansatz: verwende $x,y, a,b, p,q\ge 0$ mit Invariante

$\gcd(x,y)=\gcd(x_\text{in},y_\text{in})\wedge x=a\cdot x_\text{in}+b\cdot y_\text{in}, y=p\cdot x_\text{in}+q\cdot y_\text{in}$

// X = x, Y = y, x >= 0, y >= 0
(a,b,p,q) := ...
// Inv:  gcd (x,y) = gcd (X,Y) ,
//       x = a X + b Y , y = p X + q Y
while ( y > 0 ) { 
  (x,y,a,b,p,q) := (y, x mod y, ... )
}
// gcd(X,Y) = a X + b Y

Partielle und totale Korrektheit

Hoare-Tripel {V} A {N} beschreibt partielle Korrektheit:

wenn vorher V gilt und A hält, dann gilt danach N

Bsp: {true} while (true); {x=42} ist wahr
stärker (und nützlicher) ist totale Korrektheit:

partielle Korrektheit und A hält tatsächlich (Termination)
Beweis-Verfahren (für Schleifen while (B) do A)
- partielle Korrektheit: Invariante
- Termination: Maßfunktion (Schrittfunktion)
  
  $m$: Speicherbelegung $\to \mathbb{N}$ mit {m = M} A { m < M}
Bsp: eine Maßf. für while(x>0){ ...; x=x/2;} ist x
es gilt: $m(\text{aktueller Zustand}) \ge$ verbleibende Anzahl der Schleifendurchläufe (Schritte)

Beispiele für Maßfunktionen

```
while (x > 0) { x = x - 1; } // MF: x
```
```
z = 1; while (x > 0) {
 y = x; x--; while (y > 0) { y--; z++; }
} 
```
$\textsf{MF}(x,y)=2x^2+y$, denn für $x\ge 1$:

$\textsf{MF}(x,y)\ge 2x^2+0>\textsf{MF}(x-1,x)=2(x-1)^2+x=2x^2-3x+2$

z = 1; while (x > 0) {
 y = z; x--; while (y > 0) { y--; z++; }
} // MF: ?

Wie findet man die Maßfunktion?

die richtige Antwort ist (wie für die Invariante, siehe EWD): das ist die falsche Frage.
das softwaretechnisch richtige Vorgehen ist:
1. (Entwurf) Invariante und Maßfunktion hinschreiben,
2. (Implementierung) Schleife so ausprogrammieren, daß diese Behauptungen stimmen.
in der Praxis wünscht man eine Teil-Automatisierung:

maschinelles Finden von einfachen (offensichtlichen) Maßfunktionen und Beweisen dafür
vgl. Typisierung von Namen:
- Deklaration (durch Programmierer),
- Inferenz (durch Compiler) (z.B. var in C#, auto in C++)

Automatische Laufzeitanalyse

Martin Hofman, Jan Hoffman, et al.: Resource Aware ML, 2010–,

https://www.raml.co/publications/

Namen sind statisch typisiert, Typ enthält Komplexität

Typ wird inferiert (Koeffizienten des Laufzeitpolynoms durch Constraint-Solver bestimmt)
Intl. Workshop on Termination (seit 1993),
Intl. Termination and Complexity Competition (seit 2003),

https://www.termination-portal.org/
Geser, Hofbauer, Waldmann: SRS Termin. Analysis

https://gitlab.imn.htwk-leipzig.de/waldmann/pure-matchbox#srs-nontermination-analysis
automatische Analyse ist nützlich, denn …

https://accidentallyquadratic.tumblr.com/

Hausaufgaben

Für alle Programme: Diskussion der Eigenschaften (Hoare-Tripel, Invarianten) im Pseudocode. Geben Sie zusätzlich eine Implementierung in einer Programmiersprache Ihrer Wahl an, die dem Pseudocode optisch nahe kommt.

WS 23: 2, 4, 5

zur Folie Zuweisungs-Axiom:
- bestimmen Sie die Vorbedingung zu a := a + b; ..., aus den Axiomen für Zuweisung und Nacheinanderausführung.
- Geben Sie ein ähnliches Verfahren an, das mit a := a XOR b beginnt, wobei XOR die bitweise Antivalenz bezeichnet.
- Für das C++-Programm
```
#include <iostream>

void sub (int & a, int & b) {
  a = a + b; b = a - b; a = a - b;
}

int main () {
  int p = 3; int q = 4;
  sub (p, q);  // (*)
  using namespace std;
  cout << p << q << endl;
}
```
  Kompilieren Sie mit -O3,
  
  betrachten Sie den erzeugten Assemblercode:
  
  für sub: wieviele Register werden benutzt?
  
  für main: vergleichen Sie mit der Variante, bei welcher der markierte Unterprogrammaufruf auskommentiert wird (beide Varianten abspeichern, z.B. g++ -O3 -S -o prog.s prog.cc, diff benutzen)
https://www.imn.htwk-leipzig.de/~waldmann/edu/ws21/inf/folien/#(114) (Parteien A, B, C).

Vgl. auch die Folien davor (20 und 21 Kugeln)

https://www.imn.htwk-leipzig.de/~waldmann/edu/ws21/inf/folien/#(9) (91 Atome)
Ergänzen Sie das folgende Programm, so daß die Spezifikation (das Potenzieren) erfüllt wird:
```
Eingabe: natürliche Zahlen a, b;
// a = A und b = B
int p := 1; int c := ???;
// Invariante:  c^b * p = A^B
while (b /= 0) {
    if (b ist ungerade) 
      then (c,p) := ...
      else (c,p) := ...
    //  Z
    b := abrunden (b/2);
}
Ausgabe: p; // p = A^B
```
- Initialisieren Sie c so, daß die Invariante gilt.
- Wieso folgt aus der Invariante bei Verlassen der Schleife die Korrektheit der Ausgabe?
- Bestimmen Sie eine geeignete Aussage Z als Vorbedingung der nachfolgenden Anweisung bezüglich der Invariante.
- Bestimmen Sie daraus die Lücken (...)
Für das Programm
```
Eingabe: positive natürliche Zahlen A, B;
(a,b,c,d) := (A,B,B,A)
while (a /= b) {
  if (a > b) then (a,d) := (a-b,c+d)
             else (b,c) := (b-a,d+c)   }
Ausgabe: (a+b)/2 , (c+d)/2
```
- zeigen Sie, daß die erste Ausgabe gleich gcd(A,B) ist.
  
  Zeigen Sie dazu: gcd(a,b) = gcd(A,B) ist invariant.
  
  Welche Eigenschaften des gcd werden benötigt?
- was ist die zweite Ausgabe? Geben Sie eine Vermutung an und beweisen Sie mit einer geeigneten Invariante.
- wozu ist die Bedingung positiv notwendig?
Es können zusätzlich Aufgaben aus dem Math+-Adventskalender https://www.mathekalender.de/wp/de/kalender/ bearbeitet werden—wenn eine Beziehung zur Vorlesung hergestellt wird, z.B. Verwendung einer Methode aus dem Skript oder einer esoterischen Programmiersprache.

Zum Lesen der Aufgaben ist keine Registrierung erforderlich.

In unserem Issue-Tracker diskutieren, pro Woche max. eine Aufgabe zur Präsentation in der Übung, sofern Zeit ist. Aufgaben müssen nicht vollständig gelöst werden.

Definition (Wiederholung)

abstrakte Syntax:
- einfache Anweisung:
  - leere Anweisung (skip), Zuweisung (l:=r),
  - Sprung goto, break, continue, return, throw
  - Unterprogramm-Aufruf (p(a,b))
- zusammengesetzte Anweisung:
  - Nacheinanderausführung (Block)
  - Verzweigung (zweifach: if, mehrfach: switch)
  - Wiederholung (Schleife)
Semantik: Ausführen einer Anweisung

bewirkt Zustandsänderung

Blöcke

Def: Folge von (Deklarationen und) Anweisungen
Designfrage/historische Entwicklung: Deklarationen …
- am Beginn des Progr. (Assembler, COBOL, Fortran)
- am Beginn jedes Unter-Programms (Pascal)
- am Beginn jedes Blocks (C)
- an jeder Stelle jedes Blocks (C++, Java)
Designfrage für Syntax: Blöcke
- explizit (Klammern, begin/end)
- implizit (if …then …end if , d.h., ohne begin)

Verzweigungen (zweifach)

in vielen Sprachen:

if Bedingung then Anweisung1 
     [ else Anweisung2 ]

Designfrage (Syntax und Semantik): Bedingung ist …
- beliebiger Ausdruck mit Typ Wahrheitswert
- nur Vergleich zwischen Ausdrücken vom Typ Zahl
Designfrage Syntax: Mehrdeutigkeit der Grammatik
- gelöst durch Festlegung (else gehört zu letztem if)
- vermieden durch Block-Bildung (Ada)
- tritt nicht auf, weil man else nie weglassen darf,
  weil beide Zweige einen Wert liefern (?:, Haskell)

Mehrfach-Verzweigung

Syntax:

switch (e) {
   case c1 : s1 ; 
   case c2 : s2 ;
   [ default : sn; ]  }

Semantik

if (e == c1) s1
else if (e == c2) s2 
  ... else sn

Bezeichnung: der Ausdruck e heißt Diskriminante
Vorsicht! Das ist nicht die Semantik in C(++), Java.
welche Typen für e? (z.B.: Aufzählungstypen)
Wertebereiche? (case c1 .. c2 : ...)
was passiert, wenn mehrere Fälle zutreffen?

(z.B.: statisch verhindert dadurch, daß ci verschiedene Literale sein müssen)

switch/break

switch (index) {
  case 1  : odd  ++; 
  case 2  : even ++;
  default : 
    printf ("wrong index %d\n", index); 
}

Semantik in C, C++, Java ist nicht führe den zum Wert der Diskriminante passenden Zweig aus
sondern …passenden Zweig aus sowie alle danach folgenden Zweige.
C#: jeder Zweig muß mit break oder goto enden.

Verzweigungen in Ausdrücken

zweifach-Verzweigung in C-ähnlichen Sprachen:

Ausdruck vom Typ int mit Wert 11:
```
false ? 12 : 11
```
Mehrfach-Verzweigung (switch expression) in Java (21)

Ausdruck vom Typ int mit Wert 1:
```
switch (3) {case 0 -> 0; default -> 1;}
```
warum? nur nebenwirkungsfreie Programme sind leicht zu spezifieren, zu testen, zu komponieren, zu parallelisieren $\Rightarrow$ Ausdrücke, nicht Anweisungen $\Rightarrow$ funktionale Programmierung

Kompilation der Mehrfachverzweigung

ein switch (mit vielen cases) wird übersetzt in:

(naiv) eine lineare Folge von binären Verzweigungen (if, elsif)
(semi-clever) einen balancierter Baum von binären Verzweigungen
(clever) eine Sprungtabelle

Übung:

einen langen Switch (1000 Fälle) erzeugen (durch ein Programm!)
Assembler/Bytecode anschauen

Pattern Matching (Def., Bsp. Scala)

Fallunterscheidung nach Konstruktor (Bsp: Const,Plus)

und Bindung von lokalen Namen (im Bsp: l,r)

data Term = Constant Int | Plus Term Term -- Haskell
eval :: Term -> Int
eval t = case t of
  Constant i -> i
  Plus l r -> eval l + eval r

abstract class Term   // Scala
case class Constant (value:Int) extends Term
case class Plus (left:Term, right:Term) extends Term
def eval(t:Term):Int = { t match {
    case Constant(v) => v
    case Plus(l, r) => eval(l) + eval(r)  } }

Pattern Matching (Bsp. Java)

ein Muster, dessen lokale Variable s hat Typ String und ist im Ja-Zweig sichtbar:
```
Object o = "foo";
(o instanceof String s) ? s.length() : 42
```

mehrere Muster, Mustervariable in jeweiligem Zweig und (vorher schon) Bedingung sichtbar

switch (o) { case String s when s.length() > 2 -> 4;
  case Integer i -> 0; default -> 2;}

Benennung von Record-Komponenten

record R (int x, String y) {}
switch (new R(2,"foo")) {
  case R(int x, String y ) -> x; ...}

Wiederholungen (Schleifen)

Programmablaufsteuerung von Wiederholungen:
- von-Neumann-Modell (Maschine, Assembler): unbedingter, bedingter Sprung
- strukturierte Programmierung: Schleifen
wie beweist man Programm-Eigenschaften?
- partielle Korrektheit: mit Invariante
- Termination: mit Maßfunktion
Designfragen für Schleifen:
- wie wird Schleife gesteuert? Bedingung, Zähler, Zustand (Iterator), Daten (Collection)
- an welcher Stelle in der Schleife findet Steuerung statt (Anfang, Ende, dazwischen, evtl. mehrere Stellen)

Schleifen steuern durch…

Zähler
```
for p in 1 .. 10 loop .. end loop;
```

Daten

map (\x -> x*x) [1,2,3] ==> [1,4,9]

Collection<String> c 
    = new LinkedList<String> ();
for (String s : c) { ... }

Bedingung

while ( x > 0 ) { if ( ... ) { x = ... } ... }

Zustand (Iterator, hasNext, next)

Zählschleifen

Idee: vor Beginn steht Anzahl der Durchläufe fest.

Maßfunktion $=$ Abstand des akt. Zählerwertes zum Ende
richtig realisiert ist das nur in Ada:
```
for p in 1 .. 10 loop ... end loop;
```
- Zähler p wird implizit deklariert
- Zähler ist nur im Schleifenkörper sichtbar
- Zähler ist im Schleifenkörper konstant
- Zählerstand nur implizit d. Schleifensteuerung geändert
- Ausdrücke für Bereichsgrenzen werden nur einmal (vor Betreten der Schleife) ausgewertet
Vergleiche (beide Punkte) mit Java, C++, C

Datengesteuerte Schleifen

die Zählschleife ist schon ein code smell
(Anzeichen für unzweckmäßige Programmierung),
der eigentliche smell ist die Verwendung von Zahlen (!)
weil man (wegen verfrühter Optimierung) über Indizes spricht statt über die indizierten Werte
```
T [] a; for (int i = ...) { ... a[i] ... }
```
Notation zur Vermeidung von Indizes bei Verarbeitung aller Elemente einer Datenstruktur
```
for (T x : a) { ... x ... }
```
mit Indizes, die gar nicht dastehen, kann man auch keine Indexfehler machen (z.B. off-by-one)

Zustandsgesteuerte Schleifen

Iterator repräsentiert Strom von Daten

(Stream $=$ Liste mit bedarfsweiser Auswertung)

interface Iterator<T> {
  boolean hasNext(); T next ();  }
interface Iterable<T> { 
   Iterator<T> iterator(); }

Iterator-Objekt ist oft Index(Variable) mit Verweis auf zugrundeliegende Struktur. Das vermeidet Risiken wie: int i; int j; int [] a; int [] b; .. a[j]
Iterator ist hier implizit (über den Wert einer Variablen, die gar nicht dasteht, muß man nicht nachdenken)
```
Iterable <T> c; for (T x : c) { ... }
```

Implizite Iteratoren in C#

durch diese Konstruktion wird ein Iterator angelegt:

using System.Collections.Generic;
public class it {
    public static IEnumerable<int> Data () { // <===
        yield return 3; yield return 1;
        yield return 4;                    }
    public static void Main () {
        foreach (int i in Data()) {
            System.Console.WriteLine (i);  } } }

der markierte Block ist eine Co-Routine, seine Ausführung ist mit der des Hauptprogramms verschränkt.
Coroutinen in Simula (1967), siehe: Ole-Johan Dahl, C. A. R. Hoare: Hierarchical Program Structures, 1972

https://dl.acm.org/doi/book/10.5555/1243380

Bedingungsgesteuerte Schleifen

das ist die allgemeinste Form, ergibt (partielle) rekursive Funktionen,

(zum Vergleich: Programme mit Zählschleifen $=$ primitiv rekursive Funktionen)
Steuerung
- am Anfang: while (Bedingung) Anweisung
- am Ende: do Anweisung while (Bedingung)
Weitere Änderung des Ablaufes:
- vorzeitiger Abbruch (break)
- vorzeitige Wiederholung (continue)
- beides auch nicht lokal

Dynamische Semantik von Schleifen

operationale Semantik durch Sprünge (autotool-Aufgabe)

while (B) A; ==>
   start : if (!B) goto end; 
           A; 
           goto start;
   end   : skip;

Ü: do A while (B);
diese Programme sind semantisch äquivalent:

while (B) A; und if (B) { A; while (B) A }
- das definiert auch die Semantik (durch Transformation)
- Compiler machen das tatsächlich (loop unrolling)
Vergleiche: $(B_1 A)^* B_0 = B_0 \cup B_1 (A\cdot (B_1 A)^* B_0)$

vorzeitiges Verlassen

…des Schleifenkörpers

while (B1) { A1; if (B2) continue;  A2; }

…der Schleife
```
while (B1) { A1; if (B2) break;  A2; }
```

operationale Semantik: äquivalentes Goto-Programm

start: if (B1) goto next else goto end;
next : A1; if (B2) goto ... ; A2; goto start;
end  : skip;

äquivalentes Programm mit Standard-Schleife?
- für continue: einfach
- für break: nur mit Boolescher Hilfsvariablen

Geschachtelte Schleifen

manche Sprachen gestatten Markierungen (Labels) an Schleifen als Ziele für break, continue:

foo : for (int i = ...) {
  bar : for (int j = ...) {
    ... ; if (...) break foo; ...  } }

deswegen (und nur deswegen) gibt es Marken (Labels) in Java, diese sind syntaktisch vor jeder Anweisung erlaubt

…und das ist ein gültiges Programm:
```
void m () {  https://haskell.org/
             return; }
```
Ü: warum zwei Zeilen?

Sprünge

bedingte, unbedingte (mit bekanntem Ziel)
- Maschinensprachen, Assembler, Java-Bytecode
- Fortran, Basic: if Bedingung then Zeilennummer
- Fortran: dreifach-Verzweigung (arithmetic-if)
“computed goto” (Zeilennr. des Sprungziels ausrechnen)
zur Geschichte der Verzweigung in Programmiersprachen (mit vielen Original-Dokumenten)

Eric Fischer: if-then-else had to be invented, !!Con West 2019

https://github.com/ericfischer/if-then-else/blob/master/if-then-else.md http://bangbangcon.com/west/2019/speakers/

Sprünge und Schleifen

Goto und While: softwaretechnisch (pragmatisch) sehr unterschiedlich, aber semantisch gleich ausdrucksstark
Satz: zu jedem While-P. gibt es ein äquivalentes Goto-P.
Satz: zu jedem Goto-P. gibt es ein äquivalentes While-P.

Beweis durch Kompilation:

übesetze 1: A1; 2: A2; .. 5: goto 7; zu
```
while (true) { switch (pc) {
    case 1 : A1 ; pc++ ; break; ...
    case 5 : pc = 7 ; break; ...      } }
```
das beweist: … äquivalentes While-P. mit $\le 1$ Schleife
softwaretechnisch nützt das gar nichts

Schleifen und Unterprogramme

Zu jedem While-P. gibt es ein äquivalentes P. ohne Schleifen: nur mit Verzweigungen und (rekursiven) Unterprogrammen
Beweis-Idee: while (B) A; wird übersetzt in
```
void s () { if (B) { A; s (); } }
```
Anwendung: C-Programme ohne Schlüsselwörter.

(Wiederholung: wie entfernt man if?)
Anwendung: International Obfuscated C Code Contest https://www.ioccc.org/

Garantierte Initialisierung in Java

JSL Kap. 16: For every access of a local variable $x$ …, $x$ must be definitely assigned before the access, or a compile-time error occurs.

For every assignment to a blank final variable, the variable must be definitely unassigned before the assignment, or a compile-time error occurs.
Beispiel: A Java compiler recognizes that k is definitely assigned before its access (as an argument of a method invocation) in the code:
```
int k; // deklariert ohne Initialisierung
if (v > 0 && (k = System.in.read()) >= 0)
    System.out.println(k);
```

Analyse des Programmablaufes lt. JLS

die genannten Bedingungen werden statisch geprüft:

…takes into account the structure of statements and expressions; it also provides a special treatment of the expression operators &&, ||, !, and ? :, and of boolean-valued constant expressions.

Except for the special treatment of the conditional boolean operators &&, ||, !, and ? : and of boolean-valued constant expressions, the values of expressions are not taken into account …
```
|  Error:
|  variable x might not have been initialized
|  {final int x;if(false)x=8;System.out.println(x);}
|                                               ^
```

Aufgaben zur Programm-Äquivalenz

vereinfachtes Modell, damit Eigenschaften entscheidbar werden (sind die Programme $P_1, P_2$ äquivalent?)
Syntax: Programme
- Aktionen,
- Zustandsprädikate (in Tests)
- Sequenz/Block, Verzweigung (if)
- Sprünge: Label, goto,
- Schleifen: while, break, continue
- Boolesche Variablen und Operatoren
Beispiel: while (B && !C) { P; if (C) Q; }

Approximierte Spur-Semantik v. Programmen

Semantik des Programms $P$ ist Menge der Spuren von $P$.
- Spur $=$ eine Folge von Paaren von Zustand und Aktion,
- ein Zustand ist eine Belegung der Prädikatsymbole,
- jede Aktion zerstört alle Zustandsinformation.
Satz: Diese Spursprachen (von goto- und while-Programmen) sind effektiv regulär.

Beweis: Konstruktion über endlichen Automaten.
- Zustandsmenge $=$ Prädikatbelegungen $\times$ Anweisungs-Nummer
- Transitionen? (Beispiele)
Damit ist Spur-Äquivalenz von Programmen entscheidbar.— Beziehung zu tatsächlicher Äquivalenz?

Hausaufgaben

WS 23: Aufgaben 1, 2; optional: 3, 4

Syntax If-Then-Else
1. (Wdhlg) Ergänzen: das Problem des dangling else ist die Mehrdeutigkeit der Grammatik mit den Regeln …
2. (Wdhlg) Geben Sie ein Bespielprogramm $P$ mit 2 Ableitungsbäumen bzgl. einer solchen Grammatik an.
3. Suchen Sie die entsprechenden Regeln der Java-Grammatik,
4. geben Sie den Ableitungsbaum für voriges $P$ bzgl. dieser Grammatik an, begründen Sie, daß diese Grammatik eindeutig ist.
5. Suchen Sie die entsprechenden Regeln in der Grammatik der Programmiersprache Ada,
6. wie muß $P$ geändert werden, damit es durch diese Grammatik erzeugt werden kann?
Kompilation für Mehrfachverzweigung
1. Schreiben Sie ein Programm, das einen C-Programmtext dieser Form ausgibt
```
void p(int x) {
  switch (x) {
    case   0 : q0(); break;
    case   1 : q1(); break;
    ...
    case 999 : q999(); break;    } }
```
  Unterprogramme $q_i$ nicht definieren, es geht nur um Kompilation (zu Objektfile, ohne Linking)
2. Betrachten Sie den Assemblercode, der dafür von gcc -O2 -S erzeugt wird.
3. Ändern Sie das Programm zu
```
case     0 : ...
case   100 : 
...
case 99900 :
```
  beobachten und erklären Sie (ggf. weiter Abstände ausprobieren)
pattern matching (bzw. Pläne dafür) in JS, TS, C# zeigen (mit Primärquellen)
ein (kurzes) (Gewinner-)Programm eines IOCCC vorführen und erläutern, bei dem Programmablaufsteuerung nicht offensichtlich ist

Grundsätzliches

UP ist Ausdruck oder Anweisung mit einer Schnittstelle.
Programmablaufsteuerung, flexible Wiederverwendung
Arten von Unterprogrammen:
- Funktion: liefert Wert, Aufruf ist Ausdruck
  
  (denotationale) Semantik nebenwirkungsfreier UP
  ist partielle Funktion von Eingabe nach Ausgabe
- Prozedur: liefert keinen Wert, Aufruf ist Anweisung
Schnittstelle beschreibt Datentransport
- Deklarat. d. formalen Parameter (Name, Typ, Modus)
- bei Funktionen: Deklaration des Resultattyps

Beispiele Denotationale Semantik

jeder arithmetische Ausdruck (aus Konstanten und Operatoren)

beschreibt eine Zahl
jeder aussagenlogische Ausdruck (aus Variablen und Operatoren)

beschreibt eine Funktion (von Variablenbelegung nach Wahrheitswert)
jeder reguläre Ausdruck

beschreibt eine formale Sprache
jedes rekursive definierte Unterprogramm

beschreibt eine partielle Funktion

Beispiel: Denotationale Sem. von Unterprogr.

Unterprogramme definiert durch Gleichungssysteme.

Sind diese immer lösbar? (eindeutig?)

Diese $f$, $t$ sind tatsächlich einfach darstellbar:

f (x) = if x > 52 
  then x - 11  else f (f (x + 12))

t (x, y, z) = if x <= y then z + 1 
  else t ( t (x-1, y, z) 
         , t (y-1, z, x) 
         , t (z-1, x, y) )

das ist aber Glück, genauer, Absicht, es sind berühmte Vorführ-Beispiele (Ü: Autoren, Quellen? Hinweis: DEK)

Aufgabe Denotationale Semantik

g(x,y) = if x <= 0 then 0 
         else if y <= 0 then 0
  else 1 + g (g (x-1, y), g (x, y-1))

1. Wertetabelle durch Programm bestimmen! Programmiersprache dabei völlig egal! 2. Selbständig!
Wenn die Rechnung zu lange dauert: 3. verstehen, warum, 4. effizienteren Algorithmus benutzen

welches Algorithmen-Entwurfsprinzip hilft hier?
das ist alles Wiederholung aus der VL (Grundlagen der) Programmierung bzw. Algorithmen und Datenstrukturen

Parameter-Übergabe (Semantik)

Datenaustausch zw. Aufrufer (caller) und Aufgerufenem (callee): über globalen Speicher

#include <errno.h>
extern int errno;

oder über Parameter.

Datentransport (entspr. Schüsselwörtern in Ada)

in: (Argumente) vom Aufrufer zum Aufgerufenen
out: (Resultate) vom Aufgerufenen zum Aufrufer
in out: in beide Richtungen

Parameter-Übergabe (Implementierungen)

Wert-Übergabe (pass-by-value)
Verweis-Übergabe (pass-by-reference)

d.h. der formale Parameter im Unterprogramm bezeichnet die gleiche Speicherstelle
wie das Argument beim Aufrufer
(Argument-Ausdruck muß lvalue besitzen)
das Argument beschreibt eine Rechnung (nicht: deren Ergebnis),

die erst im Unterprogramm selbst ausgeführt wird

in funktionalen Sprachen direkt möglich,

sonst simuliert durch textuelle Ersetzung (call-by-name) (Algol68, CPP-Macros)

Parameterübergaben in versch. Sprachen

häufig benutzte Implementierungen:

Pascal: by-value (default) oder by-reference (VAR)
C: immer by-value (Verweise ggf. selbst herstellen)
C++ by-value oder by-reference (durch &)

void p(int & x) { x++; } int y = 3; p(y);
Java: immer by-value

(beachte implizite Zeiger bei Verweistypen)
C#: by-value (beachte implizite Zeiger bei Verweistypen, class, jedoch nicht bei struct)

oder by-reference (mit Schlüsselwort ref)
Scala: by-value oder by-name (Scala Lang Spec 6.6)

Verweis-Typ und Verweis-Variable

Vorsicht! diese Konzepte sind orthogonal (dazu Ü-Aufg.)
Java, C#: nach class T { int foo;}

bezeichnet T Zeiger auf Objekt.

Variable (oder UP-Parameter) T x hat Wert-Semantik (call by value), der Wert ist Zeiger auf Objekt. – Vgl.

typedef struct {int foo;} T; T *x; *x.foo;
C#: int a = 8; ref int x = ref a

erzeugt ref-local Variable x

bei jeder Verwendung von x wird automatisch de-referenziert, Bsp. x = 0 ändert a.

Call-by-value, call-by-reference (C#)

by value:

static void u (int x) { x = x + 1; }
int y = 3 ; u (y); 
Console.WriteLine(y); // 3

by reference:

static void u (ref int x) { x = x + 1; }
int y = 3 ; u (ref y); 
Console.WriteLine(y); // 4

Call-by-name

formaler Parameter wird durch Argument-Ausdruck ersetzt.

Algol(68): Jensen’s device

int sum (int i, int n; int f) { 
  int s = 0;
  for (i=0; i<n; i++) { s += f; }
  return s;
}
int [10][10] a; int k; sum (k, 10, a[k][k]);

moderne Lösung

int sum (int n; Func<int,int> f) {
   ...  { s += f (i); }
}
int [10][10] a; sum (10, (int k) => a[k][k]);

Call-by-name (Macros)

#define thrice(x) 3*x // gefährlich
thrice (4+y)  ==>  3*4+y

“the need for a preprocessor shows omissions in the language”

fehlendes Modulsystem (Header-Includes)
fehlende generische Polymorphie ($\Rightarrow$ Templates in C+)

weitere Argumente:

mangelndes Vertrauen in optimierende Compiler (inlining)
bedingte Übersetzung

Ü: was kann der Präprozessor in C# und was nicht? Warum? (Wo ist der C#-Standard? http://stackoverflow.com/questions/13467103)

Call-by-name in Scala

Parameter-Typ ist => T, entspr. eine Aktion, die ein T liefert (in Haskell: IO T)

call-by-name

def F(b:Boolean,x: =>Int):Int = 
    { if (b) x*x else 0 }
F(false,{print ("foo "); 3})
//     res5: Int = 0
F(true,{print ("foo "); 3})
//    foo foo res6: Int = 9

Man benötigt call-by-name zur Definition von Abstraktionen über den Programmablauf.

Übung: If, While als Scala-Unterprogramm

Bedarfsauswertung

andere Namen: (call-by-need, lazy evaluation)
Definition: das Argument wird bei seiner ersten Benutzung ausgewertet
wenn es nicht benutzt wird, dann nicht ausgewertet;

wenn mehrfach benutzt, dann nur einmal ausgewertet
das ist der Standard-Auswertungsmodus in Haskell:

alle Funktionen und Konstruktoren sind lazy

da es keine Nebenwirkungen gibt, bemerkt man das zunächst nicht …

…und kann es ausnutzen beim Rechnen mit unendlichen Datenstrukturen (Streams)

Beispiele f. Bedarfsauswertung (Scala)

Bedarfsauswertung für eine lokale Konstante (Schlüsselwort lazy)

def F(b:Boolean,x: =>Int):Int = 
    { lazy val y = x; if (b) y*y else 0 }
F(true,{print ("foo "); 3})
//   foo res8: Int = 9
F(false,{print ("foo "); 3})
//   res9: Int = 0

Beispiele f. Bedarfsauswertung (Haskell)

[ error "foo" , 42 ] !! 0 
[ error "foo" , 42 ] !! 1 
length [ error "foo" , 42 ]
let xs = "bar" : xs
take 5 xs

Fibonacci-Folge

fib :: [ Integer ]
fib = 0 : 1 : zipWith (+) fib ( tail fib )

Primzahlen (Sieb des Eratosthenes)

Papier-Falt-Folge

let merge (x:xs) ys = x : merge ys xs
let updown = 0 : 1 : updown
let paper = merge updown paper
take 15 paper

vgl. https://www.imn.htwk-leipzig.de/~waldmann/etc/stream/

Aufgaben zu Parameter-Modi

WS 23: Aufgaben 2, 4, optional: 3

Semantik dieses Ada-Programm erklären (verschiedene GCC/GNAT-Versionen) unter Bezug auf Sprachstandard (2012, vgl. mit früheren) und Rationale.

with Ada.Text_IO; use Ada.Text_IO;
procedure Check is
   procedure Sub (X: in out Integer;
                  Y: in out Integer;
                  Z: in out Integer) is
   begin
      Y := 8; Z := X;
   end;
   Foo: Integer := 9;   Bar: Integer := 7;
begin
   Sub (Foo,Foo,Bar);
   Put_Line (Integer'Image(Foo));
   Put_Line (Integer'Image(Bar));
end Check;

(in Datei Check.adb schreiben, kompilieren mit gnatmake Check.adb)

Vergleichen mit diesem C++-Programm:

#include <iostream>

void sub (int & x, int & y, int & z) {
  y = 8;
  z = x;
}

int main () {
   int foo = 9;
   int bar = 7;

   sub (foo,foo,bar);
   std::cout << foo << std::endl;
   std::cout << bar << std::endl;
}

Call by value, call by reference
```
class C { public int foo; }
class M { public  static void u (C x) 
  { x.foo=4; x=new C{foo=5}; } }

C y = new C {foo=3}
C z = y
M.u (y)
y.foo 
z.foo
```
- Kompilieren/ausführen (mit csharp CLI), beobachten, erklären. Diagramm zeichnen, das die Speicherbelegung verdeutlicht.
- Ersetzen Sie class C durch struct C. Kompilieren, …
- Ersetzen Sie void u (C x) durch void u (ref C x). Welche weitere Änderung ist erforderlich? Kompilieren, …
- class C und u (ref C x)
call by name, call by reference:

Wie kann man diese beiden Unterprogramme aus Sicht des Aufrufers semantisch voneinander unterscheiden:
- Funktion (C++): (call by reference)
```
void swap (int & x, int & y) 
   { int h = x; x = y; y = h; }
```
- Makro (C): (call by name)
```
#define swap(x, y) \ 
   { int h = x; x = y; y = h; }
```
Geben Sie einen Ausdruck $E$ an, in dem ein Name swap benutzt wird, so daß für beide Definitionen von swap gilt:
- $E$ ist syntaktisch korrekt,
- $E$ ist statisch korrekt,
- dynamische Semantiken von $E$ sind unterschiedlich
Also nicht einfach so:
```
int a = 3; int b = 4; swap (a,b);
```
Simulation von call-by-name durch Unterprogramme als Argumente:
1. Die Fakultäts-Funktion in ECMA-Script
```
function f(x) { return x==0 ? 1 : x * f(x-1) }
f(4)
==> 24
```
2. Die Verzweigung als Funktion
```
function ite(b,j,n) { return b ? j : n }
ite(false,2,3) 
==> 3
```
3. Ersetzen Sie ?: in f durch ite, werten Sie f(4) aus, erklären Sie Ihre Beobachtung.
4. Simulation von call-by-name durch Unterprogramme als Argumente:
```
function ite(b,j,n) { return b ? j() : n() }
```
  wie muß ite(false,2,3) jetzt aussehen?
5. passen Sie die Def. von f an und testen Sie

Weiteres zu Unterprogrammen

Lokale UP, UP als Daten

Unterprogramme sind wichtiges Mittel zur Abstraktion, das möchte man überall einsetzen, also wünscht man:

lokale UP (deklariert innerhalb eines Blockes)

int f (int x) {
  int g (int y) { return y + 1; }
  return g (g (x));  }

UP als Daten:
- als Wert einer Variablen, Bsp: let f = (x => x)
- als Argument oder Resultat eines UP
- als Komponente einer Datenstruktur, Bsp: Array

UP und Sichtbarkeit von Namen

{ const x = 3; 
  function step(y) { return x + y; }
  for (const z of [ 1,2,4 ]) { 
    console.log(step(z+1)); } }

was ist die Ausgabe dieses Programms?
was ändert sich bei Umbenennung von z zu x?
Antwort: nichts! — der Funktionskörper (x+y)
wird in seiner Definitionsumgebung ausgewertet,
nicht in seiner Aufruf-Umgebung.

vgl. Spezifikation:

https://tc39.github.io/ecma262/#sec-lexical-environments, https://www.ecma-international.org/ecma-262/7.0/

Frames, statische Kette, Index

Def: Frame (Aktivationsverbund) ist Speicherplatz für lokale Variablen für Ausführung eines UP

(für jeden Aufruf gibt es einen Frame)
Jeder Frame hat zwei Vorgänger:
- dynamischer Vorgänger:
  
  (Frame des aufrufenden UP) benutzt zum Rückkehren
- statischer V. (Frame des textuell umgebenden UP)
  
  benutzt zum Zugriff auf lokale Variablen dieses UP
Def: statische Vor$^*$gänger bilden statische Kette
Jeder Variablenzugriff hat Index-Paar $(i,j)$: bezeichnet im $i$-ten Element der statischen Kette den Eintrag Nr. $j$,

Übersetzungszeit und Laufzeit

Indizes werden statisch bestimmt,
Frames werden zur Laufzeit konstruiert
- bei Abarbeitung (Elaboration) der UP-Deklaration eines benannten UP,
- bei Auswertung eines Lambda-Ausdrucks eines unbenannten (anonymen) UP
Laufzeit-Zugriff auf (fremde) lokale Variablen benutzt statische Kette, ist aber keine Suche!

denn lokale Variablennamen sind zur Laufzeit gar nicht repräsentiert (wurden durch Index ersetzt, dieser beschreibt den Ort der Variablen)

Lokale Unterprogramme: Beispiel

with Ada.Text_Io; use Ada.Text_Io;
procedure Nested is
 function F (X: Integer; Y: Integer) 
 return Integer is
  function G (Y: Integer) return Integer is
  begin
   if (Y > 0) then return 1 + G(Y-1);
   else return X; end if;
  end G;
 begin return G (Y); end F;
begin
 Put_Line (Integer'Image (F(3,2)));
end Nested;

Globale Unterprogramme

Entwurfs-Entscheidung für C (1972):

keine lokalen UP, jedes UP ist global

Auswirkungen:

leichte Implementierung:
- dyn. Vorgänger $=$ der vorige Frame (auf dem Stack)
- statischer Vorgänger: gibt es nicht
softwaretechnische Nachteile:

globale Abstraktionen machen Programm unübersichtlich (vgl.: globale Variablen).

Gegen-Argument: Nachnutzbarkeit, Testbarkeit

Lokale UP, UP als Daten: Geschichte

Lambda-Kalkül, 1936, Bsp. $(\lambda f.f(f a))(\lambda x.x)$,

dort UP als Daten (es gibt gar keine anderen Datentyp)

vgl. Henk Barendregt: The Impact of the Lambda Calculus, 1997,

https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.26.7908
zuerst realisiert in funktionalen Programmiersprachen LISP 1958, ML 1973, Haskell 1990
Maschinen(nahe) Sprachen (Assembler, C): globale UP als Daten (repräsentiert durch Start-Adresse)
prozedurale Sprachen mit lokalen UP:

Algol 60, Pascal 1970, Ada 1983,

eingeschränkte Verwendung als Daten (nur als Argumente von UP)

Simulation von UP als Daten

Simulation von UP als Datum

durch Objekt einer (Singleton-)Klasse

mit UP als einziger Methode (Java: funktionales Interface)

Notation dafür ähnlich wie im Lambda-Kalkül

(versteckt Def. der Klasse und Konstruktion des Objektes)

C# (3.0, 2007)

int x = 3; Func<int,int> f = y => x + y;
Console.WriteLine (f(4));

Java (8, 2014)

int x = 3; Function<Integer,Integer> f = y -> x + y;
System.out.println (f.apply(4));

JavaScript (ES6, 2015) (f=>f(f(0))) (x=>x+1)

Unterprogramme als Argumente

static int d ( Func<int,int> g ) { 
    return g(g(1));              }
static int p (int x) {
    Func<int,int> f = y => x + y;
    return d (f);                }

Betrachte Aufruf $p(3)$.

Das innere Unterprogramm $f$ muß auf den $p$-Frame zugreifen, um den richtigen Wert des $x$ zu finden.

Dazu Closure konstruieren: $f$ mit statischem Vorgänger.

Wenn Unterprogramme als Argumente übergeben werden, steht der statische Vorgänger im Stack.

(ansonsten muß man den Vorgänger-Frame auf andere Weise retten, siehe später)

Unterprogramme als Resultate

static int x = 3;   
static Func<int,int> s (int y) {
    return z => x + y + z;     
}
static void Main () {
    Func<int,int> p = s(4);
    Console.WriteLine (p(3));  
}

Wenn die von $s(4)$ konstruierte Funktion $p$ aufgerufen wird, dann wird der $s$-Frame benötigt, steht aber nicht mehr im Stack.

$\Rightarrow$ Die (Frames in den) Closures müssen im Heap verwaltet werden.

Anwendung von UP as Daten (Beispiel)

in Funktionen höherer (zweiter) Ordnung zur Verarbeitung von Datensammlungen (Container)

Haskell

foldl ( \ a b -> 2*a + b) 0 [1,0,0,1,0]

C# (LINQ)

(new int []{ 1,0,0,1,0 }).Aggregate (0, (a, b) => 2*a + b)

Java: Streams entsprechend

Lokale Klassen (Java)

static nested class: dient lediglich zur Gruppierung
```
class C { static class D { .. } .. }
```
nested inner class:
```
class C { class D { .. } .. }
```
jedes D-Objekt hat einen Verweis auf ein C-Objekt ($\approx$ statische Kette) (bezeichnet durch C.this)
local inner class: ( Zugriff auf lokale Variablen in $m$ nur, wenn diese final sind. Warum? )
```
class C { void m () { class D { .. } .. } }
```

Unterprogramme/Zusammenfassung

in prozeduralen Sprachen:

falls alle UP global: dynamische Kette reicht
lokale UP: benötigt auch statische Kette
lokale UP as Daten: benötigt Closures

$=$ (Code, statischer Link)
UP als Argumente: Closures auf Stack
UP als Resultate: Closures im Heap

in objektorientierten Sprachen: ähnliche Überlegungen bei lokalen (inner, nested) Klassen.

Hausaufgaben

WS 23: 2 oder 1, 3 oder 4, 5.

Assembler-Code für Programm von Lokale UP: Beispiel mit gcc -c -O0 -S nested.adb,
- welche Variablen-Benutzung hat Index $(i,j)$ mit $i>0$,
- wo steht das im Assemblercode?
- vergleiche Assemblercode des Hauptprogramms bei -O0 / -O3
Lokale anonyme UP (Lambda-Ausdrücke) in C++:
```
#include <iostream>
#include <functional>
using namespace std;
int x = 3;
function<int(int)> s (int y) {
  return [](int z){ return x+y+z;};
}
int main () {
  auto p = s(1);
  auto q = s(5);  
  cout << p(2) << endl;
}
```
- Dieses Programm ist statisch falsch, warum?
  
  Ersetzen Sie [] durch [=]
- Ersetzen Sie [] durch [&], begründen Sie das beobachtete Verhalten mit Hilfe des Standards (Dokument N4800) https://www.open-std.org/jtc1/sc22/wg21/docs/papers/2019/ (oder aktuellere Version)
Das most recent-Problem (McGowan 1972) erklären

van den Hove d’Ertsenryck: Dissolving a half century old problem about the implementation of procedures, 2017 https://ir.cwi.nl/pub/26757

Beispiele in der autotool-Aufgabe vorführen (soweit möglich) oder in JS (aber Autotool zeigt die Frames)
Donald Knuth: Man or Boy?, Algol Bulletin 1960, zitiert in

http://www.chilton-computing.org.uk/acl/applications/algol/p006.htm (Atlas Computer Labs)

…handle recursion and non-local references properly

Beispiel-Programm vorführen und diskutieren (in einer heutigen Sprache - oder in Algol. Aber auf eigenem Rechner!) Ggf. Sekundärquellen heranziehen.
Beispiele zur Verwendung von Funktionen höherer Ordnung zur Verarbeitung von Containern mit Haskell, LINQ (C#) und Streams (Java) vorführen. Ggf. auch in JS.

Z.B.: foldl (siehe Skript), map, filter; wie kann man scanl,mapAccumL übersetzen?
- Beispiele in der jeweiligen CLI (ghci, csharp, jshell)
- Primärquellen verwenden! (API-Dokumenation)
Aussagen über Graphen mit Knotenmenge $=$ Frames einer Programmausführung, Kanten $\to_\text{dyn}, \to_\text{stat}$.
- $\to_\text{dyn}$ ist ein Baum
- $\to_\text{stat}$ ist ein Baum
- sind beliebige Kombinationen von Bäumen möglich? Nein, $\to_\text{dyn}$ und $\to_\text{stat}$ besitzen eine gemeinsame topologische Ordnung. Woher kommt diese?
- sind alle Kombinationen mit gemeinsamer topologischer Ordnung möglich?

Zur autotool-Aufgabe zu Frames: siehe auch https://gitlab.imn.htwk-leipzig.de/autotool/all0/issues/124

Dynamische Polymorphie

Übersicht

poly-morph $=$ viel-gestaltig; ein Bezeichner (z. B. Unterprogramm-Name) mit mehreren Bedeutungen

Arten der Polymorphie:

statische P.
(Bedeutung wird zur Übersetzungszeit festgelegt):
- ad-hoc: Überladen von Bezeichnern
- generisch: Bezeichner mit Typ-Parametern
dynamische P. (Bedeutung wird zur Laufzeit festgelegt):
- Implementieren (Überschreiben) von Methoden, Auswahl der Impl. anhand des dynamischen Typs

Objekte, Methoden

Motivation: Objekt $=$ Daten $+$ Verhalten.

Einfachste Implementierung:

Objekt ist Record,
einige Komponenten sind Unterprogramme.

typedef struct {
   int x; int y; // Daten
   void (*print) (FILE *fp); // Verhalten
} point;
point *p; ... ; (*(p->print))(stdout);

Anwendung: Datei-Objekte in UNIX (seit 1970)

(Merksatz 1: all the world is a file) (Merksatz 2: those who do not know UNIX are doomed to re-invent it, poorly)

Objektbasierte Sprachen (JavaScript)

(d. h. objektorientiert, aber ohne Klassen)

Objekte, Attribute, Methoden:

var o = { a : 3, 
  m : function (x) { return x + this.a; } };

Vererbung zwischen Objekten:

var p = { __proto__ : o };

Attribut (/Methode) im Objekt nicht gefunden $\Rightarrow$ weitersuchen im Prototyp $\Rightarrow$ …Prototyp des Prototyps …

Übung: Überschreiben

p.m = function (x) { return x + 2*this.a }
var q = { __proto__ : p }
q.a = 4
q.m(5)

Klassenbasierte Sprachen

gemeinsame Datenform und Verhalten von Objekten

typedef struct { int (*method[5])(); } cls;
typedef struct {
    cls * c;
} obj;
obj *o; ... (*(o->c->method[3]))();

allgemein: Klasse:

Deklaration von Daten (Attributen)
Deklaration und Implementierung von Methoden

Objekt:

tatsächliche Daten (Attribute)
Verweis auf Klasse (Methodentabelle)

this

Motivation: Methode erfährt, für welches Argument sie gerufen wurde

typedef struct { int (*method[5])(obj *o); 
} cls;
typedef struct {
    int data [3]; // Daten des Objekts
    cls *c; // Zeiger auf Klasse
} obj;
obj *o; ... (*(o->c->method[3]))(o);
int sum (obj *this) {
    return this->data[0] + this->data[1]; }

jede Methode bekommt this als erstes Argument

(in Java, C# geschieht das implizit)

Klassen in ECMA-Script

syntaktische Hilfen zur Notation der objekt(prototyp)-basierten Vererbung,

seit Version 6 (2015)

class C { 
  constructor(x) { this.x=x } 
  m (y) { return this.x + y } }
let p = new C(8)
p.m(3)

Definition siehe https://www.ecma-international.org/ecma-262/7.0/#sec-class-definitions

Dynamische Polymorphie

Def $D< C$: Klasse $D$ ist abgeleitet von Klasse $C$,

$D$ kann Menge der Attribute- und Methodendeklarationen von $C$ erweitern (aber nicht verkleinern oder ändern)
dann kann überall, wo ein Objekt vom Typ $C$ erwartet wird, ein Objekt vom Typ $D$ benutzt werden
$D$ kann Implementierungen von in $C$ definierten Methoden
- übernehmen (realisiert durch Verweis der Methodentabelle von $D$ auf die von $C$)
- oder eigene festlegen (überschreiben) (in der eigenen Methodentabelle)

Dyn. P. und statische Typisierung

(scheinbar) widersprüchliche Ziele bei Methodenaufrufen:
- Auswahl der Implementierung hängt ab vom (statisch unbekannten) dynamischen Typ des Objektes
- jeder mögliche Aufruf soll statisch korrekt sein:
  - Klasse des Objektes implementiert die Methode und
  - diese hat passenden (zur statischen Deklaration) Typ
Zuweisung $v := e$ ist statisch korrekt, wenn
- Ausdruck $v$ hat statischen Typ $T_L$ und hat lvalue
- Ausdruck $e$ hat statischen Typ $T_R$
- $T_R\le T_L$ (d.h., gleich oder abgeleitet)
dann Invariante (zu jedem Zeitpunkt der Programmausführung): für dyn. Typ $T_D$ von $v$ gilt $T_D\le T_L$

Dynamische Polymorphie (Beispiel)

class C { 
  int x = 2; int p () { return this.x + 3; }   }
C x = new C() ; int y = x.p ();

Überschreiben (p) und erweitern (q):

class E extends C { 
  int p () { return this.x + 4; } 
  void q() { }                           }

statische Prüfung v. Zuweisung und Aufruf

C x =           // statischer  Typ: C
      new E() ; // statischer  Typ: E
int y = x.p (); // verwendet statischen Typ C von x 
x.q ();       // statisch fehlerhaft, C hat kein q

Vererbung bricht Kapselung

class C { void p () { ... q(); ...  }; 
          void q () { .. };             }

Jetzt wird q überschrieben (evtl. auch unabsichtlich—in Java), dadurch ändert sich das Verhalten von p.
```
class D extends C { void q () { ... } }
```
Korrektheit von D abhängig von Implementierung von C
$\Rightarrow$ object-orientation is, by its very nature, anti-modular

Bob Harper, 2011:

https://web.archive.org/web/20140819133753/http://existentialtype.wordpress.com:80/2011/03/15/teaching-fp-to-freshmen/

Einordnung Objekorientierung

OO: der Hype der 80er (vgl. XML, Container, Cloud, Edge, Blockchain, Elektrotretroller, as a service, KI)
nützlich:
- class C benutzerdefinierte, anwendungsspezif. Typen
- class C { A x; B y; E m() { .. } }
  
  Gruppierung von Daten und UP zu ihrer Verarbeitung
  
  Simulation von Funktionen als Daten
- interface I; class C implements I; I x = new E();
  
  Trennung: Schnittstelle (abstrakter Datentyp, Signatur), Implementierung (konkreter Datentyp, Algebra)
schädlich: Zustandsänder.g, Implementierungs-Vererb.g
hat Praxis und Lehre der Programmierung nachhaltig beschädigt und das ist noch nicht ausgestanden

Statische Polymorphie: Ad-Hoc-Polymorphie

ein Bezeichner ist überladen, wenn er mehrere (gleichzeitig sichtbare) Deklarationen hat
bei jeder Benutzung des Bezeichners wird die Überladung dadurch aufgelöst, daß die Deklaration mit dem jeweils (ad-hoc) passenden Typ ausgewählt wird

Beispiel: Überladung im Argumenttyp:

static void p (int x, int    y) { ... }
static void p (int x, String y) { ... }
p (3, 4); p (3, "foo");

keine Überladung nur in Resultattyp, denn…

static int    f (boolean b) { ... }
static String f (boolean b) { ... }

Typhierarchie als Halbordnung

extends/implements definiert Halbordnung auf Typen, Bsp.

class C;class D extends C;class E extends C definiert Relation auf $T=\{C,D,E\}$

$(\le) = \{ (C,C), (D,C), (D,D), (E,C), (E,E) \}$
dadurch entsteht Halbordnung auf Methoden-Signaturen (Tupel der Argument-Typen, ohne Resultat-Typ)

Bsp: Relation $\le^2$ auf $T^2$:

$(t_1,t_2)\le^2 (t_1', t_2') :\iff t_1\le t_1' \wedge t_2\le t_2'$

es gilt $(D,D)\le^2(C,C); (D,D)\le^2(C,D);$
$(C,D)\le^2 (C,C); (E,C)\le^2(C,C)$.

Ad-Hoc-Polymorphie und Typhierarchie

Auflösung von p (new D(), new D()) bzgl.

static void p (C x, D y);
static void p (C x, C y);
static void p (E x, C y);

bestimme die Menge $P$ der zum Aufruf passenden Methoden

(für diese gilt: statischer Typ der Argumente $\le^n$ statischer Typ der formalen Parameter)
bestimme die Menge $M$ der minimalen Elemente von $P$

(Def: $m$ ist minimal falls $\neg\exists p\in P: p<m$)
$M$ muß eine Einermenge sein, sonst ist Überladung nicht auflösbar

Überschreiben und Überladen

Überschreiben:

zwei Klassen, Methoden mit übereinstimmendem Namen und Typ
Überladen:

$\ge 1$ Klasse, gleichnamige M. mit unterschiedl. Typen
C++: Methoden, die man überschreiben darf, virtual deklarieren
C#: Überschreiben durch override angezeigen,
Java: alle Methoden sind virtual, deswegen ist Überschreiben von Überladen schlecht zu unterscheiden:

ist Quelle von Programmierfehlern
Java-IDEs unterstützen Annotation @overrides

Equals richtig implementieren

class C { 
  final int x; final int y;
  C (int x, int y) { this.x = x; this.y = y; }
  int hashCode () { return this.x + 31 * this.y; }
}

nicht so:

  public boolean equals (C that) {
    return this.x == that.x && this.y == that.y;
  }

Equals richtig implementieren (II)

…sondern so:

public boolean equals (Object o) {
  if (! (o instanceof C)) return false;
  C that = (C) o;
  return this.x == that.x && this.y == that.y;
}

Die Methode boolean equals(Object o) wird aus HashSet aufgerufen.

Sie muß deswegen überschrieben werden.

Das boolean equals (C that) hat den Methodenamen nur überladen.

Statische Attribute und Methoden

für diese findet kein dynamischer Dispatch statt.

class C {static int f(){return 0;}}
class D extends C {static int f(){return 1;}}
C x = new D()
x.f()

Damit das klar ist, wird dieser Schreibweise aller Methodenaufrufe empfohlen:
- dynamisch: immer mit Objektnamen qualifiziert,
  auch wenn dieser this lautet,
- statisch: immer mit Klassennamen qualifiziert
  (niemals mit Objektnamen)

Hausaufgaben

WS 23: Aufgaben 3, 4, 1

Beispiel auf Folie Objektbasierte Sprachen (JS) ausprobieren, Beobachtungen erklären (Speicherbelegung grafisch darstellen),

und erweitern. Längere Prototyp-Ketten, überraschendes Verhalten, oder ändere einen Bezeichner, so daß Ausgabe …. Beispiele vorher bekanntgeben, Auflösung dann in Übung.
zu Folie Vererbung bricht Kapselung:

vgl. Joshua Bloch: Effective Java (Pearson 2018)

Item 19: Design and document for inheritance or else prohibit it.

Diskutieren Sie die Einhaltung dieser Regel am Beispiel https://docs.oracle.com/en/java/javase/21/docs/api/java.base/java/util/AbstractCollection.html#retainAll(java.util.Collection)
Wo und wie ist das Verfahren zur Auflösung der Ad-Hoc-Polymorphie im Java-Standard beschrieben? Gemeinsamkeiten und Unterschiede zur Beschreibung hier im Skript?

Gegeben sind diese Klassen und Methoden eines Java-Programmes:
```
class D extends B; class B extends A; class A; 
                   class C extends A; 
static void p (B x, C y);
static void p (A x, D y); 
static void p (B x, A y);
```
Beschreiben Sie, wie die Überladung in p (new D(), new C()) aufgelöst wird.
Folien Equals richtig…: Beispiel vorführen (falsches Verhalten des HashSet bei falschem equals).

Welche Hilfen geben IDEs?

Warum besteht diese Problem (versehentliches Überladen anstatt Überschreiben) bei compareTo nicht?

Wie sieht das in C# aus?

Übersicht

poly-morph $=$ viel-gestaltig; ein Bezeichner (z. B. Unterprogramm-Name) mit mehreren Bedeutungen

Arten der Polymorphie:

statische P.
(Bedeutung wird zur Übersetzungszeit festgelegt):
- ad-hoc: Überladen von Bezeichnern
- generisch: Bezeichner mit Typ-Parametern
dynamische P. (Bedeutung wird zur Laufzeit festgelegt):
- Implementieren (Überschreiben) von Methoden, Auswahl der Impl. anhand des dynamischen Typs

Beispiele f. generische Polymorphie

Container-Typkonstruktoren, (in objekt- (eigentlich klassen-)o. Sprachen: generische Klasse/Schnittstelle)
- ein Argument, Bsp: Folge (List<E>), Menge (Set<E>)
- zwei Argumente, Bsp: endliche Abbildung (Map<K,V>)

Unterprogramme (in OO: Methoden)

Bsp: die identische Funktion

id :: forall (t :: Type) . t -> t
id @Bool True  ;   id @String "foo"

Gemeinsamkeit:

Deklarationen: mit formalen Typ-Parametern (E, K, V, t),

Benutzung: werden Typ-Argumente statisch zugeordnet

Statische Semantik der generischen Pol.

innerhalb des Sichtbarkeitsbereiches der formalen Typ-Parameter-Deklaration wird dieser als (unbekannter) Typ behandelt, Bsp

class C<T> { static T foo; }
bei der Benutzung des generischen Bezeichners müssen alle Typ-Argumente angegeben werden,

oder der Compiler inferiert diese, Bsp (Java)

List<Integer> xs = new ArrayList <> {}
Algorithmus von Hindley/Milner inferiert allgemeinsten generischen Typ eines UP
```
ghci> :t \x -> x
\x -> x :: p -> p
```
R. Hindley (1969) The Principal Type-Scheme of an Object in Combinatory Logic Transact. AMS 146:29-60.

Softwaretechnischer Zweck der gen. Pol.

Ziele: Flexibilität, Sicherheit, Effizienz:
Module (Bibliotheken) mit generischen Typen und UP separat kompilieren, d.h.,
- statisch prüfen, danach
- ausführbaren (link-baren) Code erzeugen
separat: von anderen Modulen, von der Anwendung
so daß jede Instanziierung
- statisch korrekt ist
- und effizient ausgeführt wird

Dynamische Semantik der generischen Pol.

Veranschaulichung der Aufgabe: Maschinencode für
```
List <T> reverse<T> (List <T> xs) { ... }
```
welche Form (im Hauptspeicher) haben die Elemente von xs? beachte: T ist hier unbekannt.
(ML, Haskell, Java) T kann nur durch Typen mit Verweis-Semantik instantiiert werden
- Vorteil: korrekt (denn alle Zeiger sind gleich lang),
- Nachteil: mehr Platz und Zeit durch Indirektion
(C++) Code erst dann erzeugen, wenn T bekannt ist
- Vorteil: typspezifische Optimierungen möglich,
- Nachteil: statische Prüfung und Code-Erzeugung bei jeder Benutzung (und nicht bei Definition)

Bsp: Generische Methode in C#

class C {
   static T id<T> (T x) { return x; }
}

beachte Position(en) von

Deklaration des Typparameters
Benutzungen des Typparameters

string foo = C.id<string> ("foo");
int    bar = C.id<int>    (42);

Instanziierung des Typparameters

Bsp: Generische Klasse in Java

record Pair<A,B> (A first, B second) {}
Pair<String,Integer> p = 
    new Pair<String,Integer>("foo", 42);
int x = p.second() + 3;

vor allem für Container-Typen (Liste, Menge, Keller, Schlange, Baum, …)

Bsp: Generische Methode in Java

Deklaration des Typparameters
Benutzungen des Typparameters

class S {
  static <A,B> Pair<B,A> swap (Pair<A,B> p) { 
    return new Pair<B,A>(p.second(), p.first()); } }

Benutzungen des Typparameters

Pair<String,Integer> p = 
    new Pair<String,Integer>("foo", 42);
Pair<Integer,String> q = 
    S.<String,Integer>swap(p);

Typargumente können auch inferiert werden:

Pair<Integer,String> q = S.swap(p);

Generische Fkt. höherer Ordg.

Ziele:
- Flexibilität (nachnutzbarer Code)
- statische Typsicherheit
- Effizienz (Laufzeit)

wichtige Anwendung: Abstraktionen über den Programmablauf, z.B. für parallele Ausführung, Bsp:

public static 
  TAccumulate Aggregate<TSource, TAccumulate> (
    this ParallelQuery<TSource> source,
    TAccumulate seed,
    Func<TAccumulate, TSource, TAccumulate> func )

Bsp. Generische Fkt. höherer Ordg. (I)

Sortieren mit Vergleichsfunktion als Parameter

using System; class Bubble {
  static void Sort<T> 
    (Func<T,T,bool> Less, T [] a) { ...
      if (Less (a[j+1],a[j])) { ... } } 
  public static void Main (string [] argv) {
    int [] a = { 4,1,2,3 };
    Sort<int> ((int x, int y) => x <= y, a);
    foreach (var x in a) Console.Write (x);
} }

Ü: (allgemeinster) Typ und Implementierung einer Funktion Flip, die den Vergleich umkehrt: Sort<int> (Flip( (x,y)=> x <= y ), a)

Bsp. Generische Fkt. höherer Ordg. (II)

bulk operations auf Collections, z.B.

Bibliothek

https://hackage.haskell.org/package/containers/docs/Data-Map-Strict.html

Beispiel:

intersectionWith 
   :: Ord k 
   => (a -> b -> c) 
   -> Map k a -> Map k b -> Map k c

ist effizienter als Iteration über alle Elemente eines Arguments

Vererbung und generische Polym.

mit Sprachkonzepte Vererbung ist Erweiterung des Sprachkonzeptes Generizität wünschenswert:
beim Definition der Passung von parametrischen Typen sollte die Vererbungsrelation $\le$ auf Typen berücksichtigt werden.

Ansatz: wenn E $\le$ C, dann auch List<E> $\le$ List<C>
ist nicht typsicher, siehe folgendes Beispiel
Modifikation: ko- und kontravariante Typparameter

Generics und Subtypen

Warum geht das nicht:

class C { } 

class E extends C { void m () { } }
 
List<E> x = new LinkedList<E>();

List<C> y = x; // Typfehler

Antwort: wenn das erlaubt wäre, dann:

variante Typ-Argumente (C#)

Kontravarianz (in P), Kovarianz (out P)

interface I<in P> { // Typ-Arg. ist kontravariant
  // P get (); kovariante Benutzung (verboten)
  void set (P x); // kontravariante Benutzung
}
class K<P> : I<P> { public void set (P x) {} } 
class C {} class E : C {void m(){}} // E <= C
I<C> x = new K<C>(); 
I<E> y = x; // erlaubt, Kontravarianz: I<C> <= I<E>
x.set<C>(new C()); // erlaubt
y.get<E>().m(); ??

kontravariant: $E\le C \Rightarrow I(E)\ge I(C)$
kovariant: $E\le C \Rightarrow I(E)\le I(C)$
invariant: $E < C \Rightarrow I(E)\not\le I(C)$

Obere Schranken für Typparameter

Java: class<T extends S> { ... },

C#: class <T> where T : S { ... }

$T$ ist formaler Parameter, $S$ ist Schranke

als Argument ist jeder Typ $T$ erlaubt, der $S$ implementiert
```
interface Comparable<T> 
    { int compareTo(T x); }
static <T extends Comparable<T>> 
    T max (Collection<T> c) { .. }
```

Untere Schranken für Typparameter

Java: <T super S>

$T$ ist formaler Parameter, $S$ ist Schranke.

Als Argument ist jeder Typ $T$ erlaubt, der Obertyp von $S$ ist.
```
static <T> int binarySearch
   (List<? extends T> list, T key,
   Comparator<? super T> c) 
```

Vergleich: Varianz und Schranken

Unterscheidung:

Durch Schranken für Typ-Argumente

wird bei der Instantiierung des polymorphen Bezeichners (Typ, Methode)

die Wahl der Typargumente eingeschränkt.
Durch Varianz für Typ-Argumente

wird die Zuweisungskompatibilität des instantiierten Typs erweitert (Sicht von außen)

und die Benutzung des Typ-Parameters eingeschränkt (Sicht von innen)

Generics und Arrays (in Java)

dieses Programm ist statisch korrekt:

class C { }
class E extends C { void m () { } }
E [] x = { new E (), new E () }; C [] y = x;
y [0] = new C (); x [0].m();

dynamische Semantik?

warum ist die Typprüfung für Arrays schwächer als für Collections? Historische Gründe. Das sollte gehen:
```
void fill (Object[] a, Object x) { .. }
String [] a = new String [3];
fill (a, "foo");
```

Aufgaben

WS 23: 1, 2, 3, 6a, 6b

Sortieren mit Vergleichsfunktion als Parameter

(https://git.imn.htwk-leipzig.de/waldmann/pps-ws23/-/blob/main/generic/Bubble.cs)
1. Flip implementieren.
2. Welches ist der allgemeinste Typ von Flip?
Bulk-operations auf Collections.
1. Bestimmen Sie den Typ von Data.Map.unionWith (API-Dokumentation oder ghci), warum hat dieser weniger Typparameter als intersectionWith?
2. einfache Messungen mit ghci. Nach jeder Deklaration/Ausdruck anzeigten Kosten diskutieren
```
:set +s
import qualified Data.Set as S
a = S.fromList [1 :: Int .. 10^6 ]
length a
length a
b = S.map (+ 10^6) a
length b
S.intersection a b -- bulk operation
S.filter (\ x -> S.member x a) b -- naive elementweise Implementierung
```
3. warum ist die bulk operation hierfür langsamer?
```
c = S.map (* 2) a ; d = S.map succ c
```
  und trotzdem noch schneller als elementweise?
  
  (Nur die Kosten der Operation messen, nicht die der Konstruktion oder der Ausgabe.)
Ergänzung: S.Set Int ist unzweckmäßig, denn Data.IntSet.Set ist effizienter!
(Folie untere Schranken…) binarySearch aufrufen (Java), so daß beide ? von T verschieden sind
(siehe Folie variante Typ-Parameter…)

Implementieren Sie set und get in K<P>, ergänzen Sie das Hauptprogramm so, daß schließlich eine Methode m() eines C-Objektes aufgerufen würde — was jedoch durch statische Typ-Prüfung verhindert wird.
Wildcards (?) und Capture Conversion in JLS nachlesen, Beispiele vorführen.
Wiederholung Axiomatische Semantik, Invarianten:
1. Bundeswettbewerb Mathematik 2023, 1. Runde, 1. Aufgabe (Tick, Trick und Track haben jeweils …)
  
  https://www.mathe-wettbewerbe.de/fileadmin/Mathe-Wettbewerbe/Bundeswettbewerb_Mathematik/Dokumente/BWM_2023.1_Aufgabenblatt.pdf
2. BW Math 2024, 1. Runde, 1. Aufgabe (Arthur und Renate)
Improve powerSet performance

https://github.com/haskell/containers/issues/890
1. Warum gibt es kein Typconstraint im Typ von Data.Set.powerSet?
2. angegebene Ideen beschreiben, implementieren, verbessern: mglw. Masterarbeit

Zusammenfassung, Ausblick

Themen

Methoden zur Beschreibung der
- Syntax: reguläre Ausdrücke, kontextfreie Grammatiken
- Semantik: operational, denotational, axiomatisch
Konzepte:
- Typen,
- Namen (Deklarationen), Blöcke (Sichtbarkeitsbereiche)
- Ausdrücke und Anweisungen (Wert und Wirkung),
- Unterprogramme (als Daten)
- Polymorphie (statisch, dynamisch)
Wechselwirkungen der Konzepte
Paradigmen: imperativ, funktional, objektorientert

Sprachen kommen und gehen, Konzepte bleiben.

Methoden, softwaretechnische Ziele

Trennung von Syntax (Form) und Semantik (Bedeutung)
Trennung von konkreter Syntax (Text) und abstrakter Syntax (Baum)
Trennung von statischer Semantik (Typen, Sichtbarkeiten: Übersetzungszeit) und dynamischer Semantik (Ausführung, Auswertung: Laufzeit)
Ziel: Sicherheit (statisch korrektes Programm ist dynamisch korrekt). Die gewünschten (Laufzeit)Eigenschaften als Typ formulieren.
Ziel: Effizienz. Was bereits statisch bewiesen ist,
- muß dynamisch nicht mehr überprüft werden,
- kann zur Maschinen-Code-Erzeugung benutzt werden

Well-Typed Programs Don’t Go Wrong

…das ist der Slogan von https://well-typed.com/

und enthält Wortspiel: well-typed: gut getippt, gut typisiert
zur Laufzeit geht nichts schief, weil Fehler bereits bei statischer Analyse (Typprüfung) erkannt werden
m.a.W., die Typen verhindern illegale Daten/Zustände, make illegal states un-representable (Yaron Minsky, zitiert in Scott Wlaschin 2013:

https://fsharpforfunandprofit.com/posts/designing-with-types-making-illegal-states-unrepresentable/
Bsp: Unterscheidung zw. Option<Foo> und Foo (vgl. billion dollar mistake)

Statische Typisierung: für und wider

Für statische Typisierung spricht vieles.

Es funktioniert auch seit Jahrzehnten (Algol 1960, ML 1970, C++ 1980, Java 1990 usw.)

Was spricht dagegen?

Typsystem ist ausdrucksschwach:

(Bsp: keine polymorphen Container in C)

Programmierer kann Absicht nicht ausdrücken
Typsystem ist ausdrucksstark:

(Bsp: kontravariante Typargumente in Java,C#)

Programmierer muß Sprachstandard lesen und verstehen und dazu Konzepte (z.B. aus Vorlesung) kennen

Thinking With Types

Richard Hickey: Maybe Not, 2018

https://github.com/matthiasn/talk-transcripts/blob/master/Hickey_Rich/MaybeNot.md
Alexis King: …static type systems only make already-present assumptions explicit.

https://lexi-lambda.github.io/blog/2020/01/19/no-dynamic-type-systems-are-not-inherently-more-open/
Sandy Maguire: Thinking with Types, 2018

https://thinkingwithtypes.com/

zitiert Matt Parsons:

When people say “but most business logic bugs aren’t type errors,” I just want to show them how to make bugs into type errors.

Fachmännisches Programmieren

Hardware: wer Flugzeug/Brücke/Staudamm/…baut, kann (und darf) das auch nicht allein nach etwas Selbststudium und mit Werkzeug aus dem Baumarkt
Software: der (Bastel-)Prototyp wird oft zum Produkt,

der Bastler zum selbsternannten Programmierer,
bei einigen Programmiersprachen ähnlich
- BASIC (1964) (Kemeny, Kurtz) to enable students in fields other than science and math. to use computers
- Python (van Rossum) 1999 Computer Programming for Everybody proposal
  
  https://www.python.org/doc/essays/cp4e/

Legacy-Sprachen: ECMA-Script (Javascript)

$\approx$ LISP (1960) (Funktionen als Daten, keine stat. Typ.)
ursprüngliches Ziel: Software soll auf Endgerät laufen
technisches Problem: Gerätebenutzer versteht/beherrscht seinen Computer/Betriebssystem nicht (z.B. will oder darf keine JRE installieren)
stattdessen zwingt man die Werbe-Zielpersonen auf Browser mit Javascript-Engine (der Browser ist das OS)
das steckt z.B. Google viel Geld hinein: https://v8.dev/docs/turbofan
(der JIT-Compiler rät die fehlenden Typen)
zusätzliche Motivation: billige Front-End-Programmierer auch für Arbeiten am Back-End (Server)

Aktuelle Entwicklungen: JS, TS

ECMA-Script übernimmt viele Konzepte moderner (funktionaler) Programmierung, u.a.
- let (block scope), const (single assignment)
- desctructuring (pattern matching)
- tail calls (ohne Stack)
https://tc39.es/ecma262/
…was ist mit Microsoft? Die haben auch viel Geld und clevere Leute? — Ja:

https://www.typescriptlang.org/

…a strongly typed programing language …better tooling at any scale

Personen: Luke Hoban, Anders Hejlsberg, Erik Meijer, …

Aktuelly: Web Assembly

a new portable, size- and load-time-efficient format suitable for compilation to the web.

https://webassembly.org/
d.h., Programme in vernünftigen (d.h. typsicheren) Sprachen schreiben (statt JS),

nach WASM kompilieren und im Browser ausführen
das gabe es alles schon? Natürlich:
- Java $\to$ Bytecode (class files) (1996),
- Pascal $\to$ P(ortable)-Code (1973)
formale Spezifikation (typsichere Kellermaschine)

https://webassembly.github.io/spec/core/index.html

(Version 1.1, 2022, Hrsg: Andreas Rossberg)

Die Zukunft: Typen für Ressourcen

https://www.rust-lang.org/

…a systems programming language that …prevents segfaults and guarantees thread safety.

jedes Datum hat genau einen Eigentümer,
statisch garantiert: für jedes Datum x:T gibt es
- entweder exactly one mutable reference (&mut T),
- oder one or more references (&T)
man kann Daten übernehmen und ausborgen,

https://github.com/rust-lang/rust-wiki-backup/blob/master/Note-research.md#type-system,

lineare Logic (Girard 1987), siehe

https://www.cs.cmu.edu/~fp/courses/linear/lectures/lecture16.html

Die Zukunft: Datenabhängige Typen

https://wiki.portal.chalmers.se/agda/ (Thierry Coquand et al., 1990; Ulf Norell, Andreas Abel 2005) …express properties of programs in the typing system.

elementare Bausteine:
- Daten: 42, "foo", (x,y)=>x+y, Typen: bool, int
Kombinationen (Funktionen):
- Datum $\to$ Datum, Bsp. (x,y)=>x+y
- Typ $\to$ Typ, Bsp. List<T>
- Typ $\to$ Datum, Bsp. Collections.<String>sort()
- Datum $\to$ Type, (data-)dependent type, Bsp. Vektoren

data Vec : Nat -> Type -> Type
(++) : Vec p a -> Vec q a -> Vec (p+q) a
head : Vect (S p) a -> a   -- S : Nachfolger

Einleitung

Programme und Algorithmen

Deutsch als Programmiersprache

Struktur durch Klammern, ist doch klar

Beispiel: mehrsprachige Projekte

In / Into

Sprache

Wie unterschiedlich sind Sprachen?

Konzepte

Paradigmen

Ziele der LV

Beziehungen zu anderen LV

Organisation

Literatur

Inhalt

Haus-Aufgaben

Syntax von Programmiersprachen

Programme als Bäume

Token-Klassen

Formale Sprachen

Lexik (Bsp): numerische Literale

Spezifikation formaler Sprachen

Sprach-Operationen

Reguläre Sprachen/Ausdrücke

Beispiele/Aufgaben zu regulären Ausdrücken

Erweiterte reguläre Ausdrücke

Implementierung regulärer Ausdrücke

Bemerkung zu Reg. Ausdr.

Übungen zu Lexik (Testfragen)

Hausaufgaben

Syntaxbäume

Wort-Ersetzungs-Systeme

Grammatiken

Formale Sprachen: Chomsky-Hierarchie

Typ-3-Grammatiken

Sätze über reguläre Sprachen

Kontextfreie Sprachen

Klammer-Sprachen

(erweiterte) Backus-Naur-Form

Ableitungsbäume für CF-Sprachen

Ableitungsbäume (II)

Eindeutigkeit

Assoziativität

Assoziativität (II)

Präzedenzen

Zusammenfassung Operator/Grammatik

Hausaufgaben

Semantik von Programmiersprachen

Statische und dynamische Semantik

Bsp statische/dynamische Semantik

Attributgrammatiken (I)

Attributgrammatiken (II)

Donald E. Knuth

Arten von Attributen

Attributgrammatiken–Beispiele

Konkrete und abstrakte Syntax

Typisierung von Funktionsaufrufen

Bsp. Operationale Semantik: Keller

Kompilation für Kellermaschine

Attributgrammatiken mit SableCC

Auswertung arithmetischer Ausdrücke

Kombinator-Parser f. arith. Ausdrücke

Hausaufgaben

Typen

Der Nutzen der statische Typisierung

Typ-Information und Laufzeitdaten

Historische Entwicklung

Überblick

Zahlenbereiche

Aufzählungstypen

Maßeinheiten in F#

Zeichen und Zeichenketten

Zusammengesetzte Typen

Produkttypen (Records)

Summen-Typen

Vereinigung mittels Interfaces

Rekursive algebraische Datentypen

Potenz-Typen

Felder (Arrays)

Felder in C