Dokumentation von latinn
von Helmut Richter
Das Script heisst "latinn" und findet sich im Directory
/afs/lrz/home/a/a282244/pub/bin
Der Aufruf lautet
latinn Eingabecode Ausgabecode CR-einbauen Zeilenlaenge
und konvertiert stdin nach stdout, also i.d.R. mit Pipes oder Redirections
zu verwenden. Jeder der Parameter ist eine meist einbuchstabige Abkuerzung
oder eine Zahl. Die letzten beiden Parameter werden meist nicht
gebraucht, muessen aber trotzdem angegeben werden ("u" wie undefiniert
oder unveraendert). Sie bedeuten:
CR-einbauen "y": vor jedes Line Feed ein Carriage Return (Konvertierung
Richtung PC)
"n": Carriage Returns vor Line Feed entfernen (Konvertierung
kommend vom PC)
"u": keine Bearbeitung von Carriage Returns
Zeilenlaenge xx: Zeilen laenger als xx Zeichen willkuerlich umbrechen
"c": Aufeinanderfolgende Zeilen mit Blank zusammenhaengen (um
z.B. nicht pro Zeile einen Absatz fuer Word zu generieren)
"u": Zeilenlaenge unveraendert lassen
Hier noch die komplette Liste der Codes:
Basis ist der Code Latin1 nach dem Standard ISO 8859-1. Fuer alle
anderen Codes wird hier angegeben, wie sie bei der Eingabe in den
Code Latin1 abgebildet werden ("Ein") und wie Latin1-Zeichen bei
der Ausgabe in dem anderen Code dargestellt werden ("Aus").
Die Umwandlungen der Codes "i", "I" und "M" sind bijektiv, d.h. die
Umkehrung einer Codeumsetzung bringt in jedem Falle den Ausgangstext
zurueck. Fuer die anderen Codes gilt dies nicht uneingeschraenkt.
i Code Latin1 (ISO 8859-1)
a 7-Bit-Code international (ISO 646)
Ein: [AOUaou]e wird durch Umlaut und ss durch scharfes s
ersetzt, falls der Kontext nahelegt, dass diese
Ersetzung im Deutschen sprachlich richtig ist
(heuristisches Verfahren).
Aus: Zeichen ab 0x80 werden durch Zeichen oder Zeichenfolgen
bis 0x7f ersetzt, so dass der Text moeglichst lesbar
bleibt.
d 7-Bit-Code deutsch (DIN 66003)
Ein: 0x40 0x5b 0x5c 0x5d 0x7b 0x7c 0x7d 0x7e werden durch
0xa7 0xc4 0xd6 0xdc 0xe4 0xf6 0xfc 0xdf ersetzt,
d.h. eckige und geschweifte Klammern durch die ihnen
nach DIN 66003 entsprechenden Umlaute usw.
Aus: zunaechst wird die umgekehrte Ersetzung wie bei "Ein"
vorgenommen, dann dieselbe wie bei "Aus" von Code "a".
h HTML
Ein: nicht unterstuetzt! Man verwende einen Browser, um
HTML-Texte zu interpretieren.
Aus: HTML-Ersatzdarstellungen mit Ziffern, z.B. ü
t LaTeX-Stil deutsch (ohne Interpretation von Anfuehrungszeichen)
Ein: "a, "o, ..., "s werden durch Umlaute und scharfes s
ersetzt. "", "` und "' werden alle drei durch
Anfuehrungszeichen (0x22) ersetzt.
Aus: Umlaute und scharfes s werden durch "a, "o, ..., "s
ersetzt, Anfuehrungszeichen durch "".
t" LaTeX-Stil deutsch (mit Interpretation von Anfuehrungszeichen)
Ein: wie "Ein" von Code "t"
Aus: wie "Aus" von Code "t", jedoch wird versucht, nach dem
Kontext zwischen oeffnenden ("`) und schliessenden ("')
Anfuehrungszeichen zu differenzieren. Gelingt dies im
Einzelfall nicht, so wird das Anfuehrungszeichen
durch zwei Apostrophe ersetzt.
o? Fluchtsymboldarstellung oktal (mit waehlbarem Fluchtsymbol)
(hierbei ist ? ein beliebiges Schriftzeichen)
Ein: Die Sequenz ?xxx, bei der xxx eine Oktalzahl mit dem Wert
0 bis 0377 ist, wird durch das Zeichen ersetzt, das den
entsprechenden Wert im Latin1-Code hat.
Aus: Nichtdruckbare Zeichen (0x00 bis 0x2f, 0x7f bis 0xff
sowie das gewaehlte Fluchtsymbol) werden in der Form ?xxx
mit einer Oktalzahl xxx dargestellt.
o Fluchtsymboldarstellung oktal (mit festem Fluchtsymbol)
dasselbe wie o\
x? Fluchtsymboldarstellung hexadekadisch (mit waehlbarem Fluchtsymbol)
(hierbei ist ? ein beliebiges Schriftzeichen)
Ein: Die Sequenz ?xx, bei der xx eine hexadekadische Zahl mit dem
Wert 0 bis 0xff ist, wird durch das Zeichen ersetzt, das den
entsprechenden Wert im Latin1-Code hat. Die Hex-Ziffern 10
bis 15 werden durch grosse (A-F) oder kleine Buchstaben (a-f)
dargestellt.
Aus: Nichtdruckbare Zeichen (0x00 bis 0x2f, 0x7f bis 0xff
sowie das gewaehlte Fluchtsymbol) werden in der Form ?xx
mit einer hexadekadischen Zahl xx dargestellt. Die Hex-Ziffern
10 bis 15 werden durch kleine Buchstaben (a-f) dargestellt.
x Fluchtsymboldarstellung hexadekadisch (mit festem Fluchtsymbol)
dasselbe wie x=
X? Fluchtsymboldarstellung hexadekadisch (mit waehlbarem Fluchtsymbol)
(hierbei ist ? ein beliebiges Schriftzeichen)
Ein: wie "Ein" von Code "x?"
Aus: wie "Aus" von Code "x?", jedoch werden die Hex-Ziffern
10 bis 15 durch grosse Buchstaben (A-F) dargestellt.
X Fluchtsymboldarstellung hexadekadisch (mit festem Fluchtsymbol)
dasselbe wie X=
b Basisbuchstaben (ohne diakritische Zeichen)
Ein: keine Ersetzung
Aus: Zeichen ab 0x80 werden durch Zeichen bis 0x7f ersetzt,
so dass der Text moeglichst lesbar bleibt. Dabei wird
jedes Zeichen stets durch genau ein Zeichen ersetzt.
I IBM PC Code (siehe Codetabelle)
M Macintosh Code (siehe Codetabelle)
Der Abgleich der Codetabellen "i", "I" und "M" erfolgte auf Basis von
RFC 1345, die Ersatzdarstellungen in den Codes "a" und "b" folgen einem
Vorschlag von Markus Kuhn (Erlangen).
Codetabelle
(fehlt noch)
© Helmut Richter
published here 1999-07-05;
last update 1999-07-08
http://www.lrz.de/~hr/tools/latinn.html