ALIs

kommt noch

Textanalyse-Programm zur Erzeugung von Konkordanzen und Worthäufigkeitstabellen.

Das Programm OCP bietet vielfältige Möglichkeiten zur Erstellung von Worthäufigkeitstabellen, Registern und Konkordanzlisten mit Zeilenreferenzen. Es besitzt eine frei formatierte, leicht erlernbare Direktivensprache; die zu bearbeitenden Texte können in vielerlei Formaten, insbesondere im weit verbreiteten COCOA-Format vorliegen.

Aufruf

OCP steht im LRZ am IBM-SP2 in der Version 2 zur Verfügung, die mit dem auf IBM-PCs verfügbaren "Micro-OCP" identisch ist.

OCP Version 2 ist als portables FORTRAN77-Programm geschrieben. Es stehen alle Zeichen des ASCII-Codes zur Verfügung. Zusätzlich lassen sich neue "Zeichen" definieren, die aus bis zu 8 Einzelzeichen zusammengesetzt sind. Diese Möglichkeit ist vor allem für die Bearbeitung von speziellen fremdsprachlichen Texten (z.B. in Spanisch oder transliteriertem Russisch) interessant.

Aufruf:      ocp  -i dir  -t text  -m mess  -o out

(ocp liegt im Verzeichnis /client/bin)

Parameter:
 

i Eingabedatei für Direktiven (Voreinstellung: OCPCOM) 
t Eingabedatei für den zu analysierenden Text (Voreinstellung: OCPTEXT) 
m Ausgabedatei für Kommentare und Fehlermeldungen (Voreinstellung: OCPJOUR) 
o Ausgabedatei für die erzeugten Listen und Tabellen (Voreinstellung: OCPPRT) 

 
 

Installationsbesonderheiten

Die OCP-Direktiven und der zu analysierende Text müssen von verschiedenen Dateien eingegeben werden. Ebenso müssen die beiden Ausgabedateien für OCP-Meldungen und die erzeugten Tabellen verschieden sein. Neben diesen 4 Standarddateien verwendet OCP noch eine weitere Arbeitsdatei des Namens tmp.F gefolgt von 6 Ziffern.

Die Anzahl der Ausgabezeilen pro Seite kann vom Benutzer festgelegt werden (vergl. [1], Kap.5.4.1, S.69 : DEPTH). Voreingestellt sind 63 (statt 56) Textzeilen pro Seite. Hinzu kommt allerdings noch eine zusätzliche Leerzeile am Beginn jeder Seite!

Auf folgende Standard-Beschränkungen sei zudem explizit hingewiesen:

  • Die Zeilenlänge des zu analysierenden Textes ist auf maximal 150 Zeichen begrenzt (siehe [1], Kap.5.1, S.33).
  • Die Zeilenlänge der erzeugten Tabellen und Listen beträgt maximal 132 Zeichen (siehe [1], Kap.5.4.1, S.69 : LENGTH).

Dokumentation

Standardwerk für den Umgang mit OCP ist das Manual

[1]  S.Hockey,J.Martin
     Oxford Concordance Program, Users' Manual Version 2
     Oxford University Computing Service 1988.

Einige Exemplare dieses Manuals sind im LRZ-Benutzersekretariat vorrätig und können für kürzere Zeit ausgeliehen werden.

Beispielsammlung

Das Benutzermanual [1] enthält über 100 Seiten Beispiele. Ein Teil dieser Beispiele (nämlich diejenigen aus Kapitel 8) sind bereits erfaßt und können zur Einarbeitung verwendet werden.

Die Beispieldateien liegen im Katalog /afs/lrz-muenchen.de/sw/license/ocp-2/examples . Die Datei 00README enthält eine Übersicht.

Direktiven-Übersicht

Die folgende Übersicht ist dem Manual [1], Kapitel 6 entnommen. Sie beschreibt die Syntax und die einzelnen Optionen der OCP-Kommandosprache in komprimierter Form, und zwar in drei Spalten jeweils das eigentliche Kommando, die möglichen Optionen und eine Angabe, wie diese Optionen kombiniert werden können (AND oder OR).

Jedes Kommando muß von mindestens einer Option gefolgt sein und durch einen Punkt abgeschlossen werden. Die Notation bedeutet dabei:

  • Teile zwischen eckigen Klammern [ ... ] können weggelassen werden.

  •  
  • Teile zwischen runden Klammern ( ... ) gefolgt von "..." können in einer Liste wiederholt werden. Die Elemente einer solchen Liste sind durch Komma voneinander zu trennen.

  •  
  • "string" ist eine Zeichenfolge, die mit " oder ' beginnt und endet.

  •  
  • "alphabetstring" ist ein "string", der Gruppen von Zeichen mit Zwischenraum als Trennzeichen enthält.

  • "n" bezeichnet eine positive ganze Zahl, "c" ein einzelnes Zeichen, "w" ein einzelnes Wort. 

  • "wordstring" ist ein "string", der Worte getrennt durch Zwischenräume enthält.

*INPUT Section

======================================================================
COMMENTS           | [BETWEEN] (string1 [TO string2]) ...         |AND
                   | STARTING (string) ...                        |
                   |                                              |
                   | EXCLUDE                                      |
                   | or                                           |
                   | COMPRESS                                     |
-------------------|----------------------------------------------|---
REFERENCES         | [FIXED] (n1 TO n2 = c) ...                   |AND
                   | STARTING (string=c) ...                      |
                   | COCOA [string1 [TO string2]]                 |
                   | ON c1 (SET c2=string) ...                    |
-------------------|----------------------------------------------|---
SELECT             | [EXCEPT] LINES (n1 [TO n2]) ...              |AND
                   | [EXCEPT] RECORDS (n1 [TO n2]) ...            |OR
                   | [EXCEPT] WORDS (n1 [TO n2]) ...              |
                   | [EXCEPT] WHERE [FIRST] (c=string) ...        |
                   | [EXCEPT] UNTIL (c=string) ...                |
                   | [EXCEPT] BETWEEN (string1 [TO string2]) ...  |
                   | AT END OF (c) ...                            |
-------------------|----------------------------------------------|---
TEXT               | ([n1] TO n2) ...                             |AND
                   | NEWLINE string                               |
                   |                                              |
                   | CONTINUE string [STARTING]                   |
                   | or                                           |
                   | HYPHEN string                                |
                   |                                              |
                   | STOP AT RECORD n                             |
----------------------------------------------------------------------

*WORDS Section

======================================================================
ALPHABET           | alphabetstring                               |
-------------------|----------------------------------------------|---
COMPRESS           | alphabetstring                               |
-------------------|----------------------------------------------|---
DIACRITICS         | alphabetstring [ZERO LENGTH]                 |
-------------------|----------------------------------------------|---
IGNORE             | alphabetstring                               |
-------------------|----------------------------------------------|---
PADDING            | alphabetstring                               |
-------------------|----------------------------------------------|---
PUNCTUATION        | alphabetstring                               |
----------------------------------------------------------------------

*ACTION Section

======================================================================
CONTEXTS SORTED BY | LEFT                                         |AND
                   | or    OF KEYS [WITH PUNCTUATION]             |
                   | RIGHT                                        |
                   |                                              |
                   | REFERENCES                                   |
-------------------|----------------------------------------------|---
DO                 | INDEX                                        |AND
                   | or                                           |
                   | CONCORDANCE                                  |
                   | or                                           |
                   | WORDLIST                                     |
                   |                                              |
                   | STATS                                        |
-------------------|----------------------------------------------|---
HEADWORDS          | (w=wordstring [NOT AS ALPHABET]) ...         |
-------------------|----------------------------------------------|---
KEEP FREQUENCY     | (n1 [TO n2]) ...                             |
-------------------|----------------------------------------------|---
KEYS SORTED BY     | START                                        |AND
                   | or                                           |
                   | END                                          |
                   |                                              |
                   | ASCENDING                                    |
                   | or         FREQUENCY                         |
                   | DESCENDING                                   |
                   |                                              |
                   | ASCENDING                                    |
                   | or         LENGTH                            |
                   | DESCENDING                                   |
-------------------|----------------------------------------------|---
INCLUDE [ONLY]     |                AT                            |AND
                   | COLLOCATES (w1 or  n w2 [NOT AS ALPHABET]) ...
                   |                UPTO                          |
                   |                                              |
                   | PHRASES (wordstring [NOT AS ALPHABET]) ...   |
-------------------|----------------------------------------------|---
MAXIMUM CONTEXT    | [LEFT]                                       |AND
                   | or      SPAN c                               |
                   | [RIGHT]                                      |
                   |                                              |
                   | [LEFT]                                       |
                   | or      UPTO alphabetstring                  |
                   | [RIGHT]                                      |
-------------------|----------------------------------------------|---
PICK               | [EXCEPT] WORDS wordstring [NOT AS ALPHABET]  |AND
                   | [EXCEPT] RANGE ([string1] TO string2) ...    |OR
                   | [EXCEPT] LENGTH (n1 [TO n2]) ...             |
-------------------|----------------------------------------------|---
PREFIXES           | wordstring [NOT AS ALPHABET]                 |
-------------------|----------------------------------------------|---
REFERENCES         | [SORT]       [LEFT]                          |AND
                   | or      (c=n or      [WITH string]) ...      |
                   | [PRINT]      [RIGHT]                         |
-------------------|----------------------------------------------|---
SAMPLE             |             WORDS                            |
                   | [RANDOM] nl or                               |
                   |             PERCENT [UNTIL n2 WORDS]         |
-------------------|----------------------------------------------|---
SUFFIXES           | wordstring [NOT AS ALPHABET]                 |
----------------------------------------------------------------------

*FORMAT Section

======================================================================
CONTEXT            | SIZE n                                       |AND
                   |                                              |
                   | LEFT                                         |
                   | or                                           |
                   | RIGHT  ALIGNED                               |
                   | or                                           |
                   | CENTRE                                       |
                   |                                              |
                   | PRINT NEWLINE [string]                       |
                   |                                              |
                   |       n                                      |
                   | IDENT or                                     |
                   |       COMPLETE                               |
-------------------|----------------------------------------------|---
HEADWORDS          | OMITTED                                      |AND
                   | or                                           |
                   | ALIGNED                                      |
                   | or                                           |
                   | CENTRE                                       |
                   | or                                           |
                   | LEFT [SAME LINE] [CYCLE]                     |
                   | or                                           |
                   | RIGHT [SAME LINE] [CYCLE]                    |
                   |                                              |
                   |           BEFORE HEADWORD                    |
                   |           or                                 |
                   | FREQUENCY AFTER HEADWORD                     |
                   |           or                                 |
                   |           OMITTED                            |
-------------------|----------------------------------------------|---
LAYOUT             | COLUMNS n                                    |AND
                   | WIDTH n                                      |
                   | LENGTH n                                     |
                   | GAP n                                        |
                   |                                              |
                   | DEPTH n                                      |
                   | or                                           |
                   | NO PAGES                                     |
                   |                                              |
                   | [LEFT]                                       |
                   | or      MARGIN n                             |
                   | [RIGHT]                                      |
                   |                                              |
                   |               CONTEXTS                       |
                   |               or                             |
                   | LINES n BELOW ENTRIES                        |
                   |               or                             |
                   |               HEADWORDS                      |
-------------------|----------------------------------------------|---
PRINT              | EXCEPT alphabetstring                        |AND
                   | UNSEEN alphabetstring                        |
                   | USE (string AS alphabetstring) ...           |
-------------------|----------------------------------------------|---
REFERENCES         | LEFT                                         |AND
                   | or    [CYCLE]                                |
                   | RIGHT                                        |
                   |                                              |
                   | TO n [string]                                |
                   | GT n AS INDEX                                |
                   | BETWEEN string                               |
-------------------|----------------------------------------------|---
TITLES             |        CENTRE                                |AND
                   |        or                                    |
                   | string LEFT [CYCLE]  [ON LINE n1]            |
                   |        or                                    |
                   |        RIGHT [CYCLE]                         |
                   |                                              |
                   |           CENTRE                             |
                   |           or                                 |
                   | PAGE [n2] LEFT [CYCLE]  [ON LINE n1]         |
                   |           or                                 |
                   |           RIGHT [CYCLE]                      |
                   |                                              |
                   |           CENTRE                             |
                   |           or                                 |
                   | HEADWORDS LEFT [CYCLE]  [ON LINE n1]         |
                   |           or                                 |
                   |           RIGHT [CYCLE]                      |
                   |                                              |
                   |                 n4                           |
                   | USE LINES n3 TO or     FOR WORDS             |
                   |                 BOTTOM                       |
----------------------------------------------------------------------