Dieses Verzeichnis enth"alt deutsche Wortlisten, vorbereitet f"ur die
Version 3 des Programms ispell.

Zusammengestellt von

Heinz Knutzen                    email: hk@informatik.uni-kiel.d400.de
Institut fuer Informatik, Universitaet Kiel        Tel: +49-431-560426
Preusserstr. 1-9, D-24105 Kiel, Germany            Fax: +49-431-566143
 

Die Wortlisten basieren auf Dateien von Martin Schulz, die man z.B. in 
/ftp.th-darmstadt.de:/pub/dicts/ispell/dictionaries/deutsch.tar.gz
finden kann.

Im wesentlichen habe ich fehlerhafte Worte entfernt. Zus"atzlich habe
ich einige neue Worte hinzugef"ugt und bei vielen Worten weitere
Beugungsformen erg"anzt.

Die Aufteilung der Worte in verschiedene Dateien habe ich weiter
vorangetrieben. Damit kann man sich leichter ein KLEINES individuelles
W"orterbuch zusammenstellen. Aus den Wortlisten generiere ich ein
ispell Hash-File mit einer Gr"o"se von ca. 1 MByte im Gegensatz zu
ca. 2 MByte gro"sen Hash-Files mit den originalen Wortlisten von
Martin Schulz.

In der Affix-Datei deutsch.aff, die von ispell verwendet wird, um
"ahnliche Worte von einer gemeinsamen Wurzel ableiten zu k"onnen, habe
ich einige Fehler behoben und Verbesserungen vorgenommen.

Wesentliche "Anderungen habe ich in der Datei Changes dokumentiert.

Es folgt eine Beschreibung der einzelnen Dateien und der Kriterien,
nach denen ich die Aufteilung der Worte vorgenommen habe.

gross.txt       Gro"s geschriebene Worte, hoffentlich nur noch Substantive.
verben.txt      Verbformen, keine Befehlsformen
adjektive.txt   Adjektive
klein           Zahlworte, F"urworte, ...
imperat         gebr"auchliche Befehlsformen
abkuerz         gebr"auchliche Abk"urzungen
vornamen        gebr"auchliche Vornamen
geographie.txt  gebr"auchliche geographische Begriffe
latein          Lateinische Redewendungen (et cetera)
informatik      Fachbegriffe aus dem Bereich der Datenverarbeitung
infoabk         Gebr"auchliche Abk"urzungen aus dem DV Bereich
elektronik      Fachbegriffe und Abk"urzungen aus dem Bereich Elektronik
orgabk          Abk"urzungen als Bezeichnung von Organisationen 
marken          Namen von Firmen und Produkten
abkuerz2        weitere Abk"urzungen
geogra2         weitere geographische Begriffe
vornam2         weitere Vornamen
seltenes        wirklich seltene Worte
technik         teilweise merkw"urdige technische Begriffe 
compeng         Computerenglisch, insbesondere deutsch-englische Mischw"orter
namen           Nachnamen bekannter Personen, G"otter, Sagengestalten, ...
zusammen        zusammengesetzte (Fach)Begriffe, die ich nicht verwenden werde.

Die Dateien gross, verben, adjektive, klein, imperat und abk"urz
dienen als Grundlage f"ur ein W"orterbuch, das evtl. mit Fachbegriffen
angereichert werden mu"s.
Ich habe viele zusammengesetzte Begriffe nach zusammen.txt
ausgelagert, da mir ein kleines W"orterbuch wichtiger ist als ein
allumfassendes. Bei Bedarf sollte man eine weitere Aufteilung in
Teil-W"orterb"ucher z.B. f"ur die Bereiche Medizin, Wirtschaft, Recht
vornehmen. 


Installation:

Ich empfehle, folgende Worte in ein W"orterbuch aufzunehmen:
worte           immer
verben          immer
adjektive       immer
klein           immer
geographie      eher ja
vornamen        eher ja
abkuerz         eher ja
imperat         eher ja
latein          eher ja
informatik      bei Bedarf
infoabk         bei Bedarf
elektronik      bei Bedarf
orgabk          bei Bedarf
marken          bei Bedarf
alphabeta       bei Bedarf
roemisch        bei Bedarf
zusammen        f"ur ein gro"ses W"orterbuch
technik         eher nicht
compeng         eher nicht
geogra2         eher nicht
vornam2         eher nicht
namen           eher nicht
abkuerz2        nicht
seltenes        nicht


Kombinieren Sie die ausgew"ahlten Dateien mit 'cat' zu einer Datei
und sortieren Sie die mit 'sort -f'. Z.B.

cat {worte,verben,adjektive,klein,geographie,vornamen,abkuerz,imperat,latein,informatik,infoabk}.txt|sort -u>all.words

Mit
        
buildhash all.words deutsch.aff deutsch.hash

erstellen Sie das deutsche Lexikon.

Verwenden Sie das beiliegende deutsch.aff, da es sich von dem deutsch.aff in
der ispell Distribution unterscheidet!

F"ur ispell sind keine besonderen Parameter notwendig.
Der Defaultwert #define MASKBITS 32 ist ausreichend.

Nach der Installation von deutsch.aff und deutsch.hash an
geeigneter Stelle (LIBDIR in local.h bzw. config.h)
ruft ispell -d deutsch das deutsche Wo"rterbuch auf.
