trennmuster:korpora

Textkorpora und Wortlisten

Hier können Verweise auf interessante Korpora abgelegt werden.

Urheber Korpus des Instituts für Deutsche Sprache (IDS)
Rechte Darf in ihrer Gesamtheit - wie vereinbart - nicht veröffentlicht oder an Dritte weitergegeben werden. Abgeleitete Werke können nach unserer Wahl behandelt werden.
Wortformen 4.000.000
Sortierkriterium Häufigkeitsklassen
Rechtschreibung mittel
Zugriff für ausgewählte Personen
Stand 9. 10. 2007
Urheber Werner Lemberg
Rechte MIT
Wortformen 500.000
Sortierkriterium alphabetisch
Rechtschreibung gut
Bemerkung manuell gepflegt
Zugriff Git-Repositorium
Stand 26. 2. 2021
Urheber Liste des Wortschatzprojekts der Universität Leipzig
Rechte GPL (?)
Wortformen 2.000.000
SortierkriteriumHäufigkeit
Rechtschreibung mangelhaft
Bemerkung automatische Internetsuche (Datenbanken, Zeitungsarchive usw.)
Zugriff
Stand 28. 3. 2008

#GoogleBooksKorpus

Urheber Google
Rechte Creative Commons Attribution 3.0 Unported
Wortformen 3.700.000
Sortierkriteriumdateiweise alphabetisch (nicht dateiübergreifend)
Rechtschreibung mit typischen OCR-Fehlern
Bemerkung angekündigt am 12. 5. 2011 auf der Corpora-Mailing-Liste
Zugriff Google Labs: googlebooks-ger-all-20090715
Stand 1. 7. 2011
Urheber Stephan Hennig
Rechte GPL
Wortformen 3.700.000
SortierkriteriumHäufigkeitsklassen
Rechtschreibung mit typischen OCR-Fehlern
Bemerkung abgeleitet aus dem Google-Books-Korpus
Zugriff Google-Books-Liste
Stand 3. 9. 2011
Urheber Roozbeh Pournader, Wikipedia-Autoren
Rechte CC-BY-SA
Wortformen ca. 14.000.000
SortierkriteriumHäufigkeit
Rechtschreibung mangelhaft
Bemerkung angekündigt am 3. 7. 2012 auf der http://lists.freedesktop.org/archives/harfbuzz/2012-July/002092.html
Zugriff z.B. http://www.freedesktop.org/software/harfbuzz/testing/texts/wikipedia/, siehe Ankündigung
Stand 12. 9. 2012
Urheber Jan Schreiber
Rechte Public Domain (?)
Wortformen 2.095.000
Sortierkriteriumalphabetisch
Zugriff http://germandict.sourceforge.net/
Stand Februar 2021
Urheber Horst Eyermann u. a.
Rechte GPL u. a.
Bemerkungverschiedene zweisprachige Wörterbücher
Zugriff http://freedict.org/de/
Stand August 2011
Urheber verschiedene
Rechte Creative Commons BY 3.0
BemerkungDatenbank mit über 10 Millionen weltweiten geographischen Bezeichnungen, Textdateien als Datenbankdump erhältlich
Zugriff http://www.geonames.org/
Stand Mai 2015
Urheber IDS Mannheim
Rechte Creative Commons BY-NC 3.0
Wortformen 100.000
SortierkriteriumHäufigkeitsklassen
Rechtschreibung gut; abgeleitet aus dem Deutschen Referenzkorpus
Bemerkung siehe Mannheimer Liste
Zugriff DeReWo
Stand August 2011
Urheber Europäische Kommission - Generaldirektion Übersetzung
Rechte freizügig, nicht OSI kompatibel
Wortformendeutsch: 8.000.000
Bemerkung mehrsprachiger Übersetzungsspeicher zum EU-Recht; enthält etwa 1 Million Sätze und ihre Übersetzungen in 24 Sprachen; angekündigt am 18. 9. 2014 auf der Corpora-Mailing-Liste
Zugriff DGT-Translation Memory
Stand 18. 9. 2014
Urheber Universität Duisburg-Essen
Bemerkungvier verschiedene Korpora: das Bonner Frühneuhochdeutschkorpus, Daten des Projekts Bereitstellung und Pflege von Immanuel Kants Werken in elektronischer Form, das LIMAS-Korpus, die Hypertext-Ausgabe von Gottlob Freges Grundgesetze der Arithmetik
Zugriff http://www.korpora.org/
Stand August 2011
UrheberMicrosoft
Zugriffhttp://web-ngram.research.microsoft.com/info/
Stand September 2011
Urheber Reiner Keul EDV-Dienstleistungen
Rechte kommerziell (ca. 20 Euro)
Wortformen 600.000
Sortierkriteriumalphabetisch
Zugriff http://www.debuggen.com/
Stand September 2012
Rechte kommerziell (günstig)
Bemerkungenthält Orts- und Personennamen aus der Frankfurter Rundschau
Zugriff http://www.cnts.ua.ac.be/conll2003/ner/
Stand August 2011
Urheber Gesellschaft für deutsche Sprache
Rechte kommerziell (günstig)
BemerkungListe von jeweils 200 Mädchen- und Jungennamen, die jährlich in Deutschland am häufigsten vergeben wurden (seit 2004)
Zugriff http://www.gfds.de/vornamen/beliebteste-vornamen/
Stand August 2011
Urheber Kernkorpus des Projekts Digitales Wörterbuch der Deutschen Sprache (DWDS)
Wortformen2.000.000
Bemerkung repräsentativer Wortschatz der deutschen Sprache
Stand Juni 2009
Urheber Adrien Barbaresi
Rechte Fragwürdig. Angeblich gemeinfrei nach § 48 UrhG. Das UrhG bezieht sich jedoch nur auf den Wortlaut von Reden, nicht auf deren Digitalisate (Vorlagen). Für diese besteht weiterhin Urheberrechtschutz. E-Mail-Kontakt besteht.
Bemerkungenthält Reden deutscher Bundenpräsidenten und Bundeskanzler (Kopien aus dem Web-Angebot des Bundespräsidialamtes)
Zugriff http://purl.org/corpus/german-speeches (Weiterleitung auf http://perso.ens-lyon.fr/adrien.barbaresi/corpora/index.html)
Stand
  • trennmuster/korpora.txt
  • Last modified: 2023/04/11 08:32
  • by erikadm