Hier können Verweise auf interessante Korpora abgelegt werden.
Urheber | Korpus des Instituts für Deutsche Sprache (IDS) |
Rechte | Darf in ihrer Gesamtheit - wie vereinbart - nicht veröffentlicht oder an Dritte weitergegeben werden. Abgeleitete Werke können nach unserer Wahl behandelt werden. |
Wortformen | 4.000.000 |
Sortierkriterium | Häufigkeitsklassen |
Rechtschreibung | mittel |
Zugriff | für ausgewählte Personen |
Stand | 9. 10. 2007 |
Urheber | Werner Lemberg |
Rechte | MIT |
Wortformen | 500.000 |
Sortierkriterium | alphabetisch |
Rechtschreibung | gut |
Bemerkung | manuell gepflegt |
Zugriff | Git-Repositorium |
Stand | 26. 2. 2021 |
Urheber | Liste des Wortschatzprojekts der Universität Leipzig |
Rechte | GPL (?) |
Wortformen | 2.000.000 |
Sortierkriterium | Häufigkeit |
Rechtschreibung | mangelhaft |
Bemerkung | automatische Internetsuche (Datenbanken, Zeitungsarchive usw.) |
Zugriff | |
Stand | 28. 3. 2008 |
#GoogleBooksKorpus
Urheber | |
Rechte | Creative Commons Attribution 3.0 Unported |
Wortformen | 3.700.000 |
Sortierkriterium | dateiweise alphabetisch (nicht dateiübergreifend) |
Rechtschreibung | mit typischen OCR-Fehlern |
Bemerkung | angekündigt am 12. 5. 2011 auf der Corpora-Mailing-Liste |
Zugriff | Google Labs: googlebooks-ger-all-20090715 |
Stand | 1. 7. 2011 |
Urheber | Stephan Hennig |
Rechte | GPL |
Wortformen | 3.700.000 |
Sortierkriterium | Häufigkeitsklassen |
Rechtschreibung | mit typischen OCR-Fehlern |
Bemerkung | abgeleitet aus dem Google-Books-Korpus |
Zugriff | Google-Books-Liste |
Stand | 3. 9. 2011 |
Urheber | Roozbeh Pournader, Wikipedia-Autoren |
Rechte | CC-BY-SA |
Wortformen | ca. 14.000.000 |
Sortierkriterium | Häufigkeit |
Rechtschreibung | mangelhaft |
Bemerkung | angekündigt am 3. 7. 2012 auf der http://lists.freedesktop.org/archives/harfbuzz/2012-July/002092.html |
Zugriff | z.B. http://www.freedesktop.org/software/harfbuzz/testing/texts/wikipedia/, siehe Ankündigung |
Stand | 12. 9. 2012 |
Urheber | Jan Schreiber |
Rechte | Public Domain (?) |
Wortformen | 2.095.000 |
Sortierkriterium | alphabetisch |
Zugriff | http://germandict.sourceforge.net/ |
Stand | Februar 2021 |
Urheber | Horst Eyermann u. a. |
Rechte | GPL u. a. |
Bemerkung | verschiedene zweisprachige Wörterbücher |
Zugriff | http://freedict.org/de/ |
Stand | August 2011 |
Urheber | verschiedene |
Rechte | Creative Commons BY 3.0 |
Bemerkung | Datenbank mit über 10 Millionen weltweiten geographischen Bezeichnungen, Textdateien als Datenbankdump erhältlich |
Zugriff | http://www.geonames.org/ |
Stand | Mai 2015 |
Urheber | IDS Mannheim |
Rechte | Creative Commons BY-NC 3.0 |
Wortformen | 100.000 |
Sortierkriterium | Häufigkeitsklassen |
Rechtschreibung | gut; abgeleitet aus dem Deutschen Referenzkorpus |
Bemerkung | siehe Mannheimer Liste |
Zugriff | DeReWo |
Stand | August 2011 |
Urheber | Europäische Kommission - Generaldirektion Übersetzung |
Rechte | freizügig, nicht OSI kompatibel |
Wortformen | deutsch: 8.000.000 |
Bemerkung | mehrsprachiger Übersetzungsspeicher zum EU-Recht; enthält etwa 1 Million Sätze und ihre Übersetzungen in 24 Sprachen; angekündigt am 18. 9. 2014 auf der Corpora-Mailing-Liste |
Zugriff | DGT-Translation Memory |
Stand | 18. 9. 2014 |
Urheber | Universität Duisburg-Essen |
Bemerkung | vier verschiedene Korpora: das Bonner Frühneuhochdeutschkorpus, Daten des Projekts Bereitstellung und Pflege von Immanuel Kants Werken in elektronischer Form, das LIMAS-Korpus, die Hypertext-Ausgabe von Gottlob Freges Grundgesetze der Arithmetik |
Zugriff | http://www.korpora.org/ |
Stand | August 2011 |
Urheber | Microsoft |
Zugriff | http://web-ngram.research.microsoft.com/info/ |
Stand | September 2011 |
Urheber | Reiner Keul EDV-Dienstleistungen |
Rechte | kommerziell (ca. 20 Euro) |
Wortformen | 600.000 |
Sortierkriterium | alphabetisch |
Zugriff | http://www.debuggen.com/ |
Stand | September 2012 |
Rechte | kommerziell (günstig) |
Bemerkung | enthält Orts- und Personennamen aus der Frankfurter Rundschau |
Zugriff | http://www.cnts.ua.ac.be/conll2003/ner/ |
Stand | August 2011 |
Urheber | Gesellschaft für deutsche Sprache |
Rechte | kommerziell (günstig) |
Bemerkung | Liste von jeweils 200 Mädchen- und Jungennamen, die jährlich in Deutschland am häufigsten vergeben wurden (seit 2004) |
Zugriff | http://www.gfds.de/vornamen/beliebteste-vornamen/ |
Stand | August 2011 |
Urheber | Kernkorpus des Projekts Digitales Wörterbuch der Deutschen Sprache (DWDS) |
Wortformen | 2.000.000 |
Bemerkung | repräsentativer Wortschatz der deutschen Sprache |
Stand | Juni 2009 |
Urheber | Adrien Barbaresi |
Rechte | Fragwürdig. Angeblich gemeinfrei nach § 48 UrhG. Das UrhG bezieht sich jedoch nur auf den Wortlaut von Reden, nicht auf deren Digitalisate (Vorlagen). Für diese besteht weiterhin Urheberrechtschutz. E-Mail-Kontakt besteht. |
Bemerkung | enthält Reden deutscher Bundenpräsidenten und Bundeskanzler (Kopien aus dem Web-Angebot des Bundespräsidialamtes) |
Zugriff | http://purl.org/corpus/german-speeches (Weiterleitung auf http://perso.ens-lyon.fr/adrien.barbaresi/corpora/index.html) |
Stand |