Hier können Verweise auf interessante Korpora abgelegt werden.
Urheber | Korpus des Instituts für Deutsche Sprache (IDS) |
Rechte | Darf in ihrer Gesamtheit - wie vereinbart - nicht veröffentlicht oder an Dritte weitergegeben werden. Abgeleitete Werke können nach unserer Wahl behandelt werden. |
Wortformen | 4.000.000 |
Sortierkriterium | Häufigkeitsklassen |
Rechtschreibung | mittel |
Zugriff | für ausgewählte Personen |
Stand | 9. 10. 2007 |
Urheber | Werner Lemberg |
Rechte | MIT |
Wortformen | 500.000 |
Sortierkriterium | alphabetisch |
Rechtschreibung | gut |
Bemerkung | manuell gepflegt |
Zugriff | Git-Repositorium |
Stand | 26. 2. 2021 |
Urheber | Liste des Wortschatzprojekts der Universität Leipzig |
Rechte | GPL (?) |
Wortformen | 2.000.000 |
Sortierkriterium | Häufigkeit |
Rechtschreibung | mangelhaft |
Bemerkung | automatische Internetsuche (Datenbanken, Zeitungsarchive usw.) |
Zugriff | |
Stand | 28. 3. 2008 |
#GoogleBooksKorpus
Urheber | Google |
Rechte | Creative Commons Attribution 3.0 Unported |
Wortformen | 3.700.000 |
Sortierkriterium | dateiweise alphabetisch (nicht dateiübergreifend) |
Rechtschreibung | mit typischen OCR-Fehlern |
Bemerkung | angekündigt am 12. 5. 2011 auf der Corpora-Mailing-Liste |
Zugriff | Google Labs: googlebooks-ger-all-20090715 |
Stand | 1. 7. 2011 |
Urheber | Stephan Hennig |
Rechte | GPL |
Wortformen | 3.700.000 |
Sortierkriterium | Häufigkeitsklassen |
Rechtschreibung | mit typischen OCR-Fehlern |
Bemerkung | abgeleitet aus dem Google-Books-Korpus |
Zugriff | Google-Books-Liste |
Stand | 3. 9. 2011 |
Urheber | Horst Eyermann u. a. |
Rechte | GPL u. a. |
Bemerkung | verschiedene zweisprachige Wörterbücher |
Zugriff | http://freedict.org/de/ |
Stand | August 2011 |
Urheber | verschiedene |
Rechte | Creative Commons BY 3.0 |
Bemerkung | Datenbank mit über 10 Millionen weltweiten geographischen Bezeichnungen, Textdateien als Datenbankdump erhältlich |
Zugriff | http://www.geonames.org/ |
Stand | Mai 2015 |
Urheber | IDS Mannheim |
Rechte | Creative Commons BY-NC 3.0 |
Wortformen | 100.000 |
Sortierkriterium | Häufigkeitsklassen |
Rechtschreibung | gut; abgeleitet aus dem Deutschen Referenzkorpus |
Bemerkung | siehe Mannheimer Liste |
Zugriff | DeReWo |
Stand | August 2011 |
Urheber | Europäische Kommission - Generaldirektion Übersetzung |
Rechte | freizügig, nicht OSI kompatibel |
Wortformen | deutsch: 8.000.000 |
Bemerkung | mehrsprachiger Übersetzungsspeicher zum EU-Recht; enthält etwa 1 Million Sätze und ihre Übersetzungen in 24 Sprachen; angekündigt am 18. 9. 2014 auf der Corpora-Mailing-Liste |
Zugriff | DGT-Translation Memory |
Stand | 18. 9. 2014 |
Urheber | Universität Duisburg-Essen |
Bemerkung | vier verschiedene Korpora: das Bonner Frühneuhochdeutschkorpus, Daten des Projekts Bereitstellung und Pflege von Immanuel Kants Werken in elektronischer Form, das LIMAS-Korpus, die Hypertext-Ausgabe von Gottlob Freges Grundgesetze der Arithmetik |
Zugriff | http://www.korpora.org/ |
Stand | August 2011 |
Urheber | Reiner Keul EDV-Dienstleistungen |
Rechte | kommerziell (ca. 20 Euro) |
Wortformen | 600.000 |
Sortierkriterium | alphabetisch |
Zugriff | http://www.debuggen.com/ |
Stand | September 2012 |
Urheber | Gesellschaft für deutsche Sprache |
Rechte | kommerziell (günstig) |
Bemerkung | Liste von jeweils 200 Mädchen- und Jungennamen, die jährlich in Deutschland am häufigsten vergeben wurden (seit 2004) |
Zugriff | http://www.gfds.de/vornamen/beliebteste-vornamen/ |
Stand | August 2011 |
Urheber | Adrien Barbaresi |
Rechte | Fragwürdig. Angeblich gemeinfrei nach § 48 UrhG. Das UrhG bezieht sich jedoch nur auf den Wortlaut von Reden, nicht auf deren Digitalisate (Vorlagen). Für diese besteht weiterhin Urheberrechtschutz. E-Mail-Kontakt besteht. |
Bemerkung | enthält Reden deutscher Bundenpräsidenten und Bundeskanzler (Kopien aus dem Web-Angebot des Bundespräsidialamtes) |
Zugriff | http://purl.org/corpus/german-speeches (Weiterleitung auf http://perso.ens-lyon.fr/adrien.barbaresi/corpora/index.html) |
Stand | |