Show pageOld revisionsBacklinksExport to PDFODT exportBack to top This page is read only. You can view the source, but not change it. Ask your administrator if you think this is wrong. ====== Textkorpora und Wortlisten ====== Hier können Verweise auf interessante Korpora abgelegt werden. ===== Exklusive Nutzungsrechte ===== ==== Mannheimer Liste ==== |Urheber |Korpus des [[http://www.ids-mannheim.de/kl/|Instituts für Deutsche Sprache]] (IDS) | |Rechte |//Darf in ihrer Gesamtheit - wie vereinbart - nicht veröffentlicht oder an Dritte weitergegeben werden.// Abgeleitete Werke können nach unserer Wahl behandelt werden. | |Wortformen |4.000.000 | |Sortierkriterium |Häufigkeitsklassen | |Rechtschreibung |mittel | |Zugriff |für ausgewählte Personen | |Stand |9. 10. 2007 | ===== Frei ===== ==== ==== ==== Werners Liste ==== |Urheber |Werner Lemberg | |Rechte |MIT | |Wortformen |500.000 | |Sortierkriterium |alphabetisch | |Rechtschreibung |gut | |Bemerkung |manuell gepflegt | |Zugriff |Git-[[Entwickler|Repositorium]] | |Stand |26. 2. 2021 | ==== Leipziger Liste ==== |Urheber |Liste des [[http://wortschatz.uni-leipzig.de/|Wortschatzprojekts der Universität Leipzig]]| |Rechte |GPL (?) | |Wortformen |2.000.000 | |Sortierkriterium|Häufigkeit | |Rechtschreibung |mangelhaft | |Bemerkung |automatische Internetsuche (Datenbanken, Zeitungsarchive usw.) | |Zugriff | | |Stand |28. 3. 2008 | #GoogleBooksKorpus ==== Google-Books-Korpus ==== |Urheber |Google | |Rechte |Creative Commons Attribution 3.0 Unported | |Wortformen |3.700.000 | |Sortierkriterium|dateiweise alphabetisch (nicht dateiübergreifend) | |Rechtschreibung |mit typischen OCR-Fehlern | |Bemerkung |angekündigt am 12. 5. 2011 auf der [[http://mailman.uib.no/public/corpora/2011-May/013010.html|Corpora-Mailing-Liste]]| |Zugriff |Google Labs: [[http://ngrams.googlelabs.com/datasets|googlebooks-ger-all-20090715]] | |Stand |1. 7. 2011 | ==== Google-Books-Liste ==== |Urheber |Stephan Hennig | |Rechte |GPL | |Wortformen |3.700.000 | |Sortierkriterium|Häufigkeitsklassen | |Rechtschreibung |mit typischen OCR-Fehlern | |Bemerkung |abgeleitet aus dem [[#GoogleBooksKorpus|Google-Books-Korpus]]| |Zugriff |[[GoogleBooks Liste|Google-Books-Liste]] | |Stand |3. 9. 2011 | ==== Korpus der deutschen Wikipedia ==== |Urheber |Roozbeh Pournader, Wikipedia-Autoren | |Rechte |CC-BY-SA | |Wortformen |ca. 14.000.000 | |Sortierkriterium|Häufigkeit | |Rechtschreibung |mangelhaft | |Bemerkung |angekündigt am 3. 7. 2012 auf der http://lists.freedesktop.org/archives/harfbuzz/2012-July/002092.html| |Zugriff |z.B. http://www.freedesktop.org/software/harfbuzz/testing/texts/wikipedia/, siehe Ankündigung | |Stand |12. 9. 2012 | ==== Free German Dictionary ==== |Urheber |Jan Schreiber | |Rechte |Public Domain (?) | |Wortformen |2.095.000 | |Sortierkriterium|alphabetisch | |Zugriff |http://germandict.sourceforge.net/| |Stand |Februar 2021 | ==== FreeDict ==== |Urheber |Horst Eyermann u. a. | |Rechte |GPL u. a. | |Bemerkung|verschiedene zweisprachige Wörterbücher| |Zugriff |http://freedict.org/de/ | |Stand |August 2011 | ==== GeoNames ==== |Urheber |verschiedene | |Rechte |Creative Commons BY 3.0 | |Bemerkung|Datenbank mit über 10 Millionen weltweiten geographischen Bezeichnungen, Textdateien als Datenbankdump erhältlich| |Zugriff |http://www.geonames.org/ | |Stand |Mai 2015 | ===== Unfrei ===== ==== DeReWo Wortformenliste ==== |Urheber |IDS Mannheim | |Rechte |Creative Commons BY-NC 3.0 | |Wortformen |100.000 | |Sortierkriterium|Häufigkeitsklassen | |Rechtschreibung |gut; abgeleitet aus dem [[http://www.ids-mannheim.de/kl/projekte/korpora/|Deutschen Referenzkorpus]]| |Bemerkung |siehe [[#MannheimerListe|Mannheimer Liste]] | |Zugriff |[[http://www.ids-mannheim.de/kl/projekte/methoden/derewo.html|DeReWo]] | |Stand |August 2011 | ==== DGT-TM (Mehrsprachiger, paralleler Korpus zum EU-Recht) ==== |Urheber |Europäische Kommission - Generaldirektion Übersetzung | |Rechte |freizügig, nicht OSI kompatibel | |Wortformen|deutsch: 8.000.000 | |Bemerkung |mehrsprachiger Übersetzungsspeicher zum EU-Recht; enthält etwa 1 Million Sätze und ihre Übersetzungen in 24 Sprachen; angekündigt am 18. 9. 2014 auf der [[http://mailman.uib.no/public/corpora/2014-September/021153.html|Corpora-Mailing-Liste]]| |Zugriff |[[https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory|DGT-Translation Memory]] | |Stand |18. 9. 2014 | ==== Korpora.org ==== |Urheber |Universität Duisburg-Essen | |Bemerkung|vier verschiedene Korpora: das Bonner Frühneuhochdeutschkorpus, Daten des Projekts Bereitstellung und Pflege von Immanuel Kants Werken in elektronischer Form, das LIMAS-Korpus, die Hypertext-Ausgabe von Gottlob Freges //Grundgesetze der Arithmetik//| |Zugriff |http://www.korpora.org/ | |Stand |August 2011 | ==== Microsoft Web N-Gram Service ==== |Urheber|Microsoft | |Zugriff|http://web-ngram.research.microsoft.com/info/| |Stand |September 2011 | ===== Kommerziell ===== ==== Deutsches Wörterbuch als Text-Datei ==== |Urheber |Reiner Keul EDV-Dienstleistungen| |Rechte |kommerziell (ca. 20 Euro) | |Wortformen |600.000 | |Sortierkriterium|alphabetisch | |Zugriff |http://www.debuggen.com/ | |Stand |September 2012 | ==== Named Entity Recognition (NER) ==== |Rechte |kommerziell (günstig) | |Bemerkung|enthält Orts- und Personennamen aus der //Frankfurter Rundschau//| |Zugriff |http://www.cnts.ua.ac.be/conll2003/ner/ | |Stand |August 2011 | ==== beliebteste Vornamen ==== |Urheber |Gesellschaft für deutsche Sprache | |Rechte |kommerziell (günstig) | |Bemerkung|Liste von jeweils 200 Mädchen- und Jungennamen, die jährlich in Deutschland am häufigsten vergeben wurden (seit 2004)| |Zugriff |http://www.gfds.de/vornamen/beliebteste-vornamen/ | |Stand |August 2011 | ===== Ungeklärte Nutzungsrechte ===== ==== Berliner Liste ==== |Urheber |Kernkorpus des Projekts [[http://www.dwdscorpus.de/|Digitales Wörterbuch der Deutschen Sprache]] (DWDS)| |Wortformen|2.000.000 | |Bemerkung |repräsentativer Wortschatz der deutschen Sprache | |Stand |Juni 2009 | ==== German Political Speeches Corpus ==== |Urheber |Adrien Barbaresi | |Rechte |Fragwürdig. Angeblich gemeinfrei nach § 48 UrhG. Das UrhG bezieht sich jedoch nur auf den Wortlaut von Reden, nicht auf deren Digitalisate (Vorlagen). Für diese besteht weiterhin Urheberrechtschutz. E-Mail-Kontakt besteht.| |Bemerkung|enthält Reden deutscher Bundenpräsidenten und Bundeskanzler (Kopien aus dem Web-Angebot des Bundespräsidialamtes) | |Zugriff |http://purl.org/corpus/german-speeches (Weiterleitung auf http://perso.ens-lyon.fr/adrien.barbaresi/corpora/index.html) | |Stand |August 2011 trennmuster/korpora.txt Last modified: 2023/04/11 08:32by erikadm