Herausgeber: Hendrick Heimböckel, ORCID-ID: 0000-0002-4211-9769
Fachlichkeit des Deutschunterrichts: Literaturvermittlung 1782-1891 (FaDeLive: 1782-1891) ist ein Korpus mit 1022 Texten zu Literaturvermittlung an höheren Schulen in Preußen im 19. Jahrhundert. Es ist die Grundlage des Projektes "Lesen heißt diese Übung" – und dann? Begriffe und intendierte Praktiken der Vermittlung deutschsprachiger Literatur an höheren Schulen 1796–1890.
Das Korpus setzt sich aus fotomechanisch gesannten Texten zusammen, die mit OCR (https://github.com/OCR4all, https://github.com/tesseract-ocr/tesseract) verarbeitet und in Hinblick auf OCR-Fehler gesäubert wurden. Diese Verarbeitungsstufe TXT (content) ist die Grundlage für die weitere Prozessierung der Daten. Siehe zur Vorverarbeitung und Verarbeitung des Korpus folgenden Workflow: https://doi.org/10.48693/730
Die Funktionen des Repositorium sind Reproduzierbarkeit, Nachnutzung und Weiterentwicklung des Korpus, seiner Datafizierung sowie Visualisierung.
Es umfasst
- das Korpus mit textspezifischen bibliographischen Angaben,
- die Pipeline, Tools und Ressourcen zur Vorverarbeitung sowie fĂĽr die Verarbeitung des Korpus,
- ein GUI-Tool zur Exploration und Visualisierung des verarbeiteten Korpus.
Die Pipeline und weiteren Tools zur Verarbeitung, Exploration und Visualisierung können mit Anpassungen auch für andere Korpora verwendet werden. Die Inputs sind
data/raw/metadata.csv: Metadaten zum Korpus als Spaltenindex, mitiddata/raw/metadata.csv: Metadaten mit Korpus incontentals Spaltenindex, mitid
Eine Vorlage für klassische Textquellen, mit der alle antizipierten Ausgaben der Pipeline und des GUI-Tools möglich sind, findet sich in data/raw/metadata_template.csv.
Schlagwörter:
- Computerlinguistik
- Didaktik des Deutschunterrichts
- Literaturunterricht
- Historische Bildungsforschung
- Text Mining
- Computational Discourse Analyses
FĂĽr die Pipeline ist ein Korpus in folgendem Format voreingestellt:
Datei: data/raw/korpus.csv
Encoding: utf-8
Trennzeichen: Semikolon
Notwendige Metadaten in korpus.csv fĂĽr die Verarbeitung der Texte in:
content: maschinenlesbarer Text in der Verarbeitungsstufe TXT (content)_id: ID der Dokumenteauthor_surname: Nachname der Verfsser, der Verfasseringenre: Genre eines Textestextclass: allgemeine Gattung eines Textesyear: Veröffentlichungsjahr der Zeitschrift oder des Bandes, in dem der Text veröffentlicht wurde, oder Veröffentlichungsjahr der Auflagetitle: Titel des Textesyear_first: Veröffentlichungsjahr der Erstausgabe eines Textessource: Name der Zeitschrift oder des Bandes in dem der Text veröffentlicht wurdeyear_first: Veröffentlichungsjahr der Erstausgabe eines Textes
Weitere Metadaten der Texte:editor_prename: Vorname des Herausgebers, von dem die Neuauflage herausgegeben wurde oder der die Zeitschrift bzw. den Band herausgegeben hat, in dem der Text veröffentlicht wurde (die Textsammlungen des Korpus wurden ausschließlich von Männern herausgegeben)editor_surname: Nachname des Herausgebers, von dem die Neuauflage herausgegeben wurde oder der die Zeitschrift bzw. den Band herausgegeben hat, in dem der Text veröffentlicht wurdevolume: Nummerierung von Zeitschriftenbändentitle_addition: ausführlicher Titel der Zeitschriftedition: Nummer der Auflage bei mehr als einer Auflageissue: Zeitschriftennummerpages: Seitenzahlen bei vollständigen Texten aus Zeitschriften, Sammelbänden etc.pages_exzerpt: Seitenzahlen bei Auszügen aus Textenarchive: digitales Archiv oder analoges Archiv, aus dem der Text stammtauthor_address: Wirkungsstätte des Verfassers, der Verfasserinaddress: Veröffentlichungsort des Textesnote: Notizfemale_education: Markierung, ob ein Textauthor_address_geo: normierter Name der Wirkungsstätte des Verfassers, der Verfasserinaddress_geo: normierter Name des Veröffentlichungsortes des Textes
fadelive/
├───config/
├───data/
│ └───raw/
├───resources/
│ ├───stop_pos_tag/
│ ├───termsets/
│ └───topic-models/
│ ├───compare/
│ ├───topics_exp_v1/
│ ├───topics_exp_v2/
│ ├───topics_exp_v3/
│ └───topics_v3/
└───src/
├───fadelive/
├───procession_termsets_topics
├───tools_output
└───tools_visualisations
-
Grundlegende NLP-Pipeline:
src/fadelive/ -
Skript zur Ausgabe aller Dokumente in einer beliebigen Verarbeitungsstufe mit IDs:
src/tools_output/single_texts_for_tm.py -
Skripte zur weiteren Verarbeitung der getaggten AusdrĂĽcke und Topics:
src/procession_termsets_topics/ -
Skripte fĂĽr Visualisierungen und Erkundung des Korpus in einem GUI-Tool:
src/tools_visualisations/
Die Installation des Korpus setzt eine Umgebung mit python 3.11 voraus, idealerweise 3.11.13, weil schon minor Updates die Kompatibilität von gensim und numpy und damit die Reproduzierbarkeit der Word-Vektor-Modelle beeinflussen.
Die Installation der benötigten Pakete ist ausgelegt für Anaconda und python:
- mit Anaconda anhand von
environment.ymlinmain(installiert auch python 3.11)
conda env create -f environment.yml
- im heruntergeladenen Programmordner von fadelive einen Anaconda-Terminal öffnen und die Zeilen ausführen:
- im heruntergeladenen Programmordner von fadelive einen Anaconda-Terminal öffnen und die Zeilen ausführen:
conda activate fadelive
pip install .
- mit
pythonanhand vonpyproject.tomlinmain(python 3.11muss vorher installiert worden sein)- im heruntergeladenen Programmordner von fadelive einen Terminal öffnen und die Zeilen ausführen:
- im heruntergeladenen Programmordner von fadelive einen Terminal öffnen und die Zeilen ausführen:
pip install .
Start einer konfigurierten Pipeline fadelive_v3.toml mit src/fadelive/pipeline_config.py im Terminal des Ordners von fadelive:
python -m fadelive.pipeline_config --config config/fadelive_v3.toml
Bei dem Korpus handelt es sich um eine Sammlung historischer Texte, deren adäquate Verarbeitung angesichts der Normalisierung und der Entfernung von Stoppwörtern herausfordernd ist. Im Lauf des Projektes wurde die Vorverarbeitung kontinuierlich verbessert, um das Vokabular zu vereinheitlichen. Um auch die Reproduzierbarkeit der Verbesserung des Korpus im Laufe erster Experimente zu ermöglichen, kann die Pipeline src/fadelive/pipeline_config.py mit drei unterschiedlichen Konfigurationen ausgeführt werden:
-
config/fadelive_v1.tomlmitocr_post-correction_dictionary_v1.txt,resources/replacements_v1.json,resources/stopwords_v1.txt -
config/fadelive_v2.tomlmitocr_post-correction_dictionary_v2.txt,resources/replacements_v2.json,resources/stopwords_v1.txt -
config/fadelive_v3.tomlmitocr_post-correction_dictionary_v2.txt,resources/replacements_v3.json,resources/stopwords_v2.txt
Das Korpus, das mit config/fadelive_v3.toml vorverarbeitet wird, ist die Version, in der die Verarbeitung des Vokabulars am besten normalisiert ist und Fehler bei der Ersetzung und der Entfernung von Stoppwörtern beseitigt wurden.
Die mit config/fadelive_v1.toml erzeugten Ausgaben des ersten Experiments fadelive_exp_v1 finden sich in https://doi.org/10.25625/APN9VH.
Die .toml-Konfigurationen können individuell angepasst werden. Dafür sind entsprechende Dummy-Dateien in resources/ vorhanden.
-
Vorverarbeitung von
data/raw/korpus.csvund Erzeugung der Verarbeitungsstufen TXT (min), TXT (lem), TXT (stop) inoutput/processed_corpus-
für TXT (min): Säuberung von OCR-Fehlern mit
resources/ocr_post-correction_dictionary_v1.txtoderresources/ocr_post-correction_dictionary_v2.txt- Normalisierung des Vokabulars mit
resources/replacements_v1.json,resources/replacements_v2.jsonoderresources/replacements_v3.json
-
fĂĽr TXT (lem): Lemmatisierung mit
resources/morphmodel_ger.pgz(auf der Grundlage des Modells https://github.com/wartaal/HanTa) -
für TXT (stop): Entfernung von Stoppwörtern mit
resources/stopwords_v1.txtoderresources/stopwords_v2.txt(auf der Grundlage von https://github.com/solariz/german_stopwords)
-
-
Erzeugung des Vokabulars in
output/vocabular-
fĂĽr
genre,textclass -
fĂĽr
intervals:- fĂĽr 4 Intervalle 1782-1852, 1853-1864, 1865-1876, 1877-1891
- fĂĽr 3 Intervalle 1782-1856, 1857-1872, 1873-1891
- fĂĽr 2 Intervalle 1782-1864, 1865-1891
-
fĂĽr die drei Verarbeitungsstufen
-
-
Erzeugung von Statistiken anhand von
data/raw/korpus.csvund des erzeugten Vokabulars inoutput/statistics -
POS-Tagging der Top-5000 AusdrĂĽcke des maximal vorverarbeiteten Korpus mit
spacy -
Erzeugung der Vorverarbeitungsstufe TXT (gen) fĂĽr die Verarbeitung zu Wort-Vektor-Modellen in
output/preprocessed_corpus/ -
Erzeugung der dtm- und tfidf-Matrizen mit Metadaten in
output/dtm_tfidf_stop/ -
Erzeugung der Kosinus-Matrizen
output/cosine/ -
Schritt 7 und 8 fĂĽr Intervalle
output/intervals/ -
Erzeugung der tfidf-Ranglisten des Vokabulars und der Texte in
output/tfidf_rank/ -
Erzeugung des Wort-Vektor-Modells des Korpus in
output/word2vec_models
Ein Topic-Modell ist grundlegend fĂĽr die Verarbeitungen in Modul 3 und fĂĽr topic-spezifische Visualisierungen, die mit Modul 4 erzeugt werden. FĂĽr die Modellierung der Topics wurde die ohtm-Pipeline von Bayerschmidt mit MALLET verwendet: https://github.com/bayerschphi/ohtm_pipeline
Um das Topic-Modelling durchzufĂĽhren, sind intervalle des Diskurszeitraums ideal. Mit dem Skript src/tools_output/single_texts_for_tm.py werden fĂĽr das Topic-Modelling alle Dokumente in einer beliebigen Verarbeitungsstufe mit IDs und intervallspezifisch geordnet in src/tools_output/single_texts_for_tm.py ausgegeben.
Mit diesem Modul können kontrollierte Vokabulare und Topicmodelle verarbeitet werden. Der hier verwendete Dokument-Term-Topic-Index relativiert die Topics und Texte in Hinblick auf das angewendete Vokabular.
Funktionen der Skripte:
src/procession_termsets_topics/s01_process_stop_pos_tag.py:
Verarbeitung einer semantisch getaggten POS-Liste und Ausgabe einer Pivot-Tabelle der getaggten AusdrĂĽcke in output/processed_tag/
- Voraussetzung in
resources/stop_pos_tag/<vocabular>.csv:
- semantisch getaggte POS-Liste mit den Spalten
word,tag1,tag2,tag3
- semantisch getaggte POS-Liste mit den Spalten
src/procession_termsets_topics/s02_process_topics.py:
Verarbeitung von Topics in output/processed_topics
- Voraussetzung in
resources/topic-models/<model>/:
- Document-Topics-Distribution-Matrix als
.csvmit Topics als Spaltenindex und Text-IDs als Zeilenindex - Top-100-Word-Topic-Matrix
.csvmit SpaltenIndexWord 0bisWord 99und Zeilenindex Topicbezeichnungen
- Document-Topics-Distribution-Matrix als
src/procession_termsets_topics/s03_termset-topics_dtti.py:
Berechnung der Termset-Topic-Text-Verhältnisse in output/processed_termset/<termset>/
- Voraussetzung:
- kontrolliertes Vokabular als Pivottabelle in
resources/termsets/<termset>.csv - verarbeitete Topics in
output/processed_topics/
- kontrolliertes Vokabular als Pivottabelle in
s04_process_termset-topics_dtti.py:
Verarbeitung der Termset-Topic-Text-Verhältnisse in output/processed_termset/<termset>/
- Voraussetzung:
- berechnete Termset-Topic-Text-Verhältnisse in
output/processed_termset/
- berechnete Termset-Topic-Text-Verhältnisse in
Funktionen der Verarbeitung des getaggten Vokabulars, der Termsets und Topics:
Eines der grundlegenden Ziele des übergeordneten Projektes ist die Ermittlung von konstitutiven Ausdrücken der Fachlichkeit der Literaturvermittlung im 19. Jahrhundert. Hierzu wurden zunächst zwei Verfahren separat angewendet und dann kombiniert: qualitatives, semantisches Taggen sowie algorithmische Modellierung von Topics und semantisches Taggen der Topics.
Entsprechend der Entwicklung der Verarbeitung des Korpus gibt es drei experimentelle Stufen, in denen auch jeweils eine semantisch getaggte Ausdrucksliste und ein semantisch getaggtes Topic-Modell erzeugt wurde.
- Taglisten:
resources/stop_pos_tag/ - Topic-Modelle:
resources/topic-models/
Innerhalb dieser Entwicklung wurden die drei Master-Termsets Begriffe, Gegenstände und Praktiken erzeugt. Sie befinden sich neben gattungsspezifischen Termsets in resources/termsets/.
Exemplarische Anwendung im Kontext des Projektes:
- es wurde eine POS-getaggte Vokabelliste semantisch getaggt
- indem der POS-Tag-Liste
output/vocabular/vocab_top5000_stop_pos.csvdie Spaltentag1,tag2undtag3hinzugefĂĽgt, - die AusdrĂĽcke mit bis zu drei Kategorien abstrahiert wurde,
- indem der POS-Tag-Liste
- daraus wurde anhand von
src/procession_termsets_topics/s01_process_stop_pos_tag.pyeine Pivot-Tabelle erzeugt, - anhand der Tag-Statistiken wurden relevante Tags ausgewählt und die Master-Termsets Begriffe, Gegenstände und Praktiken erzeugt,
- damit konnten Topics und Texte in Hinblick auf das Termset relativiert werden
Mit den beiden rudimentären GUI-Tools src/tools_visualisations/gui_corpus_explorer.py undsrc/tools_visualisations/gui_tag_topic_explorer.py können das Korpus erkundet und einzelne Daten erzeugt werden.
Der Korpus-Explorer ermöglicht gängige korpusanalytische Abfragen. Mit den Ausgaben aus der Verarbeitung des Korpus mit der Pipeline und mit einem Termset aus resourcen/termsets und einem Topic-Modell aus resourcen/topic-models sind alle Abfragen möglich. Alle Dateien sind voreingestellt und können geändert werden.
gui_corpus_explorer.py benötigt
- Document-Term-Matrix:
output/dtm_tfidf_stop/dtm_minfreq6.csv - Document-Topic-Verteilung:
resources/topic-models/topics_v3/document-topics-distribution_tag.csv - Metadaten der Texte:
data/raw/metadata.csv - tfidf-Matrix:
output/dtm_tfidf_stop/tfidf-2000.csv
Im Tab Daten müssen zunächst die Dateien geladen und geprüft werden, ob sie die Voraussetzungen zur Abfrage und Visualisierung erfüllen.
Neben dem Tab Daten gibt es vier Kategorien mit Abfragen und Visualisierungen:
AusdrĂĽcke
- Frequenzliste des Vokabulars (Abfrage)
- tfidf-Relevanzliste des Vokabulars (Abfrage)
- Frequenz von gesuchten AusdrĂĽcken in Dokumenten (Abfrage)
- tfidf-Werte von gesuchten AusdrĂĽcken in Dokumenten (Abfrage)
- Konkordanzliste zu gesuchtem Ausdruck (Abfrage)
- Kollokationsliste zu gesuchtem Ausdruck mit Fokussierung ausgewählter Kollokationen (Abfrage)
- Wortverlaufskurven zu gesuchten AusdrĂĽcken (Visualisierung)
Wort-Vektor-Modell
- Embeddings und Kosinus-Werte zu gesuchtem Ausdruck (Abfrage)
- Top-Embeddings von AusdrĂĽcken und Kosinus-Werte vergleichen (Abfrage)
- Netzwerk von Ausdrücken anhand von Embeddinganzahl und Ähnlichkeitsschwelle (Abfrage)
Termset
- Streudiagramm eines Termsets anhand des Wort-Vektor-Modells mit dem Dimensionsreduktionsalgorithmus UMAP und dem hierarchischen Clusteralgorithmus von
scikit-learn(Visualisierung)
Parameter:- Clusteranzahl
- Tags als Marker im Plot indizieren
- Wortwolke eines Termsets erstellen (Visualisierung)
- Dendrogramme eines Termsets anhand des Wort-Vektor-Modells mit dem hierarchischen Clusteralgorithmus von
scikit-learn(Visualisierung)
Parameter: - Clusteranzahl
Topics
- diachrone Topicverläufe an ausgewählten Topics (Visualisierung)
Texte
- interaktive Clusterdiagramme der Texte (Visualisierung)
Der tag_topic_explorer visualisiert die Topics diachron und die Tag-Topic-Verhältnisse sowohl synchron als auch diachron. Für die Abfragen werden die Verarbeitungen aus Modul 3 benötigt. Die Tag-Topic-Verhältnisse ermöglichen eine auf das jeweilige Termset relativierte Abfrage der Topics. Alle benötigten Dateien sind auf den Arbeitsordner voreingestellt und können geändert werden.
gui_tag_topic_explorer.py benötigt
- Termset als Pivot-Tabelle:
resources\termsets\Termset_Begriffe_2.3.csv - Top-100-Topics-Word-Matrix:
resources\topic-models\topics_v3\fadelive_mallet_stop_topic_words_100_words_tag.csv - tfidf-Matrix:
output\dtm_tfidf_stop\tfidf-2000.csv - Rangliste der Topics relativ zum Termset:
output\processed_termset\Termset_Begriffe_2.3\Termset_Begriffe_2.3_tag_topic_rank.csv - Relevanzscore der Topics relativ zum Termset:
output\processed_termset\Termset_Begriffe_2.3\Termset_Begriffe_2.3_tag_topic_relevance.csv - Verteilung der Topics auf Jahre relativ zum Termset und zu den Top-30 Texten
output\processed_termset\Termset_Begriffe_2.3\Termset_Begriffe_2.3_dtti_topdocs_topic_counts_per_year.csv - Summierter Relevanzscore der Termset-Text-Topic-Verhältnisse pro Jahr:
output\processed_termset\Termset_Begriffe_2.3\Termset_Begriffe_2.3_dtti_topdocs_top10_year_value.csv - Summierter Relevanzscore der Termset-Text-Topic-Verhältnisse pro Text
output\processed_termset\Termset_Begriffe_2.3\Termset_Begriffe_2.3_dtti_topdocs_top10_value_per_text_topic.csv - Verteilung der Tokens pro Jahr:
output\statistics\year_count_tokens.csv - Summierter Relevanzscore der Text-Topic-Verhältnisse pro Jahr
output\processed_topics\document-topics-distribution_tag_topdocs_year_value.csv - Document-Topic-Verteilung:
resources\topic-models\topics_v3\document-topics-distribution_tag.csv - Metadaten der Texte:
data\raw\metadata.csv
Im Tab Daten müssen zunächst die Dateien geladen und geprüft werden, ob sie die Voraussetzungen zur Abfrage und Visualisierung erfüllen.
Neben dem Tab Daten gibt es zwei Kategorien fĂĽr Abfragen und Visualisierungen:
Topic-Exploration
- Globale Verteilung der Top-[30] Dokumente auf die Topics (Visualisierung)
- Globale Verteilung der Top-[30] Dokumente auf die Topics im Verhältnis zur Tokenverteilung (Visualisierung)
- diachrone Topicverläufe an ausgewählten Topics (Visualisierung)
Tag-Topic-Exploration
- Blasen-Diagramm zur Verteilung der Tags auf die Topics (Visualisierung)
- Balkendiagramm zum Relevanzscore der Tags pro Topic und der tfidf-Werte der Tags (Visualisierung)
- Verteilung der Top-[30] Texte pro Topic auf Jahre, differenziert nach Topics und relativ zum Termset (Visualisierung)
- Tendenzkurven zur Entwicklung der Topics relativ zum Termset und zu den Topics Top-[30] Texten (Visualisierung)
- globale Verlaufskurve der Termset-Topic-Verhältnisse (Visualisierung)
- Vergleich des Verlaufs von Tokens, Topics und Termset-Topic-Text-Verhältnisse (Visualisierung)
- Rangliste der Texte relativ zu den Topics und zum Termset (Visualisierung)
In dem Ordner resources/ befinden sich
- auf der ersten Ebene Dateien zur Vorverarbeitung des Korpus:
- das Lemmatisierungsmodel des HanoverTagger
- die Versionen der Vokabulare zur groben Tilgung von OCR-Fehlern
ocr_post-correction_dictionary_<version>.txt - die Versionen zur Normalisierung
replacements_<version>.json - die Listen an Stoppwörtern
stopwords_<version>.txt
- auf der zweiten Ebene
- in
stop_pos_tag/die in den Experimenten und mit der dritten finalen Konfigurationfadelive_v3.tomlerzeugten POS-Listen des semantisch und POS getaggten Vokabularsvocab_top5000_stop_pos_tag_exp_<version>.csv - in
termsets/die in den Experimenten und an die Vorverarbeitung der dritten finalen Konfigurationfadelive_v3,tomlangepassten Termsets - in
topic-modelsdie drei im Rahmen der Experimente erzeugten Topic-Modelletopics_exp_<version>/und das mit der dritten finalen Konfigurationfadelive_v3.tomlerzeugte Topic-Modelltopics_v3/in Form vondocument-topics-distribution_tag.csvundfadelive_mallet_stop_topic_words_100_words_tag.csv
- in
fadelive
│ environment.yml
│ pyproject.toml
│ README.txt
│ requirements.txt
│
├───config
│ fadelive_v1.toml
│ fadelive_v2.toml
│ fadelive_v3.toml
│
├───data
│ raw
│ korpus.csv
│ metadata.csv
│
├───resources
│ │ morphmodel_ger.pgz
│ │ ocr_post-correction_dictionary_v1.txt
│ │ ocr_post-correction_dictionary_v2.txt
│ │ ocr_post-correction_dictionary_dummy.txt
│ │ replacements_v1.json
│ │ replacements_v2.json
│ │ replacements_v3.json
│ │ replacements_dummy.json
│ │ stopwords_v1.txt
│ │ stopwords_v2.txt
│ │ stopwords_v3.txt
│ │ stopwords_dummy.txt
│ │
│ ├───stop_pos_tag
│ │ vocab_top5000_stop_pos_tag_exp_v1.csv
│ │ vocab_top5000_stop_pos_tag_exp_v2.csv
│ │ vocab_top5000_stop_pos_tag_exp_v3.csv
│ │ vocab_top5000_stop_pos_tag_v3.csv
│ │
│ ├───termsets
│ │ Termset_Begriffe_2.2.csv
│ │ Termset_Begriffe_2.3.csv
│ │ Termset_Begriffe_2.csv
│ │ Termset_Drama_1.csv
│ │ Termset_Gegenstände_1.2.csv
│ │ Termset_Lyrik_1.csv
│ │ Termset_Praktiken_1.4.3.csv
│ │ Termset_Praktiken_diff_1.csv
│ │ Termset_Prosa_1.csv
│ │
│ └───topic-models
│ │ Parameter.txt
│ │
│ ├───compare
│ ├───topics_exp_v1
│ │ document-topic-distribution_tag.csv
│ │ topic_100_words_tag.csv
│ │
│ ├───topics_exp_v2
│ │ document-topics-distribution_tag.csv
│ │ topic_100-words_tag.csv
│ │
│ ├───topics_exp_v3
│ │ document-topics-distribution_tag.csv
│ │ topics_100-words_tag.csv
│ │
│ └───topics_v3
│ document-topics-distribution_tag.csv
│ fadelive_mallet_stop_topic_words_100_words_tag.csv
│
└───src
├───fadelive
│ │ main.py
│ │ pipeline.py
│ │ pipeline_config.py
│ │ s01_1_preprocessing.py
│ │ s01_2_vocabular.py
│ │ s01_3_statistics.py
│ │ s01_4_pos_tag.py
│ │ s02_preprocessing_gensim.py
│ │ s03_dtm_tfidf.py
│ │ s04_cosine.py
│ │ s05_dtm_tfidf_cos_intervals.py
│ │ s06_tfidf_rank.py
│ └─s07_word_vector_model.py
│
├───procession_termsets_topics
│ s01_process_stop_pos_tag.py
│ s02_process_topics.py
│ s03_termset-topics_dtti.py
│ s04_process_termset-topics_dtti.py
│
├───tools_output
│ single_texts_for_tm.py
│
└───tools_visualisations
gui_corpus_explorer.py
gui_tag-topics-explorer.py
statistics.py
- Zitation: empfohlene Zitierweise steht in
CITATION.cff - Lizenz: Rechte zur Nutzung und Weiterverarbeitung stehen in
LICENSE.md