Skip to content

hendheim/FaDeLive

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Projekttitel: FaDeLive (1782-1891)

Herausgeber: Hendrick Heimböckel, ORCID-ID: 0000-0002-4211-9769

1. ProjektĂĽbersicht

Fachlichkeit des Deutschunterrichts: Literaturvermittlung 1782-1891 (FaDeLive: 1782-1891) ist ein Korpus mit 1022 Texten zu Literaturvermittlung an höheren Schulen in Preußen im 19. Jahrhundert. Es ist die Grundlage des Projektes "Lesen heißt diese Übung" – und dann? Begriffe und intendierte Praktiken der Vermittlung deutschsprachiger Literatur an höheren Schulen 1796–1890.

Das Korpus setzt sich aus fotomechanisch gesannten Texten zusammen, die mit OCR (https://github.com/OCR4all, https://github.com/tesseract-ocr/tesseract) verarbeitet und in Hinblick auf OCR-Fehler gesäubert wurden. Diese Verarbeitungsstufe TXT (content) ist die Grundlage für die weitere Prozessierung der Daten. Siehe zur Vorverarbeitung und Verarbeitung des Korpus folgenden Workflow: https://doi.org/10.48693/730

Die Funktionen des Repositorium sind Reproduzierbarkeit, Nachnutzung und Weiterentwicklung des Korpus, seiner Datafizierung sowie Visualisierung.

Es umfasst

  • das Korpus mit textspezifischen bibliographischen Angaben,
  • die Pipeline, Tools und Ressourcen zur Vorverarbeitung sowie fĂĽr die Verarbeitung des Korpus,
  • ein GUI-Tool zur Exploration und Visualisierung des verarbeiteten Korpus.

Die Pipeline und weiteren Tools zur Verarbeitung, Exploration und Visualisierung können mit Anpassungen auch für andere Korpora verwendet werden. Die Inputs sind

  • data/raw/metadata.csv: Metadaten zum Korpus als Spaltenindex, mit id
  • data/raw/metadata.csv: Metadaten mit Korpus in content als Spaltenindex, mit id

Eine Vorlage für klassische Textquellen, mit der alle antizipierten Ausgaben der Pipeline und des GUI-Tools möglich sind, findet sich in data/raw/metadata_template.csv.

Schlagwörter:

  • Computerlinguistik
  • Didaktik des Deutschunterrichts
  • Literaturunterricht
  • Historische Bildungsforschung
  • Text Mining
  • Computational Discourse Analyses

2. Datengrundlage

FĂĽr die Pipeline ist ein Korpus in folgendem Format voreingestellt:
Datei: data/raw/korpus.csv
Encoding: utf-8
Trennzeichen: Semikolon
Notwendige Metadaten in korpus.csv fĂĽr die Verarbeitung der Texte in:

  • content: maschinenlesbarer Text in der Verarbeitungsstufe TXT (content)
  • _id: ID der Dokumente
  • author_surname: Nachname der Verfsser, der Verfasserin
  • genre: Genre eines Textes
  • textclass: allgemeine Gattung eines Textes
  • year: Veröffentlichungsjahr der Zeitschrift oder des Bandes, in dem der Text veröffentlicht wurde, oder Veröffentlichungsjahr der Auflage
  • title: Titel des Textes
  • year_first: Veröffentlichungsjahr der Erstausgabe eines Textes
  • source: Name der Zeitschrift oder des Bandes in dem der Text veröffentlicht wurde
  • year_first: Veröffentlichungsjahr der Erstausgabe eines Textes

    Weitere Metadaten der Texte:
  • editor_prename: Vorname des Herausgebers, von dem die Neuauflage herausgegeben wurde oder der die Zeitschrift bzw. den Band herausgegeben hat, in dem der Text veröffentlicht wurde (die Textsammlungen des Korpus wurden ausschlieĂźlich von Männern herausgegeben)
  • editor_surname: Nachname des Herausgebers, von dem die Neuauflage herausgegeben wurde oder der die Zeitschrift bzw. den Band herausgegeben hat, in dem der Text veröffentlicht wurde
  • volume: Nummerierung von Zeitschriftenbänden
  • title_addition: ausfĂĽhrlicher Titel der Zeitschrift
  • edition: Nummer der Auflage bei mehr als einer Auflage
  • issue: Zeitschriftennummer
  • pages: Seitenzahlen bei vollständigen Texten aus Zeitschriften, Sammelbänden etc.
  • pages_exzerpt: Seitenzahlen bei AuszĂĽgen aus Texten
  • archive: digitales Archiv oder analoges Archiv, aus dem der Text stammt
  • author_address: Wirkungsstätte des Verfassers, der Verfasserin
  • address: Veröffentlichungsort des Textes
  • note: Notiz
  • female_education: Markierung, ob ein Text
  • author_address_geo: normierter Name der Wirkungsstätte des Verfassers, der Verfasserin
  • address_geo: normierter Name des Veröffentlichungsortes des Textes

3. Ordnerstruktur

fadelive/
├───config/
├───data/
│   └───raw/
├───resources/
│   ├───stop_pos_tag/
│   ├───termsets/
│   └───topic-models/
│       ├───compare/
│       ├───topics_exp_v1/
│       ├───topics_exp_v2/
│       ├───topics_exp_v3/
│       └───topics_v3/
└───src/
    ├───fadelive/
    ├───procession_termsets_topics
    ├───tools_output
    └───tools_visualisations

4. Module

  1. Grundlegende NLP-Pipeline: src/fadelive/

  2. Skript zur Ausgabe aller Dokumente in einer beliebigen Verarbeitungsstufe mit IDs: src/tools_output/single_texts_for_tm.py

  3. Skripte zur weiteren Verarbeitung der getaggten AusdrĂĽcke und Topics: src/procession_termsets_topics/

  4. Skripte fĂĽr Visualisierungen und Erkundung des Korpus in einem GUI-Tool: src/tools_visualisations/

Installation

Die Installation des Korpus setzt eine Umgebung mit python 3.11 voraus, idealerweise 3.11.13, weil schon minor Updates die Kompatibilität von gensim und numpy und damit die Reproduzierbarkeit der Word-Vektor-Modelle beeinflussen. Die Installation der benötigten Pakete ist ausgelegt für Anaconda und python:

  • mit Anaconda anhand von environment.yml in main (installiert auch python 3.11)
    conda env create -f environment.yml
    • im heruntergeladenen Programmordner von fadelive einen Anaconda-Terminal öffnen und die Zeilen ausfĂĽhren:
	conda activate fadelive
    pip install . 
  • mit python anhand von pyproject.toml in main (python 3.11 muss vorher installiert worden sein)
    • im heruntergeladenen Programmordner von fadelive einen Terminal öffnen und die Zeilen ausfĂĽhren:
	pip install .

Modul 1: Grundlegende NLP-Pipeline

Start der Pipeline

Start einer konfigurierten Pipeline fadelive_v3.toml mit src/fadelive/pipeline_config.py im Terminal des Ordners von fadelive:

python -m fadelive.pipeline_config --config config/fadelive_v3.toml

Konfiguration der Pipeline

Bei dem Korpus handelt es sich um eine Sammlung historischer Texte, deren adäquate Verarbeitung angesichts der Normalisierung und der Entfernung von Stoppwörtern herausfordernd ist. Im Lauf des Projektes wurde die Vorverarbeitung kontinuierlich verbessert, um das Vokabular zu vereinheitlichen. Um auch die Reproduzierbarkeit der Verbesserung des Korpus im Laufe erster Experimente zu ermöglichen, kann die Pipeline src/fadelive/pipeline_config.py mit drei unterschiedlichen Konfigurationen ausgeführt werden:

  • config/fadelive_v1.toml mit ocr_post-correction_dictionary_v1.txt, resources/replacements_v1.json, resources/stopwords_v1.txt

  • config/fadelive_v2.toml mit ocr_post-correction_dictionary_v2.txt, resources/replacements_v2.json, resources/stopwords_v1.txt

  • config/fadelive_v3.toml mit ocr_post-correction_dictionary_v2.txt, resources/replacements_v3.json, resources/stopwords_v2.txt

Das Korpus, das mit config/fadelive_v3.toml vorverarbeitet wird, ist die Version, in der die Verarbeitung des Vokabulars am besten normalisiert ist und Fehler bei der Ersetzung und der Entfernung von Stoppwörtern beseitigt wurden.

Die mit config/fadelive_v1.toml erzeugten Ausgaben des ersten Experiments fadelive_exp_v1 finden sich in https://doi.org/10.25625/APN9VH.

Die .toml-Konfigurationen können individuell angepasst werden. Dafür sind entsprechende Dummy-Dateien in resources/ vorhanden.

Funktionen der Pipeline

  1. Vorverarbeitung von data/raw/korpus.csv und Erzeugung der Verarbeitungsstufen TXT (min), TXT (lem), TXT (stop) in output/processed_corpus

    • fĂĽr TXT (min): Säuberung von OCR-Fehlern mit

      • resources/ocr_post-correction_dictionary_v1.txt oder resources/ocr_post-correction_dictionary_v2.txt
      • Normalisierung des Vokabulars mit resources/replacements_v1.json, resources/replacements_v2.json oder resources/replacements_v3.json
    • fĂĽr TXT (lem): Lemmatisierung mit resources/morphmodel_ger.pgz (auf der Grundlage des Modells https://github.com/wartaal/HanTa)

    • fĂĽr TXT (stop): Entfernung von Stoppwörtern mit resources/stopwords_v1.txt oder resources/stopwords_v2.txt (auf der Grundlage von https://github.com/solariz/german_stopwords)

  2. Erzeugung des Vokabulars in output/vocabular

    • fĂĽr genre, textclass

    • fĂĽr intervals:

      • fĂĽr 4 Intervalle 1782-1852, 1853-1864, 1865-1876, 1877-1891
      • fĂĽr 3 Intervalle 1782-1856, 1857-1872, 1873-1891
      • fĂĽr 2 Intervalle 1782-1864, 1865-1891
    • fĂĽr die drei Verarbeitungsstufen

  3. Erzeugung von Statistiken anhand von data/raw/korpus.csv und des erzeugten Vokabulars in output/statistics

  4. POS-Tagging der Top-5000 AusdrĂĽcke des maximal vorverarbeiteten Korpus mit spacy

  5. Erzeugung der Vorverarbeitungsstufe TXT (gen) fĂĽr die Verarbeitung zu Wort-Vektor-Modellen in output/preprocessed_corpus/

  6. Erzeugung der dtm- und tfidf-Matrizen mit Metadaten in output/dtm_tfidf_stop/

  7. Erzeugung der Kosinus-Matrizen output/cosine/

  8. Schritt 7 und 8 fĂĽr Intervalle output/intervals/

  9. Erzeugung der tfidf-Ranglisten des Vokabulars und der Texte in output/tfidf_rank/

  10. Erzeugung des Wort-Vektor-Modells des Korpus in output/word2vec_models

Modul 2: Ausgabe des Vokabulars in einer beliebigen Verarbeitungsstufe

Ein Topic-Modell ist grundlegend fĂĽr die Verarbeitungen in Modul 3 und fĂĽr topic-spezifische Visualisierungen, die mit Modul 4 erzeugt werden. FĂĽr die Modellierung der Topics wurde die ohtm-Pipeline von Bayerschmidt mit MALLET verwendet: https://github.com/bayerschphi/ohtm_pipeline

Um das Topic-Modelling durchzufĂĽhren, sind intervalle des Diskurszeitraums ideal. Mit dem Skript src/tools_output/single_texts_for_tm.py werden fĂĽr das Topic-Modelling alle Dokumente in einer beliebigen Verarbeitungsstufe mit IDs und intervallspezifisch geordnet in src/tools_output/single_texts_for_tm.py ausgegeben.

Modul 3: Skripte zur Verarbeitung der getaggten AusdrĂĽcke und Topics

Mit diesem Modul können kontrollierte Vokabulare und Topicmodelle verarbeitet werden. Der hier verwendete Dokument-Term-Topic-Index relativiert die Topics und Texte in Hinblick auf das angewendete Vokabular.

Funktionen der Skripte:

src/procession_termsets_topics/s01_process_stop_pos_tag.py:
Verarbeitung einer semantisch getaggten POS-Liste und Ausgabe einer Pivot-Tabelle der getaggten AusdrĂĽcke in output/processed_tag/

  • Voraussetzung in resources/stop_pos_tag/<vocabular>.csv:
    • semantisch getaggte POS-Liste mit den Spalten word, tag1, tag2, tag3

src/procession_termsets_topics/s02_process_topics.py:
Verarbeitung von Topics in output/processed_topics

  • Voraussetzung in resources/topic-models/<model>/:
    • Document-Topics-Distribution-Matrix als .csv mit Topics als Spaltenindex und Text-IDs als Zeilenindex
    • Top-100-Word-Topic-Matrix .csv mit SpaltenIndex Word 0 bis Word 99 und Zeilenindex Topicbezeichnungen

src/procession_termsets_topics/s03_termset-topics_dtti.py:
Berechnung der Termset-Topic-Text-Verhältnisse in output/processed_termset/<termset>/

  • Voraussetzung:
    • kontrolliertes Vokabular als Pivottabelle in resources/termsets/<termset>.csv
    • verarbeitete Topics in output/processed_topics/

s04_process_termset-topics_dtti.py:
Verarbeitung der Termset-Topic-Text-Verhältnisse in output/processed_termset/<termset>/

  • Voraussetzung:
    • berechnete Termset-Topic-Text-Verhältnisse in output/processed_termset/

Funktionen der Verarbeitung des getaggten Vokabulars, der Termsets und Topics:

Eines der grundlegenden Ziele des übergeordneten Projektes ist die Ermittlung von konstitutiven Ausdrücken der Fachlichkeit der Literaturvermittlung im 19. Jahrhundert. Hierzu wurden zunächst zwei Verfahren separat angewendet und dann kombiniert: qualitatives, semantisches Taggen sowie algorithmische Modellierung von Topics und semantisches Taggen der Topics.

Entsprechend der Entwicklung der Verarbeitung des Korpus gibt es drei experimentelle Stufen, in denen auch jeweils eine semantisch getaggte Ausdrucksliste und ein semantisch getaggtes Topic-Modell erzeugt wurde.

  • Taglisten: resources/stop_pos_tag/
  • Topic-Modelle: resources/topic-models/

Innerhalb dieser Entwicklung wurden die drei Master-Termsets Begriffe, Gegenstände und Praktiken erzeugt. Sie befinden sich neben gattungsspezifischen Termsets in resources/termsets/.

Exemplarische Anwendung im Kontext des Projektes:

  • es wurde eine POS-getaggte Vokabelliste semantisch getaggt
    • indem der POS-Tag-Liste output/vocabular/vocab_top5000_stop_pos.csv die Spalten tag1, tag2 und tag3 hinzugefĂĽgt,
    • die AusdrĂĽcke mit bis zu drei Kategorien abstrahiert wurde,
  • daraus wurde anhand von src/procession_termsets_topics/s01_process_stop_pos_tag.py eine Pivot-Tabelle erzeugt,
  • anhand der Tag-Statistiken wurden relevante Tags ausgewählt und die Master-Termsets Begriffe, Gegenstände und Praktiken erzeugt,
  • damit konnten Topics und Texte in Hinblick auf das Termset relativiert werden

Modul 4: Skripte fĂĽr Visualisierungen und Erkundung des Korpus in einem GUI-Tool

Mit den beiden rudimentären GUI-Tools src/tools_visualisations/gui_corpus_explorer.py undsrc/tools_visualisations/gui_tag_topic_explorer.py können das Korpus erkundet und einzelne Daten erzeugt werden.

Korpus-Explorer

Der Korpus-Explorer ermöglicht gängige korpusanalytische Abfragen. Mit den Ausgaben aus der Verarbeitung des Korpus mit der Pipeline und mit einem Termset aus resourcen/termsets und einem Topic-Modell aus resourcen/topic-models sind alle Abfragen möglich. Alle Dateien sind voreingestellt und können geändert werden.

gui_corpus_explorer.py benötigt

  • Document-Term-Matrix:output/dtm_tfidf_stop/dtm_minfreq6.csv
  • Document-Topic-Verteilung: resources/topic-models/topics_v3/document-topics-distribution_tag.csv
  • Metadaten der Texte: data/raw/metadata.csv
  • tfidf-Matrix: output/dtm_tfidf_stop/tfidf-2000.csv

Im Tab Daten müssen zunächst die Dateien geladen und geprüft werden, ob sie die Voraussetzungen zur Abfrage und Visualisierung erfüllen.

Neben dem Tab Daten gibt es vier Kategorien mit Abfragen und Visualisierungen:

AusdrĂĽcke

  • Frequenzliste des Vokabulars (Abfrage)
  • tfidf-Relevanzliste des Vokabulars (Abfrage)
  • Frequenz von gesuchten AusdrĂĽcken in Dokumenten (Abfrage)
  • tfidf-Werte von gesuchten AusdrĂĽcken in Dokumenten (Abfrage)
  • Konkordanzliste zu gesuchtem Ausdruck (Abfrage)
  • Kollokationsliste zu gesuchtem Ausdruck mit Fokussierung ausgewählter Kollokationen (Abfrage)
  • Wortverlaufskurven zu gesuchten AusdrĂĽcken (Visualisierung)

Wort-Vektor-Modell

  • Embeddings und Kosinus-Werte zu gesuchtem Ausdruck (Abfrage)
  • Top-Embeddings von AusdrĂĽcken und Kosinus-Werte vergleichen (Abfrage)
  • Netzwerk von AusdrĂĽcken anhand von Embeddinganzahl und Ă„hnlichkeitsschwelle (Abfrage)

Termset

  • Streudiagramm eines Termsets anhand des Wort-Vektor-Modells mit dem Dimensionsreduktionsalgorithmus UMAP und dem hierarchischen Clusteralgorithmus von scikit-learn (Visualisierung)
    Parameter:
    • Clusteranzahl
    • Tags als Marker im Plot indizieren
  • Wortwolke eines Termsets erstellen (Visualisierung)
  • Dendrogramme eines Termsets anhand des Wort-Vektor-Modells mit dem hierarchischen Clusteralgorithmus von scikit-learn (Visualisierung)
    Parameter: - Clusteranzahl

Topics

  • diachrone Topicverläufe an ausgewählten Topics (Visualisierung)

Texte

  • interaktive Clusterdiagramme der Texte (Visualisierung)

tag_topic_explorer

Der tag_topic_explorer visualisiert die Topics diachron und die Tag-Topic-Verhältnisse sowohl synchron als auch diachron. Für die Abfragen werden die Verarbeitungen aus Modul 3 benötigt. Die Tag-Topic-Verhältnisse ermöglichen eine auf das jeweilige Termset relativierte Abfrage der Topics. Alle benötigten Dateien sind auf den Arbeitsordner voreingestellt und können geändert werden.

gui_tag_topic_explorer.py benötigt

  • Termset als Pivot-Tabelle: resources\termsets\Termset_Begriffe_2.3.csv
  • Top-100-Topics-Word-Matrix: resources\topic-models\topics_v3\fadelive_mallet_stop_topic_words_100_words_tag.csv
  • tfidf-Matrix: output\dtm_tfidf_stop\tfidf-2000.csv
  • Rangliste der Topics relativ zum Termset: output\processed_termset\Termset_Begriffe_2.3\Termset_Begriffe_2.3_tag_topic_rank.csv
  • Relevanzscore der Topics relativ zum Termset:output\processed_termset\Termset_Begriffe_2.3\Termset_Begriffe_2.3_tag_topic_relevance.csv
  • Verteilung der Topics auf Jahre relativ zum Termset und zu den Top-30 Texten output\processed_termset\Termset_Begriffe_2.3\Termset_Begriffe_2.3_dtti_topdocs_topic_counts_per_year.csv
  • Summierter Relevanzscore der Termset-Text-Topic-Verhältnisse pro Jahr: output\processed_termset\Termset_Begriffe_2.3\Termset_Begriffe_2.3_dtti_topdocs_top10_year_value.csv
  • Summierter Relevanzscore der Termset-Text-Topic-Verhältnisse pro Textoutput\processed_termset\Termset_Begriffe_2.3\Termset_Begriffe_2.3_dtti_topdocs_top10_value_per_text_topic.csv
  • Verteilung der Tokens pro Jahr: output\statistics\year_count_tokens.csv
  • Summierter Relevanzscore der Text-Topic-Verhältnisse pro Jahroutput\processed_topics\document-topics-distribution_tag_topdocs_year_value.csv
  • Document-Topic-Verteilung:resources\topic-models\topics_v3\document-topics-distribution_tag.csv
  • Metadaten der Texte: data\raw\metadata.csv

Im Tab Daten müssen zunächst die Dateien geladen und geprüft werden, ob sie die Voraussetzungen zur Abfrage und Visualisierung erfüllen.

Neben dem Tab Daten gibt es zwei Kategorien fĂĽr Abfragen und Visualisierungen:

Topic-Exploration

  • Globale Verteilung der Top-[30] Dokumente auf die Topics (Visualisierung)
  • Globale Verteilung der Top-[30] Dokumente auf die Topics im Verhältnis zur Tokenverteilung (Visualisierung)
  • diachrone Topicverläufe an ausgewählten Topics (Visualisierung)

Tag-Topic-Exploration

  • Blasen-Diagramm zur Verteilung der Tags auf die Topics (Visualisierung)
  • Balkendiagramm zum Relevanzscore der Tags pro Topic und der tfidf-Werte der Tags (Visualisierung)
  • Verteilung der Top-[30] Texte pro Topic auf Jahre, differenziert nach Topics und relativ zum Termset (Visualisierung)
  • Tendenzkurven zur Entwicklung der Topics relativ zum Termset und zu den Topics Top-[30] Texten (Visualisierung)
  • globale Verlaufskurve der Termset-Topic-Verhältnisse (Visualisierung)
  • Vergleich des Verlaufs von Tokens, Topics und Termset-Topic-Text-Verhältnisse (Visualisierung)
  • Rangliste der Texte relativ zu den Topics und zum Termset (Visualisierung)

Ressourcen

In dem Ordner resources/ befinden sich

  • auf der ersten Ebene Dateien zur Vorverarbeitung des Korpus:
    • das Lemmatisierungsmodel des HanoverTagger
    • die Versionen der Vokabulare zur groben Tilgung von OCR-Fehlern ocr_post-correction_dictionary_<version>.txt
    • die Versionen zur Normalisierung replacements_<version>.json
    • die Listen an Stoppwörtern stopwords_<version>.txt
  • auf der zweiten Ebene
    • in stop_pos_tag/ die in den Experimenten und mit der dritten finalen Konfiguration fadelive_v3.toml erzeugten POS-Listen des semantisch und POS getaggten Vokabulars vocab_top5000_stop_pos_tag_exp_<version>.csv
    • in termsets/ die in den Experimenten und an die Vorverarbeitung der dritten finalen Konfiguration fadelive_v3,toml angepassten Termsets
    • in topic-models die drei im Rahmen der Experimente erzeugten Topic-Modelle topics_exp_<version>/ und das mit der dritten finalen Konfiguration fadelive_v3.toml erzeugte Topic-Modell topics_v3/ in Form von
      • document-topics-distribution_tag.csv und
      • fadelive_mallet_stop_topic_words_100_words_tag.csv

Projektstruktur

fadelive
│   environment.yml
│   pyproject.toml
│   README.txt
│   requirements.txt
│
├───config
│       fadelive_v1.toml
│       fadelive_v2.toml
│       fadelive_v3.toml
│
├───data
│       raw
│       korpus.csv
│       metadata.csv
│
├───resources
│   │   morphmodel_ger.pgz
│   │   ocr_post-correction_dictionary_v1.txt
│   │   ocr_post-correction_dictionary_v2.txt
│   │   ocr_post-correction_dictionary_dummy.txt
│   │   replacements_v1.json
│   │   replacements_v2.json
│   │   replacements_v3.json
│   │   replacements_dummy.json
│   │   stopwords_v1.txt
│   │   stopwords_v2.txt
│   │   stopwords_v3.txt
│   │   stopwords_dummy.txt
│   │
│   ├───stop_pos_tag
│   │       vocab_top5000_stop_pos_tag_exp_v1.csv
│   │       vocab_top5000_stop_pos_tag_exp_v2.csv
│   │       vocab_top5000_stop_pos_tag_exp_v3.csv
│   │       vocab_top5000_stop_pos_tag_v3.csv
│   │
│   ├───termsets
│   │       Termset_Begriffe_2.2.csv
│   │       Termset_Begriffe_2.3.csv
│   │       Termset_Begriffe_2.csv
│   │       Termset_Drama_1.csv
│   │       Termset_Gegenstände_1.2.csv
│   │       Termset_Lyrik_1.csv
│   │       Termset_Praktiken_1.4.3.csv
│   │       Termset_Praktiken_diff_1.csv
│   │       Termset_Prosa_1.csv
│   │
│   └───topic-models
│       │   Parameter.txt
│       │
│       ├───compare
│       ├───topics_exp_v1
│       │       document-topic-distribution_tag.csv
│       │       topic_100_words_tag.csv
│       │
│       ├───topics_exp_v2
│       │       document-topics-distribution_tag.csv
│       │       topic_100-words_tag.csv
│       │
│       ├───topics_exp_v3
│       │       document-topics-distribution_tag.csv
│       │       topics_100-words_tag.csv
│       │
│       └───topics_v3
│               document-topics-distribution_tag.csv
│               fadelive_mallet_stop_topic_words_100_words_tag.csv
│
└───src
    ├───fadelive
    │   │   main.py
    │   │   pipeline.py
    │   │   pipeline_config.py
    │   │   s01_1_preprocessing.py
    │   │   s01_2_vocabular.py
    │   │   s01_3_statistics.py
    │   │   s01_4_pos_tag.py
    │   │   s02_preprocessing_gensim.py
    │   │   s03_dtm_tfidf.py
    │   │   s04_cosine.py
    │   │   s05_dtm_tfidf_cos_intervals.py
    │   │   s06_tfidf_rank.py
    │   └─s07_word_vector_model.py
    │
    ├───procession_termsets_topics
    │       s01_process_stop_pos_tag.py
    │       s02_process_topics.py
    │       s03_termset-topics_dtti.py
    │       s04_process_termset-topics_dtti.py
    │
    ├───tools_output
    │       single_texts_for_tm.py
    │
    └───tools_visualisations
            gui_corpus_explorer.py
            gui_tag-topics-explorer.py
            statistics.py

Lizenz und Zitation

  • Zitation: empfohlene Zitierweise steht in CITATION.cff
  • Lizenz: Rechte zur Nutzung und Weiterverarbeitung stehen in LICENSE.md