Eine vergleichende Untersuchung zum Clustering von Textdokumenten

Media type: E-Book; Electronic Thesis; Bachelor Thesis

Title: Eine vergleichende Untersuchung zum Clustering von Textdokumenten

Contributor: Nour Alhuda, Hasan [Author]

imprint: REPOSIT HAW Hamburg, 2024-04-26

Language: German

DOI: https://doi.org/20.500.12738/15632

Keywords: Data-Mining ; K-Means ; Artificial Intelligence ; Web Mining ; Dokument-Clustering ; Web-Mining ; DBScan ; Word2Vec ; Information-Retrieval ; Document Clustering ; TF-IDF ; Search Engines ; Information Retrieval ; BERT ; Künstliche Intelligenz ; Suchmaschinen

Origination:

Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.

Description: Clustering-Analyse ist eines der Hauptforschungsgebiete der Künstlichen Intelligenz und Data-Minings. Ihre Anwendung auf Textdokumente nennt sich Dokument-Clustering, womit sich diese Arbeit insbesondere beschäftigt. Diese Art von Clustering bezeichnet die automatische Einteilung von Dokumenten in Clustern, sodass Dokumente innerhalb eines Clusters eine hohe Ähnlichkeit im Vergleich zu Dokumenten in anderen Clustern aufweisen. Das Fachgebiet hat eine wichtige Rolle in verschiedenen Bereichen wie Web-Mining, Suchmaschinen und Information-Retrieval gespielt. Im Rahmen dieser Arbeit werden zwei Clustering-Algorithmen, K-Means und DBScan, in Kombination mit drei verschiedenen Feature-Extraktionstechniken, TF-IDF, Word2Vec und BERT, eingesetzt bzw. untersucht. Die Leistung dieser Methoden wird anhand drei ausgewählter Datensätze unter Verwendung von Clustering-Bewertungsmetriken gemessen und entsprechend bewertet. ; Clustering analysis is one of the main research areas of artificial intelligence and data mining. Its application on text documents is called document clustering, which is the main focus of this thesis. This type of clustering refers to the automatic classification of documents into clusters, so that documents within one cluster would have high similarity compared to documents in other clusters. This topic has played an important role in various fields such as web mining, search engines and information retrieval. In this work, two clustering algorithms, K-Means and DBScan, are used in combination with three different feature extraction techniques, TF-IDF, Word2Vec and BERT. The performance of these methods is measured and examined based on three preselected data sets using clustering evaluation metrics.

Access State: Open Access

Search in field:

Recently searched for: