Also known as document categorization
attività che si occupa di classificare testi digitali
La classificazione del testo (in inglese text categorization o text classification, abbreviata come TC) è, nell'intelligenza artificiale, un'attività che si occupa di classificare testi digitali espressi in una lingua naturale assegnando in maniera automatica collezioni di documenti a una o più classi appartenenti a un "insieme di classi" predefinito. Per realizzare ciò si utilizzano solitamente degli approcci di apprendimento automatico di tipo supervisionato, dove è necessario addestrare il sistema tramite auto-apprendimento per esempi (anche chiamate istanze) da cui generare un modello generale per la classificazione automatica. Esistono tuttavia altri approcci, come quello non supervisionato o semi-supervisionato, ma solitamente con risultati peggiori.
Abstract from DBpedia / Wikipedia · CC BY-SA
via Wikidata sitelinks · CC0
Discovered by embedding cosine similarity (sentence-transformers MiniLM, 384-dim).