La vectorisation a notamment pour objectif de rendre le texte non structuré plus exploitable par les machines. Les embeddings vectoriels y parviennent en codant la sémantique du texte sous forme de vecteurs numeric à haute dimensionalité, qui peuvent être utilisés par des algorithmes de recherche avancés (généralement un algorithme de plus proche voisin approximatif tel que Hierarchical Navigable Small World).
Les données non structurées (ou informations non structurées) sont des informations qui soit n'ont pas de modèle de données prédéfini, soit ne sont pas organisées d'une manière prédéfinie. Les informations non structurées sont généralement constituées de texte, mais peuvent également contenir des données telles que des dates, des chiffres et des faits.