Panneau de gestion des cookies
NOTRE UTILISATION DES COOKIES
Des cookies sont utilisés sur notre site pour accéder à des informations stockées sur votre terminal. Nous utilisons des cookies techniques pour assurer le bon fonctionnement du site ainsi qu’avec notre partenaire des cookies fonctionnels de sécurité et partage d’information soumis à votre consentement pour les finalités décrites. Vous pouvez paramétrer le dépôt de ces cookies en cliquant sur le bouton « PARAMETRER » ci-dessous.

Data acquisition, extraction and storage

Ects : 4

Enseignant responsable :

Volume horaire : 24

Description du contenu de l'enseignement :

The objective of this course is to present the principles and techniques used to acquire, extract, integrate, clean, preprocess, store, and query datasets, that may then be used as input data to train various artificial intelligence models. The course will consist on a mix of lectures and practical sessions. We will cover the following aspects:

  • Web data acquisition (Web crawling, Web APIs, open data, legal issues)
  • Information extraction from semi-structured data
  • Data cleaning and data deduplication
  • Data formats and data models
  • Storing and processing data in databases, in main memory, or in plain files
  • Introduction to large-scale data processing with MapReduce and Spark
  • Ontology-based data access

Pré-requis obligatoires :

Basics of computer science and computer engineering (algorithms, databases, programming, logics, complexity).

Compétence à acquérir :

Understanding:

  • how to acquire data from a variety of sources and in a variety of formats
  • how to extract structured data from unstructured or semi-structured data
  • how to format, integrate, clean data sets
  • how to store and access data sets

Mode de contrôle des connaissances :

Project (50% of the grade) and in-class written assessment (50% of the grade)

En savoir plus sur le cours