ElementR
  • Programme
  • Supports & matériaux
  • Á propos
  • Contact
  1. Séances thématiques
  2. Manipulation de données tabulaires massives avec R
  • Programme & inscriptions

  • Séances thématiques
    • Introduction ElementR
    • Initiation à R (théorique)
    • Initiation à R (pratique)
    • Représentation graphique
    • Cartographie avec R
    • Geomatique avec R
    • Analyse de réseau
    • Document computationnel
    • Statistique uni et bivariée
    • Manipulation de raster avec R
    • Premier pas en webscraping
    • Réseau et semi de points
    • Manipulation de données tabulaires massives avec R
    • Créer une application interactive avec Shiny

  • Tables rondes
    • Analyse textuelle
    • Les mains dans le code

  • Ateliers pratiques
    • Données enquête SNCF

  • Retours d’expériences
    • R au long cours
    • Théorie et pratique de la GWR
    • Utilisation d’OpenStreetMap

  • Contact

Sur cette page

  • Résumé
  • Script
  • 💻 Présentation
  1. Séances thématiques
  2. Manipulation de données tabulaires massives avec R

Manipulation de données tabulaires massives avec R

Découverte de l’écosystème de manipulation de données massives.

Auteur·es

Robin Cura

Elina Marveaux

Date de séance

21 octobre 2025

Résumé

Cette séance propose de présenter différentes solutions pour accélérer un traitement, pour permettre la manipulation de données trop importantes pour tenir en mémoire, et pour manipuler des données en ligne sans les télécharger dans leur ensemble.

On y introduit le format de données en mémoire Apache Arrow et les fonctions du package arrow qui permettent de manipuler des données tabulaires ; le système de gestion de bases de données DuckDB qui permet d’exécuter une chaîne de traitement via syntaxe dplyr sur un jeu de données non chargé en mémoire ; et enfin le format de données orienté colonne Apache Parquet qui accélère drastiquement la lecture et l’interrogation d’un jeu de données tabulaire tout en diminuant sa taille sur disque.

Script

  • Script complet des codes présentés dans la présentation
  • Script des expérimentations sur des données spatiales

💻 Présentation


Consulter en plein écran
GitLab
 
ElementR 2022 - licensebuttons by-nc - UMR Géographie-Cités · UMR PRODIG · UAR RIATE