Manipulation de données tabulaires massives avec R

Résumé

Cette séance propose de présenter différentes solutions pour accélérer un traitement, pour permettre la manipulation de données trop importantes pour tenir en mémoire, et pour manipuler des données en ligne sans les télécharger dans leur ensemble.

On y introduit le format de données en mémoire Apache Arrow et les fonctions du package arrow qui permettent de manipuler des données tabulaires ; le système de gestion de bases de données DuckDB qui permet d’exécuter une chaîne de traitement via syntaxe dplyr sur un jeu de données non chargé en mémoire ; et enfin le format de données orienté colonne Apache Parquet qui accélère drastiquement la lecture et l’interrogation d’un jeu de données tabulaire tout en diminuant sa taille sur disque.

Script

Script complet des codes présentés dans la présentation
Script des expérimentations sur des données spatiales

💻 Présentation

Consulter en plein écran