@MaziyarPanahi vient de centraliser la totalité des summary statistics GWAS du Psychiatric Genomics Consortium sur Hugging Face : 12 repositories, licence CC BY 4.0, plus d'un milliard de lignes. ADHD, dépression, schizophrénie, bipolarité, PTSD, OCD, autisme, anxiété, Tourette, troubles alimentaires. 52 publications.
Le changement réel est dans l'accès. Ces données existaient déjà, éparpillées sur des portails académiques, derrière des formulaires, téléchargeables via wget avec des scripts qui cassent à la moindre mise à jour de serveur. Maziyar a passé des semaines à les centraliser, en atteignant les limites de stockage de Hugging Face plusieurs fois en chemin.
Ce que contient la collection
Chaque étude GWAS dans ces repositories a testé entre 7 et 15 millions de variants génétiques sur l'ensemble du génome humain. L'intégralité du scan, avec les p-values, les effect sizes et les fréquences alléliques pour chaque position, y compris les variants sans association connue à un trouble psychiatrique.
Les 12 groupes de troubles sont chacun dans leur propre repo, ce qui facilite l'ingestion sélective. Tu n'as pas besoin de tout télécharger pour travailler sur un seul phénotype.
Pourquoi ces données sont exploitables maintenant
La plupart des datasets médicaux sur Hugging Face sont des textes cliniques, des images médicales, ou des Q&A synthétiques. Là, on parle de statistiques d'association populationnelles brutes, le type de données qui nourrit directement des modèles de polygenic risk score, des analyses de causalité mendélienne, ou des pipelines de fine-mapping.
Ces données sont maintenant searchables, versionnées et accessibles via l'API Hugging Face standard. Un agent peut les requêter sans avoir à gérer des portails FTP académiques ou des authentifications institutionnelles.
from datasets import load_dataset
# Charger les données GWAS pour la dépression
ds = load_dataset("OpenMed/pgc-mdd-gwas-summary-statistics")
La communauté a déjà commencé à construire dessus. Un projet de visualisation ML tourne déjà : pgc-atlas, en développement actif. PageIndexAI a monté une interface de chat pour interroger les publications PGC directement.
Pour le contexte : le dbSNP Build 157 sorti en mars 2025 dépasse 1,2 milliard de records RefSNP. Les datasets PGC couvrent un sous-ensemble de ces variants, ciblé sur les phénotypes psychiatriques.
Chaque repo correspond à un groupe de troubles. Si tu travailles sur un seul, charge uniquement ce repo. Les fichiers sont en Parquet ou TSV selon les études, vérifier le README du repo ciblé avant d'ingérer.
03
Ingérer via l'API HF
load_dataset("OpenMed/pgc-[phenotype]-gwas-summary-statistics") suffit pour démarrer. Pour des volumes importants, utilise le streaming : load_dataset(..., streaming=True) pour éviter de charger le milliard de lignes en RAM d'un coup.