Gli scienziati sociali che lavorano con materiali che richiedono digitalizzazione possono studiare solo ciò che le macchine possono leggere. In pratica, ciò significa documenti stampati in caratteri latini provenienti da archivi ben finanziati. In un nuovo documento di lavoro, dimostro che i modelli di linguaggio visivo utilizzati in zero-shot superano ogni sistema OCR esistente in tutti gli script valutati, e propongo un pipeline per implementarli su nuove collezioni. Lo applico a sei collezioni archivistiche che coprono 1,8 milioni di pagine in sei paesi per meno di $1.900.