Skip to main content
CheckTown
Dati

Convertitore CSV in JSONL: crea file JSON Lines

Pubblicato 5 min di lettura
In questo articolo

Cos'e JSON Lines?

JSON Lines (anche chiamato JSONL o Newline-Delimited JSON, NDJSON) e un formato testo dove ogni riga e un oggetto JSON valido. A differenza del JSON regolare che racchiude tutto in un array, JSONL mette un record per riga senza parentesi quadre. Questo lo rende ideale per lo streaming, l'aggiunta e l'elaborazione di grandi dataset riga per riga.

Un tipico file JSONL appare cosi: ogni riga contiene un oggetto JSON completo con le proprie chiavi e valori. Non ci sono virgole tra le righe e nessun array avvolgente. Questa semplicita e cio che rende il formato potente per le pipeline di dati, i file di log e i dataset di machine learning.

Perche JSONL e importante

JSONL e diventato il formato preferito per diversi casi d'uso importanti nell'ingegneria dei dati moderna e nelle piattaforme cloud.

  • Elaborazione in streaming -- poiche ogni riga e indipendente, puoi elaborare i file riga per riga senza caricare l'intero dataset in memoria, fondamentale per file di diversi gigabyte
  • Import BigQuery e cloud -- Google BigQuery, Amazon Athena e altri data warehouse cloud supportano nativamente JSONL per il caricamento dati, rendendolo il formato standard per le importazioni di dati cloud
  • Dataset di machine learning -- molti framework ML tra cui Hugging Face, fine-tuning OpenAI e addestramento BERT si aspettano dati in formato JSONL con un esempio per riga
  • File di log e flussi di eventi -- i log delle applicazioni usano spesso JSONL perche nuovi eventi possono essere aggiunti a un file senza modificare il contenuto esistente o mantenere la sintassi dell'array

Prova gratuitamente — nessuna registrazione richiesta

Converti CSV in JSONL →

Convertire CSV in JSONL

La conversione da CSV a JSONL mappa ogni riga del file CSV a un oggetto JSON dove le intestazioni delle colonne diventano le chiavi.

  • Intestazioni come chiavi -- la prima riga del file CSV fornisce i nomi delle proprieta per ogni oggetto JSON, quindi le intestazioni delle colonne devono essere pulite e coerenti
  • Rilevamento del delimitatore -- il convertitore gestisce delimitatori virgola, punto e virgola, tabulazione e pipe, rilevando automaticamente il formato o lasciandoti specificarlo esplicitamente
  • Inferenza del tipo -- i valori numerici vengono convertiti in numeri JSON invece di stringhe, e le celle vuote possono essere emesse come null o omesse completamente secondo la tua preferenza

Domande frequenti

Qual e la differenza tra JSONL e JSON regolare?

Il JSON regolare racchiude tutti i record in un array con parentesi quadre e li separa con virgole. JSONL mette un oggetto JSON per riga senza involucro array e senza virgole tra i record. Questo significa che puoi aggiungere a un file JSONL senza modificare il contenuto esistente, elaborarlo riga per riga senza un parser completo e trasmetterlo in streaming senza bufferizzare l'intero file.

Quando dovrei usare JSONL invece di CSV?

Usa JSONL quando i tuoi dati hanno strutture annidate, colonne inconsistenti o devono essere consumati da API e servizi cloud. Il CSV e migliore per dati tabulari semplici che verranno aperti in fogli di calcolo. JSONL preserva i tipi di dati (numeri, booleani, null) mentre CSV tratta tutto come testo. JSONL gestisce anche valori contenenti virgole e a capo senza problemi di escape.

Quale estensione di file devo usare?

Le estensioni piu comuni sono .jsonl e .ndjson. Alcuni strumenti accettano anche .json con un oggetto per riga. Usa .jsonl per chiarezza poiche indica immediatamente a chiunque guardi il file che e delimitato da newline piuttosto che JSON standard. BigQuery e la maggior parte degli strumenti cloud accettano tutte e tre le estensioni.

I file JSONL possono essere trasmessi in streaming?

Si, questo e uno dei principali vantaggi di JSONL. Poiche ogni riga e indipendente e autosufficiente, puoi leggere ed elaborare una riga alla volta usando una semplice logica readline in qualsiasi linguaggio di programmazione. Questo rende JSONL ideale per elaborare dataset troppo grandi per stare in memoria, a differenza del JSON regolare che richiede l'analisi della struttura completa dell'array.

Strumenti correlati