En este artículo
Que es JSON Lines?
JSON Lines (tambien llamado JSONL o Newline-Delimited JSON, NDJSON) es un formato de texto donde cada linea es un objeto JSON valido. A diferencia del JSON regular que envuelve todo en un array, JSONL coloca un registro por linea sin corchetes envolventes. Esto lo hace ideal para streaming, agregacion y procesamiento de grandes conjuntos de datos linea por linea.
Un archivo JSONL tipico se ve asi: cada linea contiene un objeto JSON completo con sus propias claves y valores. No hay comas entre lineas ni array envolvente. Esta simplicidad es lo que hace que el formato sea poderoso para pipelines de datos, archivos de logs y datasets de machine learning.
Por que JSONL es importante
JSONL se ha convertido en el formato preferido para varios casos de uso importantes en ingenieria de datos moderna y plataformas cloud.
- Procesamiento en streaming -- como cada linea es independiente, puedes procesar archivos linea por linea sin cargar todo el dataset en memoria, critico para archivos de multiples gigabytes
- Importaciones BigQuery y cloud -- Google BigQuery, Amazon Athena y otros almacenes de datos cloud soportan nativamente JSONL para carga de datos, haciendolo el formato estandar para importaciones de datos cloud
- Datasets de machine learning -- muchos frameworks ML incluyendo Hugging Face, fine-tuning de OpenAI y entrenamiento BERT esperan datos en formato JSONL con un ejemplo por linea
- Archivos de logs y flujos de eventos -- los logs de aplicaciones a menudo usan JSONL porque los nuevos eventos pueden agregarse a un archivo sin modificar el contenido existente o mantener la sintaxis de array
Pruébalo gratis — sin registro
Convertir CSV a JSONL →Convertir CSV a JSONL
La conversion de CSV a JSONL mapea cada fila de tu archivo CSV a un objeto JSON donde los encabezados de columna se convierten en las claves.
- Encabezados como claves -- la primera fila de tu archivo CSV proporciona los nombres de propiedades para cada objeto JSON, por lo que los encabezados de columna deben ser limpios y consistentes
- Deteccion de delimitador -- el conversor maneja delimitadores de coma, punto y coma, tabulacion y pipe, detectando automaticamente el formato o permitiendote especificarlo explicitamente
- Inferencia de tipo -- los valores numericos se convierten a numeros JSON en lugar de cadenas, y las celdas vacias pueden mostrarse como null u omitirse completamente segun tu preferencia
Preguntas frecuentes
Cual es la diferencia entre JSONL y JSON regular?
El JSON regular envuelve todos los registros en un array con corchetes y los separa con comas. JSONL coloca un objeto JSON por linea sin envoltorio de array ni comas entre registros. Esto significa que puedes agregar a un archivo JSONL sin modificar el contenido existente, procesarlo linea por linea sin un parser completo y transmitirlo sin almacenar en buffer el archivo completo.
Cuando debo usar JSONL en lugar de CSV?
Usa JSONL cuando tus datos tienen estructuras anidadas, columnas inconsistentes o necesitan ser consumidos por APIs y servicios cloud. CSV es mejor para datos tabulares simples que se abriran en hojas de calculo. JSONL preserva los tipos de datos (numeros, booleanos, null) mientras que CSV trata todo como texto. JSONL tambien maneja valores con comas y saltos de linea sin problemas de escape.
Que extension de archivo debo usar?
Las extensiones mas comunes son .jsonl y .ndjson. Algunas herramientas tambien aceptan .json con un objeto por linea. Usa .jsonl para mayor claridad ya que inmediatamente indica a cualquiera que vea el archivo que esta delimitado por saltos de linea en lugar de JSON estandar. BigQuery y la mayoria de herramientas cloud aceptan las tres extensiones.
Se pueden transmitir archivos JSONL en streaming?
Si, esa es una de las principales ventajas de JSONL. Como cada linea es independiente y autocontenida, puedes leer y procesar una linea a la vez usando logica readline simple en cualquier lenguaje de programacion. Esto hace que JSONL sea ideal para procesar datasets demasiado grandes para caber en memoria, a diferencia del JSON regular que requiere analizar la estructura completa del array.