In dit artikel
Wat is CSV-validatie?
CSV-validatie (Comma-Separated Values) controleert of een bestand voldoet aan de verwachte structuur, codering en gegevensindeling. Hoewel CSV er eenvoudig uitziet, bevatten bestanden in de praktijk vaak problemen: inconsistente kolomtellingen, verkeerde scheidingstekens, coderingsproblemen, niet-geëscapete aanhalingstekens en ingesloten regeleinden.
CSV is een van de meest gebruikte gegevensuitwisselingsindelingen, maar ook een van de minst gestandaardiseerde. Er is geen officiële CSV-norm — RFC 4180 biedt richtlijnen, maar de meeste tools implementeren hun eigen varianten. Dit betekent dat bestanden uit verschillende bronnen structureel incompatibel kunnen zijn.
Hoe CSV-validatie werkt
De CSV-validator van CheckTown parseert het bestand en controleert de structuur, codering en consistentie.
- Scheidingstekendetectie — identificeert of het bestand komma's, puntkomma's, tabs of andere scheidingstekens gebruikt
- Rijconsistentie — verifieert dat elke rij hetzelfde aantal kolommen heeft als de koptekstrij
- Coderingscheck — detecteert tekencoderingsproblemen, waaronder BOM-markeringen en ongeldige UTF-8-reeksen
Probeer gratis — geen aanmelding vereist
Valideer een CSV-bestand →Wanneer CSV-validatie gebruiken
CSV-validatie is het meest waardevol vóór het importeren van bestanden in databases, API's of gegevensverwerkingspijplijnen.
- Gegevensimports — valideer CSV vóór het laden in databases of CRM-systemen om beschadigde gegevens te voorkomen
- ETL-pijplijnen — voeg validatie toe als eerste stap in gegevenstransformatieworkflows om bronfouten vroegtijdig te onderscheppen
- Bestandsuitwisseling — valideer bestanden die van externe partners zijn ontvangen vóór verwerking om structurele compatibiliteit te garanderen
Veelgestelde vragen
Wat is de meest voorkomende CSV-fout in de praktijk?
Inconsistente kolomtellingen (ook wel rafelige rijen genoemd) zijn het meest voorkomende CSV-probleem. Ze ontstaan wanneer een rij meer of minder kolommen heeft dan de koptekst, meestal veroorzaakt door niet-geëscapete komma's in veldwaarden. Het tweede meest voorkomende probleem is codering — bestanden aangemaakt op Windows gebruiken vaak Windows-1252-codering in plaats van UTF-8.
Hoe moeten komma's binnen veldwaarden worden verwerkt in CSV?
Velden die komma's bevatten moeten worden ingesloten in dubbele aanhalingstekens. Als het veld ook dubbele aanhalingstekens bevat, moeten deze worden geëscaped door ze te verdubbelen. Een veld met de waarde She said, "hello" wordt bijvoorbeeld geschreven als "She said, ""hello""" in geldige CSV.
Wat is het verschil tussen CSV en TSV?
TSV (Tab-Separated Values) gebruikt tab-tekens als scheidingstekens in plaats van komma's. TSV is minder gangbaar maar vermijdt scheidingstekenconflicten in gegevens die komma's bevatten. Beide indelingen volgen dezelfde algemene structuur en regels voor aanhalingstekens.