Hero Image

Hur hittar man vilka rader i en textfil som inte är UTF-8-kompatibla i Linux?

En datafil jag jobbade med hade flera teckenkodningsfel som fick mina migreringsskript att låsa sig. Jag behövde ett sätt att hitta hur många rader som var drabbade och hur stort problemet var.

_grep -axv '.*' file_ löste problemet.  

sedan kan du gå in och åtgärda de drabbade raderna. Vill du bara blunda för problemet, kör  

_iconv -c -t UTF-8 < input.txt > output.txt  
_