Potřebuju se zbavit netisknutelných znaků v txt souboru, který vznikl konverzí z doc documentu, je jich tam bohužel hodně, iconv na tom ztroskotává, což mě velmi irituje...
au@galway:~/tmp$ cat prvni4.txt | iconv --from-code UTF-8 --to-code ISO-8859-2 prvn� ot�zka Prameny obch. pr�va (obecn�, v�evr.pr�vu a �. pr�vu, p�sobnost obch.z�kon�ku)
O �esk�m pr�vn�m syst�mu a obecn� i o cel�m kontinent�ln�m pr�vu lze ��ci, �e se jedn� o psan� pr�vo, proto�e za prameny pr�va pova�uje (na rozd�l od angloamerick�ho pr�vn�ho syst�mu) t�m�� v�hradn� psan� pr�vn� normy iconv: illegal input sequence at position 353
Nejsem schopnej přijít na to, jaký znaky to jsou, abych je ručně odstranil nebo spíš nevím, jakej na to použít progam. Chtělo by to skript na odstranění non-printable characters. Všechno, co sem přes google našel, různý perl a pythonní vychytávky ale odstraňovaly i plno užitečnejch znaků jako je česká diakritika.