Fórum Ubuntu CZ/SK
Ubuntu pro osobní počítače => Obecná podpora => Téma založeno: compaq 02 Listopadu 2012, 12:20:13
-
Jak překódovat hromadně soubory v adresáři do jedné češtiny, například UTF-8?
Jak poznat u TXT souboru, jaké je kódování?
-
zagugli iconv .. nebo man iconv
-
http://stackoverflow.com/questions/1975057/bash-convert-non-ascii-characters-to-ascii (http://stackoverflow.com/questions/1975057/bash-convert-non-ascii-characters-to-ascii)
http://www.andreaspollak.eu/2011/03/convert-text-file-from-iso-8859-1-to-utf-8-linux-bash/ (http://www.andreaspollak.eu/2011/03/convert-text-file-from-iso-8859-1-to-utf-8-linux-bash/)
-
zagugli iconv .. nebo man iconv
Díky. Je tam
iconv -f ISO-8859-2 -t UTF-8
ale já potřebuju
iconv -f "různé mrskané češtiny" -t UTF-8
aneb: Jak poznat u TXT souboru, jaké je kódování?
-
Určitě poradí google :). Jinak i blbý notepad ve widlích umí uložit otevřený soubor v několika druzích kódování (ANSI, UTF-8, Unicode, Big Endian). Divil bych se, kdyby to linuxové editory neuměli.
-
aneb: Jak poznat u TXT souboru, jaké je kódování?
Nijak, jedině vyzkoušet. U češtiny ovšem připadá (za normálních okolností) v úvahu jen trojice ISO-8859-2, CP1250 (Win-1250) a UTF-8.
-
aneb: Jak poznat u TXT souboru, jaké je kódování?
Nijak, jedině vyzkoušet. U češtiny ovšem připadá (za normálních okolností) v úvahu jen trojice ISO-8859-2, CP1250 (Win-1250) a UTF-8.
No, možná tomu úplně tak nebude, na abclinuxu (http://www.abclinuxu.cz/poradna/linux/show/164672#1)doporučují program enca nebo program file s přepínačem -i.
-
Ještě toto je zajímavé:
http://tomas.dankovi.info/content/6-bash-skripty (http://tomas.dankovi.info/content/6-bash-skripty)
Dávková změna kódování
Pomocí příkazu iconv nebo convmv je možné změnit kódování souborů např. z Win-1250 na UTF-8:
for F in $(find $1 -iname "*.html")
do
if [ -f $F ]; then
iconv -f windows-1250 -t utf-8 $F > ${F}1
mv ${F}1 $F
fi
done
-
aneb: Jak poznat u TXT souboru, jaké je kódování?
Nijak, jedině vyzkoušet. U češtiny ovšem připadá (za normálních okolností) v úvahu jen trojice ISO-8859-2, CP1250 (Win-1250) a UTF-8.
Vždycky jsem měl za to, že
enca a.txtzjistí kodovani, a
enca -x utf8 a.txtrespektive asi správně (i když rozdílu si nejsem vědom)
enca -c -x utf8 -l czech a.txtho změní.
Jinak řečeno, není třeba zjišťovat - zjistí si to samo (i když se občas netrefí ;)) Stejně jako se textový editor snaží u ukládání předvolit kodováni...
-
aneb: Jak poznat u TXT souboru, jaké je kódování?
Nijak, jedině vyzkoušet. U češtiny ovšem připadá (za normálních okolností) v úvahu jen trojice ISO-8859-2, CP1250 (Win-1250) a UTF-8.
No, možná tomu úplně tak nebude, na abclinuxu (http://www.abclinuxu.cz/poradna/linux/show/164672#1)doporučují program enca nebo program file s přepínačem -i.
Odhadnout je to správné slovo ;)
The Big Bang Theory S02E01.srt: text/plain; charset=unknown-8bit
-
A ten program file také jen odhaduje? Je škoda že není nějaké lepší řešení.
-
A ten program file také jen odhaduje? Je škoda že není nějaké lepší řešení.
A podle čeho bys to chtěl *poznat? Snad jedině OCR a žlutým koněm.
-
Určitě poradí google :). Jinak i blbý notepad ve widlích umí uložit otevřený soubor v několika druzích kódování (ANSI, UTF-8, Unicode, Big Endian). Divil bych se, kdyby to linuxové editory neuměli.
I blbý notepad, je chytřejší než Gedit, protože otevřít soubor je základ.
-
Určitě poradí google :). Jinak i blbý notepad ve widlích umí uložit otevřený soubor v několika druzích kódování (ANSI, UTF-8, Unicode, Big Endian). Divil bych se, kdyby to linuxové editory neuměli.
I blbý notepad, je chytřejší než Gedit, protože otevřít soubor je základ.
Protože blbý notepad nic jiného než 852, 1250 a zmršený (zkus otevřít v notepadu utf8 z geditu) utf8 neumí...
-
Já jsem otevřel v Notepadu, vždy vše, za to v Geditu, málo co. A pokud mi Notepad špatně odseká entry, záchrana je Wordpad. Vim je pak jistota, tedy pokud má soubor méně než je volná kapacita RAM.
-
Podle mého, pokud soubor s textem neobsahuje jediné písmenko s diakritikou, nelze kódování zjistit, ale je to potom jedno :-)
Uvítal bych jednoduchý návod:
Jak se ti zobrazí ž? Jestli jako
# je to 8859-2
& je to Win-1250
° je to 852
€ je to původně 8859-2 otevřený chybně jako Win-1250 a uložený jako UTF-8
# musíš najít nějaké ř a poznat to podle ř
atd.
:-)
-
Pozná to program, který to umí číst v hexa, tak jak je to uložené na disku.
-
Pozná to program, který to umí číst v hexa, tak jak je to uložené na disku.
To jsem si přesně myslel :), ale neodvažoval jsem se to napsat, protože tomu nerozumím :).
-
Já jsem otevřel v Notepadu, vždy vše, za to v Geditu, málo co
já mám osobně dobré zkušenosti s editorem v Xfce jmenuje se "mouse...." :o prostě něco s myší. Většinou kde gedit skončil, tady to šlo v pohodě
-
Já taky ne, ale je dobré to vědět. Takhle to třeba rozezává phototorec, ale pokud je soubor roztroušený, třeba pokud najde půl hlavičky v souboru, má to těžký.
-
Já jsem otevřel v Notepadu, vždy vše, za to v Geditu, málo co
já mám osobně dobré zkušenosti s editorem v Xfce jmenuje se "mouse...." :o prostě něco s myší. Většinou kde gedit skončil, tady to šlo v pohodě
mousepad
-
Pozná to program, který to umí číst v hexa, tak jak je to uložené na disku.
Aha, takže program který to čte jako bitstream nemá šanci? ;) Na reprezentaci informace přece nezáleží...
Odhlédnu od toho, že každý program čte to co mu systém řekne že je na disku...
-
sudo apt-get install python-chardet$ uchardet můj_soubor
můj_soubor: utf-8 (confidence: 0.99)
$ uchardet soubor_od_někoho_jinýho.txt
soubor_od_někoho_jinýho.txt: ISO-8859-2 (confidence: 0.80)
jinak gůglete chardet