Fórum Ubuntu CZ/SK

Ubuntu pro osobní počítače => Obecná podpora => Téma založeno: compaq 28 Ledna 2013, 10:29:03

Název: Jak najít duplicitní soubory?
Přispěvatel: compaq 28 Ledna 2013, 10:29:03
Přátelé,

potřebuji na externím disku s fotografiemi (cca 290 GB) vyhledat duplicitní soubory. Soubory se mohou lišit názvem, datem, příponou, ale mají shodný obsah. Je to vůbec amatérsky možné?

Představuji si výpis:

Citace
duplicity:
svatba-013.jpg
/zaloha/fotky/PIC005429.JPG
-
svatba-019.jpg
/zaloha/fotky/PIC005488.JPG
/zaloha/fotky/svatba/PIC005488.JPG
-

Díky.

Název: Re:Jak najít duplicitní soubory?
Přispěvatel: Roman Vacho 28 Ledna 2013, 10:40:40
Tohle jsem kdysi taky řešil a myslím, že pomocí Digikamu(duplicity umí) úspěšně vyřešil a uvolnil pár desítek až stovek megabajtů.
Jen počítej s tím, že je to časově náročné. Nejprve se totiž tvoří databáze "otisku palce".
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: compaq 28 Ledna 2013, 10:43:52
Tohle jsem kdysi taky řešil a myslím, že pomocí Digikamu(duplicity umí) úspěšně vyřešil a uvolnil pár desítek až stovek megabajtů.
Jen počítej s tím, že je to časově náročné. Nejprve se totiž tvoří databáze "otisku palce".

Díky vyzkouším, času mám dost, klidně to může běžet celej víkend. Problém, je, že si bude asi digikam ukládat mraky dat...
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: Roman Vacho 28 Ledna 2013, 10:47:36
Otisk palce-40GB 13min 42s.
Vyhledání duplicit dle výkonu procesoru. U mě 40s.
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: jmp 28 Ledna 2013, 10:52:07
$ sudo aptitude install fdupes
$ man fdupes


FDUPES(1)                                                            FDUPES(1)

NAME
       fdupes - finds duplicate files in a given set of directories

SYNOPSIS
       fdupes [ options ] DIRECTORY ...

DESCRIPTION
       Searches  the  given  path for duplicate files. Such files are found by
       comparing file sizes and MD5 signatures,  followed  by  a  byte-by-byte
       comparison.

Název: Re:Jak najít duplicitní soubory?
Přispěvatel: compaq 28 Ledna 2013, 10:54:26
$ sudo aptitude install fdupes
$ man fdupes

Díky.
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: Roman Vacho 28 Ledna 2013, 11:02:44
Aktualizoval jsem časy.

Mimochodem díky za tip. Zjistil jsem, že mám některé fotky až 12krát :D


[příloha smazaná administrátorem]
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: Martin Šácha 28 Ledna 2013, 15:39:10
Tak, ještě neco co by nahradilo duplicity hardlinkem :)
Ale to se poddá...
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: Tadeáš Pařík 28 Ledna 2013, 17:20:05
$ sudo aptitude install fdupes
$ man fdupes


FDUPES(1)                                                            FDUPES(1)

NAME
       fdupes - finds duplicate files in a given set of directories

SYNOPSIS
       fdupes [ options ] DIRECTORY ...

DESCRIPTION
       Searches  the  given  path for duplicate files. Such files are found by
       comparing file sizes and MD5 signatures,  followed  by  a  byte-by-byte
       comparison.

Díky za tip.

Kód: [Vybrat]
fdupes -rnA cesta_k_adresari/
funguje bezvadně! +1
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: Roman Vacho 28 Ledna 2013, 17:26:50
Najde to i ty, co se liší velikostí? Ale třeba obsah je na 99% stejnej?
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: beer 28 Ledna 2013, 17:48:46
Tak, ještě neco co by nahradilo duplicity hardlinkem :)
Ale to se poddá...

Co takhle to přesypat na oddíl s BTRFS?
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: jmp 28 Ledna 2013, 18:20:01
Najde to i ty, co se liší velikostí? Ale třeba obsah je na 99% stejnej?
IMHO ne

Citace
Searches  the  given  path for duplicate files. Such files are found by
       comparing file sizes and MD5 signatures,  followed  by  a  byte-by-byte
       comparison.
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: Roman Vacho 28 Ledna 2013, 19:53:26
Tak už fachší. Snad nesežere celou paměť :-)
Edit: tak už je po něm :-( Asi jsem toho po něm chtěl moc.

[příloha smazaná administrátorem]
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: compaq 29 Ledna 2013, 10:47:50
Ten digikam celou noc dělal otisky a ráno nějaký duplicity našel, ale zatím jsem neměl čas to ověřit...
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: Martin Šácha 29 Ledna 2013, 10:58:31
Tak, ještě neco co by nahradilo duplicity hardlinkem :)
Ale to se poddá...

Co takhle to přesypat na oddíl s BTRFS?

Až bude btrfs šifrovatelný (truecryptem), tak klidně :)
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: compaq 30 Ledna 2013, 10:12:36
Digikam funguje pěkně a i docela svižně, na to, že mám fotek 280GB. Mám však jeden problém, i při nastavení shody duplicity 100% najde snímky, které jsou pouze podobné. Respektive se jedná například o výřez, nebo mírnou změnu barvy, nebo i změnu rozlišení.

Nepřišel jsem na to, jak nastavit, že za 100% shodné považuji pouze snímky, kde se obraz 100% shoduje, tj pixel na pixel ani pixel jinak!

Dále prosím o radu, jak vyhledávat podle více štítků. Například všechny fotky, jde je Dryml i Šlouf.

Dále neumím nastavit, aby se pod náhledem snímku zobrazovala velikost souboru.

Díle neumím nastavit, aby si databázi o snímcích z externího disku ukládal na externí disk a databázi interních snímků na interní. Chtěl bych ho používat někdy s připojením externího disku, někdy bez.

Díky za tipy a rady.
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: ntz_reloaded 30 Ledna 2013, 13:56:02
find $nekde -type f -exec md5sum {} \; >/soubor/s/logem

potom normalne pomoci grepu a sortu zjistis duplicity
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: compaq 30 Ledna 2013, 14:22:29
find $nekde -type f -exec md5sum {} \; >/soubor/s/logem

potom normalne pomoci grepu a sortu zjistis duplicity

Pozor, snímky se liší (mírně) velikostí, názvem i EXIFem apod.
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: Martin Šácha 30 Ledna 2013, 14:23:14
find $nekde -type f -exec md5sum {} \; >/soubor/s/logem

potom normalne pomoci grepu a sortu zjistis duplicity

Pozor, snímky se liší (mírně) velikostí, názvem i EXIFem apod.

Pak to nejsou duplicity. Mateš všechny okolo.
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: compaq 30 Ledna 2013, 14:29:10
find $nekde -type f -exec md5sum {} \; >/soubor/s/logem

potom normalne pomoci grepu a sortu zjistis duplicity

Pozor, snímky se liší (mírně) velikostí, názvem i EXIFem apod.

Pak to nejsou duplicity. Mateš všechny okolo.

Čtěte pozorněji:
Nepřišel jsem na to, jak nastavit, že za 100% shodné považuji pouze snímky, kde se obraz 100% shoduje, tj pixel na pixel ani pixel jinak!

Jedná se o snímky. Duplicitní snímky, ne soubory. Nepsal jsem bit na bit, ale pixel na pixel.
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: Martin Šácha 30 Ledna 2013, 14:32:52
potřebuji na externím disku s fotografiemi (cca 290 GB) vyhledat duplicitní soubory. Soubory se mohou lišit názvem, datem, příponou, ale mají shodný obsah. Je to vůbec amatérsky možné?
Piš pozorněji.
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: beer 30 Ledna 2013, 14:43:26
find $nekde -type f -exec md5sum {} \; >/soubor/s/logem

potom normalne pomoci grepu a sortu zjistis duplicity

Toto by mělo fungovat tak jak potřebuješ. Jiná možnost zřejmě nebude, nežli přes kontrolní součty.
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: compaq 30 Ledna 2013, 14:44:28
potřebuji na externím disku s fotografiemi (cca 290 GB) vyhledat duplicitní soubory. Soubory se mohou lišit názvem, datem, příponou, ale mají shodný obsah. Je to vůbec amatérsky možné?
Piš pozorněji.

Omlouvám se. Moje chyba.
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: compaq 30 Ledna 2013, 14:46:19
find $nekde -type f -exec md5sum {} \; >/soubor/s/logem

potom normalne pomoci grepu a sortu zjistis duplicity

Toto by mělo fungovat tak jak potřebuješ. Jiná možnost zřejmě nebude, nežli přes kontrolní součty.

Pozor, snímky se liší (mírně) velikostí souboru, názvem i EXIFem apod.
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: beer 30 Ledna 2013, 16:30:52
Tak v tom případě se nejedná o duplicitu.
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: compaq 30 Ledna 2013, 17:51:06
Tak v tom případě se nejedná o duplicitu.

Omlouvám se. Jedná se o soubory, které obsahují shodné (duplicitní i multiplicitní) obrázky.
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: jadd 04 Února 2013, 00:29:02
Umí to gthumb (http://www.abclinuxu.cz/software/grafika/prohlizece/gthumb), nejen obrázky..
Název: Re:Jak najít duplicitní soubory?
Přispěvatel: compaq 04 Února 2013, 11:52:41
Umí to gthumb (http://www.abclinuxu.cz/software/grafika/prohlizece/gthumb), nejen obrázky..
dík