Autor Téma: Nejaky inteligentni filesystem/databaze dokumentu (Přečteno 3072 krát)

asiJa · « **kdy:** 28 Listopadu 2012, 11:29:18 »

Ahoj, dlouhou dobu hledam neco kde by se daly organizovat soubory lepe nez v klasicke adresarove strukture na disku.

Co bych chtel (Muj Wishlist na idealni zpravu dat a dokumentu):

1) Abych mohl mit soubor / adresar ve vice adresarich soucasne, ale aby se (a) nesmazal kdyz ho vymazu z jednoho adresare (b) aby se nemohlo stat ze vsechny linky prestanou platit protoze sem soubor presunul. Tedy melo by to byt tak, ze soubor ma nejaky jednoznacny identifikator nezavisly na adresarove strukture, a jeho instance v adresarich jsou neco jako soft-linky. Vlastne by se to melo podobat tomu co delaji "tagy" a "keyword", jen s tim rozdilem ze by mohly byt hierarchicke (jako adresare). Napr. dejme tomu ze mam knizku o "areodynamice bojovych letadel" kterou jsi chci precist. Chci si ju ulozit do aktualnich knizek na cteni, zaroven do struktury svych dokumentu o areodynamice, a zaroven do struktury svych dokumentu o vojenstvi.

2) Aby se v tom dalo inteligentne vyhledavat. To pro mne znamena (a) schopnost fultextove vyhledavat v textovych souborech (tj. ASCII text, LaTeX, zdrojove kody, doc, PDF ) ale aby to nestracelo cas prohledavanim binarek (treba hledat textove retezce v souborech hudby, videa a spustitelnych binarkach programu -- to je fakt opruz). Dale by se mela dat omezit oblast prohledavani (na podvetev adresarove struktury, resp. jen na nektere "tagy"). Ale hlavne by to nemelo pouzivat masivni indexovani. Skousel jsem Google Desktop, a nejake ty indexovaci vyhledavace v linuxu (napr. Beagle), a je to peklo - indexuje to nekolik hodin, vyrobi to nekolika-gigabajtovy soubor na disku, a nakonce to stejne nic poradne nenajde.

3) Integrace internetovym ulozistem a zdileni, sychroznizace - Dela mi uz docela problem jak mam rozhazene odkazy/soubory v nekolika spolu nekomunikujicich zdrojich. (a) soubory na disku v adresarich (b) sobory v uplne jine adresarove strukture DropBox, GoogleDrive (c) soubory na flashce a externim disku (d) bookmarky v GoogleChrome (e) oblibena videa na youtube, dailimotion, vimeo. Opravdu me docela stve jak musim vsechno rucne preorganizovavat, a vzpominat si kam jsem presne co kdysi davno ulozil. Zvlast kdyz chci neco sychronizovat na ruznych pocitach.

Typicky problem jsou treba clanky v Mendeley (http://www.mendeley.com/). Mam je nekde ulozene na disku, kdyz je presunu tak se mi prerusi linky mezi polozkou v mendelay databazi citaci, a mezi souborem PDF. Pokud chci mit ty clanky na vice pocitacich je to fakt problem.

4) Soucasna zprava ruznych typu dokumentu - Pokud to chci nejak zpravovat a preorganizovavat data tykajici se stejneho tematu ale jineho typu. Dejme tomu ze mam k tema tu aerodynamika (a) pdf knihy/clanky (b) obrazky (c) vlastni textove soubory (doc, odt. LaTeX) (d) wikistranky (e) odkazy na webowe stranky pojednavajici o te problematice (f) videa na youtube o tehle problematice (g) nejake videa / hudebni soubory na disku ..... Jak tohle prochazet a organizovat nejak soucasne. Na kazdy typ souboru existuje program ktery je +/- dobry v organizaci toho konkretniho druhu dat, ale jakmile chce clovek tridit veci podle tematu, nikoli pdole datoveho typu, nastava problem. Clovek ma na disku adresare "Video" "Hudba" "Dokumenty" "Knihy" .... jenze potom v kazdem z tehle adresaru ma dost casto podobne podslozky (napr. Military podslozka v hudbe obsahuje vojenskou pochotovou hudbu, Military podslozka ve videu obsahuje dokumenty o druhe svetove, Military podslozka v knihach obsahuje .pdf o osprey publishing .... v kazde z nich je podslozka o "tanky wwII", tematicky jsou vsechny relevantni, ale z pohledu souboroveho systemu a vetsiny aplikaci mezi nimi neni pojitko.

Je fakt skoda ze za 15 let co pouzivam pocitac se jeste nepodarilo vyresit tuhle duplicitu a izolovanost organizace dokumentu a temat.

beer · « **Odpověď #1 kdy:** 28 Listopadu 2012, 12:07:56 »

Tak jako filesystém pro tvoje potřeby je ideální BTRFS. To řeší duplicity v rámci filesystému. Jestli se nepletu, umí snashoty a i snad verzování.

Co se týká těch ostatních věcí, to je spíše problém strukturovanosti a nestrukturovanosti dat.
Prohledávat text umí standardní linuxové nástroje. V prvé řadě je ale asi nejlepší si udělat pořádek v hlavě a vědět co a kde mám a proč. Abys mohl s daty inteligentně pracovat, musíš je mít nějak strukturovaná, a to ideálně i v adresářové struktuře, pod odpovídajícímy názvy. Tagovat a mít správné exif informace a pod.

asiJa · « **Odpověď #2 kdy:** 28 Listopadu 2012, 12:49:05 »

dival jsem se na to BTRFS, (dik za hint), vypada to zajimave ( http://en.wikipedia.org/wiki/Btrfs ). Ale jak vidim neni to hotove, natoz pak neco +/- rozsireneho, abych si mohl dovolit jakozto BFU to bezobav pouzit jako filesystem pro muj "/home"

tak jako jasne ze ta organizace stale zustava hlavne veci uzivatele. Ale jde o to jak je to snadne, robusni, a jak velke vyhody clovek ziska kdyz to zorganizuje. Verim tomu ze nizkourovnove nastroje na reseni jednotlivych subproblemu existuji, a pro svuj konkretni ukol i docela dobre funguji (at uz treba to o BTRFS, nebo z uzivtlekseho hlediska spise ten Mendelay, nebo knihona hudby ala iTunes, a knihovna obrazku ala Picasa, nebo interntetove uloziste ala DropBox)

.... jde vlastne jen o jedno INTEGROVAT TO vsechno do uzivatelskeho prostredi, tak aby to bylo skutecne integralni soucasti, ne soubor nezavislych exotickych vzajmne nekompaktibilnich programu v betaverzi bez uzivatlekse zakladny a podpory.

beer · « **Odpověď #3 kdy:** 28 Listopadu 2012, 13:04:14 »

Ta integrace není jednoduchá záležitost, zabývají se tím velké firmy typu Red Hat (Storage Software Appliance,...), Novell (Novell File Management Suite, Novell File Reporter, Novell Storage Manager, Novell Dynamic File Services) nebo Oracle (Oracle Big Data Appliance, Oracle Endeca Information Discovery), IBM, SAP.

Tyto produkty neznám, jen vím, že takové produkty existují.

pacholik · « **Odpověď #4 kdy:** 28 Listopadu 2012, 14:38:32 »

1. pro soubory hardlink

2. najde soubory *.xyz v adresáři /složka/kde/to/hledám, které obsahují fráze kterou hledám

Kód: [Vybrat]

grep -l "fráze kterou hledám" `find /složka/kde/to/hledám -iname '*.xyz'`

beer · « **Odpověď #5 kdy:** 28 Listopadu 2012, 14:58:14 »

Citace: asiJa 28 Listopadu 2012, 12:49:05

dival jsem se na to BTRFS, (dik za hint), vypada to zajimave ( http://en.wikipedia.org/wiki/Btrfs ). Ale jak vidim neni to hotove, natoz pak neco +/- rozsireneho, abych si mohl dovolit jakozto BFU to bezobav pouzit jako filesystem pro muj "/home"

Ten btrfs určitě se již dá bez obav používat. Jediná nevýhodu shledávám v mírné pomalosti. Na druhou stranu je to jeden ze 2 filesystémů, které se přímo doporučují například pro SSD (tím druhým je ext4). BTRFS byl dokonce doporučovaný pro ssd jako první. V dnešní době už bych se ho nebál nasadit.

Zajímavý článek je zde:
http://www.root.cz/clanky/dva-mesice-s-btrfs-zkusenosti-a-postrehy/

Citace: pacholik 28 Listopadu 2012, 14:38:32

1. pro soubory hardlink

2. najde soubory *.xyz v adresáři /složka/kde/to/hledám, které obsahují fráze kterou hledám
Kód: [Vybrat]
grep -l "fráze kterou hledám" `find /složka/kde/to/hledám -iname '*.xyz'`

1. hardlink, nebo reflink, viz odkazovan článek, dá se nastavit jako alias pro kompatibilitu mezi různými souborovými systémy:

alias cp='cp –reflink=auto'

2. ano, to je příklad, který jsem měl na mysli větou

Citace

Prohledávat text umí standardní linuxové nástroje.

asiJa · « **Odpověď #6 kdy:** 28 Listopadu 2012, 17:41:43 »

ad http://www.root.cz/clanky/dva-mesice-s-btrfs-zkusenosti-a-postrehy/
COOL!

Citace

Možná si teď říkáte, že na tohle existují nejrůznější programy pro správu verzí. Dokonce existují i transparentní verzovací souborové systémy přes FUSE, např. CopyFS. Jenže… o CVS se musí člověk starat, nějak se v tom angažovat, není to „samo“, navíc je to nevhodné a neefektivní pro větší objemy dat.

Presne!

Citace

Vytvořit snapshot je možné jen v rámci celého disku, nikoli adresáře. Dále bohužel zatím není možné zjistit, kolik jednotlivé snapshoty zabírají, resp. kolik místa se jejich vymazáním uvolní.

Proc? Je to jen docasne (zatim nedodelana featura) nebo by to predstavovalo nejaky principielni problem?

jinak jedna vec je filesystem a "cp –reflink=auto", ale druha vec je GUI. I kdyz pravidelne delam veci v terminalu, nechtel bych v nem organizovat si dokumenty na Plose. Dokud to nebude integrovane v Desktop Enviromentu, jako by to nebylo. Skutecnost je takova ze aktualne treba Nautilus neumi ani udelat hardlink.

Citace: pacholik 28 Listopadu 2012, 14:38:32

1. pro soubory hardlink

2. najde soubory *.xyz v adresáři /složka/kde/to/hledám, které obsahují fráze kterou hledám
Kód: [Vybrat]
grep -l "fráze kterou hledám" `find /složka/kde/to/hledám -iname '*.xyz'`

No tak "grep" a "find" samozdrejme znam/pouzivam kdyz treba programuju. Ale to abych ho nemusel ja ani jiny BFU pouzivat k prohledavani .DOCu a .PDFek jsem myslel tim

Citace

jde vlastne jen o jedno: INTEGROVAT TO vsechno do uzivatelskeho prostredi

pacholik · « **Odpověď #7 kdy:** 28 Listopadu 2012, 19:49:22 »

Tak můžeš zapojit pdftotext, antiword, docx2txt apod. Až to budeš mít určitě se tady pochlub výsledkem

Autor Téma: Nejaky inteligentni filesystem/databaze dokumentu (Přečteno 3072 krát)

asiJa

Nejaky inteligentni filesystem/databaze dokumentu

beer

Re:Nejaky inteligentni filesystem/databaze dokumentu

asiJa

Re:Nejaky inteligentni filesystem/databaze dokumentu

beer

Re:Nejaky inteligentni filesystem/databaze dokumentu

pacholik

Re:Nejaky inteligentni filesystem/databaze dokumentu

beer

Re:Nejaky inteligentni filesystem/databaze dokumentu

asiJa

Re:Nejaky inteligentni filesystem/databaze dokumentu

pacholik

Re:Nejaky inteligentni filesystem/databaze dokumentu