Zdravim
Resim ted takovy problem : Mam v textovem souboru ulozenou tabulku a potreboval bych ji nejak dostat do Pythonu ve forme matice. K tomuto ucelu jsem si nastudoval praci s
numpy jenze problem je ten import. Nasel jsem nekolik popsanych reseni prevedeni .cvs souboru, kde jsou ale jednotlive hodnoty oddelene strednikem. V moji tabulce jsou ale hodnoty oddelene mezerami, snad to ani neni tabulator ale proste jen nejaky pocet mezer. Krome toho mam v prvnim sloupci cisla radku coz je zbytecnost a pak oznaceni dat oddelene pomoci | . Cele to vypada nejak takhle :
1: sp|Q8GBW6|12S_PROFR 100 8 5 6 7 9 6 5
2: sp|P93343|1433C_TOBAC 8 100 5 9 7 4 6 8
3: sp|P18485|1A12_SOLLC 5 5 100 5 5 8 5 8
4: sp|P37821|1A1C_MALDO 6 9 5 100 6 9 7 6
5: sp|Q00740|1A1D_PSEUD 7 7 5 6 100 6 25 10
6: sp|O57809|1A1D_PYRHO 9 4 8 9 6 100 8 6
7: sp|Q7M523|1A1D_CYBSA 6 6 5 7 25 8 100 7
8: sp|Q96QU6|1A1L1_HUMAN 5 8 8 6 10 6 7 100
Rad bych abych mel v prvnich trech sloupcich jen oznaceni s
p ... P93343 ... 12S_PROFR a pak nasledovala vlastni matice. Cislovani radku vypustit. Ted resim jaka je nejlepsi cetsa k uspechu.
1. Cele to nejak nacist do Pythonu a pak pripadne rozdelit sloupce.
- zatim se mi ani nepodaril krok jedna, protoze vetsina popsanych navodu pojednava o importu .csv oddelenych strednikem nebo jinymy znaky.
2. Udelat nejaky preproccesing pomoci bashe aby vznikla kyzena tabulka oddelena srtedniky, kterou bych pak jen jednoduse importoval do Pythonu.
-
Priznam se ze s tim zatim neprilis uspesne bojuju, tak kdyby nekdo poradil, budu moc rad. Mimojine ta tabulka je velikosti cca. 7000x7000 zaznamu, takze prave proto hledam pokud mozno co nejvic optimalni reseni, jelikoz kazdy vypocet docela slusne zaseka pocitac.
diky moc K