| 107 | Proposed flow by Morris: |
| 108 | |
| 109 | precondition: |
| 110 | * De research portal heeft toegang tot een genofile (meteen plink |
| 111 | format + binary format) met daarin dezelfde individual pseudonyms als |
| 112 | in de pheno database. Of kunnen we hier beter alleen de xQTL binary |
| 113 | file voor gebruiken? |
| 114 | * Deze genodata wordt dus vooraf al per research portal met de juiste |
| 115 | pseudoniemen klaargezet (=SOP genodata). De portal hoeft dus niet zelf |
| 116 | de pseudonimisatie te raadplegen. |
| 117 | * De VM draait direct bovenop het cluster en heeft via dat cluster |
| 118 | toegang tot GPFS. Elke research portal heeft dus een folder zoiets als |
| 119 | /gpfs/target/lifelines/study1/rawdata/study1.bed |
| 120 | |
| 121 | logica: |
| 122 | * Als de gebruiker het phenotype heeft geselecteerd gaat programma |
| 123 | dus, gegeven lijst van individuen, de gehele bed (?) file doorlopen en |
| 124 | (1) rijen weglaten van individuals die niet in de view zitten en (2) |
| 125 | de pheno kolom aanpassen met het juiste phenotype. |
| 126 | * Implementatie is afhankelijk van hoe lang dit proces duurt. Is het |
| 127 | 'klaar terwijl je wacht' dan kan het gewoon als plugin. Anders moet |
| 128 | het via MOLGENIS compute zoals Joeri beschrijft. Output: |
| 129 | /gpfs/target/lifelines/study1/results/myselection1.bed |
| 130 | |