17 | | @Joeri: het zou mooi zijn alle info die HarmJan nu noemt dus ook getoond kunnen worden. Je zou HWE en MAF kunnen zien als features, elke SNP als target, en dan dus values voor elke combo. |
| 25 | @Joeri: het zou mooi zijn alle info die HarmJan? nu noemt dus ook getoond kunnen worden. Je zou HWE en MAF kunnen zien als features, elke SNP als target, en dan dus values voor elke combo. |
| 26 | |
| 27 | We need to be able to link geno to pheno data |
| 28 | |
| 29 | Proposal by Jan-Lucas: |
| 30 | |
| 31 | Uitgangspunten: |
| 32 | |
| 33 | Marcel spreadsheet bevat LLPatient ID's en Marcel Pseudoniemen (gekoppeld). |
| 34 | LL PatientID's gaan niet van LRA naar Target Stage. |
| 35 | Target Stage bevat LL bronpseudoniem. |
| 36 | Voor onderzoek wordt LL bronpseudoniem vervangen door onderzoekpseudoniem. |
| 37 | Voorstel zelf: |
| 38 | |
| 39 | Marcels spreadsheet wordt geimporteerd in LRA, indien niet mogelijk in aparte database. |
| 40 | Bij aanmaken dataset in UMCG Publish voor een onderzoek wordt Marcels spreadsheet op dezelfde manier gepseudonimiseerd als de LRA data, van Patient ID naar bronpseudoniem naar onderzoekspseudoniem. Dit levert lijst op met onderzoekspseudoniem en Marcelpseudoniem. |
| 41 | Lijst gaat mee in data export/import naar CIT Publish. |
| 42 | Op CIT publish komt een view die vertaling maakt van Marcelpseudoniem naar onderzoekspseudoniem per onderzoek. View kan relatoneel zijn, maar ook XML opeleveren. |
| 43 | Op CIT publish komt een database procedure voor legen van tabel met pseudoniemen. |
| 44 | Als LRA dat op CIT Publish staat wordt view uitgelezen, op basis hiervan kan procedure "replace pseudonyms" uitgevoerd worden (uit Gert-Jans PPTX). |
| 45 | Na procedure "replace pseudonyms" wordt eventueel aangemaakte file met pseudoniemen verwijderd. (Bij voorkeur heeft procedure die lijst in memory, maar als in file dan moet deze verwijderd. |
| 46 | Na procedure "replace pseudonyms" wordt tabel met pseudoniemen geleegd voor dat onderzoek, dan met aanroepen database procedure. |
| 47 | We must be able to initiate a GWAS run from the Research Portal |
| 48 | |
| 49 | Proposed flow by Morris: |
| 50 | |
| 51 | precondition: |
| 52 | |
| 53 | De research portal heeft toegang tot een genofile (meteen plink format + binary format) met daarin dezelfde individual pseudonyms als in de pheno database. Of kunnen we hier beter alleen de xQTL binary file voor gebruiken? |
| 54 | Deze genodata wordt dus vooraf al per research portal met de juiste pseudoniemen klaargezet (=SOP genodata). De portal hoeft dus niet zelf de pseudonimisatie te raadplegen. |
| 55 | De VM draait direct bovenop het cluster en heeft via dat cluster toegang tot GPFS. Elke research portal heeft dus een folder zoiets als /gpfs/target/lifelines/study1/rawdata/study1.bed |
| 56 | logica: |
| 57 | |
| 58 | Als de gebruiker het phenotype heeft geselecteerd gaat programma dus, gegeven lijst van individuen, de gehele bed (?) file doorlopen en (1) rijen weglaten van individuals die niet in de view zitten en (2) de pheno kolom aanpassen met het juiste phenotype. |
| 59 | Implementatie is afhankelijk van hoe lang dit proces duurt. Is het 'klaar terwijl je wacht' dan kan het gewoon als plugin. Anders moet het via MOLGENIS compute zoals Joeri beschrijft. Output: /gpfs/target/lifelines/study1/results/myselection1.bed |
| 60 | Acceptance criteria: |
| 61 | |
| 62 | List of individuals and selected phenotype are passed from the Portal |