Changes between Version 1 and Version 2 of StoryConvertGenoData


Ignore:
Timestamp:
2011-11-28T07:50:03+01:00 (13 years ago)
Author:
Morris Swertz
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • StoryConvertGenoData

    v1 v2  
    1 === We must have the imputed Third Release geno data on gpfs storage ===
    2  * Harm-Jan is currently imputing; this will take another two weeks.
    3  * After that we can upload these data (in TriTyper format?) to gpfs.
     1As a user, I want to select a phenotype and a list of individuals in the Molgenis Research Portal and then run a GWAS on the LL geno data
    42
     3Scrum: ticket:1052
     4
     5Acceptance criteria:
     6
     7Status per sub-story:
     8
     9We must have the imputed Third Release geno data on gpfs storage
     10
     11Harm-Jan is currently imputing; this will take another two weeks.
     12After that we can upload these data (in TriTyper? format?) to gpfs.
    513Harm-Jan:
    614
     
    1523(2) Dit is namelijk iets wat LifeLines straks gewoon zelf moet kunnen (dwz Alex pipeline werkt al op compute dus als die identiek is hebben we 'go').
    1624
    17 @Joeri: het zou mooi zijn alle info die HarmJan nu noemt dus ook getoond kunnen worden. Je zou HWE en MAF kunnen zien als features, elke SNP als target, en dan dus values voor elke combo.
     25@Joeri: het zou mooi zijn alle info die HarmJan? nu noemt dus ook getoond kunnen worden. Je zou HWE en MAF kunnen zien als features, elke SNP als target, en dan dus values voor elke combo.
     26
     27We need to be able to link geno to pheno data
     28
     29Proposal by Jan-Lucas:
     30
     31Uitgangspunten:
     32
     33Marcel spreadsheet bevat LLPatient ID's en Marcel Pseudoniemen (gekoppeld).
     34LL PatientID's gaan niet van LRA naar Target Stage.
     35Target Stage bevat LL bronpseudoniem.
     36Voor onderzoek wordt LL bronpseudoniem vervangen door onderzoekpseudoniem.
     37Voorstel zelf:
     38
     39Marcels spreadsheet wordt geimporteerd in LRA, indien niet mogelijk in aparte database.
     40Bij aanmaken dataset in UMCG Publish voor een onderzoek wordt Marcels spreadsheet op dezelfde manier gepseudonimiseerd als de LRA data, van Patient ID naar bronpseudoniem naar onderzoekspseudoniem. Dit levert lijst op met onderzoekspseudoniem en Marcelpseudoniem.
     41Lijst gaat mee in data export/import naar CIT Publish.
     42Op CIT publish komt een view die vertaling maakt van Marcelpseudoniem naar onderzoekspseudoniem per onderzoek. View kan relatoneel zijn, maar ook XML opeleveren.
     43Op CIT publish komt een database procedure voor legen van tabel met pseudoniemen.
     44Als LRA dat op CIT Publish staat wordt view uitgelezen, op basis hiervan kan procedure "replace pseudonyms" uitgevoerd worden (uit Gert-Jans PPTX).
     45Na procedure "replace pseudonyms" wordt eventueel aangemaakte file met pseudoniemen verwijderd. (Bij voorkeur heeft procedure die lijst in memory, maar als in file dan moet deze verwijderd.
     46Na procedure "replace pseudonyms" wordt tabel met pseudoniemen geleegd voor dat onderzoek, dan met aanroepen database procedure.
     47We must be able to initiate a GWAS run from the Research Portal
     48
     49Proposed flow by Morris:
     50
     51precondition:
     52
     53De research portal heeft toegang tot een genofile (meteen plink format + binary format) met daarin dezelfde individual pseudonyms als in de pheno database. Of kunnen we hier beter alleen de xQTL binary file voor gebruiken?
     54Deze genodata wordt dus vooraf al per research portal met de juiste pseudoniemen klaargezet (=SOP genodata). De portal hoeft dus niet zelf de pseudonimisatie te raadplegen.
     55De VM draait direct bovenop het cluster en heeft via dat cluster toegang tot GPFS. Elke research portal heeft dus een folder zoiets als /gpfs/target/lifelines/study1/rawdata/study1.bed
     56logica:
     57
     58Als de gebruiker het phenotype heeft geselecteerd gaat programma dus, gegeven lijst van individuen, de gehele bed (?) file doorlopen en (1) rijen weglaten van individuals die niet in de view zitten en (2) de pheno kolom aanpassen met het juiste phenotype.
     59Implementatie is afhankelijk van hoe lang dit proces duurt. Is het 'klaar terwijl je wacht' dan kan het gewoon als plugin. Anders moet het via MOLGENIS compute zoals Joeri beschrijft. Output: /gpfs/target/lifelines/study1/results/myselection1.bed
     60Acceptance criteria:
     61
     62List of individuals and selected phenotype are passed from the Portal
    1863
    1964=== We need to be able to link geno to pheno data ===