wiki:MolgenisAppStories

Version 13 (modified by Erik Roos, 12 years ago) (diff)

--

Om deze achterstand weg te werken wil ik vrijdag middag van jullie een lijst van alle relevante user stories in 1 word document/dropbox of (gcc) wiki (wat jullie voorkeur heeft). Per story wil ik dat jullie opschrijven:

  • de acceptance criteria / demo / requirements
  • al jullie open vragen, hoe onnozel ook
  • schets van voorlopig ontwerp / implementatie status
  • de taken die jullie hiervoor op het scrum bord hebben staan

As LL team we want to be able to deploy VMs with a basic toolset

As LL team we want to connect each WOM to the proper VM

As LL team we want to provide a Molgenis Research Portal for each study

In the Molgenis Research Portal, we want to have a Phenotype Matrix Viewer

As a user, I want to select a phenotype and a list of individuals in the Molgenis Research Portal and then run a GWAS on the LL geno data

We must have the imputed Third Release geno data on gpfs storage

  • Harm-Jan is currently imputing; this will take another two weeks.
  • After that we can upload these data (in TriTyper? format?) to gpfs.

Harm-Jan:

Op dit moment ben ik de genotype data van LifeLines release 3 aan het imputeren op het millipede cluster. Ik zal proberen deze in de gestelde twee weken klaar te hebben. Als dit allemaal is afgerond heb ik een file die voor elke SNP aangeeft wat de imputatie kwaliteit is geweest (mbv de door BEAGLE aangegeven r2 kwaliteits score), per 300 samples. Om de data spoedig te imputeren deel ik de totale dataset namelijk op in batches van ongeveer 300. Ik zal er voor zorgen dat er een koppeltabel komt die aangeeft welke sample in welke batch zit en geef daarnaast ook de gemiddelde imputatie score over alle batches. Daarnaast loont het de moeite om voor elke SNP ook de minor allele frequency (MAF) en de Hardy-Weinberg p-waarde (HWEP) te presenteren. Deze HWEP is een waarde die aangeeft of de verdeling van de allelfrequentie voor een SNP overeenkomt met de verwachte allelfrequentie verdeling voor die SNP. We hebben eerder gezien dat een lage HWEP vaak samen gaat met een lage imputatie kwaliteit (ie: door fouten in imputatie wijkt de werkelijke allelfrequentie verdeling af van de verwachte). Bovendien zijn deze waardes zijn eenvoudig uit te rekenen met de software die ik Joeri eerder heb gegeven. Daarnaast kan de MAF ook informatief zijn aangezien laag-frequente SNPs (MAF < 0.01) slecht geimputeerd worden in de huidige setting, aangezien de referentie dataset slechts 90 samples bevat.

Morris:

2 vraagjes:

(1) Wat is de preciese imputatie procedure? (of verschilt die niet van wat Alex doet)? We moeten onderzoekers namelijk precies kunnen vertellen wat ze krijgen.

(2) Dit is namelijk iets wat LifeLines straks gewoon zelf moet kunnen (dwz Alex pipeline werkt al op compute dus als die identiek is hebben we 'go').

@Joeri: het zou mooi zijn alle info die HarmJan? nu noemt dus ook getoond kunnen worden. Je zou HWE en MAF kunnen zien als features, elke SNP als target, en dan dus values voor elke combo.

We need to be able to link geno to pheno data

Proposal by Jan-Lucas:

Uitgangspunten:

  1. Marcel spreadsheet bevat LLPatient ID's en Marcel Pseudoniemen (gekoppeld).
  2. LL PatientID's gaan niet van LRA naar Target Stage.
  3. Target Stage bevat LL bronpseudoniem.
  4. Voor onderzoek wordt LL bronpseudoniem vervangen door onderzoekpseudoniem.

Voorstel zelf:

  1. Marcels spreadsheet wordt geimporteerd in LRA, indien niet mogelijk in aparte database.
  2. Bij aanmaken dataset in UMCG Publish voor een onderzoek wordt Marcels spreadsheet op dezelfde manier gepseudonimiseerd als de LRA data, van Patient ID naar bronpseudoniem naar onderzoekspseudoniem. Dit levert lijst op met onderzoekspseudoniem en Marcelpseudoniem.
  3. Lijst gaat mee in data export/import naar CIT Publish.
  4. Op CIT publish komt een view die vertaling maakt van Marcelpseudoniem naar onderzoekspseudoniem per onderzoek. View kan relatoneel zijn, maar ook XML opeleveren.
  5. Op CIT publish komt een database procedure voor legen van tabel met pseudoniemen.

  1. Als LRA dat op CIT Publish staat wordt view uitgelezen, op basis hiervan kan procedure "replace pseudonyms" uitgevoerd worden (uit Gert-Jans PPTX).
  2. Na procedure "replace pseudonyms" wordt eventueel aangemaakte file met pseudoniemen verwijderd. (Bij voorkeur heeft procedure die lijst in memory, maar als in file dan moet deze verwijderd.
  3. Na procedure "replace pseudonyms" wordt tabel met pseudoniemen geleegd voor dat onderzoek, dan met aanroepen database procedure.

As a LL data manager, I want to have a Catalog of the LL phenotype data

  • Functional design / mock-up of Catalog on Catalogue
  • We still need a technical design of the Catalog.
  • Despoina and Chao need LL metadata to fill their first version of the catalog with. Joris will provide them these data, however, they are still incomplete and will probably change.