Changes between Version 12 and Version 13 of MolgenisAppStories


Ignore:
Timestamp:
2011-11-25T14:31:29+01:00 (13 years ago)
Author:
Erik Roos
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • MolgenisAppStories

    v12 v13  
    2121* Harm-Jan is currently imputing; this will take another two weeks.
    2222* After that we can upload these data (in TriTyper format?) to gpfs.
     23
     24Harm-Jan:
     25
     26Op dit moment ben ik de genotype data van LifeLines release 3 aan het imputeren op het millipede cluster. Ik zal proberen deze in de gestelde twee weken klaar te hebben. Als dit allemaal is afgerond heb ik een file die voor elke SNP aangeeft wat de imputatie kwaliteit is geweest (mbv de door BEAGLE aangegeven r2 kwaliteits score), per 300 samples. Om de data spoedig te imputeren deel ik de totale dataset namelijk op in batches van ongeveer 300. Ik zal er voor zorgen dat er een koppeltabel komt die aangeeft welke sample in welke batch zit en geef daarnaast ook de gemiddelde imputatie score over alle batches. Daarnaast loont het de moeite om voor elke SNP ook de minor allele frequency (MAF) en de Hardy-Weinberg p-waarde (HWEP) te presenteren. Deze HWEP is een waarde die aangeeft of de verdeling van de allelfrequentie voor een SNP overeenkomt met de verwachte allelfrequentie verdeling voor die SNP. We hebben eerder gezien dat een lage HWEP vaak samen gaat met een lage imputatie kwaliteit (ie: door fouten in imputatie wijkt de werkelijke allelfrequentie verdeling af van de verwachte). Bovendien zijn deze waardes zijn eenvoudig uit te rekenen met de software die ik Joeri eerder heb gegeven. Daarnaast kan de MAF ook informatief zijn aangezien laag-frequente SNPs (MAF < 0.01) slecht geimputeerd worden in de huidige setting, aangezien de referentie dataset slechts 90 samples bevat.
     27
     28Morris:
     29
     302 vraagjes:
     31
     32(1)
     33Wat is de preciese imputatie procedure?
     34(of verschilt die niet van wat Alex doet)?
     35We moeten onderzoekers namelijk precies kunnen vertellen wat ze krijgen.
     36
     37(2)
     38Dit is namelijk iets wat LifeLines straks gewoon zelf moet kunnen (dwz
     39Alex pipeline werkt al op compute dus als die identiek is hebben we
     40'go').
     41
     42@Joeri: het zou mooi zijn alle info die HarmJan nu noemt dus ook
     43getoond kunnen worden. Je zou HWE en MAF kunnen zien als features,
     44elke SNP als target, en dan dus values voor elke combo.
    2345
    2446=== We need to be able to link geno to pheno data ===