Feedback on WormQTL, may 2012
That looks very good, because a lot of info in gff format to obtain, which makes integration with other data much easier. This is also recognizable for the Worm community, which is always nice. That several of these chromosomes there we'll find another way, in terms of plot summary is what we have now fine, that is even better if we do not map folders which has 400 + informative markers. What you have now is functional! Here people can live with that. Plus Worm Base this format also used and they may want to include or link. One thing would be behind the probe particularly in brackets or something the public can come particularly those which are easier to value. I have no idea about the difference between the browsers, since Worm Base and Mode Code with the same work. For gff track you can also try different Fashion Code Base Worm has also an ftp site with older tracks. I believe that SNP data can also be converted to gff right? I assume it's a matter of time before Worm Base and other tracks can be combined, in short I am very excited about it. This is a very good example for the upcoming paper, especially if we can say that we (e) QTL results are combined with public information, which is now quite difficult and a lot of manual work content. Furthermore, we had a nice comment on the poster on WormQTL. Many people saw the need and usefulness of it there. I got a tip to the number of people with Rqtl to combine, even if we would limit to 1 per probe mapping. In terms of visualization, it is therefore easy as Danny (and co.) Have designed a lot of nice figures! This peak detection is difficult idd but can be unloaded. There is a peak detection in cran package, though not perfect, it also works for QTLs. Furthermore I have ever made, where each chromosome is the highest peak is taken and then looked left and right at the marker is -1.5 LOD (or -2) is then repeated this in front of the markers outside the QTL region , so there is a marker on> 3 where the left and right markers equal or lower, and then into the lower marker -1.5 LOD, etc. .. Can the code so as not to dive. This works but may not be the quickest solution. But you do not often fool the whole set to convert. In short, I see this design certainly succeed, mainly because it combines well with other data, it is a recognizable makes it much easier for many people to involve QTL data in their research.
Good, that the data of PANACEA will be put into WormQTL as by the deliverable D6.15. However the focus now is on the release of WormQTL (which means no unpublished data!), so we might want to prioritise that. Anyway i’ve updated the list, which was made by me for the setup of WormQTL. Now we can see what needs to be added or updated still (see attachment). The thing we could do is look for other published QTL studies (especially phenotypic from the Kruglyac lab) and add those. The datasets should be small and can be linked with the Rockman RIAILs which are already in the database. For the PANACEA data:
- This is not public data it should be protected, it is a separate undertaking from the WormQTL paper.
- the probes of the WUR agilent array need to be blasted against WS220.
- You have the gld-1 data and eQTLs (but we probably should compare the WLS samples and normalisation methods)
- The proteomics data is not finished
- The RNAi data from Elvin & Snoek etal. is in the public data area.
- I’m working on the MIRIL data, which is not yet in the stage of making it available (it will be in a few weeks as far as gene expression and the preliminary QTL mappings go).
- The phenotypic (VI, gonad migration) data and QTLs from the MIRILs are available, but i rather send that together with all the other MIRIL stuff
- The raw data from the large screen of ~200 RNAi on ~50 RILs and ~30 NILs is available but still has to be processed.
- Some apoptosis phenotypes....
If we can make some of this available to us and present this at the up-coming meeting it would be great, but nowhere near essential. To extend this even further, we have data from two other projects GRAPPLE and NEMADAPT which fit right in, but are not public at this moment. In fact we are currently working or three things (which luckily overlap ;-),
- The WLS paper
- WormQTL and the upcoming deadline for the paper
- Making the PANACEA data available
The first two things are much more urgent than the last since the official progress report is not due until the end of the project.
Feedback on WormQTL, march 2012
- It is slow
- If one searches for a gene, the QTL profiles of all the probes should be given ( at least in one experiment, preferably over all experiments
- The matrixes with QTL effects are QTL effect sizes and not LOD scores
- The extra information should only be show after clicking (a drop box?), an overview is missing and most users will be overwhelmed with details.
- Make other search types, example give all genes that have a QTL between … and … bp with a lod score > … in a certain experiment
- Really a plot where results over experiments can be compared is needed.
- Is your last session saved?
- Why do I need to click search twice sometimes
- All phenotypes gives error; but search for genes works
- After probes are found a link that says QTL should be very clear!!
- At QTL page, Probe label at the top should be accompanied by gene name
- Investigation should not be PANACEA but more general
- The QTL graph should be larger
Notes Morris xQTL workbench review meeting 4 march 2011 @ GBIC
Attending: Yang, Maria, Frank, Danny, Joeri, Morris
Priorities: (1) Loading data foramts, universal data loading functions (2) Mislabeling scripts [need 'news' place where this can be viewed'] (3) Pathway picture + QTL + linkout + gene expression + phenotypes
Frank:
- Storing your data
- Running quick analyses
- Quality control of the data (standard, missing markers)
- Every new collaboration data sets are different slightly; standardized solution
- Time investing of matrix cleaing (missing data, wrong columns); have these times of parsing
- Pulldown button for format parsers; inventory of how these data sets look like
- Set based select all the trans regulated probes
Maria:
- Starting to learn R
- Having a button for standard analyses
- Preliminary analysis tool
- Prefer to look at the code
Yang:
- To do analyses and run it in parallel myself
- Can test my code on the machine and get error message (requirement)
- Expected gains: have more R tools on this, for pictures, tables
- Expected gains:
- Standard importers for Agilent, Affymetrix, Nimblegen
- Do you show all annotation of a particular gene, which gene it is, located, is there a SNP
- Can we make a pathway picture; I want to submit all my genes there and I know the relations. See QTL and Pathway plots together, possibly in different conditions or factors.
Danny:
- What additional you want (boxploting, histograms, common jobs)
- Would the data formats you use
Joeri:
- Want to have pathway
Name candidate: Omics workbench.
Notes Joeri xQTL workbench review meeting 4 march 2011 @ GBIC
General
- It must be open and clear what exact code is (or will be) executed
- Having quality control (tools) for the data would be great
- There must be helpful error reporting in combination with script testing possibilities
- In general, more tools, visualizations and statistical reports make the system attractive
- We must find out if and how the latest technologies and formats fit into the system
- Idea: put 'cross' object as a file in the database with seperate script? Works best with workflows and 'pull' architecture
- We will get example data and scripts from Yang and Frank soon to testdrive our capabilities and limitations
- Being able to input raw data formats (machine output) directly into R-ready datamatrices, this would save much time formatting and checking
- Having a 'universal' importer that supports many specific formats (agilent, illumina, affy, etc) and does all verification/importing would be ideal
- This importer would be extensible with importers for new formats when needed
- To start with this, make an inventory of such used/popular formats, estimate how complex the importers would be and how much time it costs for each
- Being able to (for example) sort in the matrix viewer and get a trait linkout (either to db or external) would already be a great help when interpreting results
- For biologists, having results plotted on pathways (such as KEGG) would be an immense help for interpretation
- Having Yang's mislabeled sample scripts in the system would be great as a quality control step
Top priority
- Multifunctional importer, having data ready from raw to R-matrix in a few clicks
- Interpretation help in the form of pathway visualizations, linkouts, advanced (matrix) browsing
xqtl review morris
Table of Contents
- Feedback on WormQTL, may 2012
- Feedback on WormQTL, march 2012
- Notes Morris xQTL workbench review meeting 4 march 2011 @ GBIC
- Notes Joeri xQTL workbench review meeting 4 march 2011 @ GBIC
- Algemene zaken
- Main use cases (= voorpagina en topmenu)
- De documentatie moet walkthrough gemaakt
- Detail commentaar systeem (alsjeblieft, het is geen demo)
- Hoe gaan we het systeem aanbieden
Deze app note kan mikken op 2 resultaten:
- een publieke versie waarin wij onze en partner data sets publiceren (tzt geheel webqtl). We zijn goed op weg een WebQTL killer te maken, zeg maar een myExperiment, FaceBook?, ArrayAtlas? BioCatalogue? of Wikipedia voor QTL studies. Misschien iets voor de naam? myqtl.org? qtlatlas.org? qtlpedia.org? qtlcatalogue.org? Maar dan beter wat in tegenstelling tot WebQTL hoef ik niet steeds zo lang te wachten op resultaten.
- een downloadbare versie waarmee mensen hun eigen xqtl kunnen runnen. En het mooie is dat ze maar op 'export' hoeven te drukken om een data setje aan ons te sturen zodat die in de publieke catalogus kan. En we kunnen zelfs via de REST api een syndication gaan implementeren ;-)
Algemene zaken
- Hier en daar moet UI gepolijst en vooral de documentatie moet nog 'walkthrough'.
- de gebruikersgroep beter scheiden: biologen gebruiken de applicatie, bioinformatici kunnen onder admin panel nieuwe zaken toevoegen.
- Terminologie erg abstract en ver van het biobed. Bijvoorbeeld: biologen geven niet om 'jobs' maar wel om 'analyses'. Dus noem het dan 'Analyze Data' of misschien in deze fase zelfs nog beter 'Map QTLs'. Daarnaast mis ik nog een 'Search QTLs' waarbij ik door de resultaten heen kan bladeren.
Main use cases (= voorpagina en topmenu)
Main menu in concept goed maar de knoppen nog niet helemaal: In principe wil ik toch maar 3 dingen?
Use case 1. Search QTL profiles:
Ik wil qtl profielen per phenotype of profielen doorzoeken (net als ik dat in webqtl kan, dus hier kan Despoinas super index helpen) . En eventueel snel inline een qtl plotje bekijken (van 1 of een paar traits) of downloaden (van 1 tot de hele set).
Want wat is de killer feature hier: bij WebQTL moet je dan minuten wachten, hier krijg je het plotje direct te zien. Hoe koel is dat?! En als ik zelf data heb kan ik het hier analyseren met bewezen standaard algoritmen ipv dat nerderige R en dan kan ik alles eenvoudig bekijken en downloaden. Ook erg fijn (als bioloog). In de humane genetica zijn dit soort webtooltjes belachelijk populair dus dat dat beloofd wat.
Use case 2. Browse/edit my data
Ik wil mijn eigen studie toevoegen natuurlijk.
- Ik wil mijn eigen genotype/phenotype sets toevoegen
- Ik wil mijn marker (locus/map) annotaties toevoegen (voor de mapping)
- Ik wil evt mijn probe (locus) annotaties toevoegen (voor de cis/trans plots)
N.B. security discussies even daargelaten. En misschien willen mensen hun studie ook wel weghalen. MOLGENIS kent sinds kort cascading deletes daarvoor.
Use case 3. Run QTL mapping
Ik wil mijn genotype en phenotype setjes kiezen en dan mappen. Als ik nog geen voldoende annotaties heb ingeladen dan moet mijn analyse een foutmelding geven en moet ik een knopje krijgen om hier iets aan te doen. Dat kan mooi onder kopje '2' geregeld al geregeld worden met een berichtje of "de studie is [25,50,80,100%] compleet"
Naast stap 1-3 verwacht ik een admin area
Use case 4. Add new QTL tools
Hier kan ik dan met wat moeite ook nog nieuwe R scripts inladen en aangeven wat voor parameters hier in moeten. Dat moet wel wat simpeler dan nu maar ik vraag me af of dat voor deze submission al moet. Want nu kan het wel, met wat toelichting. En de bioloog zegt: dit is iets wat ik aan mijn huis bioinformaticus moet laten zien.
En een pagina met toelichting (kan ook op voorpagina)
Use case 5. About
En hier de links en logo's van al onze vriendjes en links en logo's naar de tools die in xqtl bijeen zijn gebracht.
Verder klein actiepuntje:
- css aanpassen zodat ik een handje krijg als ik over knoppen zweef; nu lijkt het niet klikbaar
De documentatie moet walkthrough gemaakt
Met de pet van 'ik ben bioloog en heb xqtl nog nooit gezien' ben ik met de documentatie op http://www.xgap.org/wiki/xQTLDemoUserManual aan de gang gegaan en 'plons': ik voelde me enorm in het diepe gegooid (zelfs terwijl ik het systeem notabene ken). Ik kwam namelijk direct uit bij de "starting a job" and "adding your own analysis" en de QTL analyse was ver te zoeken.
Vervolgens ben ik naar het systeem toe gegaan en voelde me al veel meer thuis maar toch nog niet helemaal wat met de volgorde en naam van die blokjes te maken heeft, zie discussie hieronder.
Wat ik hier dus had verwacht was een inhoudsopgave met een overzicht van de belangrijke stappen voor een complete analyse (dat geld voor zowel de software als de handleiding), inclusief substappen:
- "load your data": vanaf het inladen van de data (dan kun je hopelijk een include doen van xgap docs)
- "run analysis": via het runnen van de qtl mapping
- "view/download results" tot en met het bekijken van de resultaten.
Het toevoegen van nieuwe tools is iets voor de huis bioinformaticus dus ergens achteraan.
Dat zie ik nu niet terug dus heb geen idee waar te beginnen. En als ik vervolgens toch de documentatie doorloop zie ik geen duidelijk stappen plan. Kijk eens in het MetaNetwork artikel. Het is echt de gebruiker aan de hand nemen met 'klik hier' en 'klik daar' en 'dan zie je zus en zo'.
Daarnaast mis ik screenshots en moet er een youtube filmpje bij van de belangrijkste stappen uit die walkthrough. Ik bedoel: als we niet in 3 minuten kunnen laten zien hoe zaken moeten is het duidelijk veel te ingewikkeld.
Detail commentaar systeem (alsjeblieft, het is geen demo)
Ik ga nu even ongeremd commentaar geven zonder rekening te houden met wat makkelijk of moeilijk is.
Scherm: Browse/Manage? data (moet soort facebook pagina voor een studie zijn)
Bijna goed maar:
Waar is Investigation gebleven? Zo wordt het toch een enorm zooitje? Zelfs webqtl denkt in investigations (ook al noemen ze het 'databases').
Ik verwacht hier dus een lijst van investigations.
Als ik 1 investigation aanklik (moet dus klikbaar gemaakt als standaard MOLGENIS feature ipv dat stomme icoontje) dan zie ik een overzichtelijke lijst met aanwezige informatie voor die studie. En dus niet ingewikkelde menus met alle mogelijke traits/subjects met lege lijstjes maar alleen als er data is.
Suggestie voor uitwerking:
Studie summary Name: .... Description: ... Added date: ... Publicaties: .... Available resources: [mooi icoontje] Strains (30) [mooi icoontje] Individuen (144) [mooi icoontje] Markers or SNPs (missing) [mooi icoontje] Phenotypes (5) [mooi icoontje] Expression probes (200k) En in datzelfde scherm bijvoorbeeld in een 2e kolom de datasets [naam en kenmerken] Available data: [mooi icoontje*] Genotypes (144 Marker X 30 Strain) [mooi icoontje*] Gene Expressions (200k Probe X 30 Individual) Etc. [pulldown box met data types, bijv Markers] [button: add data]
Aandachtspunten:
- dit scherm kan dan meteen aangeven of je set compleet genoeg is voor analyse.
- als men op een resource of data set klikt dan krijg je gewoon de huidige overzichten te zien (zijn prima)
- Die icoontjes voor dat kunnen we zelfs varieren als we de data matrices gaan taggen.
- In een hulptabel moeten dan per investigation de counts worden bijgehouden omdat het te duur is die steeds uit te rekenen.
- in de standaard molgenis formulieren moet het makkelijker worden dus file menu aanpassen in 'download', 'upload'
Scherm: Import new data (moet verplaatst onder Study en in Admin)
Ten eerste moet niet zo pontificaal maar als extra menu optie bij elke 'studie'. Het is dan een 'studie data import wizard'. Want zo snapt niemand het. En daarnaast kun je een kopietje verbergen in het admin panel.
Ten tweede helpt de terminologie en layout mij veel te weinig om te begrijpen wat ik hier in godsnaam moet doen. Ik bedoel 'definities' en 'data', als nieuwkomer ben ik het spoor helemaal bijster.
Dus die twee import wizards onder studies zetten en een beetje vriendelijker maken:
Wizard 1: Upload Marker maps, Individuals, SNPs or other subjects and traits
Enerzijds wil ik een formulier (en die hadden we toch al) waar ik aparte CSV/Excels kan aanwijzen voor
Suggestie voor layout:
Import: Markers [browse] Traits [browse] Probes [browse] ... etc All in one Excel [browse]
Uiteraard voor elke input sjablonen/voorbeelden van veel voorkomende datasets.
Wizard 2: Upload genotypes, phenotypes, gene expressions and other data matrices ===
Met dit formulier kan ik dus genotypes en phenotypes en andere data matrices inladen.
- Dus noem het dan ook zo: spreek van 'genotype and phenotype data sets' ipv 'matrices'.
- En maak dan voorbeelden van 'genotypes' en 'phenotypes' ipv 'example1' en 'example 2'
- Daarnaast verwacht ik hier direct te kunnen taggen wat voor data het is.
Suggestie voor de layout:
Import data set: naam: [] type: [(pulldown met genotypes, phenotypes, QTL profiles, correlations, other)] data file: [browse]
Uiteraard hier sjablonen/voorbeelden van veel voorkomende datasets.
Scherm: Add new R script (moet naar admin panel bij tool definitie)
Deze moet echt direct naar de 'Add new QTL tool' panel wat mij betreft. Veel te nerderig hier en het hoort samen met de hele tools definitie structuur want in zijn eentje heb je er niks aan.
Scherm: Search QTL results (deze functie mist dus enorm)
Wat ik nog meer had verwacht was een WebQTL achtige zoek wizard. Want je wilt natuurlijk als bioloog vooral met die QTL resultaten aan de gang.
Voorstel:
- Google achtige zoekbox.
Hier kun je de trukendoos van Despoina gebruiken om in subjects en traits te zoeken.
- Overzicht van data sets die matchen, inclusief samenvatting van de investigation waar ze bijhoren.
- Gebruiker kiest de data set en krijg matrix viewer
- Kan QTL plotjes bekijken in het geval van QTL profiles (per phenotype/probe of groepje phenotypen)
Hoe gaan we het systeem aanbieden
volgens mij als:
Service 1. www.usexqtl.org, de publieke versie met echte data maar achter password voor edits
Als publieke resource (onze webqtl). Dan dus inlogbox toevoegen en dan mogen alleen mensen die wij toestemming geven data laden. Alle andere gebruikers kunnen QTL resultaten bekijken, analyses die nu onderweg zijn monitoren en resultaten downloaden.
Service 2. www.xgap.org/sandbox, de publieke versie die mensen stuk mogen maken
Een sandbox versie die wel alle features heeft maar op een vm staat zodat mensen niet teveel rotzooi kunnen maken. Wordt elke nacht gereset. In de toekomst kunnen we 1 en 2 samenvoegen als we goede user management hebben.
Service 3. www.getxqtl.org, de software voor thuis
Hier kan men xqtl downloaden als VM en als WAR en als sourcecode zodat men het in het eigen lab kan gaan draaien. Mapped dus gewoon naar xgap.org.