wiki:xQTLBioinformaticianReview

Version 3 (modified by Morris Swertz, 14 years ago) (diff)

--

Notes Morris xQTL workbench review meeting 4 march 2011 @ GBIC

Attending: Yang, Maria, Frank, Danny, Joeri, Morris

Priorities: (1) Loading data foramts, universal data loading functions (2) Mislabeling scripts [need 'news' place where this can be viewed'] (3) Pathway picture + QTL + linkout + gene expression + phenotypes

Frank:

  • Storing your data
  • Running quick analyses
  • Quality control of the data (standard, missing markers)
  • Every new collaboration data sets are different slightly; standardized solution
  • Time investing of matrix cleaing (missing data, wrong columns); have these times of parsing
  • Pulldown button for format parsers; inventory of how these data sets look like
  • Set based select all the trans regulated probes

Maria:

  • Starting to learn R
  • Having a button for standard analyses
  • Preliminary analysis tool
  • Prefer to look at the code

Yang:

  • To do analyses and run it in parallel myself
  • Can test my code on the machine and get error message (requirement)
  • Expected gains: have more R tools on this, for pictures, tables
  • Expected gains:
  • Standard importers for Agilent, Affymetrix, Nimblegen
  • Do you show all annotation of a particular gene, which gene it is, located, is there a SNP
  • Can we make a pathway picture; I want to submit all my genes there and I know the relations. See QTL and Pathway plots together, possibly in different conditions or factors.

Danny:

  • What additional you want (boxploting, histograms, common jobs)
  • Would the data formats you use

Joeri:

  • Want to have pathway

Name candidate: Omics workbench.

Notes Joeri xQTL workbench review meeting 4 march 2011 @ GBIC

General

  • It must be open and clear what exact code is (or will be) executed
  • Having quality control (tools) for the data would be great
  • There must be helpful error reporting in combination with script testing possibilities
  • In general, more tools, visualizations and statistical reports make the system attractive
  • We must find out if and how the latest technologies and formats fit into the system
  • Idea: put 'cross' object as a file in the database with seperate script? Works best with workflows and 'pull' architecture
  • We will get example data and scripts from Yang and Frank soon to testdrive our capabilities and limitations
  • Being able to input raw data formats (machine output) directly into R-ready datamatrices, this would save much time formatting and checking
  • Having a 'universal' importer that supports many specific formats (agilent, illumina, affy, etc) and does all verification/importing would be ideal
  • This importer would be extensible with importers for new formats when needed
  • To start with this, make an inventory of such used/popular formats, estimate how complex the importers would be and how much time it costs for each
  • Being able to (for example) sort in the matrix viewer and get a trait linkout (either to db or external) would already be a great help when interpreting results
  • For biologists, having results plotted on pathways (such as KEGG) would be an immense help for interpretation
  • Having Yang's mislabeled sample scripts in the system would be great as a quality control step

Top priority

  • Multifunctional importer, having data ready from raw to R-matrix in a few clicks
  • Interpretation help in the form of pathway visualizations, linkouts, advanced (matrix) browsing

xqtl review morris

Deze app note kan mikken op 2 resultaten:

  1. een publieke versie waarin wij onze en partner data sets publiceren (tzt geheel webqtl). We zijn goed op weg een WebQTL killer te maken, zeg maar een myExperiment, FaceBook?, ArrayAtlas? BioCatalogue? of Wikipedia voor QTL studies. Misschien iets voor de naam? myqtl.org? qtlatlas.org? qtlpedia.org? qtlcatalogue.org? Maar dan beter wat in tegenstelling tot WebQTL hoef ik niet steeds zo lang te wachten op resultaten.
  1. een downloadbare versie waarmee mensen hun eigen xqtl kunnen runnen. En het mooie is dat ze maar op 'export' hoeven te drukken om een data setje aan ons te sturen zodat die in de publieke catalogus kan. En we kunnen zelfs via de REST api een syndication gaan implementeren ;-)

Algemene zaken

  • Hier en daar moet UI gepolijst en vooral de documentatie moet nog 'walkthrough'.
  • de gebruikersgroep beter scheiden: biologen gebruiken de applicatie, bioinformatici kunnen onder admin panel nieuwe zaken toevoegen.
  • Terminologie erg abstract en ver van het biobed. Bijvoorbeeld: biologen geven niet om 'jobs' maar wel om 'analyses'. Dus noem het dan 'Analyze Data' of misschien in deze fase zelfs nog beter 'Map QTLs'. Daarnaast mis ik nog een 'Search QTLs' waarbij ik door de resultaten heen kan bladeren.

Main use cases (= voorpagina en topmenu)

Main menu in concept goed maar de knoppen nog niet helemaal: In principe wil ik toch maar 3 dingen?

Use case 1. Search QTL profiles:

Ik wil qtl profielen per phenotype of profielen doorzoeken (net als ik dat in webqtl kan, dus hier kan Despoinas super index helpen) . En eventueel snel inline een qtl plotje bekijken (van 1 of een paar traits) of downloaden (van 1 tot de hele set).

Want wat is de killer feature hier: bij WebQTL moet je dan minuten wachten, hier krijg je het plotje direct te zien. Hoe koel is dat?! En als ik zelf data heb kan ik het hier analyseren met bewezen standaard algoritmen ipv dat nerderige R en dan kan ik alles eenvoudig bekijken en downloaden. Ook erg fijn (als bioloog). In de humane genetica zijn dit soort webtooltjes belachelijk populair dus dat dat beloofd wat.

Use case 2. Browse/edit my data

Ik wil mijn eigen studie toevoegen natuurlijk.

  • Ik wil mijn eigen genotype/phenotype sets toevoegen
  • Ik wil mijn marker (locus/map) annotaties toevoegen (voor de mapping)
  • Ik wil evt mijn probe (locus) annotaties toevoegen (voor de cis/trans plots)

N.B. security discussies even daargelaten. En misschien willen mensen hun studie ook wel weghalen. MOLGENIS kent sinds kort cascading deletes daarvoor.

Use case 3. Run QTL mapping

Ik wil mijn genotype en phenotype setjes kiezen en dan mappen. Als ik nog geen voldoende annotaties heb ingeladen dan moet mijn analyse een foutmelding geven en moet ik een knopje krijgen om hier iets aan te doen. Dat kan mooi onder kopje '2' geregeld al geregeld worden met een berichtje of "de studie is [25,50,80,100%] compleet"

Naast stap 1-3 verwacht ik een admin area

Use case 4. Add new QTL tools

Hier kan ik dan met wat moeite ook nog nieuwe R scripts inladen en aangeven wat voor parameters hier in moeten. Dat moet wel wat simpeler dan nu maar ik vraag me af of dat voor deze submission al moet. Want nu kan het wel, met wat toelichting. En de bioloog zegt: dit is iets wat ik aan mijn huis bioinformaticus moet laten zien.

En een pagina met toelichting (kan ook op voorpagina)

Use case 5. About

En hier de links en logo's van al onze vriendjes en links en logo's naar de tools die in xqtl bijeen zijn gebracht.

Verder klein actiepuntje:

  • css aanpassen zodat ik een handje krijg als ik over knoppen zweef; nu lijkt het niet klikbaar

De documentatie moet walkthrough gemaakt

Met de pet van 'ik ben bioloog en heb xqtl nog nooit gezien' ben ik met de documentatie op http://www.xgap.org/wiki/xQTLDemoUserManual aan de gang gegaan en 'plons': ik voelde me enorm in het diepe gegooid (zelfs terwijl ik het systeem notabene ken). Ik kwam namelijk direct uit bij de "starting a job" and "adding your own analysis" en de QTL analyse was ver te zoeken.

Vervolgens ben ik naar het systeem toe gegaan en voelde me al veel meer thuis maar toch nog niet helemaal wat met de volgorde en naam van die blokjes te maken heeft, zie discussie hieronder.

Wat ik hier dus had verwacht was een inhoudsopgave met een overzicht van de belangrijke stappen voor een complete analyse (dat geld voor zowel de software als de handleiding), inclusief substappen:

  • "load your data": vanaf het inladen van de data (dan kun je hopelijk een include doen van xgap docs)
  • "run analysis": via het runnen van de qtl mapping
  • "view/download results" tot en met het bekijken van de resultaten.

Het toevoegen van nieuwe tools is iets voor de huis bioinformaticus dus ergens achteraan.

Dat zie ik nu niet terug dus heb geen idee waar te beginnen. En als ik vervolgens toch de documentatie doorloop zie ik geen duidelijk stappen plan. Kijk eens in het MetaNetwork artikel. Het is echt de gebruiker aan de hand nemen met 'klik hier' en 'klik daar' en 'dan zie je zus en zo'.

Daarnaast mis ik screenshots en moet er een youtube filmpje bij van de belangrijkste stappen uit die walkthrough. Ik bedoel: als we niet in 3 minuten kunnen laten zien hoe zaken moeten is het duidelijk veel te ingewikkeld.

Detail commentaar systeem (alsjeblieft, het is geen demo)

Ik ga nu even ongeremd commentaar geven zonder rekening te houden met wat makkelijk of moeilijk is.

Scherm: Browse/Manage? data (moet soort facebook pagina voor een studie zijn)

Bijna goed maar:

Waar is Investigation gebleven? Zo wordt het toch een enorm zooitje? Zelfs webqtl denkt in investigations (ook al noemen ze het 'databases').

Ik verwacht hier dus een lijst van investigations.

Als ik 1 investigation aanklik (moet dus klikbaar gemaakt als standaard MOLGENIS feature ipv dat stomme icoontje) dan zie ik een overzichtelijke lijst met aanwezige informatie voor die studie. En dus niet ingewikkelde menus met alle mogelijke traits/subjects met lege lijstjes maar alleen als er data is.

Suggestie voor uitwerking:

Studie summary
Name: ....
Description: ...
Added date: ...
Publicaties: ....

Available resources:

[mooi icoontje] Strains (30)
[mooi icoontje] Individuen (144)
[mooi icoontje] Markers or SNPs (missing)
[mooi icoontje] Phenotypes (5)
[mooi icoontje] Expression probes (200k)

En in datzelfde scherm bijvoorbeeld in een 2e kolom de datasets [naam en kenmerken]

Available data:

[mooi icoontje*] Genotypes (144 Marker X 30 Strain)
[mooi icoontje*] Gene Expressions (200k Probe X 30 Individual)
Etc.

[pulldown box met data types, bijv Markers] [button: add data]

Aandachtspunten:

  • dit scherm kan dan meteen aangeven of je set compleet genoeg is voor analyse.
  • als men op een resource of data set klikt dan krijg je gewoon de huidige overzichten te zien (zijn prima)
  • Die icoontjes voor dat kunnen we zelfs varieren als we de data matrices gaan taggen.
  • In een hulptabel moeten dan per investigation de counts worden bijgehouden omdat het te duur is die steeds uit te rekenen.
  • in de standaard molgenis formulieren moet het makkelijker worden dus file menu aanpassen in 'download', 'upload'

Scherm: Import new data (moet verplaatst onder Study en in Admin)

Ten eerste moet niet zo pontificaal maar als extra menu optie bij elke 'studie'. Het is dan een 'studie data import wizard'. Want zo snapt niemand het. En daarnaast kun je een kopietje verbergen in het admin panel.

Ten tweede helpt de terminologie en layout mij veel te weinig om te begrijpen wat ik hier in godsnaam moet doen. Ik bedoel 'definities' en 'data', als nieuwkomer ben ik het spoor helemaal bijster.

Dus die twee import wizards onder studies zetten en een beetje vriendelijker maken:

Wizard 1: Upload Marker maps, Individuals, SNPs or other subjects and traits

Enerzijds wil ik een formulier (en die hadden we toch al) waar ik aparte CSV/Excels kan aanwijzen voor

Suggestie voor layout:

Import:
Markers [browse]
Traits [browse]
Probes [browse]
... etc
All in one Excel [browse]

Uiteraard voor elke input sjablonen/voorbeelden van veel voorkomende datasets.

Wizard 2: Upload genotypes, phenotypes, gene expressions and other data matrices ===

Met dit formulier kan ik dus genotypes en phenotypes en andere data matrices inladen.

  • Dus noem het dan ook zo: spreek van 'genotype and phenotype data sets' ipv 'matrices'.
  • En maak dan voorbeelden van 'genotypes' en 'phenotypes' ipv 'example1' en 'example 2'
  • Daarnaast verwacht ik hier direct te kunnen taggen wat voor data het is.

Suggestie voor de layout:

Import data set:

naam: []
type:  [(pulldown met genotypes, phenotypes, QTL profiles, correlations, other)]
data file: [browse]

Uiteraard hier sjablonen/voorbeelden van veel voorkomende datasets.

Scherm: Add new R script (moet naar admin panel bij tool definitie)

Deze moet echt direct naar de 'Add new QTL tool' panel wat mij betreft. Veel te nerderig hier en het hoort samen met de hele tools definitie structuur want in zijn eentje heb je er niks aan.

Scherm: Search QTL results (deze functie mist dus enorm)

Wat ik nog meer had verwacht was een WebQTL achtige zoek wizard. Want je wilt natuurlijk als bioloog vooral met die QTL resultaten aan de gang.

Voorstel:

  1. Google achtige zoekbox.

Hier kun je de trukendoos van Despoina gebruiken om in subjects en traits te zoeken.

  1. Overzicht van data sets die matchen, inclusief samenvatting van de investigation waar ze bijhoren.
  2. Gebruiker kiest de data set en krijg matrix viewer
  3. Kan QTL plotjes bekijken in het geval van QTL profiles (per phenotype/probe of groepje phenotypen)

Hoe gaan we het systeem aanbieden

volgens mij als:

Service 1. www.usexqtl.org, de publieke versie met echte data maar achter password voor edits

Als publieke resource (onze webqtl). Dan dus inlogbox toevoegen en dan mogen alleen mensen die wij toestemming geven data laden. Alle andere gebruikers kunnen QTL resultaten bekijken, analyses die nu onderweg zijn monitoren en resultaten downloaden.

Service 2. www.xgap.org/sandbox, de publieke versie die mensen stuk mogen maken

Een sandbox versie die wel alle features heeft maar op een vm staat zodat mensen niet teveel rotzooi kunnen maken. Wordt elke nacht gereset. In de toekomst kunnen we 1 en 2 samenvoegen als we goede user management hebben.

Service 3. www.getxqtl.org, de software voor thuis

Hier kan men xqtl downloaden als VM en als WAR en als sourcecode zodat men het in het eigen lab kan gaan draaien. Mapped dus gewoon naar xgap.org.