Changes between Initial Version and Version 1 of XgapExchange


Ignore:
Timestamp:
2010-10-01T23:38:13+02:00 (14 years ago)
Author:
trac
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • XgapExchange

    v1 v1  
     1[[TOC()]]
     2= How to convert between XGAP and other formats =
     3Below we describe existing and planned procedures to convert between XGAP and other formats.
     4
     5== !HapMap format ==
     6A !HapMapParser is located at handwritten/java/convertors/!HapMapParser.java.
     7
     8To parse a file, just create a new instance of the class with an argument denoting the location of a !HapMap file ([http://www.xgap.org/attachment/wiki/XgapExchange/HapMap_format_example.txt example]).
     9
     10For example:
     11
     12{{{
     13#!java
     14new HapMapParser("D:/data/xgapdata/HumanPublicSets/genotypes_chr1_CHD_r27_nr.b36_fwd.txt");
     15new HapMapParser("D:/data/xgapdata/HumanPublicSets/genotypes_chr8_LWK_r27_nr.b36_fwd.txt");
     16}}}
     17
     18Each input file will result in the creation of a new directory at the base path, in this case:
     19
     20{{{
     21D:/data/xgapdata/HumanPublicSets/xgapnized/genotypes_chr1_CHD_r27_nr.b36_fwd/
     22D:/data/xgapdata/HumanPublicSets/xgapnized/genotypes_chr8_LWK_r27_nr.b36_fwd/
     23}}}
     24
     25In each new directory, the program creates the following XGAP format equivalents:
     26
     27 * individual.txt
     28 * marker.txt
     29 * matrix.txt
     30
     31Which will content such as:
     32
     33individual.txt
     34{{{
     35name
     36NA19028
     37NA19031
     38NA19035
     39NA19027
     40NA19041
     41NA19046
     42NA19308
     43NA19311
     44NA19317
     45 ...
     46}}}
     47
     48marker.txt
     49{{{
     50name    chr     bpstart species_name    seq
     51rs241846        8       81890   Homo sapiens    C/T
     52rs2906360       8       151222  Homo sapiens    C/G
     53rs6993172       8       155982  Homo sapiens    C/T
     54rs2906364       8       158484  Homo sapiens    C/T
     55rs2003497       8       166818  Homo sapiens    A/G
     56rs17744505      8       169693  Homo sapiens    G/T
     57rs17744517      8       172340  Homo sapiens    A/G
     58rs6990702       8       173696  Homo sapiens    C/G
     59rs2906326       8       174319  Homo sapiens    C/T
     60 ... ... ... ...
     61}}}
     62
     63matrix.txt
     64{{{
     65NA19028 NA19031 NA19035 NA19027 NA19041 NA19046 NA19308 NA19311 NA19317 NA19376 ...
     66rs241846        TT      TT      TT      TT      TT      CT      TT      TT      TT      CT ...
     67rs2906360       GG      CG      GG      GG      CG      GG      CG      CG      GG      GG ...
     68rs6993172       CC      CC      CC      CC      CC      CC      CC      CC      CC      CC ...
     69rs2906364       TT      TT      TT      CT      CT      CT      TT      TT      CC      CT ...
     70rs2003497       AG      GG      GG      AG      AG      AG      GG      AG      AA      AG ...
     71rs17744505      GT      GG      GG      GG      GG      GT      GG      GG      GG      GT ...
     72rs17744517      AG      AA      AA      AA      AA      AG      AA      AA      AA      AG ...
     73rs6990702       CC      CC      CC      CC      CC      CC      CG      CC      CC      CC ...
     74rs2906326       CT      CT      TT      NN      CT      CT      TT      CT      CC      CT ...
     75 ... ... ... ...
     76}}}
     77
     78== PED and MAP format ==
     79The PED and MAP file formats are used often in light of GWAS toolkits such as [http://pngu.mgh.harvard.edu/~purcell/plink/data.shtml PLINK].
     80
     81A convertor for the PED and MAP formats is located at handwritten/java/convertors/!PedMapParser.java.
     82
     83To parse a file, just create a new instance of the class with two arguments:
     84
     85 * The location of a [http://www.xgap.org/attachment/wiki/XgapExchange/Ped_format_example.txt Ped file].
     86 * The location of a [http://www.xgap.org/attachment/wiki/XgapExchange/PedMap_format_example.txt Map file].
     87
     88For example:
     89{{{
     90#!java
     91new PedMapParser("D:/data/xgapdata/HumanPublicSets/193sgenome_sample.ped", "D:/data/xgapdata/HumanPublicSets/193sgenome.map");
     92}}}
     93
     94Each input file will result in the creation of a new directory at the base path, in this case:
     95
     96{{{
     97D:/data/xgapdata/HumanPublicSets/xgapnized/193sgenome_sample/
     98}}}
     99
     100In each new directory, the program creates the following XGAP format equivalents:
     101
     102 * strain.txt
     103 * individual.txt
     104 * marker.txt
     105 * matrix.txt
     106
     107Which will content such as:
     108
     109strain.txt
     110
     111{{{
     112name    straintype
     113WGACON  Natural
     114}}}
     115
     116individual.txt
     117
     118{{{
     119name    strain_name     father_name     mother_name
     120Ind1    WGACON  Ind0    Ind0
     121Ind6    WGACON  Ind0    Ind0
     122Ind7    WGACON  Ind0    Ind0
     123Ind9    WGACON  Ind0    Ind0
     124Ind11   WGACON  Ind0    Ind0
     125Ind12   WGACON  Ind0    Ind0
     126Ind15   WGACON  Ind0    Ind0
     127Ind17   WGACON  Ind0    Ind0
     128Ind18   WGACON  Ind0    Ind0
     129Ind20   WGACON  Ind0    Ind0
     130 ... ... ... ...
     131}}}
     132
     133marker.txt
     134
     135{{{
     136name    chr     bpstart species_name    seq
     137rs3094315       1       792429  Homo sapiens    0
     138rs6672353       1       817376  Homo sapiens    0
     139rs4040617       1       819185  Homo sapiens    0
     140rs2980300       1       825852  Homo sapiens    0
     141rs2905036       1       832343  Homo sapiens    0
     142rs4245756       1       839326  Homo sapiens    0
     143rs4075116       1       1043552 Homo sapiens    0
     144rs9442385       1       1137258 Homo sapiens    0
     145rs10907175      1       1170650 Homo sapiens    0
     146rs2887286       1       1196054 Homo sapiens    0
     147 ... ... ... ...
     148}}}
     149
     150matrix.txt
     151
     152{{{
     153rs3094315       rs6672353       rs4040617       rs2980300       rs2905036       rs4245756       rs4075116       rs9442385       rs10907175      rs2887286
     154Ind1    CT      GG      AG      AG      TT      CC      AA      GG      AA      TT ...
     155Ind6    CT      GG      AG      AG      00      CC      GG      GG      AC      CT ...
     156Ind7    TT      GG      AA      GG      TT      CC      AG      GG      AC      CT ...
     157Ind9    TT      GG      AA      GG      TT      CC      AG      GG      AA      TT ...
     158Ind11   TT      GG      AA      GG      TT      CC      AA      GT      AA      TT ...
     159Ind12   TT      GG      AA      GG      TT      CC      AA      GG      AA      TT ...
     160Ind15   CC      GG      00      00      TT      CC      AA      GT      AA      TT ...
     161Ind17   TT      GG      AA      GG      TT      CC      AG      GG      AA      CC ...
     162Ind18   TT      GG      AA      GG      00      CC      AA      GG      AC      CT ...
     163Ind20   TT      GG      AA      GG      TT      CC      AA      GG      AA      CT ...
     164 ... ... ... ...
     165}}}
     166
     167== !GeneNetwork format ==
     168GeneNetwork allows upload/download of data using a proprietary format which is not unlike XGAP. We here describe how to produce a suitable file:
     169
     170The GeneNetwork data files look like this:
     171{{{
     172ProbeSetID      CXB5    BXD31   BXD62   BXD73   BXD23   BXD60   B6D2F1  BXD92   BXD43   BXD48 ...
     1731415670_at      0.437   0.214   0.123   0.143   0.835   0.199   0.421   0.32    0.043   0.26  ...
     1741415671_at      0.145   0.155   0.278   0.108   0.381   0.139   0.475   0.021   0.145   0.102 ...
     1751415672_at      0.14    0.128   0.196   0.093   0.408   0.03    0.428   0.408   0.118   0.33 ...
     1761415673_at      0.349   0.18    0.211   0.199   0.266   0.056   0.232   0.044   0.156   0.294 ...
     1771415674_a_at    0.23    0.182   0.316   0.168   0.198   0.007   0.212   0.032   0.016   0.028 ...
     1781415675_at      0.415   0.051   0.008   0.062   0.255   0.058   0.15    0.208   0.016   0.195 ...
     1791415676_a_at    0.154   0.404   0.228   0.046   0.159   0.01    0.583   0.24    0.218   0.146 ...
     1801415677_at      0.19    0.047   0.431   0.001   0.396   0.053   0.595   0.033   0.06    0.033 ...
     1811415678_at      0.106   0.044   0.257   0.147   0.2     0.043   0.089   0.059   0.12    0.104 ...
     1821415679_at      0.143   0.026   0.373   0.211   0.42    0.127   0.299   0.095   0.016   0.155 ...
     183 ... ... ... ...
     184}}}
     185
     186This is practically identical to XGAP. In this case, one would have to remove
     187
     188{{{
     189ProbeSetID
     190}}}
     191
     192and the format would be the same.
     193
     194In addition one would create annotation files for the rows and columns, eg.
     195
     196probes.txt
     197
     198{{{
     199name   {properties}
     2001415670_at
     2011415671_at
     2021415672_at
     203 ...
     204}}}
     205
     206individuals.txt
     207
     208{{{
     209name   {properties}
     210CXB5
     211BXD31
     212BXD62
     213 ...
     214}}}
     215
     216== MAGE-TAB and ISA-TAB format ==
     217XGAP is based on FuGE which in turn is compatible with [http://www.mged.org/mage-tab/ MAGE-TAB] for microarray experiments and its generalized cousin [http://isatab.sourceforge.net/ ISA-TAB] for all kinds of experiments.
     218While the MAGE-TAB and ISA-TAB are also tab delimited files their format is a bit more complicated than XGAP. In collaboration with EBI a start has been made with a convertor which is expected to be finished by end of 2009.
     219Progress can be found on http://magetab-om.sourceforge.net.
     220Code can be found in handwritten/java/convertor/
     221
     222== dbGaP and EGA genotype archives ==
     223[http://www.ncbi.nlm.nih.gov/sites/entrez?Db=gap dbGaP] and [http://www.ebi.ac.uk/ega/page.php EGA] currently don't allow public download of genotype data. However, summary data on phenotypes can be downloaded while uploaded data can be done in . Just as with MAGE-TAB collaborative efforts have been started to enable exchange resulting in preliminary parsers. Moreover, dbGaP and EGA are working on an exchange format themselves that we aim to support.
     224Progess can be found on http://wwwdev.ebi.ac.uk/microarray-srv/pheno/
     225Code can be found in handwritten/java/convertor/
     226