Merge commit 'upstream/0.1.10'
[samtools.git] / bcftools / bcfutils.c
1 #include "bcf.h"
2 #include "kstring.h"
3 #include "khash.h"
4 KHASH_MAP_INIT_STR(str2id, int)
5
6 void *bcf_build_refhash(bcf_hdr_t *h)
7 {
8         khash_t(str2id) *hash;
9         int i, ret;
10         hash = kh_init(str2id);
11         for (i = 0; i < h->n_ref; ++i) {
12                 khint_t k;
13                 k = kh_put(str2id, hash, h->ns[i], &ret); // FIXME: check ret
14                 kh_val(hash, k) = i;
15         }
16         return hash;
17 }
18
19 void *bcf_str2id_init()
20 {
21         return kh_init(str2id);
22 }
23
24 void bcf_str2id_destroy(void *_hash)
25 {
26         khash_t(str2id) *hash = (khash_t(str2id)*)_hash;
27         if (hash) kh_destroy(str2id, hash); // Note that strings are not freed.
28 }
29
30 int bcf_str2id(void *_hash, const char *str)
31 {
32         khash_t(str2id) *hash = (khash_t(str2id)*)_hash;
33         khint_t k;
34         if (!hash) return -1;
35         k = kh_get(str2id, hash, str);
36         return k == kh_end(hash)? -1 : kh_val(hash, k);
37 }
38
39 int bcf_str2id_add(void *_hash, const char *str)
40 {
41         khint_t k;
42         int ret;
43         khash_t(str2id) *hash = (khash_t(str2id)*)_hash;
44         if (!hash) return -1;
45         k = kh_put(str2id, hash, str, &ret);
46         if (ret == 0) return kh_val(hash, k);
47         kh_val(hash, k) = kh_size(hash) - 1;
48         return kh_val(hash, k);
49 }
50
51 int bcf_shrink_alt(bcf1_t *b, int n)
52 {
53         char *p;
54         int i, j, k, *z, n_smpl = b->n_smpl;
55         if (b->n_alleles <= n) return -1;
56         if (n > 1) {
57                 for (p = b->alt, k = 1; *p; ++p)
58                         if (*p == ',' && ++k == n) break;
59                 *p = '\0';
60         } else p = b->alt, *p = '\0';
61         ++p;
62         memmove(p, b->flt, b->str + b->l_str - b->flt);
63         b->l_str -= b->flt - p;
64         z = alloca(sizeof(int) / 2 * n * (n+1));
65         for (i = k = 0; i < n; ++i)
66                 for (j = 0; j < n - i; ++j)
67                         z[k++] = i * b->n_alleles + j;
68         for (i = 0; i < b->n_gi; ++i) {
69                 bcf_ginfo_t *g = b->gi + i;
70                 if (g->fmt == bcf_str2int("PL", 2)) {
71                         int l, x = b->n_alleles * (b->n_alleles + 1) / 2;
72                         uint8_t *d = (uint8_t*)g->data;
73                         g->len = n * (n + 1) / 2;
74                         for (l = k = 0; l < n_smpl; ++l) {
75                                 uint8_t *dl = d + l * x;
76                                 for (j = 0; j < g->len; ++j) d[k++] = dl[z[j]];
77                         }
78                 } // FIXME: to add GL
79         }
80         b->n_alleles = n;
81         bcf_sync(b);
82         return 0;
83 }
84
85 int bcf_gl2pl(bcf1_t *b)
86 {
87         char *p;
88         int i, n_smpl = b->n_smpl;
89         bcf_ginfo_t *g;
90         float *d0;
91         uint8_t *d1;
92         if (strstr(b->fmt, "PL")) return -1;
93         if ((p = strstr(b->fmt, "GL")) == 0) return -1;
94         *p = 'P';
95         for (i = 0; i < b->n_gi; ++i)
96                 if (b->gi[i].fmt == bcf_str2int("GL", 2))
97                         break;
98         g = b->gi + i;
99         g->fmt = bcf_str2int("PL", 2);
100         g->len /= 4; // 4 == sizeof(float)
101         d0 = (float*)g->data; d1 = (uint8_t*)g->data;
102         for (i = 0; i < n_smpl * g->len; ++i) {
103                 int x = (int)(-10. * d0[i] + .499);
104                 if (x > 255) x = 255;
105                 if (x < 0) x = 0;
106                 d1[i] = x;
107         }
108         return 0;
109 }