4b7cd104a60b7bc3d4fba7086b551ac72155f350
[samtools.git] / bcftools / mut.c
1 #include <stdlib.h>
2 #include <stdint.h>
3 #include "bcf.h"
4
5 #define MAX_GENO 359
6
7 int8_t seq_bitcnt[] = { 4, 1, 1, 2, 1, 2, 2, 3, 1, 2, 2, 3, 2, 3, 3, 4 };
8 char *seq_nt16rev = "XACMGRSVTWYHKDBN";
9
10 uint32_t *bcf_trio_prep(int is_x, int is_son)
11 {
12         int i, j, k, n, map[10];
13         uint32_t *ret;
14         ret = calloc(MAX_GENO, 4);
15         for (i = 0, k = 0; i < 4; ++i)
16                 for (j = i; j < 4; ++j)
17                         map[k++] = 1<<i|1<<j;
18         for (i = 0, n = 1; i < 10; ++i) { // father
19                 if (is_x && seq_bitcnt[map[i]] != 1) continue;
20                 if (is_x && is_son) {
21                         for (j = 0; j < 10; ++j) // mother
22                                 for (k = 0; k < 10; ++k) // child
23                                         if (seq_bitcnt[map[k]] == 1 && (map[j]&map[k]))
24                                                 ret[n++] = j<<16 | i<<8 | k;
25                 } else {
26                         for (j = 0; j < 10; ++j) // mother
27                                 for (k = 0; k < 10; ++k) // child
28                                         if ((map[i]&map[k]) && (map[j]&map[k]) && ((map[i]|map[j])&map[k]) == map[k])
29                                                 ret[n++] = j<<16 | i<<8 | k;
30                 }
31         }
32         ret[0] = n - 1;
33         return ret;
34 }
35
36 int bcf_trio_call(const uint32_t *prep, const bcf1_t *b, int *llr, int64_t *gt)
37 {
38         int i, j, k;
39         const bcf_ginfo_t *PL;
40         uint8_t *gl10;
41         int map[10];
42         if (b->n_smpl != 3) return -1; // not a trio
43         for (i = 0; i < b->n_gi; ++i)
44                 if (b->gi[i].fmt == bcf_str2int("PL", 2)) break;
45         if (i == b->n_gi) return -1; // no PL
46         gl10 = alloca(10 * b->n_smpl);
47         if (bcf_gl10(b, gl10) < 0) return -1;
48         PL = b->gi + i;
49         for (i = 0, k = 0; i < 4; ++i)
50                 for (j = i; j < 4; ++j)
51                         map[k++] = seq_nt16rev[1<<i|1<<j];
52         for (j = 0; j < 3; ++j) // check if ref hom is the most probable in all members
53                 if (((uint8_t*)PL->data)[j * PL->len] != 0) break;
54         if (j < 3) { // we need to go through the complex procedure
55                 uint8_t *g[3];
56                 int minc = 1<<30, minc_j = -1, minf = 0, gtf = 0, gtc = 0;
57                 g[0] = gl10;
58                 g[1] = gl10 + 10;
59                 g[2] = gl10 + 20;
60                 for (j = 1; j <= (int)prep[0]; ++j) { // compute LK with constraint
61                         int sum = g[0][prep[j]&0xff] + g[1][prep[j]>>8&0xff] + g[2][prep[j]>>16&0xff];
62                         if (sum < minc) minc = sum, minc_j = j;
63                 }
64                 gtc |= map[prep[minc_j]&0xff]; gtc |= map[prep[minc_j]>>8&0xff]<<8; gtc |= map[prep[minc_j]>>16]<<16;
65                 for (j = 0; j < 3; ++j) { // compute LK without constraint
66                         int min = 1<<30, min_k = -1;
67                         for (k = 0; k < 10; ++k)
68                                 if (g[j][k] < min) min = g[j][k], min_k = k;
69                         gtf |= map[min_k]<<(j*8);
70                         minf += min;
71                 }
72                 *llr = minc - minf; *gt = (int64_t)gtc<<32 | gtf;
73         } else *llr = 0, *gt = -1;
74         return 0;
75 }
76
77 int bcf_pair_call(const bcf1_t *b)
78 {
79         int i, j, k;
80         const bcf_ginfo_t *PL;
81         if (b->n_smpl != 2) return -1; // not a pair
82         for (i = 0; i < b->n_gi; ++i)
83                 if (b->gi[i].fmt == bcf_str2int("PL", 2)) break;
84         if (i == b->n_gi) return -1; // no PL
85         PL = b->gi + i;
86         for (j = 0; j < 2; ++j) // check if ref hom is the most probable in all members
87                 if (((uint8_t*)PL->data)[j * PL->len] != 0) break;
88         if (j < 2) { // we need to go through the complex procedure
89                 uint8_t *g[2];
90                 int minc = 1<<30, minf = 0;
91                 g[0] = PL->data;
92                 g[1] = (uint8_t*)PL->data + PL->len;
93                 for (j = 0; j < PL->len; ++j) // compute LK with constraint
94                         minc = minc < g[0][j] + g[1][j]? minc : g[0][j] + g[1][j];
95                 for (j = 0; j < 2; ++j) { // compute LK without constraint
96                         int min = 1<<30;
97                         for (k = 0; k < PL->len; ++k)
98                                 min = min < g[j][k]? min : g[j][k];
99                         minf += min;
100                 }
101                 return minc - minf;
102         } else return 0;
103 }
104
105 int bcf_min_diff(const bcf1_t *b)
106 {
107         int i, min = 1<<30;
108         const bcf_ginfo_t *PL;
109         for (i = 0; i < b->n_gi; ++i)
110                 if (b->gi[i].fmt == bcf_str2int("PL", 2)) break;
111         if (i == b->n_gi) return -1; // no PL
112         PL = b->gi + i;
113         for (i = 0; i < b->n_smpl; ++i) {
114                 int m1, m2, j;
115                 const uint8_t *p = (uint8_t*)PL->data;
116                 m1 = m2 = 1<<30;
117                 for (j = 0; j < PL->len; ++j) {
118                         if ((int)p[j] < m1) m2 = m1, m1 = p[j];
119                         else if ((int)p[j] < m2) m2 = p[j];
120                 }
121                 min = min < m2 - m1? min : m2 - m1;
122         }
123         return min;
124 }