Imported Upstream version 0.7
[pysam.git] / pysam / pysam_util.c
1 #include <ctype.h>
2 #include <assert.h>
3 #include "bam.h"
4 #include "khash.h"
5 #include "ksort.h"
6 #include "bam_endian.h"
7 #include "knetfile.h"
8 #include "pysam_util.h"
9 #include "errmod.h" // for pysam_dump 
10
11 #ifndef inline
12 #define inline __inline
13 #endif
14
15 // Definition of pysamerr
16 #include "stdio.h"
17 FILE * pysamerr = NULL;
18
19 FILE * pysam_set_stderr(int fd)
20 {
21   if (pysamerr != NULL)
22     fclose(pysamerr);
23   pysamerr = fdopen(fd, "w");
24   return pysamerr;
25 }
26
27 void pysam_unset_stderr()
28 {
29   if (pysamerr != NULL)
30     fclose(pysamerr);
31   pysamerr = fopen("/dev/null", "w");
32 }
33
34 // #######################################################
35 // utility routines to avoid using callbacks in bam_fetch
36 // taken from bam_index.c
37 // The order of the following declarations is important.
38 // #######################################################
39 #define BAM_MAX_BIN 37450 // =(8^6-1)/7+1
40
41 // initialize hashes
42 typedef struct
43 {
44   uint64_t u, v;
45 } pair64_t;
46
47 #define pair64_lt(a,b) ((a).u < (b).u)
48
49 KSORT_INIT(myoff, pair64_t, pair64_lt);
50
51 typedef struct {
52         uint32_t m, n;
53         pair64_t *list;
54 } bam_binlist_t;
55
56 typedef struct {
57         int32_t n, m;
58         uint64_t *offset;
59 } bam_lidx_t;
60
61
62 // initialize hashes ('i' and 's' are idenditifiers)
63 KHASH_MAP_INIT_INT(i, bam_binlist_t);
64 KHASH_MAP_INIT_STR(s, int)
65
66 struct __bam_index_t
67 {
68   int32_t n;
69   uint64_t n_no_coor; // unmapped reads without coordinate
70   khash_t(i) **index;
71   bam_lidx_t *index2;
72 };
73
74 typedef struct __linkbuf_t {
75         bam1_t b;
76         uint32_t beg, end;
77         struct __linkbuf_t *next;
78 } lbnode_t;
79
80 typedef struct {
81         int cnt, n, max;
82         lbnode_t **buf;
83 } mempool_t;
84
85 struct __bam_plbuf_t {
86         mempool_t *mp;
87         lbnode_t *head, *tail, *dummy;
88         bam_pileup_f func;
89         void *func_data;
90         int32_t tid, pos, max_tid, max_pos;
91         int max_pu, is_eof;
92         bam_pileup1_t *pu;
93         int flag_mask;
94 };
95   
96 static mempool_t *mp_init()
97 {
98         mempool_t *mp;
99         mp = (mempool_t*)calloc(1, sizeof(mempool_t));
100         return mp;
101 }
102 static void mp_destroy(mempool_t *mp)
103 {
104         int k;
105         for (k = 0; k < mp->n; ++k) {
106                 free(mp->buf[k]->b.data);
107                 free(mp->buf[k]);
108         }
109         free(mp->buf);
110         free(mp);
111 }
112 static inline lbnode_t *mp_alloc(mempool_t *mp)
113 {
114         ++mp->cnt;
115         if (mp->n == 0) return (lbnode_t*)calloc(1, sizeof(lbnode_t));
116         else return mp->buf[--mp->n];
117 }
118 static inline void mp_free(mempool_t *mp, lbnode_t *p)
119 {
120         --mp->cnt; p->next = 0; // clear lbnode_t::next here
121         if (mp->n == mp->max) {
122                 mp->max = mp->max? mp->max<<1 : 256;
123                 mp->buf = (lbnode_t**)realloc(mp->buf, sizeof(lbnode_t*) * mp->max);
124         }
125         mp->buf[mp->n++] = p;
126 }
127
128 static inline int resolve_cigar(bam_pileup1_t *p, uint32_t pos)
129 {
130         unsigned k;
131         bam1_t *b = p->b;
132         bam1_core_t *c = &b->core;
133         uint32_t x = c->pos, y = 0;
134         int ret = 1, is_restart = 1;
135
136         if (c->flag&BAM_FUNMAP) return 0; // unmapped read
137         assert(x <= pos); // otherwise a bug
138         p->qpos = -1; p->indel = 0; p->is_del = p->is_head = p->is_tail = 0;
139         for (k = 0; k < c->n_cigar; ++k) {
140                 int op = bam1_cigar(b)[k] & BAM_CIGAR_MASK; // operation
141                 int l = bam1_cigar(b)[k] >> BAM_CIGAR_SHIFT; // length
142                 if (op == BAM_CMATCH) { // NOTE: this assumes the first and the last operation MUST BE a match or a clip
143                         if (x + l > pos) { // overlap with pos
144                                 p->indel = p->is_del = 0;
145                                 p->qpos = y + (pos - x);
146                                 if (x == pos && is_restart) p->is_head = 1;
147                                 if (x + l - 1 == pos) { // come to the end of a match
148                                         if (k < c->n_cigar - 1) { // there are additional operation(s)
149                                                 uint32_t cigar = bam1_cigar(b)[k+1]; // next CIGAR
150                                                 int op_next = cigar&BAM_CIGAR_MASK; // next CIGAR operation
151                                                 if (op_next == BAM_CDEL) p->indel = -(int32_t)(cigar>>BAM_CIGAR_SHIFT); // del
152                                                 else if (op_next == BAM_CINS) p->indel = cigar>>BAM_CIGAR_SHIFT; // ins
153                                                 if (op_next == BAM_CSOFT_CLIP || op_next == BAM_CREF_SKIP || op_next == BAM_CHARD_CLIP)
154                                                         p->is_tail = 1; // tail
155                                         } else p->is_tail = 1; // this is the last operation; set tail
156                                 }
157                         }
158                         x += l; y += l;
159                 } else if (op == BAM_CDEL) { // then set ->is_del
160                         if (x + l > pos) {
161                                 p->indel = 0; p->is_del = 1;
162                                 p->qpos = y + (pos - x);
163                         }
164                         x += l;
165                 } else if (op == BAM_CREF_SKIP) x += l;
166                 else if (op == BAM_CINS || op == BAM_CSOFT_CLIP) y += l;
167                 is_restart = (op == BAM_CREF_SKIP || op == BAM_CSOFT_CLIP || op == BAM_CHARD_CLIP);
168                 if (x > pos) {
169                         if (op == BAM_CREF_SKIP) ret = 0; // then do not put it into pileup at all
170                         break;
171                 }
172         }
173         assert(x > pos); // otherwise a bug
174         return ret;
175
176 }
177 // the following code has been taken from bam_plbuf_push
178 // and modified such that instead of a function call
179 // the function returns and will continue (if cont is true).
180 // from where it left off.
181
182 // returns
183 // 1: if buf is full and can be emitted
184 // 0: if b has been added
185 // -1: if there was an error
186 int pysam_pileup_next(const bam1_t *b,
187                       bam_plbuf_t *buf,
188                       bam_pileup1_t ** plp,
189                       int * tid,
190                       int * pos,
191                       int * n_plp )
192 {
193   *plp = bam_plp_next(buf->iter, tid, pos, n_plp);
194   if (plp == NULL) return 0;
195   return 1;
196 }
197
198 typedef struct __bmc_aux_t {
199         int max;
200         uint32_t *info;
201         uint16_t *info16;
202         errmod_t *em;
203 } bmc_aux_t;
204
205 // Return number of mapped reads on tid.
206 // If tid < 0, return mapped reads without a coordinate (0)
207 uint32_t pysam_get_mapped( const bam_index_t *idx, const int tid )
208 {
209
210   if (tid >= 0)
211     {
212       khint_t k;
213       khash_t(i) *h = idx->index[tid];
214       k = kh_get(i, h, BAM_MAX_BIN);
215
216       if (k != kh_end(h))
217         return kh_val(h, k).list[1].u;
218       else
219         return 0;
220     }
221
222   return 0;
223 }
224
225 uint32_t pysam_get_unmapped( const bam_index_t *idx, const int tid )
226 {
227
228   if (tid >= 0)
229     {
230       khint_t k;
231       khash_t(i) *h = idx->index[tid];
232       k = kh_get(i, h, BAM_MAX_BIN);
233
234       if (k != kh_end(h))
235         return kh_val(h, k).list[1].v;
236       else
237         return 0;
238     }
239
240   return idx->n_no_coor;
241 }
242
243 /* uint32_t pysam_glf_depth( glf1_t * g ) */
244 /* { */
245 /*   return g->depth; */
246 /* } */
247
248
249 /* void pysam_dump_glf( glf1_t * g, bam_maqcns_t * c ) */
250 /* { */
251 /*   int x = 0; */
252 /*   fprintf(stderr, */
253 /*        "glf: ref_base=%i, max_mapQ=%i, min_lk=%i, depth=%i", */
254 /*        g->ref_base, */
255 /*        g->max_mapQ, */
256 /*        g->min_lk, */
257 /*        g->depth ); */
258
259 /*   for (x = 0; x < 10; ++x)  */
260 /*     fprintf(stderr, ", lk%x=%i, ", x, g->lk[x]); */
261
262 /*   fprintf(stderr, */
263 /*        "maqcns: het_rate=%f, theta=%f, n_hap=%i, cap_mapQ=%i, errmod=%i, min_baseQ=%i, eta=%f, q_r=%f, aux_max=%i", */
264 /*        c->het_rate, */
265 /*        c->theta, */
266 /*        c->n_hap, */
267 /*        c->cap_mapQ, */
268 /*        c->errmod, */
269 /*        c->min_baseQ, */
270 /*        c->eta, */
271 /*        c->q_r, */
272 /*        c->aux->max); */
273   
274 /*   for (x = 0; x < c->aux->max; ++x) */
275 /*     { */
276 /*       fprintf(stderr, ", info-%i=%i ", x, c->aux->info[x]); */
277 /*       if (c->aux->info[x] == 0) break; */
278 /*     } */
279   
280 /*   for (x = 0; x < c->aux->max; ++x) */
281 /*     { */
282 /*       fprintf(stderr, ", info16-%i=%i ", x, c->aux->info16[x]); */
283 /*       if (c->aux->info16[x] == 0) break; */
284 /*     } */
285 /* } */
286
287
288   
289
290 // pysam dispatch function to emulate the samtools
291 // command line within python.
292 // taken from the main function in bamtk.c
293 // added code to reset getopt
294 int bam_taf2baf(int argc, char *argv[]);
295 int bam_mpileup(int argc, char *argv[]);
296 int bam_merge(int argc, char *argv[]);
297 int bam_index(int argc, char *argv[]);
298 int bam_sort(int argc, char *argv[]);
299 int bam_tview_main(int argc, char *argv[]);
300 int bam_mating(int argc, char *argv[]);
301 int bam_rmdup(int argc, char *argv[]);
302 int bam_flagstat(int argc, char *argv[]);
303 int bam_fillmd(int argc, char *argv[]);
304 int bam_idxstats(int argc, char *argv[]);
305 int main_samview(int argc, char *argv[]);
306 int main_import(int argc, char *argv[]);
307 int main_reheader(int argc, char *argv[]);
308 int main_cut_target(int argc, char *argv[]);
309 int main_phase(int argc, char *argv[]);
310 int main_cat(int argc, char *argv[]);
311 int main_depth(int argc, char *argv[]);
312 int main_bam2fq(int argc, char *argv[]);
313 int faidx_main(int argc, char *argv[]);
314
315 int pysam_dispatch(int argc, char *argv[] )
316 {
317   extern int optind;
318 #ifdef _WIN32
319   setmode(fileno(stdout), O_BINARY);
320   setmode(fileno(stdin),  O_BINARY);
321 #ifdef _USE_KNETFILE
322   knet_win32_init();
323 #endif
324 #endif
325
326   // reset getopt
327   optind = 1;
328
329   if (argc < 2) return 1;
330   int retval = 0;
331   
332   if (strcmp(argv[1], "view") == 0) retval = main_samview(argc-1, argv+1);
333   else if (strcmp(argv[1], "import") == 0) retval = main_import(argc-1, argv+1);
334   else if (strcmp(argv[1], "mpileup") == 0) retval = bam_mpileup(argc-1, argv+1);
335   else if (strcmp(argv[1], "merge") == 0) retval = bam_merge(argc-1, argv+1);
336   else if (strcmp(argv[1], "sort") == 0) retval = bam_sort(argc-1, argv+1);
337   else if (strcmp(argv[1], "index") == 0) retval = bam_index(argc-1, argv+1);
338   else if (strcmp(argv[1], "faidx") == 0) retval = faidx_main(argc-1, argv+1);
339   else if (strcmp(argv[1], "idxstats") == 0) retval = bam_idxstats(argc-1, argv+1);
340   else if (strcmp(argv[1], "fixmate") == 0) retval = bam_mating(argc-1, argv+1);
341   else if (strcmp(argv[1], "rmdup") == 0) retval = bam_rmdup(argc-1, argv+1);
342   else if (strcmp(argv[1], "flagstat") == 0) retval = bam_flagstat(argc-1, argv+1);
343   else if (strcmp(argv[1], "calmd") == 0) retval = bam_fillmd(argc-1, argv+1);
344   else if (strcmp(argv[1], "fillmd") == 0) retval = bam_fillmd(argc-1, argv+1);
345   else if (strcmp(argv[1], "reheader") == 0) retval = main_reheader(argc-1, argv+1);
346   else if (strcmp(argv[1], "cat") == 0) retval = main_cat(argc-1, argv+1);
347   else if (strcmp(argv[1], "targetcut") == 0) retval = main_cut_target(argc-1, argv+1);
348   else if (strcmp(argv[1], "phase") == 0) retval = main_phase(argc-1, argv+1);
349   else if (strcmp(argv[1], "depth") == 0)
350     {
351       retval = main_depth(argc-1, argv+1);
352     }
353   
354   else if (strcmp(argv[1], "bam2fq") == 0) retval = main_bam2fq(argc-1, argv+1);
355   
356 #if _CURSES_LIB != 0
357   else if (strcmp(argv[1], "tview") == 0) retval = bam_tview_main(argc-1, argv+1);
358 #endif
359   else 
360     {
361       fprintf(stderr, "[main] unrecognized command '%s'\n", argv[1]);
362       return 1;
363     }
364   fflush( stdout );
365   
366   return retval;
367 }
368
369 // taken from samtools/bam_import.c
370 static inline uint8_t *alloc_data(bam1_t *b, size_t size)
371 {
372   if (b->m_data < size)
373     {
374       b->m_data = size;
375       kroundup32(b->m_data);
376       b->data = (uint8_t*)realloc(b->data, b->m_data);
377     }
378   return b->data;
379 }
380
381 // update the variable length data within a bam1_t entry.
382 // Adds *nbytes_new* - *nbytes_old* into the variable length data of *src* at *pos*.
383 // Data within the bam1_t entry is moved so that it is
384 // consistent with the data field lengths.
385 bam1_t * pysam_bam_update( bam1_t * b,
386                            const size_t nbytes_old,
387                            const size_t nbytes_new, 
388                            uint8_t * pos )
389 {
390   int d = nbytes_new-nbytes_old;
391   int new_size;
392   size_t offset;
393
394   // no change
395   if (d == 0) return b;
396
397   new_size = d + b->data_len;
398   offset = pos - b->data;
399
400   //printf("d=%i, old=%i, new=%i, old_size=%i, new_size=%i\n",
401   // d, nbytes_old, nbytes_new, b->data_len, new_size);
402   
403   // increase memory if required
404   if (d > 0)
405     {
406       alloc_data( b, new_size );
407       pos = b->data + offset;
408     }
409   
410   if (b->data_len != 0)
411     {
412       if (offset < 0 || offset > b->data_len)
413         fprintf(stderr, "[pysam_bam_insert] illegal offset: '%i'\n", (int)offset);
414     }
415   
416   // printf("dest=%p, src=%p, n=%i\n", pos+nbytes_new, pos + nbytes_old, b->data_len - (offset+nbytes_old));
417   memmove( pos + nbytes_new,
418            pos + nbytes_old,
419            b->data_len - (offset + nbytes_old));
420     
421   b->data_len = new_size;
422       
423   return b;
424 }
425
426 // translate a nucleotide character to binary code
427 unsigned char pysam_translate_sequence( const unsigned char s )
428 {
429   return bam_nt16_table[s];
430 }
431
432
433 void bam_init_header_hash(bam_header_t *header);
434
435 // translate a reference string *s* to a tid
436 // code taken from bam_parse_region
437 int pysam_reference2tid( bam_header_t *header, const char * s )
438 {
439   
440   khiter_t iter;
441   khash_t(s) *h;
442   
443   bam_init_header_hash(header);
444   h = (khash_t(s)*)header->hash;
445
446   iter = kh_get(s, h, s); /* get the ref_id */
447   if (iter == kh_end(h)) { // name not found
448     return -1;
449   }
450
451   return kh_value(h, iter);
452 }
453
454 // Auxiliary functions for B support
455 void bam_aux_appendB(bam1_t *b, const char tag[2], char type, char subtype, int len, uint8_t *data)
456 {
457
458   int ori_len;
459
460   int data_len;
461
462   // check that type is 'B'
463   if('B' != type) return;
464
465   ori_len = b->data_len;
466
467   data_len = len * bam_aux_type2size(subtype);
468   // infer the data length from the sub-type
469   b->data_len += 8 + data_len;
470
471   b->l_aux += 8 + data_len;
472
473   if (b->m_data < b->data_len) 
474     {
475
476       b->m_data = b->data_len;
477
478       kroundup32(b->m_data);
479
480       b->data = (uint8_t*)realloc(b->data, b->m_data);
481
482     }
483
484   b->data[ori_len] = tag[0];
485   b->data[ori_len + 1] = tag[1];
486   // tag
487   b->data[ori_len + 2] = type;
488   // type
489   b->data[ori_len + 3] = subtype;
490   // subtype
491   (*(int32_t*)(b->data + ori_len + 4)) = len;
492   // size
493   memcpy(b->data + ori_len + 8, data, data_len);
494   // data
495 }
496
497 /*
498 // return size of auxiliary type
499 int bam_aux_type2size(int x)
500 {
501   if (x == 'C' || x == 'c' || x == 'A') return 1;
502   else if (x == 'S' || x == 's') return 2;
503   else if (x == 'I' || x == 'i' || x == 'f') return 4;
504   else return 0;
505 }
506 */
507
508
509
510
511