Imported Upstream version 0.6
[pysam.git] / pysam / pysam_util.c
1 #include <ctype.h>
2 #include <assert.h>
3 #include "bam.h"
4 #include "khash.h"
5 #include "ksort.h"
6 #include "bam_endian.h"
7 #include "knetfile.h"
8 #include "pysam_util.h"
9 #include "errmod.h" // for pysam_dump 
10
11 #ifndef inline
12 #define inline __inline
13 #endif
14
15 // Definition of pysamerr
16 #include "stdio.h"
17 FILE * pysamerr = NULL;
18
19 FILE * pysam_set_stderr( FILE * f )
20 {
21   pysamerr = f;
22   return f;
23 }
24
25 // #######################################################
26 // utility routines to avoid using callbacks in bam_fetch
27 // taken from bam_index.c
28 // The order of the following declarations is important.
29 // #######################################################
30 #define BAM_MAX_BIN 37450 // =(8^6-1)/7+1
31
32 // initialize hashes
33 typedef struct
34 {
35   uint64_t u, v;
36 } pair64_t;
37
38 #define pair64_lt(a,b) ((a).u < (b).u)
39
40 KSORT_INIT(myoff, pair64_t, pair64_lt);
41
42 typedef struct {
43         uint32_t m, n;
44         pair64_t *list;
45 } bam_binlist_t;
46
47 typedef struct {
48         int32_t n, m;
49         uint64_t *offset;
50 } bam_lidx_t;
51
52
53 // initialize hashes ('i' and 's' are idenditifiers)
54 KHASH_MAP_INIT_INT(i, bam_binlist_t);
55 KHASH_MAP_INIT_STR(s, int)
56
57 struct __bam_index_t
58 {
59   int32_t n;
60   uint64_t n_no_coor; // unmapped reads without coordinate
61   khash_t(i) **index;
62   bam_lidx_t *index2;
63 };
64
65 typedef struct __linkbuf_t {
66         bam1_t b;
67         uint32_t beg, end;
68         struct __linkbuf_t *next;
69 } lbnode_t;
70
71 typedef struct {
72         int cnt, n, max;
73         lbnode_t **buf;
74 } mempool_t;
75
76 struct __bam_plbuf_t {
77         mempool_t *mp;
78         lbnode_t *head, *tail, *dummy;
79         bam_pileup_f func;
80         void *func_data;
81         int32_t tid, pos, max_tid, max_pos;
82         int max_pu, is_eof;
83         bam_pileup1_t *pu;
84         int flag_mask;
85 };
86   
87 static mempool_t *mp_init()
88 {
89         mempool_t *mp;
90         mp = (mempool_t*)calloc(1, sizeof(mempool_t));
91         return mp;
92 }
93 static void mp_destroy(mempool_t *mp)
94 {
95         int k;
96         for (k = 0; k < mp->n; ++k) {
97                 free(mp->buf[k]->b.data);
98                 free(mp->buf[k]);
99         }
100         free(mp->buf);
101         free(mp);
102 }
103 static inline lbnode_t *mp_alloc(mempool_t *mp)
104 {
105         ++mp->cnt;
106         if (mp->n == 0) return (lbnode_t*)calloc(1, sizeof(lbnode_t));
107         else return mp->buf[--mp->n];
108 }
109 static inline void mp_free(mempool_t *mp, lbnode_t *p)
110 {
111         --mp->cnt; p->next = 0; // clear lbnode_t::next here
112         if (mp->n == mp->max) {
113                 mp->max = mp->max? mp->max<<1 : 256;
114                 mp->buf = (lbnode_t**)realloc(mp->buf, sizeof(lbnode_t*) * mp->max);
115         }
116         mp->buf[mp->n++] = p;
117 }
118
119 static inline int resolve_cigar(bam_pileup1_t *p, uint32_t pos)
120 {
121         unsigned k;
122         bam1_t *b = p->b;
123         bam1_core_t *c = &b->core;
124         uint32_t x = c->pos, y = 0;
125         int ret = 1, is_restart = 1;
126
127         if (c->flag&BAM_FUNMAP) return 0; // unmapped read
128         assert(x <= pos); // otherwise a bug
129         p->qpos = -1; p->indel = 0; p->is_del = p->is_head = p->is_tail = 0;
130         for (k = 0; k < c->n_cigar; ++k) {
131                 int op = bam1_cigar(b)[k] & BAM_CIGAR_MASK; // operation
132                 int l = bam1_cigar(b)[k] >> BAM_CIGAR_SHIFT; // length
133                 if (op == BAM_CMATCH) { // NOTE: this assumes the first and the last operation MUST BE a match or a clip
134                         if (x + l > pos) { // overlap with pos
135                                 p->indel = p->is_del = 0;
136                                 p->qpos = y + (pos - x);
137                                 if (x == pos && is_restart) p->is_head = 1;
138                                 if (x + l - 1 == pos) { // come to the end of a match
139                                         if (k < c->n_cigar - 1) { // there are additional operation(s)
140                                                 uint32_t cigar = bam1_cigar(b)[k+1]; // next CIGAR
141                                                 int op_next = cigar&BAM_CIGAR_MASK; // next CIGAR operation
142                                                 if (op_next == BAM_CDEL) p->indel = -(int32_t)(cigar>>BAM_CIGAR_SHIFT); // del
143                                                 else if (op_next == BAM_CINS) p->indel = cigar>>BAM_CIGAR_SHIFT; // ins
144                                                 if (op_next == BAM_CSOFT_CLIP || op_next == BAM_CREF_SKIP || op_next == BAM_CHARD_CLIP)
145                                                         p->is_tail = 1; // tail
146                                         } else p->is_tail = 1; // this is the last operation; set tail
147                                 }
148                         }
149                         x += l; y += l;
150                 } else if (op == BAM_CDEL) { // then set ->is_del
151                         if (x + l > pos) {
152                                 p->indel = 0; p->is_del = 1;
153                                 p->qpos = y + (pos - x);
154                         }
155                         x += l;
156                 } else if (op == BAM_CREF_SKIP) x += l;
157                 else if (op == BAM_CINS || op == BAM_CSOFT_CLIP) y += l;
158                 is_restart = (op == BAM_CREF_SKIP || op == BAM_CSOFT_CLIP || op == BAM_CHARD_CLIP);
159                 if (x > pos) {
160                         if (op == BAM_CREF_SKIP) ret = 0; // then do not put it into pileup at all
161                         break;
162                 }
163         }
164         assert(x > pos); // otherwise a bug
165         return ret;
166
167 }
168 // the following code has been taken from bam_plbuf_push
169 // and modified such that instead of a function call
170 // the function returns and will continue (if cont is true).
171 // from where it left off.
172
173 // returns
174 // 1: if buf is full and can be emitted
175 // 0: if b has been added
176 // -1: if there was an error
177 int pysam_pileup_next(const bam1_t *b,
178                       bam_plbuf_t *buf,
179                       bam_pileup1_t ** plp,
180                       int * tid,
181                       int * pos,
182                       int * n_plp )
183 {
184   *plp = bam_plp_next(buf->iter, tid, pos, n_plp);
185   if (plp == NULL) return 0;
186   return 1;
187 }
188
189 typedef struct __bmc_aux_t {
190         int max;
191         uint32_t *info;
192         uint16_t *info16;
193         errmod_t *em;
194 } bmc_aux_t;
195
196 // Return number of mapped reads on tid.
197 // If tid < 0, return mapped reads without a coordinate (0)
198 uint32_t pysam_get_mapped( const bam_index_t *idx, const int tid )
199 {
200
201   if (tid >= 0)
202     {
203       khint_t k;
204       khash_t(i) *h = idx->index[tid];
205       k = kh_get(i, h, BAM_MAX_BIN);
206
207       if (k != kh_end(h))
208         return kh_val(h, k).list[1].u;
209       else
210         return 0;
211     }
212
213   return 0;
214 }
215
216 uint32_t pysam_get_unmapped( const bam_index_t *idx, const int tid )
217 {
218
219   if (tid >= 0)
220     {
221       khint_t k;
222       khash_t(i) *h = idx->index[tid];
223       k = kh_get(i, h, BAM_MAX_BIN);
224
225       if (k != kh_end(h))
226         return kh_val(h, k).list[1].v;
227       else
228         return 0;
229     }
230
231   return idx->n_no_coor;
232 }
233
234 /* uint32_t pysam_glf_depth( glf1_t * g ) */
235 /* { */
236 /*   return g->depth; */
237 /* } */
238
239
240 /* void pysam_dump_glf( glf1_t * g, bam_maqcns_t * c ) */
241 /* { */
242 /*   int x = 0; */
243 /*   fprintf(stderr, */
244 /*        "glf: ref_base=%i, max_mapQ=%i, min_lk=%i, depth=%i", */
245 /*        g->ref_base, */
246 /*        g->max_mapQ, */
247 /*        g->min_lk, */
248 /*        g->depth ); */
249
250 /*   for (x = 0; x < 10; ++x)  */
251 /*     fprintf(stderr, ", lk%x=%i, ", x, g->lk[x]); */
252
253 /*   fprintf(stderr, */
254 /*        "maqcns: het_rate=%f, theta=%f, n_hap=%i, cap_mapQ=%i, errmod=%i, min_baseQ=%i, eta=%f, q_r=%f, aux_max=%i", */
255 /*        c->het_rate, */
256 /*        c->theta, */
257 /*        c->n_hap, */
258 /*        c->cap_mapQ, */
259 /*        c->errmod, */
260 /*        c->min_baseQ, */
261 /*        c->eta, */
262 /*        c->q_r, */
263 /*        c->aux->max); */
264   
265 /*   for (x = 0; x < c->aux->max; ++x) */
266 /*     { */
267 /*       fprintf(stderr, ", info-%i=%i ", x, c->aux->info[x]); */
268 /*       if (c->aux->info[x] == 0) break; */
269 /*     } */
270   
271 /*   for (x = 0; x < c->aux->max; ++x) */
272 /*     { */
273 /*       fprintf(stderr, ", info16-%i=%i ", x, c->aux->info16[x]); */
274 /*       if (c->aux->info16[x] == 0) break; */
275 /*     } */
276 /* } */
277
278
279   
280
281 // pysam dispatch function to emulate the samtools
282 // command line within python.
283 // taken from the main function in bamtk.c
284 // added code to reset getopt
285 int bam_taf2baf(int argc, char *argv[]);
286 int bam_mpileup(int argc, char *argv[]);
287 int bam_merge(int argc, char *argv[]);
288 int bam_index(int argc, char *argv[]);
289 int bam_sort(int argc, char *argv[]);
290 int bam_tview_main(int argc, char *argv[]);
291 int bam_mating(int argc, char *argv[]);
292 int bam_rmdup(int argc, char *argv[]);
293 int bam_flagstat(int argc, char *argv[]);
294 int bam_fillmd(int argc, char *argv[]);
295 int bam_idxstats(int argc, char *argv[]);
296 int main_samview(int argc, char *argv[]);
297 int main_import(int argc, char *argv[]);
298 int main_reheader(int argc, char *argv[]);
299 int main_cut_target(int argc, char *argv[]);
300 int main_phase(int argc, char *argv[]);
301 int main_cat(int argc, char *argv[]);
302 int main_depth(int argc, char *argv[]);
303 int main_bam2fq(int argc, char *argv[]);
304 int faidx_main(int argc, char *argv[]);
305
306 int pysam_dispatch(int argc, char *argv[] )
307 {
308   extern int optind;
309 #ifdef _WIN32
310   setmode(fileno(stdout), O_BINARY);
311   setmode(fileno(stdin),  O_BINARY);
312 #ifdef _USE_KNETFILE
313   knet_win32_init();
314 #endif
315 #endif
316   
317   // reset getopt
318   optind = 1;
319
320   if (argc < 2) return 1;
321
322   if (strcmp(argv[1], "view") == 0) return main_samview(argc-1, argv+1);
323   else if (strcmp(argv[1], "import") == 0) return main_import(argc-1, argv+1);
324   else if (strcmp(argv[1], "mpileup") == 0) return bam_mpileup(argc-1, argv+1);
325   else if (strcmp(argv[1], "merge") == 0) return bam_merge(argc-1, argv+1);
326   else if (strcmp(argv[1], "sort") == 0) return bam_sort(argc-1, argv+1);
327   else if (strcmp(argv[1], "index") == 0) return bam_index(argc-1, argv+1);
328   else if (strcmp(argv[1], "faidx") == 0) return faidx_main(argc-1, argv+1);
329   else if (strcmp(argv[1], "idxstats") == 0) return bam_idxstats(argc-1, argv+1);
330   else if (strcmp(argv[1], "fixmate") == 0) return bam_mating(argc-1, argv+1);
331   else if (strcmp(argv[1], "rmdup") == 0) return bam_rmdup(argc-1, argv+1);
332   else if (strcmp(argv[1], "flagstat") == 0) return bam_flagstat(argc-1, argv+1);
333   else if (strcmp(argv[1], "calmd") == 0) return bam_fillmd(argc-1, argv+1);
334   else if (strcmp(argv[1], "fillmd") == 0) return bam_fillmd(argc-1, argv+1);
335   else if (strcmp(argv[1], "reheader") == 0) return main_reheader(argc-1, argv+1);
336   else if (strcmp(argv[1], "cat") == 0) return main_cat(argc-1, argv+1);
337   else if (strcmp(argv[1], "targetcut") == 0) return main_cut_target(argc-1, argv+1);
338   else if (strcmp(argv[1], "phase") == 0) return main_phase(argc-1, argv+1);
339   else if (strcmp(argv[1], "depth") == 0) return main_depth(argc-1, argv+1);
340   else if (strcmp(argv[1], "bam2fq") == 0) return main_bam2fq(argc-1, argv+1);
341   
342 #if _CURSES_LIB != 0
343   else if (strcmp(argv[1], "tview") == 0) return bam_tview_main(argc-1, argv+1);
344 #endif
345   else 
346     {
347       fprintf(stderr, "[main] unrecognized command '%s'\n", argv[1]);
348       return 1;
349     }
350   return 0;
351 }
352
353 // taken from samtools/bam_import.c
354 static inline uint8_t *alloc_data(bam1_t *b, size_t size)
355 {
356   if (b->m_data < size)
357     {
358       b->m_data = size;
359       kroundup32(b->m_data);
360       b->data = (uint8_t*)realloc(b->data, b->m_data);
361     }
362   return b->data;
363 }
364
365 // update the variable length data within a bam1_t entry.
366 // Adds *nbytes_new* - *nbytes_old* into the variable length data of *src* at *pos*.
367 // Data within the bam1_t entry is moved so that it is
368 // consistent with the data field lengths.
369 bam1_t * pysam_bam_update( bam1_t * b,
370                            const size_t nbytes_old,
371                            const size_t nbytes_new, 
372                            uint8_t * pos )
373 {
374   int d = nbytes_new-nbytes_old;
375   int new_size;
376   size_t offset;
377
378   // no change
379   if (d == 0) return b;
380
381   new_size = d + b->data_len;
382   offset = pos - b->data;
383
384   //printf("d=%i, old=%i, new=%i, old_size=%i, new_size=%i\n",
385   // d, nbytes_old, nbytes_new, b->data_len, new_size);
386   
387   // increase memory if required
388   if (d > 0)
389     {
390       alloc_data( b, new_size );
391       pos = b->data + offset;
392     }
393   
394   if (b->data_len != 0)
395     {
396       if (offset < 0 || offset > b->data_len)
397         fprintf(stderr, "[pysam_bam_insert] illegal offset: '%i'\n", (int)offset);
398     }
399   
400   // printf("dest=%p, src=%p, n=%i\n", pos+nbytes_new, pos + nbytes_old, b->data_len - (offset+nbytes_old));
401   memmove( pos + nbytes_new,
402            pos + nbytes_old,
403            b->data_len - (offset + nbytes_old));
404     
405   b->data_len = new_size;
406       
407   return b;
408 }
409
410 // translate a nucleotide character to binary code
411 unsigned char pysam_translate_sequence( const unsigned char s )
412 {
413   return bam_nt16_table[s];
414 }
415
416
417 void bam_init_header_hash(bam_header_t *header);
418
419 // translate a reference string *s* to a tid
420 // code taken from bam_parse_region
421 int pysam_reference2tid( bam_header_t *header, const char * s )
422 {
423   
424   khiter_t iter;
425   khash_t(s) *h;
426   
427   bam_init_header_hash(header);
428   h = (khash_t(s)*)header->hash;
429
430   iter = kh_get(s, h, s); /* get the ref_id */
431   if (iter == kh_end(h)) { // name not found
432     return -1;
433   }
434
435   return kh_value(h, iter);
436 }
437
438
439   
440
441
442
443
444