Imported Upstream version 0.7
[pysam.git] / pysam / pysam_util.c
index 91b6fa7e17e04c8fe67a0e68f63292f390f774d4..c1eae5d39beaafcf0f4cd23a771727c29c74fd96 100644 (file)
@@ -6,13 +6,39 @@
 #include "bam_endian.h"
 #include "knetfile.h"
 #include "pysam_util.h"
+#include "errmod.h" // for pysam_dump 
+
+#ifndef inline
+#define inline __inline
+#endif
+
+// Definition of pysamerr
+#include "stdio.h"
+FILE * pysamerr = NULL;
+
+FILE * pysam_set_stderr(int fd)
+{
+  if (pysamerr != NULL)
+    fclose(pysamerr);
+  pysamerr = fdopen(fd, "w");
+  return pysamerr;
+}
+
+void pysam_unset_stderr()
+{
+  if (pysamerr != NULL)
+    fclose(pysamerr);
+  pysamerr = fopen("/dev/null", "w");
+}
 
 // #######################################################
 // utility routines to avoid using callbacks in bam_fetch
 // taken from bam_index.c
 // The order of the following declarations is important.
 // #######################################################
+#define BAM_MAX_BIN 37450 // =(8^6-1)/7+1
 
+// initialize hashes
 typedef struct
 {
   uint64_t u, v;
@@ -20,6 +46,8 @@ typedef struct
 
 #define pair64_lt(a,b) ((a).u < (b).u)
 
+KSORT_INIT(myoff, pair64_t, pair64_lt);
+
 typedef struct {
        uint32_t m, n;
        pair64_t *list;
@@ -30,13 +58,16 @@ typedef struct {
        uint64_t *offset;
 } bam_lidx_t;
 
-KSORT_INIT(my_off, pair64_t, pair64_lt);
-KHASH_MAP_INIT_INT(my_i, bam_binlist_t);
+
+// initialize hashes ('i' and 's' are idenditifiers)
+KHASH_MAP_INIT_INT(i, bam_binlist_t);
+KHASH_MAP_INIT_STR(s, int)
 
 struct __bam_index_t
 {
   int32_t n;
-  khash_t(my_i) **index;
+  uint64_t n_no_coor; // unmapped reads without coordinate
+  khash_t(i) **index;
   bam_lidx_t *index2;
 };
 
@@ -61,7 +92,7 @@ struct __bam_plbuf_t {
        bam_pileup1_t *pu;
        int flag_mask;
 };
-
+  
 static mempool_t *mp_init()
 {
        mempool_t *mp;
@@ -164,26 +195,126 @@ int pysam_pileup_next(const bam1_t *b,
   return 1;
 }
 
+typedef struct __bmc_aux_t {
+       int max;
+       uint32_t *info;
+       uint16_t *info16;
+       errmod_t *em;
+} bmc_aux_t;
+
+// Return number of mapped reads on tid.
+// If tid < 0, return mapped reads without a coordinate (0)
+uint32_t pysam_get_mapped( const bam_index_t *idx, const int tid )
+{
+
+  if (tid >= 0)
+    {
+      khint_t k;
+      khash_t(i) *h = idx->index[tid];
+      k = kh_get(i, h, BAM_MAX_BIN);
+
+      if (k != kh_end(h))
+       return kh_val(h, k).list[1].u;
+      else
+       return 0;
+    }
+
+  return 0;
+}
+
+uint32_t pysam_get_unmapped( const bam_index_t *idx, const int tid )
+{
+
+  if (tid >= 0)
+    {
+      khint_t k;
+      khash_t(i) *h = idx->index[tid];
+      k = kh_get(i, h, BAM_MAX_BIN);
+
+      if (k != kh_end(h))
+       return kh_val(h, k).list[1].v;
+      else
+       return 0;
+    }
+
+  return idx->n_no_coor;
+}
+
+/* uint32_t pysam_glf_depth( glf1_t * g ) */
+/* { */
+/*   return g->depth; */
+/* } */
+
+
+/* void pysam_dump_glf( glf1_t * g, bam_maqcns_t * c ) */
+/* { */
+/*   int x = 0; */
+/*   fprintf(stderr, */
+/*       "glf: ref_base=%i, max_mapQ=%i, min_lk=%i, depth=%i", */
+/*       g->ref_base, */
+/*       g->max_mapQ, */
+/*       g->min_lk, */
+/*       g->depth ); */
+
+/*   for (x = 0; x < 10; ++x)  */
+/*     fprintf(stderr, ", lk%x=%i, ", x, g->lk[x]); */
+
+/*   fprintf(stderr, */
+/*       "maqcns: het_rate=%f, theta=%f, n_hap=%i, cap_mapQ=%i, errmod=%i, min_baseQ=%i, eta=%f, q_r=%f, aux_max=%i", */
+/*       c->het_rate, */
+/*       c->theta, */
+/*       c->n_hap, */
+/*       c->cap_mapQ, */
+/*       c->errmod, */
+/*       c->min_baseQ, */
+/*       c->eta, */
+/*       c->q_r, */
+/*       c->aux->max); */
+  
+/*   for (x = 0; x < c->aux->max; ++x) */
+/*     { */
+/*       fprintf(stderr, ", info-%i=%i ", x, c->aux->info[x]); */
+/*       if (c->aux->info[x] == 0) break; */
+/*     } */
+  
+/*   for (x = 0; x < c->aux->max; ++x) */
+/*     { */
+/*       fprintf(stderr, ", info16-%i=%i ", x, c->aux->info16[x]); */
+/*       if (c->aux->info16[x] == 0) break; */
+/*     } */
+/* } */
+
+
+  
+
 // pysam dispatch function to emulate the samtools
 // command line within python.
 // taken from the main function in bamtk.c
 // added code to reset getopt
-extern int main_samview(int argc, char *argv[]);
-extern int main_import(int argc, char *argv[]);
-extern int bam_pileup(int argc, char *argv[]);
-extern int bam_merge(int argc, char *argv[]);
-extern int bam_sort(int argc, char *argv[]);
-extern int bam_index(int argc, char *argv[]);
-extern int faidx_main(int argc, char *argv[]);
-extern int bam_mating(int argc, char *argv[]);
-extern int bam_rmdup(int argc, char *argv[]);
-extern int glf3_view_main(int argc, char *argv[]);
-extern int bam_flagstat(int argc, char *argv[]);
-extern int bam_fillmd(int argc, char *argv[]);
+int bam_taf2baf(int argc, char *argv[]);
+int bam_mpileup(int argc, char *argv[]);
+int bam_merge(int argc, char *argv[]);
+int bam_index(int argc, char *argv[]);
+int bam_sort(int argc, char *argv[]);
+int bam_tview_main(int argc, char *argv[]);
+int bam_mating(int argc, char *argv[]);
+int bam_rmdup(int argc, char *argv[]);
+int bam_flagstat(int argc, char *argv[]);
+int bam_fillmd(int argc, char *argv[]);
+int bam_idxstats(int argc, char *argv[]);
+int main_samview(int argc, char *argv[]);
+int main_import(int argc, char *argv[]);
+int main_reheader(int argc, char *argv[]);
+int main_cut_target(int argc, char *argv[]);
+int main_phase(int argc, char *argv[]);
+int main_cat(int argc, char *argv[]);
+int main_depth(int argc, char *argv[]);
+int main_bam2fq(int argc, char *argv[]);
+int faidx_main(int argc, char *argv[]);
 
 int pysam_dispatch(int argc, char *argv[] )
 {
-
+  extern int optind;
 #ifdef _WIN32
   setmode(fileno(stdout), O_BINARY);
   setmode(fileno(stdin),  O_BINARY);
@@ -192,36 +323,47 @@ int pysam_dispatch(int argc, char *argv[] )
 #endif
 #endif
 
-  extern int optind;
-  
-  // reset getop
+  // reset getopt
   optind = 1;
 
   if (argc < 2) return 1;
-
-  if (strcmp(argv[1], "view") == 0) return main_samview(argc-1, argv+1);
-  else if (strcmp(argv[1], "import") == 0) return main_import(argc-1, argv+1);
-  else if (strcmp(argv[1], "pileup") == 0) return bam_pileup(argc-1, argv+1);
-  else if (strcmp(argv[1], "merge") == 0) return bam_merge(argc-1, argv+1);
-  else if (strcmp(argv[1], "sort") == 0) return bam_sort(argc-1, argv+1);
-  else if (strcmp(argv[1], "index") == 0) return bam_index(argc-1, argv+1);
-  else if (strcmp(argv[1], "faidx") == 0) return faidx_main(argc-1, argv+1);
-  else if (strcmp(argv[1], "fixmate") == 0) return bam_mating(argc-1, argv+1);
-  else if (strcmp(argv[1], "rmdup") == 0) return bam_rmdup(argc-1, argv+1);
-  else if (strcmp(argv[1], "glfview") == 0) return glf3_view_main(argc-1, argv+1);
-  else if (strcmp(argv[1], "flagstat") == 0) return bam_flagstat(argc-1, argv+1);
-  else if (strcmp(argv[1], "calmd") == 0) return bam_fillmd(argc-1, argv+1);
-  else if (strcmp(argv[1], "fillmd") == 0) return bam_fillmd(argc-1, argv+1);
-
+  int retval = 0;
+  
+  if (strcmp(argv[1], "view") == 0) retval = main_samview(argc-1, argv+1);
+  else if (strcmp(argv[1], "import") == 0) retval = main_import(argc-1, argv+1);
+  else if (strcmp(argv[1], "mpileup") == 0) retval = bam_mpileup(argc-1, argv+1);
+  else if (strcmp(argv[1], "merge") == 0) retval = bam_merge(argc-1, argv+1);
+  else if (strcmp(argv[1], "sort") == 0) retval = bam_sort(argc-1, argv+1);
+  else if (strcmp(argv[1], "index") == 0) retval = bam_index(argc-1, argv+1);
+  else if (strcmp(argv[1], "faidx") == 0) retval = faidx_main(argc-1, argv+1);
+  else if (strcmp(argv[1], "idxstats") == 0) retval = bam_idxstats(argc-1, argv+1);
+  else if (strcmp(argv[1], "fixmate") == 0) retval = bam_mating(argc-1, argv+1);
+  else if (strcmp(argv[1], "rmdup") == 0) retval = bam_rmdup(argc-1, argv+1);
+  else if (strcmp(argv[1], "flagstat") == 0) retval = bam_flagstat(argc-1, argv+1);
+  else if (strcmp(argv[1], "calmd") == 0) retval = bam_fillmd(argc-1, argv+1);
+  else if (strcmp(argv[1], "fillmd") == 0) retval = bam_fillmd(argc-1, argv+1);
+  else if (strcmp(argv[1], "reheader") == 0) retval = main_reheader(argc-1, argv+1);
+  else if (strcmp(argv[1], "cat") == 0) retval = main_cat(argc-1, argv+1);
+  else if (strcmp(argv[1], "targetcut") == 0) retval = main_cut_target(argc-1, argv+1);
+  else if (strcmp(argv[1], "phase") == 0) retval = main_phase(argc-1, argv+1);
+  else if (strcmp(argv[1], "depth") == 0)
+    {
+      retval = main_depth(argc-1, argv+1);
+    }
+  
+  else if (strcmp(argv[1], "bam2fq") == 0) retval = main_bam2fq(argc-1, argv+1);
+  
 #if _CURSES_LIB != 0
-  else if (strcmp(argv[1], "tview") == 0) return bam_tview_main(argc-1, argv+1);
+  else if (strcmp(argv[1], "tview") == 0) retval = bam_tview_main(argc-1, argv+1);
 #endif
   else 
     {
       fprintf(stderr, "[main] unrecognized command '%s'\n", argv[1]);
       return 1;
     }
-  return 0;
+  fflush( stdout );
+  
+  return retval;
 }
 
 // taken from samtools/bam_import.c
@@ -246,12 +388,14 @@ bam1_t * pysam_bam_update( bam1_t * b,
                           uint8_t * pos )
 {
   int d = nbytes_new-nbytes_old;
+  int new_size;
+  size_t offset;
 
   // no change
   if (d == 0) return b;
 
-  int new_size = d + b->data_len;
-  size_t offset = pos - b->data;
+  new_size = d + b->data_len;
+  offset = pos - b->data;
 
   //printf("d=%i, old=%i, new=%i, old_size=%i, new_size=%i\n",
   // d, nbytes_old, nbytes_new, b->data_len, new_size);
@@ -286,5 +430,82 @@ unsigned char pysam_translate_sequence( const unsigned char s )
 }
 
 
+void bam_init_header_hash(bam_header_t *header);
+
+// translate a reference string *s* to a tid
+// code taken from bam_parse_region
+int pysam_reference2tid( bam_header_t *header, const char * s )
+{
+  
+  khiter_t iter;
+  khash_t(s) *h;
+  
+  bam_init_header_hash(header);
+  h = (khash_t(s)*)header->hash;
+
+  iter = kh_get(s, h, s); /* get the ref_id */
+  if (iter == kh_end(h)) { // name not found
+    return -1;
+  }
+
+  return kh_value(h, iter);
+}
+
+// Auxiliary functions for B support
+void bam_aux_appendB(bam1_t *b, const char tag[2], char type, char subtype, int len, uint8_t *data)
+{
+
+  int ori_len;
+
+  int data_len;
+
+  // check that type is 'B'
+  if('B' != type) return;
+
+  ori_len = b->data_len;
+
+  data_len = len * bam_aux_type2size(subtype);
+  // infer the data length from the sub-type
+  b->data_len += 8 + data_len;
+
+  b->l_aux += 8 + data_len;
+
+  if (b->m_data < b->data_len) 
+    {
+
+      b->m_data = b->data_len;
+
+      kroundup32(b->m_data);
+
+      b->data = (uint8_t*)realloc(b->data, b->m_data);
+
+    }
+
+  b->data[ori_len] = tag[0];
+  b->data[ori_len + 1] = tag[1];
+  // tag
+  b->data[ori_len + 2] = type;
+  // type
+  b->data[ori_len + 3] = subtype;
+  // subtype
+  (*(int32_t*)(b->data + ori_len + 4)) = len;
+  // size
+  memcpy(b->data + ori_len + 8, data, data_len);
+  // data
+}
+
+/*
+// return size of auxiliary type
+int bam_aux_type2size(int x)
+{
+  if (x == 'C' || x == 'c' || x == 'A') return 1;
+  else if (x == 'S' || x == 's') return 2;
+  else if (x == 'I' || x == 'i' || x == 'f') return 4;
+  else return 0;
+}
+*/
+
+
+