Imported Upstream version 0.5
[pysam.git] / samtools / faidx.c.pysam.c
1 #include "pysam.h"
2
3 #include <ctype.h>
4 #include <string.h>
5 #include <stdlib.h>
6 #include <stdio.h>
7 #include <stdint.h>
8 #include "faidx.h"
9 #include "khash.h"
10
11 typedef struct {
12         uint64_t len:32, line_len:16, line_blen:16;
13         uint64_t offset;
14 } faidx1_t;
15 KHASH_MAP_INIT_STR(s, faidx1_t)
16
17 #ifndef _NO_RAZF
18 #include "razf.h"
19 #else
20 #ifdef _WIN32
21 #define ftello(fp) ftell(fp)
22 #define fseeko(fp, offset, whence) fseek(fp, offset, whence)
23 #else
24 extern off_t ftello(FILE *stream);
25 extern int fseeko(FILE *stream, off_t offset, int whence);
26 #endif
27 #define RAZF FILE
28 #define razf_read(fp, buf, size) fread(buf, 1, size, fp)
29 #define razf_open(fn, mode) fopen(fn, mode)
30 #define razf_close(fp) fclose(fp)
31 #define razf_seek(fp, offset, whence) fseeko(fp, offset, whence)
32 #define razf_tell(fp) ftello(fp)
33 #endif
34 #ifdef _USE_KNETFILE
35 #include "knetfile.h"
36 #endif
37
38 struct __faidx_t {
39         RAZF *rz;
40         int n, m;
41         char **name;
42         khash_t(s) *hash;
43 };
44
45 #ifndef kroundup32
46 #define kroundup32(x) (--(x), (x)|=(x)>>1, (x)|=(x)>>2, (x)|=(x)>>4, (x)|=(x)>>8, (x)|=(x)>>16, ++(x))
47 #endif
48
49 static inline void fai_insert_index(faidx_t *idx, const char *name, int len, int line_len, int line_blen, uint64_t offset)
50 {
51         khint_t k;
52         int ret;
53         faidx1_t t;
54         if (idx->n == idx->m) {
55                 idx->m = idx->m? idx->m<<1 : 16;
56                 idx->name = (char**)realloc(idx->name, sizeof(void*) * idx->m);
57         }
58         idx->name[idx->n] = strdup(name);
59         k = kh_put(s, idx->hash, idx->name[idx->n], &ret);
60         t.len = len; t.line_len = line_len; t.line_blen = line_blen; t.offset = offset;
61         kh_value(idx->hash, k) = t;
62         ++idx->n;
63 }
64
65 faidx_t *fai_build_core(RAZF *rz)
66 {
67         char c, *name;
68         int l_name, m_name, ret;
69         int len, line_len, line_blen, state;
70         int l1, l2;
71         faidx_t *idx;
72         uint64_t offset;
73
74         idx = (faidx_t*)calloc(1, sizeof(faidx_t));
75         idx->hash = kh_init(s);
76         name = 0; l_name = m_name = 0;
77         len = line_len = line_blen = -1; state = 0; l1 = l2 = -1; offset = 0;
78         while (razf_read(rz, &c, 1)) {
79                 if (c == '\n') { // an empty line
80                         if (state == 1) {
81                                 offset = razf_tell(rz);
82                                 continue;
83                         } else if ((state == 0 && len < 0) || state == 2) continue;
84                 }
85                 if (c == '>') { // fasta header
86                         if (len >= 0)
87                                 fai_insert_index(idx, name, len, line_len, line_blen, offset);
88                         l_name = 0;
89                         while ((ret = razf_read(rz, &c, 1)) != 0 && !isspace(c)) {
90                                 if (m_name < l_name + 2) {
91                                         m_name = l_name + 2;
92                                         kroundup32(m_name);
93                                         name = (char*)realloc(name, m_name);
94                                 }
95                                 name[l_name++] = c;
96                         }
97                         name[l_name] = '\0';
98                         if (ret == 0) {
99                                 fprintf(pysamerr, "[fai_build_core] the last entry has no sequence\n");
100                                 free(name); fai_destroy(idx);
101                                 return 0;
102                         }
103                         if (c != '\n') while (razf_read(rz, &c, 1) && c != '\n');
104                         state = 1; len = 0;
105                         offset = razf_tell(rz);
106                 } else {
107                         if (state == 3) {
108                                 fprintf(pysamerr, "[fai_build_core] inlined empty line is not allowed in sequence '%s'.\n", name);
109                                 free(name); fai_destroy(idx);
110                                 return 0;
111                         }
112                         if (state == 2) state = 3;
113                         l1 = l2 = 0;
114                         do {
115                                 ++l1;
116                                 if (isgraph(c)) ++l2;
117                         } while ((ret = razf_read(rz, &c, 1)) && c != '\n');
118                         if (state == 3 && l2) {
119                                 fprintf(pysamerr, "[fai_build_core] different line length in sequence '%s'.\n", name);
120                                 free(name); fai_destroy(idx);
121                                 return 0;
122                         }
123                         ++l1; len += l2;
124                         if (l2 >= 0x10000) {
125                                 fprintf(pysamerr, "[fai_build_core] line length exceeds 65535 in sequence '%s'.\n", name);
126                                 free(name); fai_destroy(idx);
127                                 return 0;
128                         }
129                         if (state == 1) line_len = l1, line_blen = l2, state = 0;
130                         else if (state == 0) {
131                                 if (l1 != line_len || l2 != line_blen) state = 2;
132                         }
133                 }
134         }
135         fai_insert_index(idx, name, len, line_len, line_blen, offset);
136         free(name);
137         return idx;
138 }
139
140 void fai_save(const faidx_t *fai, FILE *fp)
141 {
142         khint_t k;
143         int i;
144         for (i = 0; i < fai->n; ++i) {
145                 faidx1_t x;
146                 k = kh_get(s, fai->hash, fai->name[i]);
147                 x = kh_value(fai->hash, k);
148 #ifdef _WIN32
149                 fprintf(fp, "%s\t%d\t%ld\t%d\t%d\n", fai->name[i], (int)x.len, (long)x.offset, (int)x.line_blen, (int)x.line_len);
150 #else
151                 fprintf(fp, "%s\t%d\t%lld\t%d\t%d\n", fai->name[i], (int)x.len, (long long)x.offset, (int)x.line_blen, (int)x.line_len);
152 #endif
153         }
154 }
155
156 faidx_t *fai_read(FILE *fp)
157 {
158         faidx_t *fai;
159         char *buf, *p;
160         int len, line_len, line_blen;
161 #ifdef _WIN32
162         long offset;
163 #else
164         long long offset;
165 #endif
166         fai = (faidx_t*)calloc(1, sizeof(faidx_t));
167         fai->hash = kh_init(s);
168         buf = (char*)calloc(0x10000, 1);
169         while (!feof(fp) && fgets(buf, 0x10000, fp)) {
170                 for (p = buf; *p && isgraph(*p); ++p);
171                 *p = 0; ++p;
172 #ifdef _WIN32
173                 sscanf(p, "%d%ld%d%d", &len, &offset, &line_blen, &line_len);
174 #else
175                 sscanf(p, "%d%lld%d%d", &len, &offset, &line_blen, &line_len);
176 #endif
177                 fai_insert_index(fai, buf, len, line_len, line_blen, offset);
178         }
179         free(buf);
180         return fai;
181 }
182
183 void fai_destroy(faidx_t *fai)
184 {
185         int i;
186         for (i = 0; i < fai->n; ++i) free(fai->name[i]);
187         free(fai->name);
188         kh_destroy(s, fai->hash);
189         if (fai->rz) razf_close(fai->rz);
190         free(fai);
191 }
192
193 int fai_build(const char *fn)
194 {
195         char *str;
196         RAZF *rz;
197         FILE *fp;
198         faidx_t *fai;
199         str = (char*)calloc(strlen(fn) + 5, 1);
200         sprintf(str, "%s.fai", fn);
201         rz = razf_open(fn, "r");
202         if (rz == 0) {
203                 fprintf(pysamerr, "[fai_build] fail to open the FASTA file %s\n",fn);
204                 free(str);
205                 return -1;
206         }
207         fai = fai_build_core(rz);
208         razf_close(rz);
209         fp = fopen(str, "wb");
210         if (fp == 0) {
211                 fprintf(pysamerr, "[fai_build] fail to write FASTA index %s\n",str);
212                 fai_destroy(fai); free(str);
213                 return -1;
214         }
215         fai_save(fai, fp);
216         fclose(fp);
217         free(str);
218         fai_destroy(fai);
219         return 0;
220 }
221
222 #ifdef _USE_KNETFILE
223 FILE *download_and_open(const char *fn)
224 {
225     const int buf_size = 1 * 1024 * 1024;
226     uint8_t *buf;
227     FILE *fp;
228     knetFile *fp_remote;
229     const char *url = fn;
230     const char *p;
231     int l = strlen(fn);
232     for (p = fn + l - 1; p >= fn; --p)
233         if (*p == '/') break;
234     fn = p + 1;
235
236     // First try to open a local copy
237     fp = fopen(fn, "r");
238     if (fp)
239         return fp;
240
241     // If failed, download from remote and open
242     fp_remote = knet_open(url, "rb");
243     if (fp_remote == 0) {
244         fprintf(pysamerr, "[download_from_remote] fail to open remote file %s\n",url);
245         return NULL;
246     }
247     if ((fp = fopen(fn, "wb")) == 0) {
248         fprintf(pysamerr, "[download_from_remote] fail to create file in the working directory %s\n",fn);
249         knet_close(fp_remote);
250         return NULL;
251     }
252     buf = (uint8_t*)calloc(buf_size, 1);
253     while ((l = knet_read(fp_remote, buf, buf_size)) != 0)
254         fwrite(buf, 1, l, fp);
255     free(buf);
256     fclose(fp);
257     knet_close(fp_remote);
258
259     return fopen(fn, "r");
260 }
261 #endif
262
263 faidx_t *fai_load(const char *fn)
264 {
265         char *str;
266         FILE *fp;
267         faidx_t *fai;
268         str = (char*)calloc(strlen(fn) + 5, 1);
269         sprintf(str, "%s.fai", fn);
270
271 #ifdef _USE_KNETFILE
272     if (strstr(fn, "ftp://") == fn || strstr(fn, "http://") == fn)
273     {
274         fp = download_and_open(str);
275         if ( !fp )
276         {
277             fprintf(pysamerr, "[fai_load] failed to open remote FASTA index %s\n", str);
278             free(str);
279             return 0;
280         }
281     }
282     else
283 #endif
284         fp = fopen(str, "rb");
285         if (fp == 0) {
286                 fprintf(pysamerr, "[fai_load] build FASTA index.\n");
287                 fai_build(fn);
288                 fp = fopen(str, "rb");
289                 if (fp == 0) {
290                         fprintf(pysamerr, "[fai_load] fail to open FASTA index.\n");
291                         free(str);
292                         return 0;
293                 }
294         }
295
296         fai = fai_read(fp);
297         fclose(fp);
298
299         fai->rz = razf_open(fn, "rb");
300         free(str);
301         if (fai->rz == 0) {
302                 fprintf(pysamerr, "[fai_load] fail to open FASTA file.\n");
303                 return 0;
304         }
305         return fai;
306 }
307
308 char *fai_fetch(const faidx_t *fai, const char *str, int *len)
309 {
310         char *s, *p, c;
311         int i, l, k;
312         khiter_t iter;
313         faidx1_t val;
314         khash_t(s) *h;
315         int beg, end;
316
317         beg = end = -1;
318         h = fai->hash;
319         l = strlen(str);
320         p = s = (char*)malloc(l+1);
321         /* squeeze out "," */
322         for (i = k = 0; i != l; ++i)
323                 if (str[i] != ',' && !isspace(str[i])) s[k++] = str[i];
324         s[k] = 0;
325         for (i = 0; i != k; ++i) if (s[i] == ':') break;
326         s[i] = 0;
327         iter = kh_get(s, h, s); /* get the ref_id */
328         if (iter == kh_end(h)) {
329                 *len = 0;
330                 free(s); return 0;
331         }
332         val = kh_value(h, iter);
333         if (i == k) { /* dump the whole sequence */
334                 beg = 0; end = val.len;
335         } else {
336                 for (p = s + i + 1; i != k; ++i) if (s[i] == '-') break;
337                 beg = atoi(p);
338                 if (i < k) {
339                         p = s + i + 1;
340                         end = atoi(p);
341                 } else end = val.len;
342         }
343         if (beg > 0) --beg;
344         if (beg >= val.len) beg = val.len;
345         if (end >= val.len) end = val.len;
346         if (beg > end) beg = end;
347         free(s);
348
349         // now retrieve the sequence
350         l = 0;
351         s = (char*)malloc(end - beg + 2);
352         razf_seek(fai->rz, val.offset + beg / val.line_blen * val.line_len + beg % val.line_blen, SEEK_SET);
353         while (razf_read(fai->rz, &c, 1) == 1 && l < end - beg && !fai->rz->z_err)
354                 if (isgraph(c)) s[l++] = c;
355         s[l] = '\0';
356         *len = l;
357         return s;
358 }
359
360 int faidx_main(int argc, char *argv[])
361 {
362         if (argc == 1) {
363                 fprintf(pysamerr, "Usage: faidx <in.fasta> [<reg> [...]]\n");
364                 return 1;
365         } else {
366                 if (argc == 2) fai_build(argv[1]);
367                 else {
368                         int i, j, k, l;
369                         char *s;
370                         faidx_t *fai;
371                         fai = fai_load(argv[1]);
372                         if (fai == 0) return 1;
373                         for (i = 2; i != argc; ++i) {
374                                 printf(">%s\n", argv[i]);
375                                 s = fai_fetch(fai, argv[i], &l);
376                                 for (j = 0; j < l; j += 60) {
377                                         for (k = 0; k < 60 && k < l - j; ++k)
378                                                 putchar(s[j + k]);
379                                         putchar('\n');
380                                 }
381                                 free(s);
382                         }
383                         fai_destroy(fai);
384                 }
385         }
386         return 0;
387 }
388
389 int faidx_fetch_nseq(const faidx_t *fai) 
390 {
391         return fai->n;
392 }
393
394 char *faidx_fetch_seq(const faidx_t *fai, char *c_name, int p_beg_i, int p_end_i, int *len)
395 {
396         int l;
397         char c;
398     khiter_t iter;
399     faidx1_t val;
400         char *seq=NULL;
401
402     // Adjust position
403     iter = kh_get(s, fai->hash, c_name);
404     if(iter == kh_end(fai->hash)) return 0;
405     val = kh_value(fai->hash, iter);
406         if(p_end_i < p_beg_i) p_beg_i = p_end_i;
407     if(p_beg_i < 0) p_beg_i = 0;
408     else if(val.len <= p_beg_i) p_beg_i = val.len - 1;
409     if(p_end_i < 0) p_end_i = 0;
410     else if(val.len <= p_end_i) p_end_i = val.len - 1;
411
412     // Now retrieve the sequence 
413         l = 0;
414         seq = (char*)malloc(p_end_i - p_beg_i + 2);
415         razf_seek(fai->rz, val.offset + p_beg_i / val.line_blen * val.line_len + p_beg_i % val.line_blen, SEEK_SET);
416         while (razf_read(fai->rz, &c, 1) == 1 && l < p_end_i - p_beg_i + 1)
417                 if (isgraph(c)) seq[l++] = c;
418         seq[l] = '\0';
419         *len = l;
420         return seq;
421 }
422
423 #ifdef FAIDX_MAIN
424 int main(int argc, char *argv[]) { return faidx_main(argc, argv); }
425 #endif