Specify text vs binary mode for opening files.

[htsworkflow.git] / htsworkflow / pipelines / eland.py
diff --git a/htsworkflow/pipelines/eland.py b/htsworkflow/pipelines/eland.py

index 19905bc8da526996924f592d15120865b5c1747b..3298ae4bf87080314642e1b20dfe3f05519d18ae 100644 (file)
--- a/htsworkflow/pipelines/eland.py
+++ b/htsworkflow/pipelines/eland.py
@@ -1,6 +1,8 @@
  """
  Analyze ELAND files
  """
+from __future__ import print_function
+
  import collections
  from glob import glob
  import logging
@@ -10,8 +12,9 @@ import stat
  import sys
  import types
  
-from htsworkflow.pipelines.runfolder import ElementTree, LANE_LIST
+from htsworkflow.pipelines import ElementTree, LANE_LIST
  from htsworkflow.pipelines.samplekey import SampleKey
+from htsworkflow.pipelines.genomemap import GenomeMap
  from htsworkflow.util.ethelp import indent, flatten
  from htsworkflow.util.opener import autoopen
  
@@ -97,9 +100,7 @@ class ElandLane(ResultLane):
          self._mapped_reads = None
          self._match_codes = None
          self._reads = None
-        if genome_map is None:
-            genome_map = {}
-        self.genome_map = genome_map
+        self.genome_map = GenomeMap(genome_map)
          self.eland_type = None
  
          if xml is not None:
@@ -149,7 +150,7 @@ class ElandLane(ResultLane):
          self._reads = 0
  
          for pathname in self.pathnames:
-            stream = autoopen(pathname, 'r')
+            stream = autoopen(pathname, 'rt')
              if self.eland_type == ELAND_SINGLE:
                  result = self._update_eland_result(stream)
              elif self.eland_type == ELAND_MULTI or \
@@ -377,7 +378,7 @@ class ElandLane(ResultLane):
      def get_elements(self):
          lane = ElementTree.Element(ElandLane.LANE,
                                     {'version':
-                                    unicode(ElandLane.XML_VERSION)})
+                                    str(ElandLane.XML_VERSION)})
          sample_tag = ElementTree.SubElement(lane, SAMPLE_NAME)
          sample_tag.text = self.sample_name
          lane_tag = ElementTree.SubElement(lane, LANE_ID)
@@ -389,19 +390,19 @@ class ElandLane(ResultLane):
          for k, v in self.genome_map.items():
              item = ElementTree.SubElement(
                  genome_map, GENOME_ITEM,
-                {'name':k, 'value':unicode(v)})
+                {'name':k, 'value':str(v)})
          mapped_reads = ElementTree.SubElement(lane, MAPPED_READS)
          for k, v in self.mapped_reads.items():
              item = ElementTree.SubElement(
                  mapped_reads, MAPPED_ITEM,
-                {'name':k, 'value':unicode(v)})
+                {'name':k, 'value':str(v)})
          match_codes = ElementTree.SubElement(lane, MATCH_CODES)
          for k, v in self.match_codes.items():
              item = ElementTree.SubElement(
                  match_codes, MATCH_ITEM,
-                {'name':k, 'value':unicode(v)})
+                {'name':k, 'value':str(v)})
          reads = ElementTree.SubElement(lane, READS)
-        reads.text = unicode(self.reads)
+        reads.text = str(self.reads)
  
          return lane
  
@@ -547,7 +548,7 @@ class SequenceLane(ResultLane):
          """
          Determine if we have a scarf or fastq sequence file
          """
-        f = open(pathname,'r')
+        f = open(pathname,'rt')
          l = f.readline()
          f.close()
  
@@ -574,8 +575,8 @@ class SequenceLane(ResultLane):
  
          LOGGER.info("summarizing results for %s" % (pathname))
          lines = 0
-        f = open(pathname)
-        for l in f.xreadlines():
+        f = open(pathname, 'rt')
+        for l in f:
              lines += 1
          f.close()
  
@@ -590,7 +591,7 @@ class SequenceLane(ResultLane):
      def get_elements(self):
          lane = ElementTree.Element(SequenceLane.LANE,
                                     {'version':
-                                    unicode(SequenceLane.XML_VERSION)})
+                                    str(SequenceLane.XML_VERSION)})
          sample_tag = ElementTree.SubElement(lane, SAMPLE_NAME)
          sample_tag.text = self.sample_name
          lane_tag = ElementTree.SubElement(lane, LANE_ID)
@@ -599,9 +600,9 @@ class SequenceLane(ResultLane):
              end_tag = ElementTree.SubElement(lane, END)
              end_tag.text = str(self.end)
          reads = ElementTree.SubElement(lane, READS)
-        reads.text = unicode(self.reads)
+        reads.text = str(self.reads)
          sequence_type = ElementTree.SubElement(lane, SequenceLane.SEQUENCE_TYPE)
-        sequence_type.text = unicode(SequenceLane.SEQUENCE_DESCRIPTION[self.sequence_type])
+        sequence_type.text = str(SequenceLane.SEQUENCE_DESCRIPTION[self.sequence_type])
  
          return lane
  
@@ -658,8 +659,7 @@ class ELAND(collections.MutableMapping):
          del self.result[key]
  
      def __iter__(self):
-        keys = self.results.iterkeys()
-        for k in sorted(keys):
+        for k in sorted(self.results):
              yield k
  
      def __len__(self):
@@ -676,13 +676,13 @@ class ELAND(collections.MutableMapping):
  
      def get_elements(self):
          root = ElementTree.Element(ELAND.ELAND,
-                                   {'version': unicode(ELAND.XML_VERSION)})
+                                   {'version': str(ELAND.XML_VERSION)})
  
          for key in self:
              eland_lane = self[key].get_elements()
-            eland_lane.attrib[ELAND.END] = unicode(self[key].end-1)
-            eland_lane.attrib[ELAND.LANE_ID] = unicode(self[key].lane_id)
-            eland_lane.attrib[ELAND.SAMPLE] = unicode(self[key].sample_name)
+            eland_lane.attrib[ELAND.END] = str(self[key].end-1)
+            eland_lane.attrib[ELAND.LANE_ID] = str(self[key].lane_id)
+            eland_lane.attrib[ELAND.SAMPLE] = str(self[key].sample_name)
              root.append(eland_lane)
          return root
          return root
@@ -711,14 +711,23 @@ class ELAND(collections.MutableMapping):
          # runfolder summary_report
          names = [ os.path.split(p)[1] for p in pathnames]
          LOGGER.info("Adding eland files %s" %(",".join(names),))
+        basedir = os.path.split(pathnames[0])[0]
+        gs_template = "{0}_*_L{1:03}_genomesize.xml"
+        genomesize = glob(
+            os.path.join(basedir,
+                         gs_template.format(key.sample, key.lane)))
+
  
-        genome_map = {}
+        genome_map = GenomeMap()
          if genome_maps is not None:
-            genome_map = genome_maps[key.lane]
+            genome_map = GenomeMap(genome_maps[key.lane])
+        elif len(genomesize) > 0:
+            LOGGER.info("Found {0}".format(genomesize))
+            genome_map.parse_genomesize(genomesize[0])
          elif gerald is not None:
              genome_dir = gerald.lanes[key].eland_genome
              if genome_dir is not None:
-                genome_map = build_genome_fasta_map(genome_dir)
+                genome_map.scan_genome_dir(genome_dir)
  
          lane = ElandLane(pathnames, key.sample, key.lane, key.read, genome_map)
  
@@ -863,24 +872,6 @@ class ElandMatch(object):
          if self._part is not None: name.append('P%s' % (self.part,))
          return '<ElandMatch(' + "_".join(name) + ')>'
  
-def build_genome_fasta_map(genome_dir):
-    # build fasta to fasta file map
-    LOGGER.info("Building genome map")
-    genome = genome_dir.split(os.path.sep)[-1]
-    fasta_map = {}
-    for vld_file in glob(os.path.join(genome_dir, '*.vld')):
-        is_link = False
-        if os.path.islink(vld_file):
-            is_link = True
-        vld_file = os.path.realpath(vld_file)
-        path, vld_name = os.path.split(vld_file)
-        name, ext = os.path.splitext(vld_name)
-        if is_link:
-            fasta_map[name] = name
-        else:
-            fasta_map[name] = os.path.join(genome, name)
-    return fasta_map
-
  
  def extract_eland_sequence(instream, outstream, start, end):
      """
@@ -905,7 +896,7 @@ def main(cmdline=None):
      for a in args:
          LOGGER.info("Starting scan of %s" % (a,))
          e = eland(a)
-        print ElementTree.tostring(e.get_elements())
+        print(ElementTree.tostring(e.get_elements()))
      return