1380fbf7fde7affcd856d2884af1889811ba3fe2
[htsworkflow.git] / scripts / runfolder
1 #!/usr/bin/env python
2 """
3 Runfolder.py can generate a xml file capturing all the 'interesting' parameters from a finished pipeline run. (using the -a option). The information currently being captured includes:
4
5   * Flowcell ID
6   * run dates
7   * start/stop cycle numbers
8   * Firecrest, bustard, gerald version numbers
9   * Eland analysis types, and everything in the eland configuration file.
10   * cluster numbers and other values from the Summary.htm 
11     LaneSpecificParameters table. 
12   * How many reads mapped to a genome from an eland file
13
14 The ELAND "mapped reads" counter will also check for eland squashed file
15 that were symlinked from another directory. This is so I can track how 
16 many reads landed on the genome of interest and on the spike ins. 
17
18 Basically my subdirectories something like:
19
20 genomes/hg18
21 genomes/hg18/chr*.2bpb <- files for hg18 genome
22 genomes/hg18/chr*.vld  
23 genomes/hg18/VATG.fa.2bp <- symlink to genomes/spikeins
24 genomes/spikein 
25
26 runfolder.py can also spit out a simple summary report (-s option) 
27 that contains the per lane post filter cluster numbers and the mapped 
28 read counts. (The report isn't currently very pretty)
29 """
30 from glob import glob
31 import logging
32 import optparse
33 import os
34 import sys
35
36 from htsworkflow.pipelines import runfolder
37 from htsworkflow.pipelines.runfolder import ElementTree
38         
39 def make_parser():
40     usage = 'usage: %prog [options] runfolder_root_dir'
41     parser = optparse.OptionParser(usage)
42
43     parser.add_option('-v', '--verbose', dest='verbose', action='store_true',
44                       default=False,
45                       help='turn on verbose mode')
46     parser.add_option('--dry-run', action='store_true', default=False,
47                       help="Don't delete anything (in clean mode)")
48
49     commands = optparse.OptionGroup(parser, 'Commands')
50
51     commands.add_option('-s', '--summary', dest='summary', action='store_true',
52                         default=False,
53                         help='produce summary report')
54     commands.add_option('-a', '--archive', dest='archive', action='store_true',
55                         default=False,
56                         help='generate run configuration archive')
57     commands.add_option('--extract-results', action='store_true',
58            default=False,
59            help='create run-xml summary, compress the eland result files, and '
60                 'copy them and the Summary.htm file into archival directory.')
61     commands.add_option('-c', '--clean', action='store_true', default=False,
62                         help='Clean runfolder, preparing it for long-term storage')
63     parser.add_option_group(commands)
64
65     parser.add_option('-o', '--output-dir', default=None,
66            help="specify the default output directory for extract results")
67
68     parser.add_option('-u', '--use-run', dest='use_run', default=None,
69                       help='Specify which run to use instead of autoscanning '
70                            'the runfolder. You do this by providing the final '
71                            ' GERALD directory, and it assumes the parent '
72                            'directories are the bustard and image processing '
73                            'directories.')
74                     
75     parser.add_option('--run-xml', dest='run_xml',
76            default=None,
77            help='specify a run_<FlowCell>.xml file for summary reports')
78     
79
80     return parser
81
82 def main(cmdlist=None):
83     parser = make_parser()
84     opt, args = parser.parse_args(cmdlist)
85
86     logging.basicConfig()
87     if opt.verbose:
88         root_log = logging.getLogger()
89         root_log.setLevel(logging.INFO)
90
91     logging.info('Starting htsworkflow illumina runfolder processing tool.')
92     runs = []
93     if opt.run_xml:
94         # handle ~ shortcut
95         opt.run_xml = os.path.expanduser(opt.run_xml)
96         tree = ElementTree.parse(opt.run_xml).getroot()
97         runs.append(runfolder.PipelineRun(xml=tree))
98
99     # look for manually specified run
100     if opt.use_run is not None:
101         specific_run = runfolder.get_specific_run(opt.use_run)
102         if specific_run is not None:
103             runs.append(specific_run)
104         else:
105             logging.warn("Couldn't find a run in %s" % (opt.use_run,))
106
107     # scan runfolders for runs
108     for run_pattern in args:
109         # expand args on our own if needed
110         for run_dir in glob(run_pattern):
111             runs.extend(runfolder.get_runs(run_dir))
112
113     if len(runs) > 0:
114         command_run = False
115         if opt.summary:
116             print runfolder.summary_report(runs)
117             command_run = True
118         if opt.archive:
119             runfolder.extract_run_parameters(runs)
120             command_run = True
121         if opt.extract_results:
122             runfolder.extract_results(runs, opt.output_dir)
123             command_run = True
124         if opt.clean:
125             runfolder.clean_runs(runs, opt.dry_run)
126             command_run = True
127
128         if command_run == False:
129             print "You need to specify a command."+os.linesep
130             parser.print_help()
131     else:
132         print "You need to specify some run folders to process..."+os.linesep
133         parser.print_help()
134
135     return 0
136
137 if __name__ == "__main__":
138   sys.exit(main(sys.argv[1:]))