Add documentation about what runfolder.py does
authorDiane Trout <diane@caltech.edu>
Tue, 25 Mar 2008 21:54:03 +0000 (21:54 +0000)
committerDiane Trout <diane@caltech.edu>
Tue, 25 Mar 2008 21:54:03 +0000 (21:54 +0000)
scripts/runfolder.py

index 2267f46dc6929eb3e697a065bdaaa062287065c0..918d59a8b48dbbaf91701a67e5410c6c7eeb8703 100644 (file)
@@ -1,4 +1,32 @@
 #!/usr/bin/env python
+"""
+Runfolder.py can generate a xml file capturing all the 'interesting' parameters from a finished pipeline run. (using the -a option). The information currently being captured includes:
+
+  * Flowcell ID
+  * run dates
+  * start/stop cycle numbers
+  * Firecrest, bustard, gerald version numbers
+  * Eland analysis types, and everything in the eland configuration file.
+  * cluster numbers and other values from the Summary.htm 
+    LaneSpecificParameters table. 
+  * How many reads mapped to a genome from an eland file
+
+The ELAND "mapped reads" counter will also check for eland squashed file
+that were symlinked from another directory. This is so I can track how 
+many reads landed on the genome of interest and on the spike ins. 
+
+Basically my subdirectories something like:
+
+genomes/hg18
+genomes/hg18/chr*.2bpb <- files for hg18 genome
+genomes/hg18/chr*.vld  
+genomes/hg18/VATG.fa.2bp <- symlink to genomes/spikeins
+genomes/spikein 
+
+runfolder.py can also spit out a simple summary report (-s option) 
+that contains the per lane post filter cluster numbers and the mapped 
+read counts. (The report isn't currently very pretty)
+"""
 import time
 import logging
 import os