Mussa Manual: Screenshots + Performance section
authorBrandon King <kingb@caltech.edu>
Wed, 18 Oct 2006 23:38:07 +0000 (23:38 +0000)
committerBrandon King <kingb@caltech.edu>
Wed, 18 Oct 2006 23:38:07 +0000 (23:38 +0000)
 * Updated screenshots in the "view alignment" & "sub-analysis" sections.
 * Removed reference to build numbers (since this is for release 1.0)
 * Added an Understand Mussa section.
   * Added placeholder for algorithm performance.
   * Added documentation on the effects of repeats in DNA sequence on Mussa.
   * Added a placeholder for Diane's overlapping windows "interesting" case.

doc/manual/images/copy_sequence.png
doc/manual/images/mussa_alignment.png
doc/manual/images/select_sequence.png
doc/manual/images/subanalysis_dialog.png
doc/manual/images/subanalysis_select_seqs.png
doc/manual/images/view_mussa_alignment.png
doc/manual/images/washed_out.png
doc/manual/mussagl_manual.rst

index 6784e533babd48dc3159e9275723f993e4a26a82..27e428bcc988728ba6219a757cf0f059089c7ec5 100644 (file)
Binary files a/doc/manual/images/copy_sequence.png and b/doc/manual/images/copy_sequence.png differ
index 80ca8508ef8db68910c18f58aaf2c70aeda953e7..6afcb57176413608806de727faaa049d6233be5c 100644 (file)
Binary files a/doc/manual/images/mussa_alignment.png and b/doc/manual/images/mussa_alignment.png differ
index 53fcff07e9fe65a0bf5d0578af23945e871715a7..233532eb47dd2dea10d899de8d19fd74f216c755 100644 (file)
Binary files a/doc/manual/images/select_sequence.png and b/doc/manual/images/select_sequence.png differ
index cacad045f528c912d914478437391dc78ead9f8b..cf7005962be32425c2cd1b93e4e95634ad3c72fd 100644 (file)
Binary files a/doc/manual/images/subanalysis_dialog.png and b/doc/manual/images/subanalysis_dialog.png differ
index 24a0b65f7fc4035075753767d8e21afff3a26272..6fe242edd41a81bd3f7212760a7845db9ad9b92b 100644 (file)
Binary files a/doc/manual/images/subanalysis_select_seqs.png and b/doc/manual/images/subanalysis_select_seqs.png differ
index ed7b6383d102e83670be566e4a979d0e406d614a..011c53a08654745f87364aeb4d7408d78be1d48d 100644 (file)
Binary files a/doc/manual/images/view_mussa_alignment.png and b/doc/manual/images/view_mussa_alignment.png differ
index babf319d7bb0667aa53b34308f4bf37c04815f19..bca9a6642b10af8964cf64706ac828d9ed5d2166 100644 (file)
Binary files a/doc/manual/images/washed_out.png and b/doc/manual/images/washed_out.png differ
index 45df62b8074c762224e7b5d918f60637b17b40d3..18a8a1ab7fbea8080e588efb0bf63a95820c13e6 100644 (file)
@@ -808,8 +808,8 @@ A new Mussa window will pop up.
    :alt: New Mussa Window
    :align: center
 
-   A new Mussa window on the right, in which I have loaded a second
-   experiment.
+   A new Mussa window on the right, in which a second analysis has
+   been loaded.
 
 Now you can create or load an existing analysis, in this new window,
 as described in the `Create/Load Analysis`_ section. 
@@ -991,7 +991,7 @@ Sub-analysis
 To run a sub-analysis **highlight** a section of sequence and *right
 click* on it and select **Add to subanalysis**. To the same for the
 sequences shown in orange in the screenshot below. Note that you **are
-NOT limited** to selecting more than one subsequence from the same
+NOT limited** to selecting only one subsequence from the same
 sequence.
 
 .. image:: images/subanalysis_select_seqs.png
@@ -1031,8 +1031,6 @@ as shown in the screen shot below, and do one of the following:
 Saving to an Image
 ---------------------------------
 
- * Updated to build 419.
-
 To save your current mussa view to an image, select **File > Save to
 image...** as shown below.
 
@@ -1255,6 +1253,81 @@ N        G or A or T or C   aNy
 ======  =================  ===================================
 
 
+
+Understanding Mussa
+===================
+
+
+Performance
+-----------
+
+Algorithm Behavior
+~~~~~~~~~~~~~~~~~~
+
+FIXME: Include seqcomp algorithm info.
+
+FIXME: Include transitivity info.
+
+Repeats
+~~~~~~~
+
+The algorithm Mussa uses to find conserved sequences is sensative to
+repeated DNA segments, which are naturally apart of many genomes. The
+problem with repeats, is that one repeat from one sequence can show up
+many times in another sequence. Every connection Mussa makes takes up
+memory, and it also takes time to store and process the results. 
+
+The formula for the number of connections, C, that will be made for R
+instances of a single repeat (meaning R copies of one repeat in each
+sequence) and S sequences is:
+
+C = (R^2)[S(S-1)/2]
+
+Table of example situations:
+
+=====  =====  =====
+  C      R      S
+=====  =====  =====
+   16     4     2   
+   48     4     3
+   96     4     4
+  160     4     5
+  240     4     6
+  336     4     7
+  448     4     8
+   24     2     4 
+   54     3     4
+   96     4     4
+  150     5     4
+  216     6     4
+  294     7     4
+  384     8     4
+ 2500    50     2
+ 7500    50     3
+15000    50     4
+10000   100     2
+30000   100     3
+60000   100     4
+=====  =====  =====
+
+After the connections, C, are found, they are passed on to the
+transitivity filter, which is a C^2 algorithm (FIXME: confirm
+algorithm is C^2). This means with 50 repeats in 2 sequences giving
+you a C of 2500, ends up with a C^2 of 6,250,000.
+
+**Conclusion: repeats cause the processing time of Mussa to skyrocket.**
+
+One, way to deal with a situation where you have lots of repeats in
+your sequences is to use shorter sequences lengths and/or repeat mask
+at least one of your sequences.
+
+Details
+-------
+
+Case: Conservation track suddenly stops
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+
 .. Define links below
    ------------------