Mussa Manual: Deleting a Motif
[mussa.git] / doc / manual / mussagl_manual.rst
index ebf16d36a4be94c6beb344f215dca9e2d2d4c754..45df62b8074c762224e7b5d918f60637b17b40d3 100644 (file)
@@ -1,17 +1,62 @@
 ==============
 Mussagl Manual
 ==============
-------------------
-By Brandon W. King
-------------------
+---------------
+Brandon W. King
+---------------
+
+Last updated: Oct 18th, 2006
+
+Updated to Mussagl build: (In process to 424)
+
 
-Last updated: May 18th, 2006
+.. Things to add
+       * New features / change log
+       * (DONE) Comment out anything isn't implemented yet.
+       * (DONE) List of features that will be implemented in the future.
+       * Look into the homology mapping of UCSC.
+        * Add toggle to genomes.
+        * Document why one fast record per region.
+        * How to deal with the hazards of small utrs vis motif finder. (Add warning)
+       * Add warning about saving FASTA file.
+       * Add a general principles section near the top
+               * Using comparison algorithm which will pickup all repeats
+               * Add info about repeatmasking
+               * Checking upstream and downstream genes for make sure you are in the right regions.
+       * Later on: look into Ensembl
+       * Look into method of homology instead of blating.
+       * Mention advantages of using mupa.
+       * Mention the difference between using arrows and scroll bar
+       * Document the color for motifs
+       * Update for Mac user left-click
+
+        * Wormbase/Flybase/mirBASE tutorials
 
-Updated to Mussagl build: 141 (Update to 200 in progress)
 
 
 .. contents::
 
+Status
+======
+
+Major New Features
+------------------
+
+ * Build 381
+   * Analysis "Save As" feature
+
+Change Log
+----------
+
+.. INSERT CHANGE LOG HERE
+.. END INSERT CHANGE LOG
+
+Features to be Implemented
+--------------------------
+
+For an up-to-date list of features to be implemented visit:
+http://woldlab.caltech.edu/cgi-bin/mussa/roadmap
+
 Introduction
 ============
 
@@ -19,22 +64,35 @@ Introduction
 What is Mussagl?
 ----------------
 
+Mussa is an N-way version of the FamilyRelations (which is a part of
+the Cartwheel project) 2-way comparative sequence analysis
+software. Given DNA sequence from N species, Mussa uses all possible
+pairwise comparions to derive an N-wise comparison. For example, given
+sequences 1,2,3, and 4, Mussa makes 6 2-way comparisons: 1vs2, 1vs3,
+1vs4, 2vs3, 2vs4, and 3vs4. It then compares all the links between
+these comparisons, saving those that satisfy a transitivity
+requirement. The saved paths are then displayed in an interactive
+viewer.
 
 Short History of Mussa
 ----------------------
 
-
 Mussa Python/PMW Prototype
 ~~~~~~~~~~~~~~~~~~~~~~~~~~
 
+First Python/PMW based protoype.
 
 Mussa C++/FLTK
 ~~~~~~~~~~~~~~
 
+A rewrite for speed purposes using C++ and FLTK GUI toolkit.
 
 Mussagl C++/Qt/OpenGL
 ~~~~~~~~~~~~~~~~~~~~~
 
+Refactored version using the more elegant Qt GUI framework and
+OpenGL for hardware acceleration for those who have better graphics
+cards.
 
 Getting Mussagl
 ===============
@@ -62,14 +120,15 @@ Supported Platforms:
 Download
 --------
 
-Mussagl can be downloaded from http://mussa.caltech.edu/.
+Mussagl in binary form for OS X and Windows and/or source can be
+downloaded from http://mussa.caltech.edu/.
 
 Install
 -------
 
 Mac OS X
 ~~~~~~~~
-Once you have downloaded the .dmg file, dubble click on it and follow
+Once you have downloaded the .dmg file, double click on it and follow
 the install instructions. 
 
 FIXME: Mention how to launch the program.
@@ -80,8 +139,8 @@ Windows XP
 Once you have downloaded the Mussagl installer, double click on the
 installer and follow the install instructions.
 
-To start mussagl, launch the program from Start > Programs > Mussagl >
-Mussgl.
+To start Mussagl, launch the program from Start > Programs > Mussagl >
+Mussagl.
 
 
 Linux
@@ -100,6 +159,307 @@ Instructions for building from source can be found `build page
 __ wiki_
 
 
+Obtaining Input Data
+====================
+
+If you already have your data, you can skip ahead to the the `Using
+Mussagl`_ section.
+
+Let's say you have a gene of interest called 'SMN1' and you want to
+know how the sequence surrounding the gene in multiple species is
+conserved. Guess what, that's what we are going to do, retrieve the
+DNA sequence for SMN1 and prepare it for using in Mussa.
+
+For more information about SMN1 visit `NCBI's OMIM
+<http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=609682>`_.
+
+The SMN1 data retrieved in this section can be downloaded from the
+`Mussa Example Data
+<http://woldlab.caltech.edu/cgi-bin/mussa/wiki/ExampleData>`_ page if
+you prefer to skip this section of the manual.
+
+
+UCSC Genome Browser Method
+--------------------------
+
+There are many methods of retrieving DNA sequence, but for this
+example we will retrieve SMN1 through the UCSC genome browser located
+at http://genome.ucsc.edu/.
+
+
+.. image:: images/ucsc_genome_browser_home.png
+   :alt: UCSC Genome Browser
+   :align: center
+
+Step 1 - Find SMN1
+~~~~~~~~~~~~~~~~~~
+
+The first step in finding SMN1 is to use the **Gene Sorter** menu
+option which I have highlighted in orange below:
+
+.. image:: images/ucsc_menu_bar_gene_sorter.png
+   :alt: Gene Sorter Menu Option
+   :align: center
+
+Gene Sorter page:
+
+.. image:: images/ucsc_gene_sorter.png
+   :alt: Gene Sorter
+   :align: center
+
+We will start by looking for SMN1 in the **Human Genome** and **sorting by name similarity**.
+
+.. image:: images/ucsc_gs_sort_name_sim.png
+   :alt: Gene Sorter - Name Similarity
+   :align: center
+
+After you have selected **Human Genome** and **sorting by name similarity**, type *SMN1* into the search box.
+
+.. image:: images/ucsc_gs_smn1.png
+   :alt: Gene
+   :align: center
+
+Press **Go!** and you should see the following page:
+
+.. image:: images/ucsc_gs_found.png
+   :alt: Found SMN1
+   :align: center
+
+Click on **SMN1** and you will be taking the gene expression atlas
+page.
+
+.. image:: images/ucsc_gs_genome_position.png
+   :alt: Gene expression atlas
+   :align: center
+
+Click on **chr5 70,270,558** found in the **SMN1 row**, **Genome
+position column**.
+
+Now we have found the location of SMN1 on human!
+
+.. image:: images/ucsc_gb_smn1_human.png
+   :alt: Genome Browser - SMN1 (human)
+   :align: center
+
+
+Step 2 - Download CDS/UTR sequence for annotations
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+Since we have found **SMN1**, this would be a convenient time to extract
+the DNA sequence for the CDS and UTRs of the gene to use it as an
+annotation_ in Mussa.
+
+**Click on SMN1** shown **between** the **two orange arrows** shown
+below.
+
+.. image:: images/ucsc_gb_smn1_human_click_smn1.png
+   :alt: Genome Browser - SMN1 (human) - Orange Arrows
+   :align: center
+
+You should find yourself at the SMN1 description page.
+
+.. image:: images/ucsc_gb_smn1_description_page.png
+   :alt: Genome Browser - SMN1 (human) - Description page
+   :align: center
+
+**Scroll down** until you get to the **Sequence section** and click on
+**Genomic (chr5:70,256,524-70,284,592)**.
+
+.. image:: images/ucsc_gb_smn1_human_sequence.png
+   :alt: Genome Browser - SMN1 (human) - Sequence
+   :align: center
+
+You should now be at the **Genomic sequence near gene** page:
+
+.. image:: images/ucsc_gb_smn1_human_get_genomic_sequence.png
+   :alt: Genome Browser - SMN1 (human) - Get genomic sequence
+   :align: center
+
+Make the following changes (highlighted in orange in the screenshot
+below):
+
+ 1. UNcheck **introns**. 
+    (We only want to annotate CDS and UTRs.)
+ 2. Select **one FASTA record** per **region**. 
+    (Mussa needs each CDS and UTR represented by one FASTA record per CDS/UTR).
+ 3. Select **CDS in upper case, UTR in lower case.**
+
+.. image:: images/ucsc_gb_smn1_human_get_genomic_sequence_diff.png
+   :alt: Genome Browser - SMN1 (human) - Get genomic sequence setup
+   :align: center
+
+Now click the **submit** button. You will then see a FASTA file with
+many FASTA records representing the CDS and UTRS.
+
+.. image:: images/ucsc_gb_smn1_human_get_genomic_sequence_submit.png
+   :alt: Genome Browser - SMN1 (human) - CDS/UTR sequence
+   :align: center
+
+Now you need to save the FASTA records to a **text file**. If you are
+using **Firefox** or **Internet Explorer 6+** click on the **File >
+Save As** menu option. 
+
+**IMPORTANT:** Make sure you select **Text Files** and **NOT**, I
+repeat **NOT Webpage Complete** (see screenshot below.)
+
+Type in **smn1_human_annot.txt** for the file name.
+
+.. image:: images/smn1_human_annot.png
+   :alt: Genome Browser - SMN1 (human) - sequence annotation file
+   :align: center
+
+**IMPORTANT:** You should open the file with a text editor and make
+  sure **no HTML** was saved... If you find any HTML markup, delete
+  the markup and save the file.
+
+Now we are going to **modify the file** you just saved to **add the
+name of the species** to the **annotation file**. All you have to do
+is **add a new line** at the **top of the file** with the word **'Human'** as
+shown below:
+
+.. image:: images/smn1_human_annot_plus_human.png
+   :alt: Genome Browser - SMN1 (human) - sequence annotation file
+   :align: center
+
+You can add more annotations to this file if you wish. See the
+`annotation file format`_ section for details of the file format. By
+including FASTA records in the annotation_ file, Mussa searches your
+DNA sequence for an exact match of the sequence in the annotation_
+file. If found, it will be marked as an annotation_ within Mussa.
+
+
+Step 3 - Download gene and upstream/downstream sequence
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+Use the back button in your web browser to get back the **genome
+browser view** of **SMN1** as shown below.
+
+.. image:: images/ucsc_gb_smn1_human.png
+   :alt: Genome Browser - SMN1 (human)
+   :align: center
+
+There are two options for getting additional sequence around your
+gene. The more complex way is to zoom out so that you have the
+sequence you want being shown in the genome browser and then follow
+the directions for the following method.
+
+The second option, which we will choose, is to leave the genome
+browser zoomed exactly at the location of SMN1 and click on the
+**DNA** option on the menu bar (shown with orange arrows in the
+screenshot below.)
+
+.. image:: images/ucsc_gb_smn1_human_dna_option.png
+   :alt: Genome Browser - SMN1 (human) - DNA Option
+   :align: center
+
+Now in the **get dna in window** page, let's add an arbitrary amount of
+extra sequence on to each end of the gene, let's say 5000 base pairs.
+
+.. image:: images/ucsc_gb_smn1_human_get_dna.png
+   :alt: Genome Browser - SMN1 (human) - Get DNA 
+   :align: center
+
+Click the **get DNA** button.
+
+.. image:: images/ucsc_gb_smn1_human_dna.png
+   :alt: Genome Browser - SMN1 (human) - DNA 
+   :align: center
+
+Save the DNA sequence to a text file called 'smn1_human_dna.fa' as we
+did in step 2 with the annotation file.
+
+**IMPORTANT:** Make sure the file is saved as a text file and not an
+HTML file. Open the file with a text editor and remove any HTML markup
+you find.
+
+
+Step 4 - Same/similar/related gene other species.
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+What good is a multiple sequence alignment viewer without multiple
+sequences? Let'S find a similar gene in a few more species.
+
+Use the back button on your web browser until you get the **genome
+browser view** of **SMN1** as shown below.
+
+.. image:: images/ucsc_genome_browser_home.png
+   :alt: UCSC Genome Browser
+   :align: center
+
+**Click on SMN1** shown **between** the **two orange arrows** shown
+below.
+
+.. image:: images/ucsc_gb_smn1_human_click_smn1.png
+   :alt: Genome Browser - SMN1 (human) - Orange Arrows
+   :align: center
+
+You should find yourself at the SMN1 description page.
+
+.. image:: images/ucsc_gb_smn1_description_page.png
+   :alt: Genome Browser - SMN1 (human) - Description page
+   :align: center
+
+**Scroll down** until you get to the **Sequence section** and click on
+**Protein (262 aa)**.
+
+.. image:: images/ucsc_gb_smn1_human_sequence.png
+   :alt: Genome Browser - SMN1 (human) - Sequence
+   :align: center
+
+Copy the SMN1 protein seqeunce by highlighting it and selecting **Edit
+> Copy** option from the menu.
+
+.. image:: images/smn1_human_protein.png
+   :alt: Genome Browser - SMN1 (human) - Protein
+   :align: center
+
+Press the back button on the web browser once and then scroll to the
+top of the page and click on the **BLAT** option on the menu bar
+(shown below with orange arrows).
+
+.. image:: images/ucsc_gb_smn1_human_blat.png
+   :alt: Genome Browser - SMN1 (human) - Blat
+   :align: center
+
+**Paste** in the **protein sequence** and **change** the **genome** to
+**mouse** as shown below and then click **submit**.
+
+.. image:: images/ucsc_gb_smn1_human_blat_paste.png
+   :alt: Genome Browser - SMN1 (human) - Blat paste protein
+   :align: center
+
+Notice that we have two hits, one of which looks pretty good at 89.9%
+match.
+
+.. image:: images/ucsc_gb_smn1_human_blat_hits.png
+   :alt: Genome Browser - SMN1 (human) - Blat hits
+   :align: center
+
+**Click** on the **brower** link next to the 89.9% match. Notice in
+the genome browser (shown below) that there is an annotated gene
+called SMN1 for mouse which matches the line called **your sequence
+from blat search**. This means we are fairly confidant we found the
+right location in the mouse genome. 
+
+.. image:: images/ucsc_gb_smn1_human_blat_to_browser.png
+   :alt: Genome Browser - SMN1 (human) - Blat to browser
+   :align: center
+
+Follow steps 1 through 3 for mouse and then repeat step 4 with the
+human protein sequence to find **SMN1** in the following species (if
+you find a match):
+
+ 1. Rat
+ 2. Rabbit
+ 3. Dog
+ 4. Armadillo
+ 5. Elephant
+ 6. Opposum
+ 7. x_tropicalis
+
+Make sure to save the extended DNA sequence and annotation file for
+each one.
+
 Using Mussagl
 =============
 
@@ -117,7 +477,7 @@ Launch Mussagl... It should look similar to the screen shot below.
 Create/Load Analysis
 ----------------------
 
-Currently there are three ways to load a mussa experiment.
+Currently there are three ways to load a Mussa experiment.
 
  1. `Create a new analysis`_
  2. `Load a mussa parameter file`_ (.mupa)
@@ -138,15 +498,16 @@ demo we will use the example sequences that come with Mussagl.
 
 Instructions:
 
- 1. **Give the experiement a name**, for this demo, we'll use
+ 1. **Give the experiment a name**, for this demo, we'll use
     'demo_w30_t20'. Mussa will create a folder with this name to store
     the analysis files in once it has been run.
 
- 2. Choose a `window size`_. For this demo **choose 30**.
-
- 3. Choose a threshold_... for this demo **choose 20**. See the
+ 2. Choose a threshold_... for this demo **choose 20**. See the
     Threshold_ section for more detailed information.
 
+ 3. Choose a `window size`_. For this demo **choose 30**.
+
+
  4. Choose the number of sequences_ you would like. For this demo
     **choose 3**.
 
@@ -154,10 +515,13 @@ Instructions:
    :alt: Steps 1-4
    :align: center
 
-Now click on the 'Browse' button next to the sequence input box and
-then select /examples/seq/human_mck_pro.fa file. Do the same in the
-next two sequence input boxes selecting mouse_mck_pro.fa and
-rabbit_mck_pro.fa as shown below.
+First enter the species name of "Human" in the first "Species" text
+box. Now click on the 'Browse' button next to the sequence input box
+and then select /examples/seq/human_mck_pro.fa file. Do the same in
+the next two sequence input boxes selecting mouse_mck_pro.fa and
+rabbit_mck_pro.fa as shown below. Make sure to give them a species
+name as well. Note that you can create annotation files using the
+mussa `Annotation File Format`_ to add annotations to your sequence.
 
 .. image:: images/define_analysis_step2.png
    :alt: Choose sequences
@@ -170,10 +534,13 @@ something similar to the following screen shot.
    :alt: Mussagl Demo
    :align: center
 
-This analysis is now saved in a directory called **demo_w30_t20** in
-the current working directory. If you close and reopen Mussagl, you
-can reload the saved analysis. See `Load an analysis`_ section below
-for details.
+By default your analysis is NOT saved. If you try to close an analysis
+without saving, you will be prompted with a dialog box asking you if
+you would like to save your analysis. The `Saving`_ section for
+details on saving your analysis. When saving, choose directory and
+give the analysis the name **demo_w30_t20**. If you close and reopen
+Mussagl, you will then be able to load the saved analysis. See `Load
+an analysis`_ section below for details.
 
 
 Load a mussa parameter file
@@ -183,8 +550,8 @@ If you prefer, you can define your Mussa analysis using the Mussa
 parameter file. See the `Parameter File Format`_ section for details
 on creating a .mupa file.
 
-Once you have a .mupa file created, load Mussgl and select the **File >
-Load Mussa Parameters** menu option. Select the .mupa file and click
+Once you have a .mupa file created, load Mussagl and select the **File >
+Create Analysis from File** menu option. Select the .mupa file and click
 open. 
 
 .. image:: images/load_mupa_menu.png
@@ -204,7 +571,7 @@ Load an analysis
 ~~~~~~~~~~~~~~~~
 
 To load a previously run analysis open Mussagl and select the **File >
-Load Analysis** menu option. Select an analysis **directory** and
+Open Existing Analysis** menu option. Select an analysis **directory** and
 click open.
 
 .. image:: images/load_analysis_menu.png
@@ -217,7 +584,7 @@ Main Window
 
 Overview
 ~~~~~~~~
-.. Screenshot with numbers showing features.
+.. Screen-shot with numbers showing features.
 
 .. image:: images/window_overview.png
    :alt: Mussa Window
@@ -231,9 +598,9 @@ Legend:
 
  3. Motif_
 
- 4. `Conservation tracks`_
+ 4. `Red conservation tracks`_
 
- 5. `Motif Toggle`_
+ 5. `Blue conservation tracks`_
 
  6. `Zoom Factor`_ (Base pairs per pixel)
 
@@ -252,9 +619,7 @@ DNA Sequence (black bars)
    :align: center
 
 Each of the black bars represents one of the loaded sequences, in this
-case the sequence around the gene 'MCK' in human, mouse, and rabit.
-
-FIXME: Should I mention the repeats here?
+case the sequence around the gene 'MCK' in human, mouse, and rabbit.
 
 
 Annotation
@@ -268,14 +633,10 @@ Annotation
 
 
 Annotations can be included on any of the sequences using the `Load a
-mussa parameter file`_ method of loading your sequences. You can
-define annotations by location or using an exact subsequence and you
-may also choose any color for display of the annoation; see the
-`Annotation File Format`_ section for details.
-
-Note: Currently there is no way to add annotations using the GUI (only
-via the .mupa file). We plan to add this feature in the future, but it
-likely will not make it into the first release.
+mussa parameter file`_ or `Create a new analysis`_ method of loading
+your sequences. You can define annotations by location or using an
+exact sub-sequence or a FASTA sequence of the section of DNA you wish
+to annotate. See the `Annotation File Format`_ section for details.
 
 
 Motif
@@ -287,38 +648,43 @@ Motif
 
    Motif shown in light blue on sequence bar.
 
-The only real difference between an annotation and motif in mussagl is
-that you can define motifs from within the GUI. See the `Motifs`_
-section for more information.
+The only real difference between an annotation and motif in Mussagl is
+that you can define motifs and choose a color from within the GUI. See
+the `Motifs`_ section for more information.
 
 
-Conservation tracks
-~~~~~~~~~~~~~~~~~~~
+Red conservation tracks
+~~~~~~~~~~~~~~~~~~~~~~~
 
 .. figure:: images/conservation_tracks.png
    :alt: Conservation Tracks
    :align: center
    
-   Conservations tracks shown as red lines between sequence bars.
+   Conservations tracks shown as red and blue lines between sequence
+   bars.
 
-The red lines between the sequence bars represent conservation between
-the sequences. The amount of sequence conservation shown will depend
-on the relatedness of your sequences and the `dynamic threshold` you
-are using. Sequences with lots of repeats will cause major slow downs
-in calculating the matches.
+The **red lines** between the sequence bars represent conservation
+between the sequences (i.e. not reverse complement matches)
 
+The amount of sequence conservation shown will depend on how much your
+sequences are related and the `dynamic threshold`_ you are using.
 
-Motif Toggle
-~~~~~~~~~~~~
 
-.. image:: images/motif_toggle.png
-   :alt: Motif Toggle
+Blue conservation tracks
+~~~~~~~~~~~~~~~~~~~~~~~~
+
+.. figure:: images/conservation_tracks.png
+   :alt: Conservation Tracks
    :align: center
+   
+   Conservations tracks shown as red and blue lines between sequence
+   bars.
 
-Toggles motifs on and off. This will not turn on and off annotations.
+**Blue lines** represent **reverse complement** conservation relative
+to the sequence attached to the top of the blue line.
 
-Note: As of the current build (#200), this feature hasn't been
-implemented.
+The amount of sequence conservation shown will depend on how much your
+sequences are related and the `dynamic threshold`_ you are using.
 
 
 Zoom Factor
@@ -341,14 +707,16 @@ Dynamic Threshold
    :alt: Dynamic Threshold
    :align: center
 
-You can dynamically change the threshold for how strong of match you
-consider the conservation to be with one of two options:
+You can dynamically change the threshold for how strong a match you
+consider the conservation to be by changing the value in the dynamic
+threshold box. 
 
- 1. Number of base pair matchs out of window size.
- 2. Percent base pair conservation.
+The value you enter is the minimum number of base pairs that have to
+be matched in order to be considered conserved. The second number that
+you can't change is the `window size`_ you used when creating the
+experiment. The last number is the percent match.
 
-See the Threshold_ section for more infromation.
+See the Threshold_ section for more information.
 
 
 Sequence Information Bar
@@ -358,14 +726,17 @@ Sequence Information Bar
    :alt: Sequence Information Bar
    :align: center
 
-The sequence infomation bars can be found to the left and right sides
-of mussagl. Next to each sequence you will find the following
+The sequence information bars can be found to the left and right sides
+of Mussagl. Next to each sequence you will find the following
 information:
 
  1. Species (If it has been defined)
  2. Total Size of Sequence
  3. Current base pair position
 
+Note that you can **update the species** text box. Make sure to **save your
+experiment** after making this change by selecting **File > Save
+Analysis** from the menu.
 
 Sequence Scroll Bar
 ~~~~~~~~~~~~~~~~~~~
@@ -378,24 +749,322 @@ The scroll bar allows you to scroll through the sequence which is
 useful when you have zoomed in using the `zoom factor`_.
 
 
+Saving
+------
+
+Save on Close
+~~~~~~~~~~~~~
+
+When ever you create a new analysis or make a change such as
+adding/editing a motif or changing a species name, an asterisk (*)
+will appear in the title of the window showing that there are changes
+that have not been saved. If you close a Mussa window without saving
+changes, Mussa will ask you if you would like to save the changes that
+have been made.
+
+Save Analysis
+~~~~~~~~~~~~~
+
+After making changes, such as updating species names or adding/editing
+motifs, you can save these changes by selecting the **File > Save
+analysis** menu option or pressing **CTRL + S** (PC) or
+**Apple/Command Key + S** (on Mac).
+
+.. image:: images/save_analysis.png
+   :alt: Save analysis
+   :align: center
+
+Save Analysis As
+~~~~~~~~~~~~~~~~
+
+To save a copy of your analysis to a new location, select the **File >
+Save analysis as** menu option and choose a new location and name for
+your analysis.
+
+.. image:: images/save_analysis_as.png
+   :alt: Save analysis
+   :align: center
+
+Save Motif List
+~~~~~~~~~~~~~~~
+
+See `Save Motifs to File`_ in the `Motifs`_ section.
+
+
+Viewing Multiple Analyses
+-------------------------
+
+Some times it is useful to view more than one analysis at a time. To
+do accomplish this, Mussa allows you to open a new Mussa window by
+selecting the **File > New Mussa Window** menu option.
+
+.. image:: images/new_mussa_window_menu.png
+   :alt: New Mussa Window Menu Option
+   :align: center
+
+A new Mussa window will pop up.
+
+.. figure:: images/new_mussa_window.png
+   :alt: New Mussa Window
+   :align: center
+
+   A new Mussa window on the right, in which I have loaded a second
+   experiment.
+
+Now you can create or load an existing analysis, in this new window,
+as described in the `Create/Load Analysis`_ section. 
+
+You can view as many analyses as you can fit on your screen or until
+you run out of available RAM. If you notice a rapid decrease in
+performance and hear lots of noise coming from your hard drive, you
+probably ran out of RAM and are now using virtual memory (i.e. much
+much slower). If this happens, you may need to avoid opening as many
+analyses at one time.
+
+
 Annotations / Motifs
 --------------------
 
 Annotations
 ~~~~~~~~~~~
 
+Currently annotations can be added to a sequence using the mussa
+`annotation file format`_ and can be loaded by selecting the
+annotation file when defining a new analysis (see `Create a new
+analysis`_ section) or by defining a .mupa file pointing to your
+annotation file (see `Load a mussa parameter file`_ section).
+
 Motifs
 ~~~~~~
 
 Load Motifs from File
 *********************
 
+It is possible to load motifs from a file which was saved from a
+previous run or by defining your own motif file. See the `Motif File
+Format`_ section for details.
+
+NOTE: Valid motif list file extensions are:
+  
+  * .mtl
+  * .txt
+
+To load a motif file, select **Load Motif List** item from the
+**File** menu and select a motif list file.
+
+.. image:: images/load_motif.png
+   :alt: Load Motif List
+   :align: center
+
+
+Save Motifs to File
+*******************
+
+Motifs from the `Motif Dialog`_ can be saved to file for use with
+other analyses. If you just want your motifs to be saved with your
+analysis, see the `save analysis`_ section for details.
+
+To save a motif list, select **File > Save Motifs** menu option. By
+default, Mussa will append .mtl if you do not provide a file extension
+(valid file extensions: .mtl & .txt).
+
+.. image:: images/save_motifs.png
+   :alt: Save Motifs
+   :align: center
+
+
 Motif Dialog
 ************
 
+Mussa has the ability to find lab motifs using the `IUPAC Nucleotide
+Code`_ for defining a motif. To define a motif, select **Edit > Edit
+Motifs** menu item as shown below.
+
+.. image:: images/view_edit_motifs.png
+   :alt: "View > Edit Motifs" Menu
+   :align: center
+
+You will see a dialog box appear with a "apply" button in the bottom
+right and one rows for defining motifs and the color that will be
+displayed on the sequence. When you start adding your first motif, an
+additional row will be added. The check box in the first column
+defines whether the motif is displayed or not. The second column is
+the motif display color. The third column is for the name of your
+motif and finally, the fourth column is motif itself.
+
+.. image:: images/motif_dialog_start.png
+   :alt: Motif Dialog
+   :align: center
+
+Now let's make a motif **'AT[C or G]CT'**. Using the `IUPAC Nucleotide
+Code`_, type in **'ATSCT'** into the motif field and **'My Motif'** for
+the name in the name field as shown below. 
+
+Notice how a second row appeared when you started to add the first
+motif. Every time you add a new motif, a new row will appear allowing
+you to add as many motifs as you need.
+
+.. image:: images/motif_dialog_enter_motif.png
+   :alt: Enter Motif
+   :align: center
+
+Now choose a color for your motif by clicking on the colored area to
+the left of the name field. Remember to choose a color that will show
+up well with a black bar as the background. A good tool for picking a
+color is the `Colour Contrast Analyser
+<http://juicystudio.com/services/colourcontrast.php>`_ by
+`juicystudio.com <http://juicystudio.com/>`_.
+
+.. image:: images/color_chooser.png
+   :alt: Color Chooser
+   :align: center
+
+Once you have selected the color for your motif, click on the
+**'apply'** button. Notice that if Mussa finds matches to your motif
+will now show up in the main Mussa window.
+
+Before Motif:
+
+.. image:: images/motif_dialog_bar_before.png
+   :alt: Sequence bar before motif
+   :align: center
+
+After Motif:
+
+.. image:: images/motif_dialog_bar_after.png
+   :alt: Sequence bar after motif
+   :align: center
+
+To save your motifs with your analysis, see the `save analysis`_
+section. To save your motifs to a file, see the `save motifs to file`_
+section.
+
+Deleting a Motif
+^^^^^^^^^^^^^^^^
 
-Detailed Info
--------------
+To delete a motif, remove all text from the name and sequence columns
+and close the motif editor.
+
+View Mussa Alignments
+---------------------
+
+Mussagl allows you to zoom in on Mussa alignments by selecting the set
+of alignment(s) of interest. To do this, move the mouse near the
+alignment you are interested in viewing and then **PRESS** and
+**HOLD** the **LEFT mouse button** and **drag the mouse** to the other
+side of the conservation track so that you see a bounding box
+overlaping the alienment(s) of interest and then **let go** of the
+*left mouse button*.
+
+In the example below, I started by left-clicking on the area marked by
+a red dot (upper left corner of bounding box) and dragging the mouse to
+the area marked by a blue dot (lower right corner of the bounding box)
+and letting go of the left mouse button.
+
+.. image:: images/select_sequence.png
+   :alt: Select Sequence
+   :align: center
+
+All of the lines which were not selected should be washed out as shown
+below:
+
+.. image:: images/washed_out.png
+   :alt: Tracks washed out
+   :align: center
+
+With a selection made, goto the **View** menu and select **View mussa alignment**.
+
+.. image:: images/view_mussa_alignment.png
+   :alt: View mussa alignment
+   :align: center
+
+You should see the alignment at the base-pair level as shown below.
+
+.. image:: images/mussa_alignment.png
+   :alt: Mussa alignment
+   :align: center
+
+
+Sub-analysis
+------------
+
+To run a sub-analysis **highlight** a section of sequence and *right
+click* on it and select **Add to subanalysis**. To the same for the
+sequences shown in orange in the screenshot below. Note that you **are
+NOT limited** to selecting more than one subsequence from the same
+sequence.
+
+.. image:: images/subanalysis_select_seqs.png
+   :alt: Subanalysis sequence selection
+   :align: center
+
+Once you have added your sequences for subanalysis, choose a `window size`_ and `threshold`_ and click **Ok**.
+
+.. image:: images/subanalysis_dialog.png
+   :alt: Subanalysis Dialog
+   :align: center
+
+A new Mussa window will appear with the subanalysis of your sequences
+once it's done running. This may take a while if you selected large
+chunks of sequence with a loose threshold.
+
+.. image:: images/subanalysis_done.png
+   :alt: Subalaysis complete
+   :align: center
+
+
+Copying sequence to clipboard
+-----------------------------
+
+To copy a sequence to the clipboard, highlight a section of sequence,
+as shown in the screen shot below, and do one of the following:
+
+ * Select **Copy as FASTA** from the **Edit** menu.
+ * **Right-Click (Left-click + Apple/Command Key on Mac)** on the highlighted sequence and select **Copy as FASTA**.
+ * Press **Ctrl + C (on PC)** or **Apple/Command Key + C (on Mac)** on the keyboard.
+
+.. image:: images/copy_sequence.png
+   :alt: Copy sequence
+   :align: center
+
+
+Saving to an Image
+---------------------------------
+
+ * Updated to build 419.
+
+To save your current mussa view to an image, select **File > Save to
+image...** as shown below.
+
+.. image:: images/save_to_image_menu.png
+   :alt: File > Save to image...
+   :align: center
+
+You can define the width and the height of the image to save. By
+default it will use the same size of your current view. Since the
+Mussa view is implemented using vectors, if you choose a larger size
+then your current view, Mussa will redraw at the higher resolution
+when saving. In other words, you get higher quality images when saving
+at a higher resolution.
+
+If you check the "Lock aspect ratio" check box, which I have circled
+in red, then when you change one value, say width, the other, height,
+will update automatically to keep the same aspect ratio.
+
+.. image:: images/save_to_image_dialog.png
+   :alt: Save to image dialog
+   :align: center
+
+Click save and choose a location and filename for your file.
+
+The valid image formats are:
+
+  * .png (default if no extension specified.)
+  * .jpg
+
+
+Detailed Information
+--------------------
 
 Threshold
 ~~~~~~~~~
@@ -423,13 +1092,13 @@ needs and input sequence.
 Sequences
 ~~~~~~~~~
 
-Mussa reads in sequences which are formated in the fasta_
+Mussa reads in sequences which are formatted in the FASTA_
 format. Mussa may take a long time to run (>10 minutes) if the total
 bp length near 280Kb. Once mussa has run once, you can reload
-previously run analyses.
+previously run analyzes.
 
 FIXME: We have learned more about how much sequence and how many to
-put in mussagl, this information should be documented here.
+put in Mussagl, this information should be documented here.
 
 
 Mussa File Formats
@@ -444,7 +1113,7 @@ Parameter File Format
 
 ::
 
-  # name of anaylsis directory and stem for associated files
+  # name of analysis directory and stem for associated files
   ANA_NAME <analysis_name>
   
   # if APPEND vars true, a _wXX and/or _tYY added to analysis name
@@ -457,21 +1126,21 @@ Parameter File Format
   SEQUENCE_NUM <num>
   
   # first sequence info
-  SEQUENCE <fasta_file_path>
+  SEQUENCE <FASTA_file_path>
   ANNOTATION <annotation_file_path>
   SEQ_START <sequence_start>
   
   # the second sequence info
-  SEQUENCE <fasta_file_path>
+  SEQUENCE <FASTA_file_path>
   # ANNOTATION <annotation_file_path>
   SEQ_START <sequence_start>
   # SEQ_END <sequence_end>
 
   # third sequence info
-  SEQUENCE <fasta_file_path>
+  SEQUENCE <FASTA_file_path>
   # ANNOTATION <annotation_file_path>
   
-  # analyses parameters: command line args -w -t will override these
+  # analyzes parameters: command line args -w -t will override these
   WINDOW <num>
   THRESHOLD <num>
 
@@ -484,14 +1153,14 @@ Parameter File Format
    "APPEND_WIN", "true/false", "?", "?", "Appends _w## to ANA_NAME"
    "APPEND_THRES", "true or false", "?", "?", "Appends _t## to ANA_NAME"
    "SEQUENCE_NUM", "integer", "N/A", "true", "The number of sequences
-   to analyse" 
-   "SEQUENCE", "/fasta/filepath.fa", "N/A", "true", "Must define one
+   to analyze" 
+   "SEQUENCE", "/FASTA/filepath.fa", "N/A", "true", "Must define one
    sequence per SEQUENCE_NUM." 
    "ANNOTATION", "/annotation/filepath.txt", "N/A", "false", "Optional
    annotation file. See `annotation file format`_ section for more
    information." 
-   "SEQ_START", "integer", "1", "false", "Optional index into fasta file"
-   "SEQ_END", "integer", "1", "false", "Optional index into fasta file"
+   "SEQ_START", "integer", "1", "false", "Optional index into FASTA file"
+   "SEQ_END", "integer", "1", "false", "Optional index into FASTA file"
    "WINDOW", "integer", "N/A", "true", "`Window Size`_"
    "THRESHOLD", "integer", "N/A", "true", "`Threshold`_"
 
@@ -501,7 +1170,15 @@ Annotation File Format
 ~~~~~~~~~~~~~~~~~~~~~~
 
 The first line in the file is the sequence name. Each line there after
-is a **space** seperated annotation.
+is a **space** separated annotation. 
+
+New as of build 198:
+ * The annotation format now supports FASTA sequences embedded in the
+   annotation file as shown in the format example below. Mussagl will
+   take this sequence and look for an exact match of this sequence in
+   your sequences. If a match is found, it will label it with the name 
+   of from the FASTA header.
 
 Format:
 
@@ -512,6 +1189,12 @@ Format:
   <start> <stop> <annotation_name> <annotation_type>
   <start> <stop> <annotation_name> <annotation_type>
   <start> <stop> <annotation_name> <annotation_type>
+  >FASTA Header
+  ACTGACTGACGTACGTAGCTAGCTAGCTAGCACG
+  ACGTACGTACGTACGTAGCTGTCATACGCTAGCA
+  TGCGTAGAGGATCTCGGATGCTAGCGCTATCGAT
+  ACGTACGGCAGTACGCGGTCAGA
+  <start> <stop> <annotation_name> <annotation_type>
   ...
 
 Example:
@@ -522,6 +1205,8 @@ Example:
   251 500 Glorp Glorptype
   751 1000 Glorp Glorptype
   1251 1500 Glorp Glorptype
+  >My favorite DNA sequence
+  GATTACA
   1751 2000 Glorp Glorptype
 
 
@@ -539,12 +1224,42 @@ Example:
   GGCC 0.0 1 1
 
 
+
+IUPAC Nucleotide Code
+~~~~~~~~~~~~~~~~~~~~~~
+
+For your convenience, below is a table of the IUPAC Nucleotide Code.
+
+The following table is table 1 from "Nomenclature for Incompletely
+Specified Bases in Nucleic Acid Sequences" which can be found at
+http://www.chem.qmul.ac.uk/iubmb/misc/naseq.html.
+
+======  =================  ===================================
+Symbol Meaning            Origin of designation
+======  =================  ===================================
+G      G                  Guanine
+A      A                  Adenine
+T      T                  Thymine
+C      C                  Cytosine
+R      G or A             puRine
+Y      T or C             pYrimidine
+M      A or C             aMino
+K      G or T             Keto
+S      G or C             Strong interaction (3 H bonds)
+W      A or T             Weak interaction (2 H bonds)
+H      A or C or T        not-G, H follows G in the alphabet
+B      G or T or C        not-A, B follows A
+V      G or C or A        not-T (not-U), V follows U
+D      G or A or T        not-C, D follows C
+N      G or A or T or C   aNy
+======  =================  ===================================
+
+
 .. Define links below
    ------------------
 
 .. _GPL: http://www.opensource.org/licenses/gpl-license.php
 .. _wiki: http://mussa.caltech.edu
 .. _build: http://woldlab.caltech.edu/cgi-bin/mussa/wiki/MussaglBuild
-.. _fasta: http://en.wikipedia.org/wiki/FASTA_format
-.. _wpDnaMotif: http://en.wikipedia.org/wiki/DNA_motif
-
+.. _FASTA: http://en.wikipedia.org/wiki/fasta_format
+.. _wpDnaMotif: http://en.wikipedia.org/wiki/DNA_motif
\ No newline at end of file