Manual: UCSC Genome Browser section
[mussa.git] / doc / manual / mussagl_manual.rst
index 475b8ce102f383fced23879524cc27f609a44bd3..1855192804ef7878eab68fa3d64ce351c275cd51 100644 (file)
@@ -5,9 +5,9 @@ Mussagl Manual
 Brandon W. King
 ---------------
 
-Last updated: May 18th, 2006
+Last updated: May 23th, 2006
 
-Updated to Mussagl build: 141 (Update to 200 in progress)
+Updated to Mussagl build: 200 (Update to 230 in progress)
 
 
 .. contents::
@@ -101,6 +101,301 @@ Instructions for building from source can be found `build page
 __ wiki_
 
 
+Obtaining Input Data
+====================
+
+If you already have your data, you can skip ahead to the the `Using
+Mussagl`_ section.
+
+Lets say you have a gene of interest called 'SMN1' and you want to
+know how the sequence surrounding the gene in multiple species is
+conserved. Guess what, that's what we are going to do, retrieve the
+DNA sequence for SMN1 and prepare it for using in Mussa.
+
+For more information about SMN1 visit `NCBI's OMIM
+<http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=609682>`_.
+
+UCSC Genome Browser Method
+--------------------------
+
+There are many methods of retrieving DNA sequence, but for this
+example we will retrieve SMN1 through the UCSC genome broswer located
+at http://genome.ucsc.edu/.
+
+.. image:: images/ucsc_genome_browser_home.png
+   :alt: UCSC Genome Broswer
+   :align: center
+
+Step 1 - Find SMN1
+~~~~~~~~~~~~~~~~~~
+
+The first step in finding SMN1 is to use the **Gene Sorter** menu
+option which I have highlighted in orange below:
+
+.. image:: images/ucsc_menu_bar_gene_sorter.png
+   :alt: Gene Sorter Menu Option
+   :align: center
+
+Gene Sorter page:
+
+.. image:: images/ucsc_gene_sorter.png
+   :alt: Gene Sorter
+   :align: center
+
+We will start by looking for SMN1 in the **Human Genome** and **sorting by name similarity**.
+
+.. image:: images/ucsc_gs_sort_name_sim.png
+   :alt: Gene Sorter - Name Similarity
+   :align: center
+
+After you have selected **Human Genome** and **sorting by name similarity**, type *SMN1* into the search box.
+
+.. image:: images/ucsc_gs_smn1.png
+   :alt: Gene
+   :align: center
+
+Press **Go!** and you should see the following page:
+
+.. image:: images/ucsc_gs_found.png
+   :alt: Found SMN1
+   :align: center
+
+Click on **SMN1** and you will be taking the gene expression atlas
+page.
+
+.. image:: images/ucsc_gs_genome_position.png
+   :alt: Gene expression atlas
+   :align: center
+
+Click on **chr5 70,270,558** found in the **SMN1 row**, **Genome
+position column**.
+
+Now we have found the location of SMN1 on human!
+
+.. image:: images/ucsc_gb_smn1_human.png
+   :alt: Genome Browser - SMN1 (human)
+   :align: center
+
+
+Step 2 - Download CDS/UTR sequence for annotations
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+Since we have found **SMN1**, this would be a convient time to extract
+the DNA sequence for the CDS and UTRs of the gene to use it as an
+annotation_ in Mussa.
+
+**Click on SMN1** shown **between** the **two orange arrows** shown
+below.
+
+.. image:: images/ucsc_gb_smn1_human_click_smn1.png
+   :alt: Genome Browser - SMN1 (human) - Orange Arrows
+   :align: center
+
+You should find yourself at the SMN1 description page.
+
+.. image:: images/ucsc_gb_smn1_description_page.png
+   :alt: Genome Browser - SMN1 (human) - Description page
+   :align: center
+
+**Scroll down** until you get to the **Sequence section** and click on
+**Genomic (chr5:70,256,524-70,284,592)**.
+
+.. image:: images/ucsc_gb_smn1_human_sequence.png
+   :alt: Genome Browser - SMN1 (human) - Sequence
+   :align: center
+
+You should now be at the **Genomic sequence near gene** page:
+
+.. image:: images/ucsc_gb_smn1_human_get_genomic_sequence.png
+   :alt: Genome Browser - SMN1 (human) - Get genomic sequence
+   :align: center
+
+Make the following changes (highlighted in orange in the screenshot
+below):
+
+ 1. UNcheck **introns**. 
+    (We only want to annotate CDS and UTRs.)
+ 2. Select **one fasta record** per **region**. 
+    (Mussa needs each CDS and UTR represented by one fasta record per CDS/UTR).
+ 3. Select **split UTR and CDS parts of an exon into separate FASTA records**.
+    (Breaks up **exons** into CDSs and UTRs.)
+
+.. image:: images/ucsc_gb_smn1_human_get_genomic_sequence_diff.png
+   :alt: Genome Browser - SMN1 (human) - Get genomic sequence setup
+   :align: center
+
+Now click the **submit** button. You will then see a fasta file with
+many fasta records representing the CDS and UTRS.
+
+.. image:: images/ucsc_gb_smn1_human_get_genomic_sequence_submit.png
+   :alt: Genome Browser - SMN1 (human) - CDS/UTR sequence
+   :align: center
+
+Now you need to save the fasta records to a **text file**. If you are
+using **Firefox** or **Internet Explorer 6+** click on the **File >
+Save As** menu option. 
+
+**IMPORTANT:** Make sure you select **Text Files** and **NOT**, I
+repeat **NOT Webpage Complete** (see screenshot below.)
+
+Type in **smn1_human_annot.txt** for the file name.
+
+.. image:: images/smn1_human_annot.png
+   :alt: Genome Browser - SMN1 (human) - sequence annotation file
+   :align: center
+
+**IMPORTANT:** You should open the file with a text editor and make
+  sure **no html** was saved... If you find any html markup, delete
+  the markup and save the file.
+
+Now we are going to **modify the file** you just saved to **add the
+name of the species** to the **annotation file**. All you have to do
+is **add a new line** at the **top of the file** with the word **'Human'** as
+shown below:
+
+.. image:: images/smn1_human_annot_plus_human.png
+   :alt: Genome Browser - SMN1 (human) - sequence annotation file
+   :align: center
+
+You can add more annotations to this file if you wish. See the
+`annotation file format`_ section for details of the file format. By
+including fasta records in the annotation_ file, Mussa searches your
+DNA sequence for an exact match of the sequence in the annotation_
+file. If found, it will be marked as an annotation_ within Mussa.
+
+
+Step 3 - Download gene and upstream/downstream sequence
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+Use the back button in your web browser to get back the **genome
+browser view** of **SMN1** as shown below.
+
+.. image:: images/ucsc_gb_smn1_human.png
+   :alt: Genome Browser - SMN1 (human)
+   :align: center
+
+There are two options for getting additional sequence around your
+gene. The more complex way is to zoom out so that you have the
+sequence you want being shown in the genome browser and then follow
+the directions for the following method.
+
+The second option, which we will choose, is to leave the genome
+browser zoomed exactly at the location of SMN1 and click on the
+**DNA** option on the menu bar (shown with orange arrows in the
+screenshot below.)
+
+.. image:: images/ucsc_gb_smn1_human_dna_option.png
+   :alt: Genome Browser - SMN1 (human) - DNA Option
+   :align: center
+
+Now in the **get dna in window** page, lets add an arbitrary amount of
+extra sequence on to each end of the gene, lets say 5000 base pairs.
+
+.. image:: images/ucsc_gb_smn1_human_get_dna.png
+   :alt: Genome Browser - SMN1 (human) - Get DNA 
+   :align: center
+
+Click the **get DNA** button.
+
+.. image:: images/ucsc_gb_smn1_human_dna.png
+   :alt: Genome Browser - SMN1 (human) - DNA 
+   :align: center
+
+Save the DNA sequence to a text file called 'smn1_human_dna.fa' as we
+did in step 2 with the annotation file.
+
+**IMPORTANT:** Make sure the file is saved as a text file and not an
+HTML file. Open the file with a text editor and remove any HTML markup
+you find.
+
+
+Step 4 - Same/similar/related gene other species.
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+What good is a multiple sequence alignment viewer without multiple
+sequences? Lets find a similar gene in a few more species.
+
+Use the back button on your web browser until you get the **genome
+broswer view** of **SMN1** as shown below.
+
+.. image:: images/ucsc_genome_browser_home.png
+   :alt: UCSC Genome Broswer
+   :align: center
+
+**Click on SMN1** shown **between** the **two orange arrows** shown
+below.
+
+.. image:: images/ucsc_gb_smn1_human_click_smn1.png
+   :alt: Genome Browser - SMN1 (human) - Orange Arrows
+   :align: center
+
+You should find yourself at the SMN1 description page.
+
+.. image:: images/ucsc_gb_smn1_description_page.png
+   :alt: Genome Browser - SMN1 (human) - Description page
+   :align: center
+
+**Scroll down** until you get to the **Sequence section** and click on
+**Protein (262 aa)**.
+
+.. image:: images/ucsc_gb_smn1_human_sequence.png
+   :alt: Genome Browser - SMN1 (human) - Sequence
+   :align: center
+
+Copy the SMN1 protein seqeunce by highlighting it and selecting **Edit
+> Copy** option from the menu.
+
+.. image:: images/smn1_human_protein.png
+   :alt: Genome Browser - SMN1 (human) - Protein
+   :align: center
+
+Press the back button on the web browser once and then scroll to the
+top of the page and click on the **BLAT** option on the menu bar
+(shown below with orange arrows).
+
+.. image:: images/ucsc_gb_smn1_human_blat.png
+   :alt: Genome Browser - SMN1 (human) - Blat
+   :align: center
+
+**Paste** in the **protein sequence** and **change** the **genome** to
+**mouse** as shown below and then click **submit**.
+
+.. image:: images/ucsc_gb_smn1_human_blat_paste.png
+   :alt: Genome Browser - SMN1 (human) - Blat paste protein
+   :align: center
+
+Notice that we have two hits, one of which looks pretty good at 89.9%
+match.
+
+.. image:: images/ucsc_gb_smn1_human_blat_hits.png
+   :alt: Genome Browser - SMN1 (human) - Blat hits
+   :align: center
+
+**Click** on the **brower** link next to the 89.9% match. Notice in
+the genome browser (shown below) that there is an annotated gene
+called SMN1 for mouse which matches the line called **your sequence
+from blat search**. This means we are fairly confidant we found the
+right location in the mouse genome. 
+
+.. image:: images/ucsc_gb_smn1_human_blat_to_browser.png
+   :alt: Genome Browser - SMN1 (human) - Blat to browser
+   :align: center
+
+Follow steps 1 through 3 for mouse and then repeat step 4 with the
+human protein sequence to find **SMN1** in the following species (if
+you find a match):
+
+ 1. Rat
+ 2. Rabbit
+ 3. Dog
+ 4. Armadillo
+ 5. Elephant
+ 6. Opposum
+ 7. x_tropicalis
+
+Make sure to save the extended DNA sequence and annotation file for
+each one.
+
 Using Mussagl
 =============
 
@@ -159,7 +454,7 @@ Now click on the 'Browse' button next to the sequence input box and
 then select /examples/seq/human_mck_pro.fa file. Do the same in the
 next two sequence input boxes selecting mouse_mck_pro.fa and
 rabbit_mck_pro.fa as shown below. Note that you can create annotation
-files using the mussa `Annotation File Format` to add annotations to
+files using the mussa `Annotation File Format`_ to add annotations to
 your sequence.
 
 .. image:: images/define_analysis_step2.png
@@ -473,6 +768,54 @@ After Motif:
    :align: center
 
 
+View Mussa Alignements
+----------------------
+
+Mussagl allows you to zoom in on Mussa alignments by selecting the set
+of alignment(s) of interest. To do this, move the mouse near the
+alignment you are interested in viewing and then **PRESS** and
+**HOLD** the **LEFT mouse button** and **drag the mouse** to the other
+side of the conservation track so that you see a bounding box
+overlaping the alienment(s) of interest and then **let go** of the
+*left mouse button*.
+
+In the example below, I started by left clicking on the area marked by
+a red dot (upper left corner of bounding box) and draging the mouse to
+the area marked by a blue dot (lower right corner of the bounding box)
+and letting go of the left mouse button.
+
+.. image:: images/select_sequence.png
+   :alt: Select Sequence
+   :align: center
+
+All of the lines which were not selected should be washed out as shown
+below:
+
+.. image:: images/washed_out.png
+   :alt: Tracks washed out
+   :align: center
+
+With a selection made, goto the **View** menu and select **View mussa alignment**.
+
+.. image:: images/view_mussa_alignment.png
+   :alt: View mussa alignment
+   :align: center
+
+You should see the alignment at the base-pair level as shown below.
+
+.. image:: images/mussa_alignment.png
+   :alt: Mussa alignment
+   :align: center
+
+
+
+
+Saving to an Image
+---------------------------------
+
+FIXME: Need to write this section
+
+
 Detailed Information
 --------------------
 
@@ -672,5 +1015,4 @@ N  G or A or T or C   aNy
 .. _wiki: http://mussa.caltech.edu
 .. _build: http://woldlab.caltech.edu/cgi-bin/mussa/wiki/MussaglBuild
 .. _fasta: http://en.wikipedia.org/wiki/FASTA_format
-.. _wpDnaMotif: http://en.wikipedia.org/wiki/DNA_motif
-
+.. _wpDnaMotif: http://en.wikipedia.org/wiki/DNA_motif
\ No newline at end of file