return most recent genome build for the pipeline config file.
[htsworkflow.git] / gaworkflow / util / alphanum.py
1 #\r
2 # The Alphanum Algorithm is an improved sorting algorithm for strings\r
3 # containing numbers.  Instead of sorting numbers in ASCII order like\r
4 # a standard sort, this algorithm sorts numbers in numeric order.\r
5 #\r
6 # The Alphanum Algorithm is discussed at http://www.DaveKoelle.com\r
7 #\r
8 #* Python implementation provided by Chris Hulan (chris.hulan@gmail.com)\r
9 #* Distributed under same license as original\r
10 #\r
11 # This library is free software; you can redistribute it and/or\r
12 # modify it under the terms of the GNU Lesser General Public\r
13 # License as published by the Free Software Foundation; either\r
14 # version 2.1 of the License, or any later version.\r
15 #\r
16 # This library is distributed in the hope that it will be useful,\r
17 # but WITHOUT ANY WARRANTY; without even the implied warranty of\r
18 # MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU\r
19 # Lesser General Public License for more details.\r
20 #\r
21 # You should have received a copy of the GNU Lesser General Public\r
22 # License along with this library; if not, write to the Free Software\r
23 # Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02110-1301  USA\r
24 #\r
25 \r
26 import re\r
27 \r
28 #\r
29 # TODO: Make decimal points be considered in the same class as digits\r
30 #\r
31 \r
32 def chunkify(str):\r
33         """return a list of numbers and non-numeric substrings of +str+\r
34 \r
35         the numeric substrings are converted to integer, non-numeric are left as is\r
36         """\r
37         chunks = re.findall("(\d+|\D+)",str)\r
38         chunks = [re.match('\d',x) and int(x) or x for x in chunks] #convert numeric strings to numbers\r
39         return chunks\r
40 \r
41 def alphanum(a,b):\r
42         """breaks +a+ and +b+ into pieces and returns left-to-right comparison of the pieces\r
43 \r
44         +a+ and +b+ are expected to be strings (for example file names) with numbers and non-numeric characters\r
45         Split the values into list of numbers and non numeric sub-strings and so comparison of numbers gives\r
46         Numeric sorting, comparison of non-numeric gives Lexicographic order\r
47         """\r
48         # split strings into chunks\r
49         aChunks = chunkify(a)\r
50         bChunks = chunkify(b)\r
51 \r
52         return cmp(aChunks,bChunks) #built in comparison works once data is prepared\r
53 \r
54 \r
55 \r
56 if __name__ == "__main__":\r
57         unsorted = ["1000X Radonius Maximus","10X Radonius","200X Radonius","20X Radonius","20X Radonius Prime","30X Radonius","40X Radonius","Allegia 50 Clasteron","Allegia 500 Clasteron","Allegia 51 Clasteron","Allegia 51B Clasteron","Allegia 52 Clasteron","Allegia 60 Clasteron","Alpha 100","Alpha 2","Alpha 200","Alpha 2A","Alpha 2A-8000","Alpha 2A-900","Callisto Morphamax","Callisto Morphamax 500","Callisto Morphamax 5000","Callisto Morphamax 600","Callisto Morphamax 700","Callisto Morphamax 7000","Callisto Morphamax 7000 SE","Callisto Morphamax 7000 SE2","QRS-60 Intrinsia Machine","QRS-60F Intrinsia Machine","QRS-62 Intrinsia Machine","QRS-62F Intrinsia Machine","Xiph Xlater 10000","Xiph Xlater 2000","Xiph Xlater 300","Xiph Xlater 40","Xiph Xlater 5","Xiph Xlater 50","Xiph Xlater 500","Xiph Xlater 5000","Xiph Xlater 58"]\r
58         sorted = unsorted[:]\r
59         sorted.sort(alphanum)\r
60         print '+++++Sorted...++++'\r
61         print '\n'.join(sorted)\r