Initial port to python3

[htsworkflow.git] / encode_submission / encode_find.py
diff --git a/encode_submission/encode_find.py b/encode_submission/encode_find.py

index 70f280f7e4f4f18c46c8206674ab27960001a82f..6c8b94223ef2fdd1a80194d43422917f558b63a7 100644 (file)
--- a/encode_submission/encode_find.py
+++ b/encode_submission/encode_find.py
@@ -17,8 +17,8 @@ import re
  # redland rdf lib
  import RDF
  import sys
-import urllib
-import urlparse
+import urllib.request, urllib.parse, urllib.error
+import urllib.parse
  
  if not 'DJANGO_SETTINGS_MODULE' in os.environ:
      os.environ['DJANGO_SETTINGS_MODULE'] = 'htsworkflow.settings'
@@ -26,18 +26,14 @@ if not 'DJANGO_SETTINGS_MODULE' in os.environ:
  from htsworkflow.submission import daf, ucsc
  
  from htsworkflow.util import api
+from htsworkflow.util.rdfns import *
  from htsworkflow.util.rdfhelp import \
-     dafTermOntology, \
-     dublinCoreNS, \
       get_model, \
       get_serializer, \
       sparql_query, \
       submissionOntology, \
       libraryOntology, \
-     load_into_model, \
-     rdfNS, \
-     rdfsNS, \
-     xsdNS
+     load_into_model
  TYPE_N = rdfNS['type']
  CREATION_DATE = libraryOntology['date']
  
@@ -134,7 +130,7 @@ def main(cmdline=None):
  
      if opts.print_rdf:
          serializer = get_serializer(name=opts.rdf_parser_name)
-        print serializer.serialize_model_to_string(model)
+        print(serializer.serialize_model_to_string(model))
  
  
  def make_parser():
@@ -186,7 +182,7 @@ def make_parser():
  
  
  def load_my_submissions(model, limit=None, cookie=None):
-    """Parse all the submissions from UCSC into model
+    """Parse all of my submissions from encodesubmit into model
      It will look at the global USER_URL to figure out who to scrape
      cookie contains the session cookie, if none, will attempt to login
      """
@@ -265,11 +261,11 @@ def report_submissions_with_no_library(model):
      for row in results:
          subid = row['subid']
          name = row['name']
-        print "# {0}".format(name)
-        print "<{0}>".format(subid.uri)
-        print "  encodeSubmit:library_urn "\
-              "<http://jumpgate.caltech.edu/library/> ."
-        print ""
+        print("# {0}".format(name))
+        print("<{0}>".format(subid.uri))
+        print("  encodeSubmit:library_urn "\
+              "<http://jumpgate.caltech.edu/library/> .")
+        print("")
  
  def find_submissions_with_no_library(model):
      missing_lib_query_text = """
@@ -486,7 +482,7 @@ def reload_libraries(model, library_list):
          load_library_detail(model, library_urn)
  
  def user_library_id_to_library_urn(library_id):
-    split_url = urlparse.urlsplit(library_id)
+    split_url = urllib.parse.urlsplit(library_id)
      if len(split_url.scheme) == 0:
          return LIBRARY_NS[library_id]
      else:
@@ -538,14 +534,23 @@ def load_encodedcc_files(model, genome, composite):
      if file_index is None:
          return
  
-    for filename, attributes in file_index.items():
+    lib_term = submissionOntology['library_urn']
+    sub_term = submissionOntology['submission_urn']
+    for filename, attributes in list(file_index.items()):
          s = RDF.Node(RDF.Uri(filename))
          model.add_statement(
              RDF.Statement(s, TYPE_N, submissionOntology['ucsc_track']))
-        for name, value in attributes.items():
+        for name, value in list(attributes.items()):
              p = RDF.Node(DCC_NS[name])
              o = RDF.Node(value)
              model.add_statement(RDF.Statement(s,p,o))
+            if name.lower() == 'labexpid':
+                model.add_statement(
+                    RDF.Statement(s, lib_term, LIBRARY_NS[value+'/']))
+            elif name.lower() == 'subid':
+                sub_url = RDF.Uri(submission_view_url(value))
+                model.add_statement(
+                    RDF.Statement(s, sub_term, sub_url))
  
  
  def load_library_detail(model, libraryUrn):
@@ -561,7 +566,7 @@ def load_library_detail(model, libraryUrn):
          try:
              body = get_url_as_text(str(libraryUrn.uri), 'GET')
              rdfaParser.parse_string_into_model(model, body, libraryUrn.uri)
-        except httplib2.HttpLib2ErrorWithResponse, e:
+        except httplib2.HttpLib2ErrorWithResponse as e:
              LOGGER.error(str(e))
      elif len(results) == 1:
          pass  # Assuming that a loaded dataset has one record
@@ -639,7 +644,7 @@ def login(cookie=None):
      response, content = http.request(LOGIN_URL,
                                       'POST',
                                       headers=headers,
-                                     body=urllib.urlencode(credentials))
+                                     body=urllib.parse.urlencode(credentials))
      LOGGER.debug("Login to {0}, status {1}".format(LOGIN_URL,
                                                      response['status']))
  
@@ -704,7 +709,7 @@ def select_by_library_id(submission_list):
      for lib_id, subobj in subl:
          libraries.setdefault(lib_id, []).append(subobj)
  
-    for submission in libraries.values():
+    for submission in list(libraries.values()):
          submission.sort(key=attrgetter('date'), reverse=True)
  
      return libraries