FIX Gestion de l'utf8
[pompage.git] / src / film.rb
index 658b9d3..a7bcc54 100644 (file)
@@ -13,10 +13,10 @@ require 'constantes.rb'
 class Film\r
    attr_accessor :titre, :fichier, :annee, :realisateurs, :acteurs, :pays, :duree, :critiquePresse, :critiqueSpectateur, :genres, :synopsis, :budget\r
       \r
-   # Les films indexés par leur titre\r
+   # Les films indexés par leur titre\r
    @@films = {}\r
    \r
-   # Les films indexés par leur nom de fichier\r
+   # Les films indexés par leur nom de fichier\r
    @@filmsFichier = {}\r
 \r
    @@mutex = Mutex::new\r
@@ -24,7 +24,7 @@ class Film
    @@nbConn = 0\r
 \r
 \r
-   # Lit un repertoire de manière recursive\r
+   # Lit un repertoire de manière recursive\r
    def Film::litRepertoire(r)\r
       Film::litRepertoireR(r)\r
       # on attends que les threads se terminent\r
@@ -82,15 +82,21 @@ class Film
 \r
    # Renvoie tous les films sous la forme d'un document XML.\r
    def Film::getFilmsXml\r
-      racine = REXML::Element::new('filmographie')\r
+      # le document\r
       docXml = REXML::Document::new\r
+      docXml.xml_decl().encoding = "UTF-8"  # normalement UTF-8\r
+      docXml.xml_decl().dowrite\r
+      \r
+      # la racine du document\r
+      racine = REXML::Element::new('filmographie')\r
       docXml.add(racine)\r
-      docXml.xml_decl().encoding = "UTF-8"   \r
-      docXml.xml_decl().dowrite \r
       \r
+      # on ajoute chaque film à la racine\r
       @@films.each{|nom, f|\r
          racine.add(f.getXml)\r
       } \r
+      \r
+      # revoie le document\r
       docXml\r
    end\r
    \r
@@ -111,7 +117,7 @@ private
             litRepertoireR(fichier) \r
          else\r
          \r
-            #si le film n'existe pas déjà dans la liste\r
+            #si le film n'existe pas déjà dans la liste\r
             if film = @@filmsFichier[fichier]\r
                puts "[i] Already exists in DB : #{film.titre} (#{film.fichier})"\r
                next\r
@@ -149,7 +155,9 @@ private
 \r
    \r
    def initialize(fichier)\r
-      @fichier = fichier\r
+      #convertit le code latin-1 en UTF8\r
+      @fichier = fichier.unpack("C*").pack("U*")\r
+           \r
       @titre = ''\r
       @annee = nil\r
       @realisateurs = []\r
@@ -162,12 +170,13 @@ private
       @synopsis = nil\r
       @budget = nil      \r
       @budgetUnite = 'euro'\r
+      @url\r
    end\r
 \r
 public \r
 \r
-   # Charge les informations du films à partir d'allocine.fr\r
-   # ret [Film] : soit même\r
+   # Charge les informations du films à partir d'allocine.fr\r
+   # ret [Film]\r
    def loadData\r
       unless LOAD_DATA\r
          @titre = @fichier\r
@@ -176,23 +185,29 @@ public
 \r
       connexionHttp = Net::HTTP::new('www.allocine.fr');\r
    \r
-      #extrait le nom à partire du nom du fichier\r
+      #extrait le nom à partir du nom du fichier\r
       /^.*?([^\/]*?)\.(.{3,4})$/ =~ @fichier\r
       #remplace undescores et points par des espaces\r
       titre = $1.gsub(/[_\.]/, ' ')\r
-      #vire les espaces au début et à la fin\r
-      titre.strip!\r
       #remplace les suites d'espaces par un seul\r
       titre.gsub!(/ {2,}/,' ')\r
       titre.gsub!(/\[.*?\]/,'')\r
       titre.gsub!(/\(.*?\)/,'')\r
+      titre.gsub!(/\{.*?\}/,'')\r
+      #vire les espaces au début et à la fin\r
+      titre.strip!\r
+      \r
       @titre = titre.dup\r
       \r
       donneesHtml = nil\r
       begin\r
          reponse, donneesHtml = connexionHttp.get("/recherche/?motcle=#{CGI::escape(titre)}")\r
-         #si pas trouvé alors on enlève un mot à la fin\r
-         if /.*?Pas de résultats.*?/ =~ donneesHtml\r
+         \r
+         #convertit le code latin-1 en UTF8\r
+         donneesHtml = donneesHtml.unpack("C*").pack("U*")\r
+         \r
+         #si pas trouvé alors on enlève un mot à la fin\r
+         if /.*?Pas de résultats.*?/ =~ donneesHtml\r
             /(.*?)[^ ]+?$/ =~ titre.strip\r
             titre = $1\r
             titre.strip!\r
@@ -204,7 +219,13 @@ public
       unless titre.nil? or titre.empty?\r
          /<a href="\/film\/fichefilm_gen_cfilm=(\d+)\.html" class="link1">/ =~ donneesHtml\r
          if $1\r
-            r, ficheHtml = connexionHttp.get("/film/fichefilm_gen_cfilm=#{$1}.html")      \r
+            r, ficheHtml = connexionHttp.get("/film/fichefilm_gen_cfilm=#{$1}.html") \r
+            \r
+            #convertit le code latin-1 en UTF8\r
+            ficheHtml = ficheHtml.unpack("C*").pack("U*")\r
+\r
+            #url\r
+            @url = "http://www.allocine.fr/film/fichefilm_gen_cfilm=#{$1}.html"\r
             \r
             # Titre\r
             /<title>(.*?)<\/title>/ =~ ficheHtml\r
@@ -212,28 +233,31 @@ public
             \r
             puts "Movie found : #{@titre} (#{@fichier})"\r
             \r
-            # Année\r
-            /<h4>Année de production : (\d+)<\/h4>/ =~ ficheHtml\r
-            @annee = $1.to_i unless $1.nil?     \r
+            # Année\r
+            /<h4>Année de production : (\d+)<\/h4>/ =~ ficheHtml\r
+            @annee = $1.to_i unless $1.nil?\r
+            \r
+            # Réalisateurs\r
+            /<h4>Réalisé par(.*?)<\/h4>/ =~ ficheHtml\r
+            $1.scan(/<a class="link1" href=".*?">(.*?)<\/a>/m){|a|\r
+              @realisateurs << Personne::ajouter(a[0]) unless a[0].nil?\r
+            } unless $1.nil?\r
             \r
-            # Réalisateurs\r
-            /Réalisé par <a class="link1" href=".*?" target="">(.*?)<\/a>/ =~ ficheHtml\r
-            @realisateurs << Personne::ajouter($1) unless $1.nil?\r
-                        \r
             # Acteurs\r
-            /Avec(.*)/ =~ ficheHtml\r
-            $1.scan(/<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html" target="">(.+?)<\/a>/m){|a|\r
+            /<h4>Avec(.*?)<\/h4>/ =~ ficheHtml\r
+            $1.scan(/<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html">(.+?)<\/a>/m){|a|\r
                @acteurs << Personne::ajouter(a[0]) unless a[0].nil? \r
-            } unless $1.nil?     \r
+            } unless $1.nil? \r
+                      \r
                       \r
             # Pays\r
-            /^<h4>Film (.*?)\.<\/h4>/ =~ ficheHtml\r
+            /<h4>Film (.*?)\.&nbsp;<\/h4>/ =~ ficheHtml\r
             $1.split(',').each{|pays|\r
                @pays << Pays::ajouter(pays) unless pays.nil?\r
             } unless $1.nil? \r
             \r
             # Duree\r
-            /<h4>Durée : (\d+)h (\d+)min./ =~ ficheHtml\r
+            /<h4>Durée : (\d+)h (\d+)min./ =~ ficheHtml\r
             @duree = $1.nil? ? $2.to_i : $1.to_i * 60 + $2.to_i\r
             \r
             # Critiques presse et spectateur\r
@@ -242,7 +266,7 @@ public
             @critiqueSpectateur = $2.to_i unless $2.nil?\r
             \r
             # Genre\r
-            /Genre : (.*)/ =~ ficheHtml\r
+            /<h4>Genre : (.*?)<\/h4>/ =~ ficheHtml\r
             $1.scan(/<a href="\/film\/alaffiche_genre_gen_genre=.*?" class="link1">(.+?)<\/a>/m){|g|\r
                @genres << Genre::ajouter(g[0]) unless g[0].nil?\r
             } unless $1.nil?     \r
@@ -261,34 +285,49 @@ public
       self\r
    end\r
    \r
-   def getXml   \r
+   # Renvoie un film sous la forme d'un élément XML de type REXML\r
+   def getXml\r
       racine = REXML::Element::new('film')\r
       racine.add(REXML::Element::new('fichier').add_text(@fichier))\r
       racine.add(REXML::Element::new('titre').add_text(@titre))\r
       racine.add(REXML::Element::new('annee').add_text(@annee.to_s))\r
 \r
+      realisateurs = REXML::Element::new('realisateurs')      \r
       @realisateurs.each{|r|\r
-         racine.add(REXML::Element::new('realisateur').add_text(r.nom))\r
+         realisateurs.add(REXML::Element::new('realisateur').add_text(r.nom))\r
       }\r
+      racine.add(realisateurs)\r
    \r
+      acteurs = REXML::Element::new('acteurs')  \r
       @acteurs.each{|a|\r
-         racine.add(REXML::Element::new('acteur').add_text(a.nom))\r
+         acteurs.add(REXML::Element::new('acteur').add_text(a.nom))\r
       }\r
+      racine.add(acteurs)      \r
+      \r
+      lespays = REXML::Element::new('lespays')\r
       @pays.each{|p|\r
-         racine.add(REXML::Element::new('pays').add_text(p.nom))\r
+         lespays.add(REXML::Element::new('pays').add_text(p.nom))\r
       }      \r
+      racine.add(lespays) \r
+      \r
       racine.add(REXML::Element::new('duree').add_text(@duree.to_s))\r
 \r
       racine.add(REXML::Element::new('critiquePresse').add_text(@critiquePresse.to_s))\r
       racine.add(REXML::Element::new('critiqueSpectateur').add_text(@critiqueSpectateur.to_s))\r
+      \r
+      genres = REXML::Element::new('genres')\r
       @genres.each{|g|\r
-         racine.add(REXML::Element::new('genre').add_text(g.nom))\r
+         genres.add(REXML::Element::new('genre').add_text(g.nom))\r
       }      \r
+      racine.add(genres) \r
+      \r
       racine.add(REXML::Element::new('synopsis').add_text(@synopsis))\r
       budgetElement = REXML::Element::new('budget')\r
       budgetElement.add_text(@budget.to_s)\r
       budgetElement.add_attribute('unite', @budgetUnite)\r
       racine.add(budgetElement)\r
+      \r
+      racine.add(REXML::Element::new('url').add_text(@url))\r
 \r
       racine\r
    end\r