X-Git-Url: http://git.euphorik.ch/?a=blobdiff_plain;f=src%2Ffilm.rb;h=30a5bc8487ed283dbc31267a24c8e1cd0e2f4bad;hb=c967b07b58b4588996be0ebefa5a2d10e0663cf6;hp=b79584129237556386e5841c34548651734be1ba;hpb=f67e80719e42ae1e95511df44d65d493a3ead62f;p=pompage.git

diff --git a/src/film.rb b/src/film.rb
index b795841..30a5bc8 100644
--- a/src/film.rb
+++ b/src/film.rb
@@ -1,150 +1,33 @@
-require 'rexml/document'
+# ReprÃ©sente un Film.
+# Permet de charger des donnÃ©es depuis allocine.fr
+# Permet d'effectuer des recherches depuis allocine.fr
+# TODO : rendre la classe indÃ©pendant de la source de donnÃ©e pour pouvoir utiliser d'autres sites comme par exemple imdb.com
+
 require 'net/http'
-require 'thread'
-require 'thwait'
 require 'cgi'
 
 require 'pays.rb'
 require 'genre.rb'
 require 'personne.rb'
-
 require 'constantes.rb'
 
-class Film
-   attr_accessor :titre, :fichier, :annee, :realisateurs, :acteurs, :pays, :duree, :critiquePresse, :critiqueSpectateur, :genres, :synopsis, :budget
-      
-   # Les films indexés par leur titre
-   @@films = {}
-   
-   # Les films indexés par leur nom de fichier
-   @@filmsFichier = {}
-
-   @@mutex = Mutex::new
-   @@threadsWait = ThreadsWait::new
-   @@nbConn = 0
-
-
-   # Lit un repertoire de manière recursive
-   def Film::litRepertoire(r)
-      Film::litRepertoireR(r)
-      # on attends que les threads se terminent
-      @@threadsWait.all_waits
-   end
-   
-   # Charge les films contenus dans un fichier XML.
-   def Film::loadFilmsXml(xmlFile)
-      # si le fichier n'existe pas il n'y a rien à charger
-      if !File.exists?(xmlFile)
-         return
-      end
-            
-      racine = REXML::Document::new(File::new(xmlFile)).root
-      racine.each_element{|e|
-         fichier = e.get_elements('fichier')[0].get_text
-         next if fichier == nil
-         titre = e.get_elements('titre')[0].get_text
-         annee = e.get_elements('annee')[0].get_text
-         duree = e.get_elements('duree')[0].get_text
-         critiquePresse = e.get_elements('critiquePresse')[0].get_text
-         critiqueSpectateur = e.get_elements('critiqueSpectateur')[0].get_text
-         synopsis = e.get_elements('synopsis')[0].get_text
-         budget = e.get_elements('budget')[0].get_text  
-         realisateurs = e.get_elements('realisateur')
-         acteurs = e.get_elements('acteur')
-         pays = e.get_elements('pays')
-         genres = e.get_elements('genres')
-         
-      
-         film = Film::new(fichier.value)
-         film.titre = titre.value unless titre.nil?
-         film.annee = annee.value unless annee.nil?
-         realisateurs.each{|e|
-            film.realisateurs << Personne::ajouter(e.get_text.value)
-         }        
-         acteurs.each{|e|
-            film.acteurs << Personne::ajouter(e.get_text.value)
-         }
-         pays.each{|e|
-            film.pays << Pays::ajouter(e.get_text.value)
-         }
-         film.duree = duree.value unless duree.nil?
-         film.critiquePresse = critiquePresse.value unless critiquePresse.nil?
-         film.critiqueSpectateur = critiqueSpectateur.value unless critiqueSpectateur.nil?
-         genres.each{|e|
-            film.genres << Genre::ajouter(e.get_text.value)
-         }
-         film.synopsis = synopsis.value unless synopsis.nil?
-         film.budget = budget.value unless budget.nil?
-         @@films[film.titre] = film
-         @@filmsFichier[film.fichier] = film
-      }   
+class String
+   def virerBalisesHTML
+      return gsub(/<(.*?)>/, '')
    end
-
-   # Renvoie tous les films sous la forme d'un élement XML.
-   def Film::getFilmsXml
-      racine = REXML::Element::new('filmographie')
-      @@films.each{|nom, f|
-         racine.add(f.getXml)
-      }
-      return REXML::Document::new.add(racine)
+   def virerBalisesHTML!
+      gsub!(/<(.*?)>/, '')
    end
-   
-private
+end
 
-   def Film::filmsFactory(fichier)
-      /^.*?\.(.{3,4})$/ =~ fichier
-      if FILMS_EXTENSIONS.include?($1)
-         Film::new(fichier).loadData
-      end
-    end
-    
-   def Film::litRepertoireR(r)
-      Dir::foreach(r){|f|
-         next if f == '.' or f == '..'
-         fichier = r + "/" + f
-         if File::directory?(fichier)
-            litRepertoireR(fichier) 
-         else
-         
-            #si le film n'existe pas déjà dans la liste
-            if film = @@filmsFichier[fichier]
-               puts "[i] Already exists in DB : #{film.titre} (#{film.fichier})"
-               next
-            end
-            
-            film = nil   
-            @@nbConn += 1    
-            @@threadsWait.join_nowait(
-               Thread::new{    
-                  begin
-                     @@mutex.lock if @@nbConn >= NB_CONN_MAX                     
-                     #p @@nbConn     
-                     film = Film::filmsFactory(fichier)
-                     unless film.nil?
-                        if @@films.has_key?(film.titre)
-                           puts "[!] Duplicate movie : #{film.titre} (#{film.fichier})"
-                        else
-                           puts "[i] movie added : #{film.titre} (#{film.fichier})"
-                           @@films[film.titre] = film
-                           @@filmsFichier[film.fichier] = film
-                        end
-                     end
-                     @@nbConn -= 1
-                     #p @@nbConn
-                     @@mutex.unlock
-                  rescue  Exception => e
-                     puts e.message
-                     puts e.backtrace
-                  end
-               }
-            )
-         end
-      }
-    end
+class Film
+   attr_accessor :id, :titre, :fichiers, :annee, :realisateurs, :acteurs, :pays, :duree, :critiquePresse, :critiqueSpectateur, :genres, :synopsis, :budget
 
-   
+   # Constructeur. N'entreprend aucune action (chargement), crÃ©e juste un film vide.
    def initialize(fichier)
-      @fichier = fichier
+      @fichiers = [fichier]
+           
+      @id = 0
       @titre = ''
       @annee = nil
       @realisateurs = []
@@ -157,35 +40,104 @@ private
       @synopsis = nil
       @budget = nil      
       @budgetUnite = 'euro'
+      @url
+      
+      @aPlusieursReponses = false
+      # mÃ©morise les tuples {nom => id} dans le cas ou il y a plusieurs rÃ©ponses
+      @idsAllocine = {}
    end
 
-public 
-   #charge les informations du films à partir d'allocine.fr
+   # Est-ce qu'il y a eu plusieurs rÃ©ponses pour ce film lors de la cherche sur le net ?
+   def plusieursReponses?
+      return @aPlusieursReponses
+   end 
+   
+   # Demande Ã  l'utilisateur de faire un choix
+   # ret : true si le conflit Ã  Ã©tÃ© rÃ©solu sinon false
+   def reglerConflitPlusieursReponses
+      
+      @aPlusieursReponses = false # pour faire les choses bien
+      
+      puts " -> " + @fichiers[0]
+      puts "Fais ton choix jeune padawan (un caractÃ¨re et pas plus)"
+      tabNoms = @idsAllocine.keys
+      choix = 1
+      loop do 
+         i = 1
+         tabNoms.each{|n|
+           puts "#{i}. #{n}"
+           i += 1
+         }
+         puts "A. Passer et l'ajouter"
+         puts "B. Ignorer"
+         choix = STDIN.gets
+         
+         if /A/i =~ choix
+            return true
+         elsif /B/i =~ choix
+            return false
+         end
+         
+         choix = choix.to_i
+         if choix > 0 && choix <= tabNoms.length
+            break;
+         else
+            puts
+            puts "Choix pas bon !!"
+         end
+      end
+      
+      loadDepuisIdAllocine(@idsAllocine[tabNoms[choix-1]])
+      
+      return true
+   end
+   
+   # Ajoute un fichier comme faisant partie du film
+   def addFichier(fichier)
+      if !@fichiers.include?(fichier)
+         @fichiers << fichier
+      end
+   end
+
+   # Charge les informations du films Ã  partir d'allocine.fr
+   # ret [Film]
    def loadData
       unless LOAD_DATA
-         @titre = @fichier
+         @titre = @fichiers[0]
          return self
       end
 
-      connexionHttp = Net::HTTP::new('www.allocine.fr');
+      connexionHttp = Net::HTTP::new('www.allocine.fr')
    
-      #extrait le nom à partire du nom du fichier
-      /^.*?([^\/]*?)\.(.{3,4})$/ =~ @fichier
+      #extrait le nom Ã  partir du nom du fichier
+      /^.*?([^\/]*?)\.(.{3,4})$/ =~ @fichiers[0]
       #remplace undescores et points par des espaces
       titre = $1.gsub(/[_\.]/, ' ')
-      #vire les espaces au début et à la fin
-      titre.strip!
       #remplace les suites d'espaces par un seul
       titre.gsub!(/ {2,}/,' ')
       titre.gsub!(/\[.*?\]/,'')
       titre.gsub!(/\(.*?\)/,'')
+      titre.gsub!(/\{.*?\}/,'')
+      #vire les espaces au dÃ©but et Ã  la fin
+      titre.strip!
+      
       @titre = titre.dup
       
       donneesHtml = nil
       begin
-         reponse, donneesHtml = connexionHttp.get("/recherche/?motcle=#{CGI::escape(titre)}")
-         #si pas trouvé alors on enlève un mot à la fin
-         if /.*?Pas de résultats.*?/ =~ donneesHtml
+         begin
+            reponse, donneesHtml = connexionHttp.get("/recherche/?motcle=#{CGI::escape(titre.unpack("U*").pack("C*"))}")
+         rescue Exception => e
+            p e
+            puts "[!] Connexion lost, retry.."
+            retry
+         end
+         
+         #convertit le code latin-1 en UTF8
+         donneesHtml = donneesHtml.unpack("C*").pack("U*")
+         
+         #si pas trouvÃ© alors on enlÃ¨ve un mot Ã  la fin
+         if /.*?Pas de rÃ©sultats.*?/ =~ donneesHtml || ! donneesHtml.include?("<h3><b>Films <h4>")
             /(.*?)[^ ]+?$/ =~ titre.strip
             titre = $1
             titre.strip!
@@ -195,98 +147,159 @@ public
       end while not titre.nil? and not titre.empty?
       
       unless titre.nil? or titre.empty?
-         /<a href="\/film\/fichefilm_gen_cfilm=(\d+)\.html" class="link1">/ =~ donneesHtml
-         if $1
-            r, ficheHtml = connexionHttp.get("/film/fichefilm_gen_cfilm=#{$1}.html")      
-            
-            # Titre
-            /<title>(.*?)<\/title>/ =~ ficheHtml
-            @titre = $1 unless $1.nil?
-            
-            #puts "Movie found : #{@titre} (#{@fichier})"
-            
-            # Année
-            /<h4>Année de production : (\d+)<\/h4>/ =~ ficheHtml
-            @annee = $1.to_i unless $1.nil?     
-            
-            # Réalisateurs
-            /Réalisé par <a class="link1" href=".*?" target="">(.*?)<\/a>/ =~ ficheHtml
-            @realisateurs << Personne::ajouter($1) unless $1.nil?
-                        
-            # Acteurs
-            /Avec(.*)/ =~ ficheHtml
-            $1.scan(/<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html" target="">(.+?)<\/a>/m){|a|
-               @acteurs << Personne::ajouter(a[0]) unless a[0].nil? 
-            } unless $1.nil?     
-                      
-            # Pays
-            /^<h4>Film (.*?)\.<\/h4>/ =~ ficheHtml
-            $1.split(',').each{|pays|
-               @pays << Pays::ajouter(pays) unless pays.nil?
-            } unless $1.nil? 
-            
-            # Duree
-            /<h4>Durée : (\d+?)h (\d+?)min.<\/h4>/ =~ ficheHtml
-            @duree = $1.nil? ? $2.to_i : $1.to_i * 60 + $2.to_i
             
-            # Critique presse
-            /Presse<\/a> <img src=".*?etoile_(\d)\.gif"/ =~ ficheHtml
-            @critiquePresse = $1.to_i unless $1.nil?
-                                    
-            # Critique spectateur
-            /Spectateurs<\/a> <img src=".*?etoile_(\d)\.gif"/ =~ ficheHtml
-            @critiqueSpectateur = $1.to_i unless $1.nil?
-            
-            # Genre
-            /Genre : (.*)/ =~ ficheHtml
-            $1.scan(/<a href="\/film\/alaffiche_genre_gen_genre=.*?" class="link1">(.+?)<\/a>/m){|g|
-               @genres << Genre::ajouter(g[0]) unless g[0].nil?
-            } unless $1.nil?     
-            
-            # Synopsis            
-            /Synopsis.*?<h4>(.+?)<\/h4>/m =~ ficheHtml
-            @synopsis = $1 unless $1.nil?
-            
-            # Budget       
-            /Budget<\/b> : (.+?) millions d'euros<\/h4>/ =~ ficheHtml
-            @budget = $1.to_i unless $1.nil?
-         else         
+         r = donneesHtml.scan(/<a href="\/film\/fichefilm_gen_cfilm=(\d+)\.html" class="link1">(.*?)<\/a>(?:<\/h4><h5 style="color: #666666">&nbsp;(.*?)<\/h5>){0,1}(?:<h4><br \/><\/h4>){0,1}(?:<h4 style="color: #666666"> de (.*?)<\/h4>){0,1}(?:<h4 style="color: #666666">&nbsp;avec (.*?)<\/h4>){0,1}(?:<h4 style="color: #666666">&nbsp;\((.*?)\)<\/h4>){0,1}/)
+         
+         if r.length > 1
+            @aPlusieursReponses = true
+            r.each{|f|
+               @idsAllocine[f[1].virerBalisesHTML + (f[2] != nil ? " " + f[2].virerBalisesHTML : "") + (f[3] != nil ? " de " + f[3].virerBalisesHTML : "") + (f[4] != nil ? " avec " + f[4].virerBalisesHTML : "") + (f[5] != nil ? " (" + f[5].virerBalisesHTML + ")" : "")] = f[0]
+            }
+         elsif r.length == 1
+            loadDepuisIdAllocine(r[0][0], connexionHttp) 
+         else
             puts "[!] Movie not found : #{@titre} (#{@fichier})"
          end
       end
       self
    end
    
-   def getXml   
+   # Renvoie un film sous la forme d'un Ã©lÃ©ment XML de type REXML::Element.
+   def getXml
+      
       racine = REXML::Element::new('film')
-      racine.add(REXML::Element::new('fichier').add_text(@fichier))
+      racine.add_attribute('id', @id.to_s)
+      
+      fichiers = REXML::Element::new('fichiers')
+      @fichiers.each{|f|
+         fichiers.add(REXML::Element::new('fichier').add_text(f))  
+      }
+      racine.add(fichiers)      
+      
       racine.add(REXML::Element::new('titre').add_text(@titre))
-      racine.add(REXML::Element::new('annee').add_text(@annee.to_s))
+      racine.add(REXML::Element::new('annee').add_text(@annee))
 
+      realisateurs = REXML::Element::new('realisateurs')      
       @realisateurs.each{|r|
-         racine.add(REXML::Element::new('realisateur').add_text(r.nom))
+         realisateurs.add(REXML::Element::new('realisateur').add_text(r.nom))
       }
+      racine.add(realisateurs)
    
+      acteurs = REXML::Element::new('acteurs')  
       @acteurs.each{|a|
-         racine.add(REXML::Element::new('acteur').add_text(a.nom))
+         acteurs.add(REXML::Element::new('acteur').add_text(a.nom))
       }
+      racine.add(acteurs)      
+      
+      lespays = REXML::Element::new('lespays')
       @pays.each{|p|
-         racine.add(REXML::Element::new('pays').add_text(p.nom))
+         lespays.add(REXML::Element::new('pays').add_text(p.nom))
       }      
+      racine.add(lespays) 
+      
       racine.add(REXML::Element::new('duree').add_text(@duree.to_s))
 
-      racine.add(REXML::Element::new('critiquePresse').add_text(@critiquePresse.to_s))
-      racine.add(REXML::Element::new('critiqueSpectateur').add_text(@critiqueSpectateur.to_s))
+      racine.add(REXML::Element::new('critiquePresse').add_text(@critiquePresse))
+      racine.add(REXML::Element::new('critiqueSpectateur').add_text(@critiqueSpectateur))
+      
+      genres = REXML::Element::new('genres')
       @genres.each{|g|
-         racine.add(REXML::Element::new('genre').add_text(g.nom))
+         genres.add(REXML::Element::new('genre').add_text(g.nom))
       }      
-      racine.add(REXML::Element::new('synopsis').add_text(@synopsis))
+      racine.add(genres) 
+      
+      synopsisElement = REXML::Element::new('synopsis')
+      unless @synopsis.nil?
+         @synopsis.split("\n").each{|s|
+            next if s =~ /^\s*$/
+            synopsisElement.add(REXML::Element::new('p').add_text(s))
+         }
+      end         
+      racine.add(synopsisElement)
+      
       budgetElement = REXML::Element::new('budget')
-      budgetElement.add_text(@budget.to_s)
+      budgetElement.add_text(@budget)
       budgetElement.add_attribute('unite', @budgetUnite)
       racine.add(budgetElement)
+      
+      racine.add(REXML::Element::new('url').add_text(@url))
 
       racine
    end
+   
+private
+   def loadDepuisIdAllocine(id, connexionHttp = nil)
+      if (connexionHttp == nil)
+         connexionHttp = Net::HTTP::new('www.allocine.fr')
+      end
+         
+      r, ficheHtml = connexionHttp.get("/film/fichefilm_gen_cfilm=#{id}.html") 
+      
+      #convertit le code latin-1 en UTF8
+      ficheHtml = ficheHtml.unpack("C*").pack("U*")
+
+      #url
+      @url = "http://www.allocine.fr/film/fichefilm_gen_cfilm=#{id}.html"
+      
+      # Titre
+      /<title>(.*?)<\/title>/ =~ ficheHtml
+      @titre = $1 unless $1.nil?
+      
+      puts "Movie found : #{@titre} (#{@fichiers[0]})"
+      
+      # AnnÃ©e
+      /<h4>AnnÃ©e de production : (\d+)<\/h4>/ =~ ficheHtml
+      @annee = $1 unless $1.nil?
+      
+      # RÃ©alisateurs
+      /<h4>RÃ©alisÃ© par(.*?)<\/h4>/ =~ ficheHtml
+      $1.scan(/\s*<a class="link1" href=".*?">(.*?)<\/a>\s*/m){|a|
+        @realisateurs << Personne::ajouter(a[0]) unless a[0].nil?
+      } unless $1.nil?
+      
+      # Acteurs
+      /<h4>Avec(.*?)<\/h4>/ =~ ficheHtml
+      $1.scan(/\s*<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html">(.+?)<\/a>\s*/m){|a|
+         @acteurs << Personne::ajouter(a[0]) unless a[0].nil? 
+      } unless $1.nil? 
+                
+      # Pays
+      /<h4>Film (.*?)\.&nbsp;<\/h4>/ =~ ficheHtml
+      $1.split(',').each{|pays|
+         @pays << Pays::ajouter(pays) unless pays.nil?
+      } unless $1.nil? 
+      
+      # Duree (capture des heures et des minutes sÃ©parement vue que c'est le bordel sur allocine
+      /<h4>DurÃ©e :(?:.*?)(\d+)h/ =~ ficheHtml
+      heure = $1.nil? ? 0 : $1.to_i
+      
+      /<h4>DurÃ©e :(?:.*?)(\d+)min/ =~ ficheHtml
+      min = $1.nil? ? 0 : $1.to_i
+         
+      @duree = heure * 60 + min
+      
+      # Critiques presse et spectateur
+      /Presse.*etoile_([012345]).*Spectateurs.*etoile_([012345])"/m =~ ficheHtml
+      @critiquePresse = $1 unless $1.nil?
+      @critiqueSpectateur = $2 unless $2.nil?
+      
+      # Genre
+      /<h4>Genre : (.*?)<\/h4>/ =~ ficheHtml
+      $1.scan(/<a href="\/film\/alaffiche_genre_gen_genre=.*?" class="link1">(.+?)<\/a>/m){|g|
+         @genres << Genre::ajouter(g[0]) unless g[0].nil?
+      } unless $1.nil?     
+      
+      # Synopsis            
+      /Synopsis.*?<h4>(.*?)<\/h4>/m =~ ficheHtml
+      unless $1.nil?
+         @synopsis = $1
+         @synopsis.gsub!(/<br\s*\/>|<br\s*>/, "\n")
+         @synopsis.virerBalisesHTML!
+      end
+      
+      # Budget       
+      /Budget<\/b> : (.+?) millions d'euros<\/h4>/ =~ ficheHtml
+      @budget = $1 unless $1.nil?
+   end     
 end
   
\ No newline at end of file