ADD mise à jour de la liste des films
[pompage.git] / src / modules / allocine.rb
index 1a28000..3883c3b 100644 (file)
-# coding: utf-8\r
-\r
-require 'net/http'\r
-require 'uri'\r
-require 'cgi'\r
-require 'thread'\r
-require 'iconv'\r
-\r
-require "basemodule.rb"\r
-\r
-# doc : http://www.ruby-doc.org/stdlib/libdoc/net/http/rdoc/index.html\r
-Net::HTTP.version_1_2\r
-\r
-# hack : http://arosien.blogspot.com/2007/06/increasing-rubys-netbufferedio-buffer.html\r
-module Net\r
-   class BufferedIO\r
-      def rbuf_fill\r
-         timeout(@read_timeout) { @rbuf << @io.sysread(32768) }\r
-      end\r
-   end\r
-end\r
-\r
-# Un module d'importation pour le site "www.allocine.fr".\r
-class Allocine  < Basemodule\r
-   \r
-   def createConnexion\r
-      begin\r
-         @connexion = Net::HTTP::new('www.allocine.fr').start if @connexion == nil || !@connexion.started?\r
-      rescue \r
-         Puts "[!] Impossible de se connecter à Allocine. Retry.."\r
-         retry\r
-      end\r
-   end\r
-   \r
-   def fermerConnexion      \r
-      @connexion.finish if defined? @connexion && @connexion.started?    # on admet qu'après un load on a plus besoin de la connexion\r
-      @connexion = nil\r
-   end\r
-   \r
-   # Voir le parent.\r
-   def rechercherFilm(titre)\r
-      createConnexion\r
-      \r
-      begin\r
-         reponse = nil\r
-         begin\r
-            reponse = @connexion.get("/recherche/?rub=1&motcle=#{CGI::escape(Iconv.iconv("ISO-8859-1", "UTF-8", titre)[0])}")\r
-         rescue Exception => e\r
-            p e\r
-            puts "[!] Erreur lors de la recherche du titre #{titre}, retry.."\r
-            fermerConnexion\r
-            createConnexion\r
-            retry\r
-         end\r
-      \r
-         # convertit le code latin-1 en UTF8\r
-         html = Iconv.iconv("UTF-8", "ISO-8859-1", reponse.body)[0]\r
-         \r
-         # si pas trouvé alors on enlève un mot à la fin\r
-         if /.*?Pas de résultats.*?/ =~ html || ! html.include?("<h3><b>Films <h4>")\r
-            /(.*?)[^ ]+?$/ =~ titre.strip\r
-            titre = $1\r
-            titre.strip!\r
-         else\r
-            break;\r
-         end\r
-      end while not titre.nil? and not titre.empty?\r
-      \r
-      reponses = {}\r
-      unless titre.nil? or titre.empty?\r
-         r = html.scan(/<h4><a href="\/film\/fichefilm_gen_cfilm=(\d+)\.html".*?>(.*?)<\/a><\/h4>(?:<h5><a .*?>&nbsp;(.*?)<\/a><\/h5>)?(?:<div.*?><h4.*?>(\d*?){4}<\/h4><\/div>)?(?:<div.*?><h5.*?>de (.*?)<\/h5><\/div>)?(?:<div.*?><h5.*?>avec (.*?)<\/h5><\/div>)?/)\r
+# coding: utf-8
+
+require 'net/http'
+require 'uri'
+require 'cgi'
+require 'thread'
+require 'iconv'
+
+require "basemodule.rb"
+
+# doc : http://www.ruby-doc.org/stdlib/libdoc/net/http/rdoc/index.html
+Net::HTTP.version_1_2
+
+# hack : http://arosien.blogspot.com/2007/06/increasing-rubys-netbufferedio-buffer.html
+module Net
+   class BufferedIO
+      def rbuf_fill
+         timeout(@read_timeout) { @rbuf << @io.sysread(32768) }
+      end
+   end
+end
+
+# Un module d'importation pour le site "www.allocine.fr".
+class Allocine  < Basemodule
+   
+   def createConnexion
+      begin
+         @connexion = Net::HTTP::new('www.allocine.fr').start if @connexion == nil || !@connexion.started?
+      rescue 
+         Puts "[!] Impossible de se connecter à Allocine. Retry.."
+         retry
+      end
+   end
+   
+   def fermerConnexion      
+      @connexion.finish if defined? @connexion && @connexion.started?    # on admet qu'après un load on a plus besoin de la connexion
+      @connexion = nil
+   end
+   
+   # Voir le parent.
+   def rechercherFilm(titre)
+      createConnexion
+      
+      begin
+         reponse = nil
+         begin
+            reponse = @connexion.get("/recherche/?rub=1&motcle=#{CGI::escape(Iconv.iconv("ISO-8859-1", "UTF-8", titre)[0])}")
+            #reponse = @connexion.get("/recherche/?rub=1&motcle=#{CGI::escape(titre)}")
+         rescue Exception => e
+            p e
+            puts "[!] Erreur lors de la recherche du titre #{titre}, retry.."
+            fermerConnexion
+            createConnexion
+            retry
+         end
+      
+         # convertit le code latin-1 en UTF8
+         html = Iconv.iconv("UTF-8", "ISO-8859-1", reponse.body)[0]
+         
+         # si pas trouvé alors on enlève un mot à la fin
+         if /.*?Pas de résultats.*?/ =~ html || ! html.include?("<h3><b>Films <h4>")
+            /(.*?)[^ ]+?$/ =~ titre.strip
+            titre = $1
+            titre.strip!
+         else
+            break;
+         end
+      end while not titre.nil? and not titre.empty?
+      
+      reponses = {}
+      unless titre.nil? or titre.empty?
+         r = html.scan(/<h4><a href="\/film\/fichefilm_gen_cfilm=(\d+)\.html".*?>(.*?)<\/a><\/h4>(?:<h5><a .*?>&nbsp;(.*?)<\/a><\/h5>)?(?:<div.*?><h4.*?>(\d*?){4}<\/h4><\/div>)?(?:<div.*?><h5.*?>de (.*?)<\/h5><\/div>)?(?:<div.*?><h5.*?>avec (.*?)<\/h5><\/div>)?/)
          # f[0] : l'id allocine du film
          # f[1] : nom
          # f[2] : nom original
          # f[3] : année
          # f[4] : réalisateur
-         # f[5] : acteurs\r
-         r.each{|f|\r
-            reponses[f[1].virerBalisesHTML + (f[2] != nil ? " " + f[2].virerBalisesHTML : "") + (f[4] != nil ? " de " + f[4].virerBalisesHTML : "") + (f[5] != nil ? " avec " + f[5].virerBalisesHTML : "") + (f[3] != nil ? " (" + f[3].virerBalisesHTML + ")" : "")] = f[0]\r
-         }\r
-      end\r
-      reponses\r
-   end\r
-   \r
-   # Voir le parent.\r
-   def load(id, film)   \r
-      loadPath("/film/fichefilm_gen_cfilm=#{id}.html", film)\r
-   end\r
-   \r
-   # Voir le parent.\r
-   def loadURL(url, film)\r
-      loadPath(URI.parse(url).path, film)\r
-   end\r
-   \r
-   def loadPath(path, film)\r
-      createConnexion\r
-\r
-      html = nil\r
-      begin\r
-         html = @connexion.get(path).body \r
-      rescue Exception => e\r
-         p e\r
-         puts "[!] Erreur lors du chargement de #{film.fichiers[0]}, retry.."\r
-         fermerConnexion\r
-         createConnexion\r
-         retry\r
-      end\r
-      \r
-      puts "Pompage de #{film.titre} (#{film.fichiers[0]}) ..."\r
-      \r
-      # convertit le code latin-1 en UTF8      \r
-      html = Iconv.iconv("UTF-8", "ISO-8859-1", html)[0]\r
-            \r
-      # pompage de l'image dans un thread séparé\r
-      if take?("image") && ($force || !film.possedeImage?)\r
-         /<img src="(.*?)" border="0" alt="" class="affichette" \/>/ =~ html\r
-         unless $1.nil?\r
-            @threadImage = Thread::start($1){|imageUrl|\r
-               nbRetry = 0\r
-               begin\r
-                  imageUrlParsed = URI.parse(imageUrl)               \r
-                  connexionImage = Net::HTTP::new(imageUrlParsed.host).start\r
-                  film.setImage(connexionImage.get(imageUrlParsed.path).body)\r
-                  connexionImage.finish\r
-               rescue Exception => e\r
-                  puts e.message\r
-                  puts e.backtrace    \r
-                  puts "[!] Erreur lors du chargement de l'image '#{imageUrl}', retry.."        \r
-                  retry if (nbRetry += 1) < 5               \r
-               end\r
-            }\r
-         end\r
-      end\r
-\r
-      if take?("url") && ($force || film.url == nil)\r
-         #url\r
-         film.url = "http://www.allocine.fr" + path\r
-      end\r
-      \r
-      if take?("titre")\r
-         # Titre\r
-         /<title>(.*?)<\/title>/ =~ html\r
-         film.titre = $1\r
-      end\r
-      \r
-      if take?("annee") && ($force || film.annee == nil)      \r
-         # Année\r
-         /<h4>Année de production : (\d+)<\/h4>/ =~ html\r
-         film.annee = $1 unless $1.nil?\r
-      end\r
-      \r
-      if take?("realisateurs") && ($force || film.realisateurs.empty?)  \r
-         # Réalisateurs\r
-         film.realisateurs.clear\r
-         /<h4>Réalisé par(.*?)<\/h4>/ =~ html\r
-         $1.scan(/\s*<a class="link1" href=".*?">(.*?)<\/a>\s*/m){|a|\r
-            film.realisateurs << Personne::ajouter(a[0]) unless a[0].nil?\r
-         } unless $1.nil?\r
-      end\r
-      \r
-      if take?("acteurs") && ($force || film.acteurs.empty?)  \r
-         # Acteurs\r
-         film.acteurs.clear\r
-         /<h4>Avec(.*?)<\/h4>/ =~ html\r
-         $1.scan(/\s*<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html">(.+?)<\/a>\s*/m){|a|\r
-            film.acteurs << Personne::ajouter(a[0]) unless a[0].nil? \r
-         } unless $1.nil? \r
-      end\r
-           \r
-      if take?("pays") && ($force || film.pays.empty?)  \r
-         # Pays\r
-         film.pays.clear\r
-         /<h4>Film (.*?)\.&nbsp;<\/h4>/ =~ html\r
-         $1.split(',').each{|pays|\r
-            film.pays << Pays::ajouter(pays.strip) unless pays.nil?\r
-         } unless $1.nil? \r
-      end\r
-      \r
-      if take?("duree") && ($force || film.duree == nil)  \r
-         # Duree (capture des heures et des minutes séparement vue que c'est le bordel sur allocine\r
-         /<h4>Durée :(?:.*?)(\d+)h/ =~ html\r
-         heure = $1.nil? ? 0 : $1.to_i      \r
-         /<h4>Durée :(?:.*?)(\d+)min/ =~ html\r
-         min = $1.nil? ? 0 : $1.to_i         \r
-         film.duree = heure * 60 + min\r
-      end\r
-      \r
-      if take?("critiquenote") && ($force || film.critiquePresse == nil || film.critiqueSpectateur == nil)  \r
-         # Critiques presse et spectateur\r
-         /Presse.*etoile_([012345]).*Spectateurs.*etoile_([012345])"/m =~ html\r
-         film.critiquePresse = $1 unless $1.nil?\r
-         film.critiqueSpectateur = $2 unless $2.nil?\r
-      end\r
-      \r
-      if take?("genres") && ($force || film.genres.empty?)  \r
-         # Genre\r
-         film.genres.clear\r
-         /<h4>Genre : (.*?)<\/h4>/ =~ html\r
-         $1.scan(/<a href="\/film\/alaffiche_genre_gen_genre=.*?" class="link1">(.+?)<\/a>/m){|g|\r
-            film.genres << Genre::ajouter(g[0]) unless g[0].nil?\r
-         } unless $1.nil?     \r
-      end\r
-      \r
-      if take?("synopsis") && ($force || film.synopsis == nil)  \r
-         # Synopsis            \r
-         /Synopsis.*?<h4>(.*?)<\/h4>/m =~ html\r
-         unless $1.nil?\r
-            film.synopsis = $1\r
-            film.synopsis.gsub!(/<br\s*\/>|<br\s*>/, "\n")\r
-            film.synopsis.virerBalisesHTML!\r
-         end\r
-      end\r
-      \r
-      if take?("budget") && ($force || film.budget == nil)  \r
-         # Budget       \r
-         /Budget<\/b> : (.+?) millions d'euros<\/h4>/ =~ html\r
-         film.budget = $1 unless $1.nil?\r
-      end\r
-      \r
-      fermerConnexion\r
-   end\r
-   \r
-   def finish\r
-      # on attend que tous les threads de pompage d'image aient terminé\r
-      @threadImage.join if defined? @threadImage\r
-   end\r
-end
\ No newline at end of file
+         # f[5] : acteurs
+         r.each{|f|
+            reponses[f[1].virerBalisesHTML + (f[2] != nil ? " " + f[2].virerBalisesHTML : "") + (f[4] != nil ? " de " + f[4].virerBalisesHTML : "") + (f[5] != nil ? " avec " + f[5].virerBalisesHTML : "") + (f[3] != nil ? " (" + f[3].virerBalisesHTML + ")" : "")] = f[0]
+         }
+      end
+      reponses
+   end
+   
+   # Voir le parent.
+   def load(id, film)   
+      loadPath("/film/fichefilm_gen_cfilm=#{id}.html", film)
+   end
+   
+   # Voir le parent.
+   def loadURL(url, film)
+      loadPath(URI.parse(url).path, film)
+   end
+   
+   def loadPath(path, film)
+      createConnexion
+
+      html = nil
+      begin
+         html = @connexion.get(path).body 
+      rescue Exception => e
+         p e
+         puts "[!] Erreur lors du chargement de #{film.fichiers[0]}, retry.."
+         fermerConnexion
+         createConnexion
+         retry
+      end
+      
+      puts "Pompage de #{film.titre} (#{film.fichiers[0]}) ..."
+      
+      # convertit le code latin-1 en UTF8      
+      html = Iconv.iconv("UTF-8", "ISO-8859-1", html)[0]
+            
+      # pompage de l'image dans un thread séparé
+      if take?("image") && ($force || !film.possedeImage?)
+         /<img src="(.*?)" border="0" alt="" class="affichette" \/>/ =~ html
+         unless $1.nil?
+            @threadImage = Thread::start($1){|imageUrl|
+               nbRetry = 0
+               begin
+                  imageUrlParsed = URI.parse(imageUrl)               
+                  connexionImage = Net::HTTP::new(imageUrlParsed.host).start
+                  film.setImage(connexionImage.get(imageUrlParsed.path).body)
+                  connexionImage.finish
+               rescue Exception => e
+                  puts e.message
+                  puts e.backtrace    
+                  puts "[!] Erreur lors du chargement de l'image '#{imageUrl}', retry.."        
+                  retry if (nbRetry += 1) < 5               
+               end
+            }
+         end
+      end
+
+      if take?("url") && ($force || film.url == nil)
+         #url
+         film.url = "http://www.allocine.fr" + path
+      end
+      
+      if take?("titre")
+         # Titre
+         /<title>(.*?)<\/title>/ =~ html
+         film.titre = $1
+      end
+      
+      if take?("annee") && ($force || film.annee == nil)      
+         # Année
+         /<h4>Année de production : (\d+)<\/h4>/ =~ html
+         film.annee = $1 unless $1.nil?
+      end
+      
+      if take?("realisateurs") && ($force || film.realisateurs.empty?)  
+         # Réalisateurs
+         film.realisateurs.clear
+         /<h4>Réalisé par(.*?)<\/h4>/ =~ html
+         $1.scan(/\s*<a class="link1" href=".*?">(.*?)<\/a>\s*/m){|a|
+            film.realisateurs << Personne::ajouter(a[0]) unless a[0].nil?
+         } unless $1.nil?
+      end
+      
+      if take?("acteurs") && ($force || film.acteurs.empty?)  
+         # Acteurs
+         film.acteurs.clear
+         /<h4>Avec(.*?)<\/h4>/ =~ html
+         $1.scan(/\s*<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html">(.+?)<\/a>\s*/m){|a|
+            film.acteurs << Personne::ajouter(a[0]) unless a[0].nil? 
+         } unless $1.nil? 
+      end
+           
+      if take?("pays") && ($force || film.pays.empty?)  
+         # Pays
+         film.pays.clear
+         /<h4>Film (.*?)\.&nbsp;<\/h4>/ =~ html
+         $1.split(',').each{|pays|
+            film.pays << Pays::ajouter(pays.strip) unless pays.nil?
+         } unless $1.nil? 
+      end
+      
+      if take?("duree") && ($force || film.duree == nil)  
+         # Duree (capture des heures et des minutes séparement vue que c'est le bordel sur allocine
+         /<h4>Durée :(?:.*?)(\d+)h/ =~ html
+         heure = $1.nil? ? 0 : $1.to_i      
+         /<h4>Durée :(?:.*?)(\d+)min/ =~ html
+         min = $1.nil? ? 0 : $1.to_i         
+         film.duree = heure * 60 + min
+      end
+      
+      if take?("critiquenote") && ($force || film.critiquePresse == nil || film.critiqueSpectateur == nil)  
+         # Critiques presse et spectateur
+         /Presse.*etoile_([012345]).*Spectateurs.*etoile_([012345])"/m =~ html
+         film.critiquePresse = $1 unless $1.nil?
+         film.critiqueSpectateur = $2 unless $2.nil?
+      end
+      
+      if take?("genres") && ($force || film.genres.empty?)  
+         # Genre
+         film.genres.clear
+         /<h4>Genre : (.*?)<\/h4>/ =~ html
+         $1.scan(/<a href="\/film\/alaffiche_genre_gen_genre=.*?" class="link1">(.+?)<\/a>/m){|g|
+            film.genres << Genre::ajouter(g[0]) unless g[0].nil?
+         } unless $1.nil?     
+      end
+      
+      if take?("synopsis") && ($force || film.synopsis == nil)  
+         # Synopsis            
+         /Synopsis.*?<h4>(.*?)<\/h4>/m =~ html
+         unless $1.nil?
+            film.synopsis = $1
+            film.synopsis.gsub!(/<br\s*\/>|<br\s*>/, "\n")
+            film.synopsis.virerBalisesHTML!
+         end
+      end
+      
+      if take?("budget") && ($force || film.budget == nil)  
+         # Budget       
+         /Budget<\/b> : (.+?) millions d'euros<\/h4>/ =~ html
+         film.budget = $1 unless $1.nil?
+      end
+      
+      fermerConnexion
+   end
+   
+   def finish
+      # on attend que tous les threads de pompage d'image aient terminé
+      @threadImage.join if defined? @threadImage
+   end
+end