git-svn-id: svn://euphorik.ch/pompage@35 02bbb61a-6d21-0410-aba0-cb053bdfd66a
[pompage.git] / src / modules / allocine.rb
diff --git a/src/modules/allocine.rb b/src/modules/allocine.rb
new file mode 100644 (file)
index 0000000..bdbfa1c
--- /dev/null
@@ -0,0 +1,124 @@
+require 'net/http'\r
+require 'cgi'\r
+require 'thread'\r
+require 'iconv'\r
+\r
+require "basemodule.rb"\r
+\r
+# un mixin pour allocine\r
+class Allocine  < Basemodule\r
+   \r
+   # Voir le parent.\r
+   def rechercherFilm(titre)\r
+      Thread.current["connexion"] = Net::HTTP::new('www.allocine.fr') if Thread.current["connexion"].nil?\r
+      connexion = Thread.current["connexion"]\r
+      \r
+      donneesHtml = nil\r
+      begin\r
+         begin\r
+            reponse, donneesHtml = connexion.get("/recherche/?motcle=#{CGI::escape(Iconv.iconv("ISO-8859-1", "UTF-8", titre)[0])}")\r
+         rescue Exception => e\r
+            p e\r
+            puts "[!] Connexion lost, retry.."\r
+            retry\r
+         end\r
+         \r
+         #convertit le code latin-1 en UTF8\r
+         donneesHtml = Iconv.iconv("UTF-8", "ISO-8859-1", donneesHtml)[0]\r
+         \r
+         #si pas trouvé alors on enlève un mot à la fin\r
+         if /.*?Pas de résultats.*?/ =~ donneesHtml || ! donneesHtml.include?("<h3><b>Films <h4>")\r
+            /(.*?)[^ ]+?$/ =~ titre.strip\r
+            titre = $1\r
+            titre.strip!\r
+         else\r
+            break;\r
+         end\r
+      end while not titre.nil? and not titre.empty?\r
+      \r
+      reponses = {}\r
+      unless titre.nil? or titre.empty?\r
+            \r
+         r = donneesHtml.scan(/<a href="\/film\/fichefilm_gen_cfilm=(\d+)\.html" class="link1">(.*?)<\/a>(?:<\/h4><h5 style="color: #666666">&nbsp;(.*?)<\/h5>){0,1}(?:<h4><br \/><\/h4>){0,1}(?:<h4 style="color: #666666"> de (.*?)<\/h4>){0,1}(?:<h4 style="color: #666666">&nbsp;avec (.*?)<\/h4>){0,1}(?:<h4 style="color: #666666">&nbsp;\((.*?)\)<\/h4>){0,1}/)\r
+         \r
+         r.each{|f|\r
+            reponses[f[1].virerBalisesHTML + (f[2] != nil ? " " + f[2].virerBalisesHTML : "") + (f[3] != nil ? " de " + f[3].virerBalisesHTML : "") + (f[4] != nil ? " avec " + f[4].virerBalisesHTML : "") + (f[5] != nil ? " (" + f[5].virerBalisesHTML + ")" : "")] = f[0]\r
+         }\r
+      end\r
+      reponses\r
+   end\r
+   \r
+   # Voir le parent.\r
+   def load(id, film)      \r
+      Thread.current["connexion"] = Net::HTTP::new('www.allocine.fr') if Thread.current["connexion"].nil?\r
+      connexion = Thread.current["connexion"]\r
+         \r
+      r, ficheHtml = connexion.get("/film/fichefilm_gen_cfilm=#{id}.html") \r
+      \r
+      #convertit le code latin-1 en UTF8\r
+      ficheHtml = Iconv.iconv("UTF-8", "ISO-8859-1", ficheHtml)[0]\r
+\r
+      #url\r
+      film.url = "http://www.allocine.fr/film/fichefilm_gen_cfilm=#{id}.html"\r
+      \r
+      # Titre\r
+      /<title>(.*?)<\/title>/ =~ ficheHtml\r
+      film.titre = $1 unless $1.nil?\r
+      \r
+      puts "Movie found : #{film.titre} (#{film.fichiers[0]})"\r
+      \r
+      # Année\r
+      /<h4>Année de production : (\d+)<\/h4>/ =~ ficheHtml\r
+      film.annee = $1 unless $1.nil?\r
+      \r
+      # Réalisateurs\r
+      /<h4>Réalisé par(.*?)<\/h4>/ =~ ficheHtml\r
+      $1.scan(/\s*<a class="link1" href=".*?">(.*?)<\/a>\s*/m){|a|\r
+         film.realisateurs << Personne::ajouter(a[0]) unless a[0].nil?\r
+      } unless $1.nil?\r
+      \r
+      # Acteurs\r
+      /<h4>Avec(.*?)<\/h4>/ =~ ficheHtml\r
+      $1.scan(/\s*<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html">(.+?)<\/a>\s*/m){|a|\r
+         film.acteurs << Personne::ajouter(a[0]) unless a[0].nil? \r
+      } unless $1.nil? \r
+                \r
+      # Pays\r
+      /<h4>Film (.*?)\.&nbsp;<\/h4>/ =~ ficheHtml\r
+      $1.split(',').each{|pays|\r
+         film.pays << Pays::ajouter(pays) unless pays.nil?\r
+      } unless $1.nil? \r
+      \r
+      # Duree (capture des heures et des minutes séparement vue que c'est le bordel sur allocine\r
+      /<h4>Durée :(?:.*?)(\d+)h/ =~ ficheHtml\r
+      heure = $1.nil? ? 0 : $1.to_i\r
+      \r
+      /<h4>Durée :(?:.*?)(\d+)min/ =~ ficheHtml\r
+      min = $1.nil? ? 0 : $1.to_i\r
+         \r
+      film.duree = heure * 60 + min\r
+      \r
+      # Critiques presse et spectateur\r
+      /Presse.*etoile_([012345]).*Spectateurs.*etoile_([012345])"/m =~ ficheHtml\r
+      film.critiquePresse = $1 unless $1.nil?\r
+      film.critiqueSpectateur = $2 unless $2.nil?\r
+      \r
+      # Genre\r
+      /<h4>Genre : (.*?)<\/h4>/ =~ ficheHtml\r
+      $1.scan(/<a href="\/film\/alaffiche_genre_gen_genre=.*?" class="link1">(.+?)<\/a>/m){|g|\r
+         film.genres << Genre::ajouter(g[0]) unless g[0].nil?\r
+      } unless $1.nil?     \r
+      \r
+      # Synopsis            \r
+      /Synopsis.*?<h4>(.*?)<\/h4>/m =~ ficheHtml\r
+      unless $1.nil?\r
+         film.synopsis = $1\r
+         film.synopsis.gsub!(/<br\s*\/>|<br\s*>/, "\n")\r
+         film.synopsis.virerBalisesHTML!\r
+      end\r
+      \r
+      # Budget       \r
+      /Budget<\/b> : (.+?) millions d'euros<\/h4>/ =~ ficheHtml\r
+      film.budget = $1 unless $1.nil?\r
+   end   \r
+end
\ No newline at end of file