X-Git-Url: http://git.euphorik.ch/?a=blobdiff_plain;f=src%2Fmodules%2Fallocine.rb;fp=src%2Fmodules%2Fallocine.rb;h=bdbfa1c74482fce07040671725da1673b0e57f07;hb=f2d0f55dc2e3dc77561c26703e382b1917498242;hp=0000000000000000000000000000000000000000;hpb=542290bdf3a6c2fdcffb8bcaf9cac1dc47143f1d;p=pompage.git diff --git a/src/modules/allocine.rb b/src/modules/allocine.rb new file mode 100644 index 0000000..bdbfa1c --- /dev/null +++ b/src/modules/allocine.rb @@ -0,0 +1,124 @@ +require 'net/http' +require 'cgi' +require 'thread' +require 'iconv' + +require "basemodule.rb" + +# un mixin pour allocine +class Allocine < Basemodule + + # Voir le parent. + def rechercherFilm(titre) + Thread.current["connexion"] = Net::HTTP::new('www.allocine.fr') if Thread.current["connexion"].nil? + connexion = Thread.current["connexion"] + + donneesHtml = nil + begin + begin + reponse, donneesHtml = connexion.get("/recherche/?motcle=#{CGI::escape(Iconv.iconv("ISO-8859-1", "UTF-8", titre)[0])}") + rescue Exception => e + p e + puts "[!] Connexion lost, retry.." + retry + end + + #convertit le code latin-1 en UTF8 + donneesHtml = Iconv.iconv("UTF-8", "ISO-8859-1", donneesHtml)[0] + + #si pas trouvé alors on enlève un mot à la fin + if /.*?Pas de résultats.*?/ =~ donneesHtml || ! donneesHtml.include?("

Films

") + /(.*?)[^ ]+?$/ =~ titre.strip + titre = $1 + titre.strip! + else + break; + end + end while not titre.nil? and not titre.empty? + + reponses = {} + unless titre.nil? or titre.empty? + + r = donneesHtml.scan(/(.*?)<\/a>(?:<\/h4>
 (.*?)<\/h5>){0,1}(?:


<\/h4>){0,1}(?:

de (.*?)<\/h4>){0,1}(?:

 avec (.*?)<\/h4>){0,1}(?:

 \((.*?)\)<\/h4>){0,1}/) + + r.each{|f| + reponses[f[1].virerBalisesHTML + (f[2] != nil ? " " + f[2].virerBalisesHTML : "") + (f[3] != nil ? " de " + f[3].virerBalisesHTML : "") + (f[4] != nil ? " avec " + f[4].virerBalisesHTML : "") + (f[5] != nil ? " (" + f[5].virerBalisesHTML + ")" : "")] = f[0] + } + end + reponses + end + + # Voir le parent. + def load(id, film) + Thread.current["connexion"] = Net::HTTP::new('www.allocine.fr') if Thread.current["connexion"].nil? + connexion = Thread.current["connexion"] + + r, ficheHtml = connexion.get("/film/fichefilm_gen_cfilm=#{id}.html") + + #convertit le code latin-1 en UTF8 + ficheHtml = Iconv.iconv("UTF-8", "ISO-8859-1", ficheHtml)[0] + + #url + film.url = "http://www.allocine.fr/film/fichefilm_gen_cfilm=#{id}.html" + + # Titre + /(.*?)<\/title>/ =~ ficheHtml + film.titre = $1 unless $1.nil? + + puts "Movie found : #{film.titre} (#{film.fichiers[0]})" + + # Année + /<h4>Année de production : (\d+)<\/h4>/ =~ ficheHtml + film.annee = $1 unless $1.nil? + + # Réalisateurs + /<h4>Réalisé par(.*?)<\/h4>/ =~ ficheHtml + $1.scan(/\s*<a class="link1" href=".*?">(.*?)<\/a>\s*/m){|a| + film.realisateurs << Personne::ajouter(a[0]) unless a[0].nil? + } unless $1.nil? + + # Acteurs + /<h4>Avec(.*?)<\/h4>/ =~ ficheHtml + $1.scan(/\s*<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html">(.+?)<\/a>\s*/m){|a| + film.acteurs << Personne::ajouter(a[0]) unless a[0].nil? + } unless $1.nil? + + # Pays + /<h4>Film (.*?)\. <\/h4>/ =~ ficheHtml + $1.split(',').each{|pays| + film.pays << Pays::ajouter(pays) unless pays.nil? + } unless $1.nil? + + # Duree (capture des heures et des minutes séparement vue que c'est le bordel sur allocine + /<h4>Durée :(?:.*?)(\d+)h/ =~ ficheHtml + heure = $1.nil? ? 0 : $1.to_i + + /<h4>Durée :(?:.*?)(\d+)min/ =~ ficheHtml + min = $1.nil? ? 0 : $1.to_i + + film.duree = heure * 60 + min + + # Critiques presse et spectateur + /Presse.*etoile_([012345]).*Spectateurs.*etoile_([012345])"/m =~ ficheHtml + film.critiquePresse = $1 unless $1.nil? + film.critiqueSpectateur = $2 unless $2.nil? + + # Genre + /<h4>Genre : (.*?)<\/h4>/ =~ ficheHtml + $1.scan(/<a href="\/film\/alaffiche_genre_gen_genre=.*?" class="link1">(.+?)<\/a>/m){|g| + film.genres << Genre::ajouter(g[0]) unless g[0].nil? + } unless $1.nil? + + # Synopsis + /Synopsis.*?<h4>(.*?)<\/h4>/m =~ ficheHtml + unless $1.nil? + film.synopsis = $1 + film.synopsis.gsub!(/<br\s*\/>|<br\s*>/, "\n") + film.synopsis.virerBalisesHTML! + end + + # Budget + /Budget<\/b> : (.+?) millions d'euros<\/h4>/ =~ ficheHtml + film.budget = $1 unless $1.nil? + end +end \ No newline at end of file