X-Git-Url: http://git.euphorik.ch/?p=pompage.git;a=blobdiff_plain;f=src%2Ffilm.rb;h=24e37b8776a163994b3ed1a553fa0c5bf24f8326;hp=c97e51843a4fa7cbacd267a4fa6f06b02303e348;hb=29dd69679e2fa7c1b9d5a28265ad03aeac0f13b9;hpb=b83a86c5a1dec95849066c0a936c5a4dc7239186 diff --git a/src/film.rb b/src/film.rb index c97e518..24e37b8 100644 --- a/src/film.rb +++ b/src/film.rb @@ -1,234 +1,37 @@ -require 'rexml/document' -require 'net/http' -require 'thread' -require 'thwait' -require 'cgi' +# coding: utf-8 require 'pays.rb' require 'genre.rb' require 'personne.rb' - require 'constantes.rb' +require 'modules/allocine.rb' + +# ajout de deux méthodes à la classe String class String def virerBalisesHTML - return self.gsub(/<(.*?)>/, '') + return gsub(/<(.*?)>/, '') + end + def virerBalisesHTML! + gsub!(/<(.*?)>/, '') end end +# Représente un Film. +# Permet de charger des données depuis allocine.fr +# Permet d'effectuer des recherches depuis allocine.fr class Film - attr_accessor :id, :titre, :fichiers, :annee, :realisateurs, :acteurs, :pays, :duree, :critiquePresse, :critiqueSpectateur, :genres, :synopsis, :budget - # repertoire de base, par exemple C:/Divx/ - @@repBase = '' - - # Les films indexés par leur titre - @@films = {} - - # Les films indexés par leur nom de fichier, deux fichiers différents peuvent pointer sur le même film - @@filmsFichier = {} - - # Les films qui ont plusieurs réponses lors de la recherche, traités à la fin - @@filmsPlusieursReponses = [] + # toutes les données membres sont accessibles par défaut (écriture/lecture) + attr_accessor :id, :titre, :url, :fichiers, :mod, :annee, :realisateurs, :acteurs, :pays, :duree, :critiquePresse, :critiqueSpectateur, :genres, :synopsis, :budget - @@threadsWait = ThreadsWait::new - @@nbConn = 0 - - # le prochain id disponible - @@idDisponible = 1 - - # retourne un nouvel id, utilisé lors de la création d'un nouveau film - def Film::getNewId - id = @@idDisponible - @@idDisponible += 1 - return id - end - - # Lit un repertoire de manière recursive - def Film::litRepertoire(r) - @@repBase = r - repPrecedant = Dir::getwd - Dir::chdir(r) - - Film::litRepertoireR('.') - - # on attends que les threads se terminent - @@threadsWait.all_waits - - # traite les films qui avaient plusieurs réponses lors de la recherche - # l'utilisateur doit faire un choix - i = 1 - @@filmsPlusieursReponses.each{|f| - puts - puts "Plop, ya un conflit #{i} / #{@@filmsPlusieursReponses.length} :" - if f.reglerConflitPlusieursReponses - Film::ajouterFilm(f) - end - i += 1 - } - - Dir::chdir(repPrecedant) - end - - # Charge les films contenus dans un fichier XML. - def Film::loadFilmsXml(xmlFile) - # si le fichier n'existe pas il n'y a rien à charger - if !File.exists?(xmlFile) - return - end - - racine = REXML::Document::new(File::new(xmlFile)).root - racine.each_element{|e| - id = e.attribute('id').to_s.to_i - - if id > @@idDisponible - @@idDisponible = id + 1 - end - - titre = e.get_elements('titre')[0].get_text - - fichiers = e.get_elements('fichiers')[0].get_elements('fichier') - annee = e.get_elements('annee')[0].get_text - duree = e.get_elements('duree')[0].get_text - critiquePresse = e.get_elements('critiquePresse')[0].get_text - critiqueSpectateur = e.get_elements('critiqueSpectateur')[0].get_text - synopsis = e.get_elements('synopsis')[0].get_text - budget = e.get_elements('budget')[0].get_text - realisateurs = e.get_elements('realisateurs')[0].get_elements('realisateur') - acteurs = e.get_elements('acteurs')[0].get_elements('acteur') - pays = e.get_elements('lespays')[0].get_elements('pays') - genres = e.get_elements('genres')[0].get_elements('genre') - - film = Film::new(fichiers[0].get_text.value) - - film.titre = titre.value unless titre.nil? - film.id = id - fichiers.each{|e| - film.addFichier(e.get_text.value) - @@filmsFichier[e.get_text.value] = film - } - film.annee = annee.value unless annee.nil? - acteurs.each{|e| - film.acteurs << Personne::ajouter(e.get_text.value) - } - pays.each{|e| - film.pays << Pays::ajouter(e.get_text.value) - } - film.duree = duree.value unless duree.nil? - film.critiquePresse = critiquePresse.value unless critiquePresse.nil? - film.critiqueSpectateur = critiqueSpectateur.value unless critiqueSpectateur.nil? - genres.each{|e| - film.genres << Genre::ajouter(e.get_text.value) if e.get_text != nil - } - film.synopsis = synopsis.value unless synopsis.nil? - film.budget = budget.value unless budget.nil? - @@films[film.titre] = film - } - end - - # Renvoie tous les films sous la forme d'un document XML. - def Film::getFilmsXml - # le document - docXml = REXML::Document::new - docXml.xml_decl().encoding = "UTF-8" # normalement UTF-8 - docXml.xml_decl().dowrite - - # la racine du document - racine = REXML::Element::new('filmographie') - docXml.add(racine) - pi = REXML::Instruction.new("xml-stylesheet", "type=\"text/xsl\" href=\"../xsl/yopyop.xsl\"") - racine.previous_sibling = pi + # Constructeur. N'entreprend aucune action (chargement), crée juste un film vide. + # p1 [String] : le fichier correspondant au film + def initialize(fichier, mod) + @fichiers = [] # le chemin des fichiers est relatif au repertoire de base + @fichiers << fichier if fichier != nil && fichier != '' - # on ajoute chaque film à la racine - @@films.each{|nom, f| - racine.add(f.getXml) - } - - # revoie le document - docXml - end - -private - - def Film::filmsFactory(fichier) - Film::new(fichier).loadData - end - - def Film::litRepertoireR(r) - Dir::foreach(r){|f| - next if f[0,1] == '.' - fichier = (r == '.' ? '' : r + "/") + f - if File::directory?(fichier) - litRepertoireR(fichier) - else - - # vérification de l'extension - /^.*?\.(.{3,4})$/ =~ fichier - if !FILMS_EXTENSIONS.include?($1) - next - end - - fichier = CGI::escapeHTML(fichier.unpack("C*").pack("U*")) - - # on skip si le film est déjàa dans la BD - if film = @@filmsFichier[fichier] - puts "[i] Already exists in DB : #{film.titre} (#{fichier})" - next - end - - #p fichier - - film = nil - - if @@nbConn >= NB_CONN_MAX - @@threadsWait.next_wait - end - - @@nbConn += 1 - @@threadsWait.join_nowait( - Thread::new{ - begin - film = Film::filmsFactory(fichier) - unless film.nil? # le film a été correctement construit - Film::ajouterFilm(film) - end - rescue Exception => e - puts e.message - puts e.backtrace - end - @@nbConn -= 1 - } - ) - end - } - end - - def Film::ajouterFilm(film) - if film.plusieursReponses? - @@filmsPlusieursReponses << film - return - end - - # le film existe déjà - if @@films.has_key?(film.titre) - # le fichier n'est pas connu -> nième partie d'un film - if !@@filmsFichier.has_key?(film.fichiers[0]) - puts "[i] movie #{film.titre} has a another file part : #{film.fichiers[0]}" - @@films[film.titre].addFichier(film.fichiers[0]) - @@filmsFichier[film.fichiers[0]] = @@films[film.titre] - else - puts "[!] Duplicate movie : #{film.titre} (#{film.fichiers[0]})" - end - else - puts "[i] movie added : #{film.titre} (#{film.fichiers[0]})" - @@films[film.titre] = film - @@filmsFichier[film.fichiers[0]] = film - end - end - - - def initialize(fichier) - @fichiers = [fichier] + @mod = mod @id = 0 @titre = '' @@ -243,28 +46,40 @@ private @synopsis = nil @budget = nil @budgetUnite = 'euro' - @url + @url = nil + + @nbReponses = 0 - @aPlusieursReponses = false - # mémorise les tuples {nom => id} dans le cas ou il y a plusieurs réponses - @idsAllocine = {} + # mémorise les tuples {nom => id} dans le cas ou il y a plusieurs choix de films après une recherche + @choix = {} + end + + def titre=(t) + if t == nil + @titre = "" + else + @titre = t + end end -public - + # Est-ce qu'il y a eu plusieurs réponses pour ce film lors de la cherche sur le net ? def plusieursReponses? - return @aPlusieursReponses + return @nbReponses > 1 + end + + # Est-ce qu'il y a eu plusieurs réponses pour ce film lors de la cherche sur le net ? + def nbReponses + return @nbReponses end - # demande à l'utilisateur de faire un choix - # ret : true si le conflit à été résolu sinon false + # Demande à l'utilisateur de faire un choix. + # ret : 1 si le conflit à été résolu, 2 si le film est à ignorer, 3 si tout les films sont à ignorer def reglerConflitPlusieursReponses + @nbReponses = 1 - @aPlusieursReponses = false # pour faire les choses bien - - puts @fichiers[0] + puts " -> " + @fichiers[0] puts "Fais ton choix jeune padawan (un caractère et pas plus)" - tabNoms = @idsAllocine.keys + tabNoms = @choix.keys choix = 1 loop do i = 1 @@ -272,14 +87,18 @@ public puts "#{i}. #{n}" i += 1 } + puts "______" puts "A. Passer et l'ajouter" puts "B. Ignorer" + puts "C. Tout ignorer" choix = STDIN.gets if /A/i =~ choix - return true + return 1 elsif /B/i =~ choix - return false + return 2 + elsif /C/i =~ choix + return 3 end choix = choix.to_i @@ -291,11 +110,12 @@ public end end - loadDepuisIdAllocine(@idsAllocine[tabNoms[choix-1]]) + @mod.load(@choix[tabNoms[choix-1]], self) - return true + return 1 end + # Ajoute un fichier comme faisant partie du film def addFichier(fichier) if !@fichiers.include?(fichier) @fichiers << fichier @@ -304,158 +124,71 @@ public # Charge les informations du films à partir d'allocine.fr # ret [Film] - def loadData - unless LOAD_DATA - @titre = @fichiers[0] - return self - end - - @id = Film::getNewId - - connexionHttp = Net::HTTP::new('www.allocine.fr') - + def loadData #extrait le nom à partir du nom du fichier /^.*?([^\/]*?)\.(.{3,4})$/ =~ @fichiers[0] #remplace undescores et points par des espaces titre = $1.gsub(/[_\.]/, ' ') #remplace les suites d'espaces par un seul titre.gsub!(/ {2,}/,' ') - titre.gsub!(/\[.*?\]/,'') - titre.gsub!(/\(.*?\)/,'') - titre.gsub!(/\{.*?\}/,'') - #vire les espaces au début et à la fin + titre.gsub!(/\[.*?\]/,' ') + titre.gsub!(/\(.*?\)/,' ') + titre.gsub!(/\{.*?\}/,' ') + # vire les espaces au début et à la fin titre.strip! @titre = titre.dup - donneesHtml = nil - begin - begin - reponse, donneesHtml = connexionHttp.get("/recherche/?motcle=#{CGI::escape(titre.unpack("U*").pack("C*"))}") - rescue Exception => e - p e - puts "[!] Connexion lost, retry.." - retry - end - - #convertit le code latin-1 en UTF8 - donneesHtml = donneesHtml.unpack("C*").pack("U*") - - #si pas trouvé alors on enlève un mot à la fin - if /.*?Pas de résultats.*?/ =~ donneesHtml || ! donneesHtml.include?("

Films

") - /(.*?)[^ ]+?$/ =~ titre.strip - titre = $1 - titre.strip! - else - break; - end - end while not titre.nil? and not titre.empty? + unless LOAD_DATA + return self + end - unless titre.nil? or titre.empty? - - #// =~ donneesHtml - #r = donneesHtml.scan(/(.*?)<\/a>/) - r = donneesHtml.scan(/(.*?)<\/a>(?:<\/h4>
 (.*?)<\/h5>){0,1}/) - - if r.length > 1 - @aPlusieursReponses = true - r.each{|f| - @idsAllocine[f[1].virerBalisesHTML + (f[2] != nil ? " " + f[2].virerBalisesHTML : "")] = f[0] - } - elsif r.length == 1 - loadDepuisIdAllocine(r[0][0], connexionHttp) - else - puts "[!] Movie not found : #{@titre} (#{@fichier})" - end + reponses = @mod.rechercherFilm(titre) + @nbReponses = reponses.size + + if @nbReponses == 1 + @mod.load(reponses.values[0], self) + else + @choix = reponses end + self end -private - def loadDepuisIdAllocine(id, connexionHttp = nil) - if (connexionHttp == nil) - connexionHttp = Net::HTTP::new('www.allocine.fr') - end - - r, ficheHtml = connexionHttp.get("/film/fichefilm_gen_cfilm=#{id}.html") - - #convertit le code latin-1 en UTF8 - ficheHtml = ficheHtml.unpack("C*").pack("U*") - - #url - @url = "http://www.allocine.fr/film/fichefilm_gen_cfilm=#{id}.html" - - # Titre - /(.*?)<\/title>/ =~ ficheHtml - @titre = $1 unless $1.nil? - - puts "Movie found : #{@titre} (#{@fichiers[0]})" - - # Année - /<h4>Année de production : (\d+)<\/h4>/ =~ ficheHtml - @annee = $1 unless $1.nil? - - # Réalisateurs - /<h4>Réalisé par(.*?)<\/h4>/ =~ ficheHtml - $1.scan(/<a class="link1" href=".*?">(.*?)<\/a>/m){|a| - @realisateurs << Personne::ajouter(a[0]) unless a[0].nil? - } unless $1.nil? - - # Acteurs - /<h4>Avec(.*?)<\/h4>/ =~ ficheHtml - $1.scan(/<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html">(.+?)<\/a>/m){|a| - @acteurs << Personne::ajouter(a[0]) unless a[0].nil? - } unless $1.nil? - - # Pays - /<h4>Film (.*?)\. <\/h4>/ =~ ficheHtml - $1.split(',').each{|pays| - @pays << Pays::ajouter(pays) unless pays.nil? - } unless $1.nil? - - # Duree (capture des heures et des minutes séparement vue que c'est le bordel sur allocine - /<h4>Durée :(?:.*?)(\d+)h/ =~ ficheHtml - heure = $1.nil? ? 0 : $1.to_i - - /<h4>Durée :(?:.*?)(\d+)min/ =~ ficheHtml - min = $1.nil? ? 0 : $1.to_i - - @duree = heure * 60 + min - - # Critiques presse et spectateur - /Presse.*etoile_([012345]).*Spectateurs.*etoile_([012345])"/m =~ ficheHtml - @critiquePresse = $1 unless $1.nil? - @critiqueSpectateur = $2 unless $2.nil? - - # Genre - /<h4>Genre : (.*?)<\/h4>/ =~ ficheHtml - $1.scan(/<a href="\/film\/alaffiche_genre_gen_genre=.*?" class="link1">(.+?)<\/a>/m){|g| - @genres << Genre::ajouter(g[0]) unless g[0].nil? - } unless $1.nil? - - # Synopsis - /Synopsis.*?<h4>(.+?)<\/h4>/m =~ ficheHtml - @synopsis = $1 unless $1.nil? - - # Budget - /Budget<\/b> : (.+?) millions d'euros<\/h4>/ =~ ficheHtml - @budget = $1 unless $1.nil? - end - -public + def cheminImage + return $repBase + "/" + $repAffichette + @id.to_s + ".jpg"; + end + + def setImage(image) + f = File::new(cheminImage, 'w').binmode + f.write(image) + f.close + end + + def possedeImage? + return File::exist?(cheminImage) + end + + # Met à jour un ou plusieurs champs correspondant à 'champ'. + def update(champ) + return if @url == nil || @url == "" + @mod.setChamp(champ) + @mod.loadURL(@url, self) + end - # Renvoie un film sous la forme d'un élément XML de type REXML + # Renvoie un film sous la forme d'un élément XML . + # ret [REXML::Element] : un element xml <film> def getXml racine = REXML::Element::new('film') racine.add_attribute('id', @id.to_s) - + fichiers = REXML::Element::new('fichiers') @fichiers.each{|f| fichiers.add(REXML::Element::new('fichier').add_text(f)) } - racine.add(fichiers) - + racine.add(fichiers) + racine.add(REXML::Element::new('titre').add_text(@titre)) racine.add(REXML::Element::new('annee').add_text(@annee)) @@ -488,7 +221,15 @@ public } racine.add(genres) - racine.add(REXML::Element::new('synopsis').add_text(@synopsis)) + synopsisElement = REXML::Element::new('synopsis') + unless @synopsis.nil? + @synopsis.split("\n").each{|s| + next if s =~ /^\s*$/ + synopsisElement.add(REXML::Element::new('p').add_text(s)) + } + end + racine.add(synopsisElement) + budgetElement = REXML::Element::new('budget') budgetElement.add_text(@budget) budgetElement.add_attribute('unite', @budgetUnite) @@ -498,5 +239,40 @@ public racine end + + def to_s + acc = "'#{@titre}'\n" + + " id = #{@id}\n" + + " annee = #{@annee}\n" + + " réalisateurs :\n" + @realisateurs.each{|r| + acc += " - " + r.to_s + } + acc += " acteurs :\n" + @acteurs.each{|a| + acc += " - " + a.to_s + } + acc += " pays :\n" + @pays.each{|p| + acc += " - " + p.to_s + } + acc += " genres :\n" + @genres.each{|g| + acc += " - " + g.to_s + } + acc += " fichiers :\n" + @fichiers.each{|f| + acc += " - " + f + "\n" + } + + acc += " durée : #{@duree}\n" + acc += " critique presse : #{@critiquePresse}\n" + acc += " critique specatateur : #{@critiqueSpectateur}\n" + acc += " synopsis : #{@synopsis}\n" + acc += " budget : #{@budget} #{@budgetUnite}\n" + acc += " url : #{@url}\n" + + return acc + end end - \ No newline at end of file +