X-Git-Url: http://git.euphorik.ch/?a=blobdiff_plain;f=src%2Ffilm.rb;h=c97e51843a4fa7cbacd267a4fa6f06b02303e348;hb=b83a86c5a1dec95849066c0a936c5a4dc7239186;hp=b79584129237556386e5841c34548651734be1ba;hpb=f67e80719e42ae1e95511df44d65d493a3ead62f;p=pompage.git diff --git a/src/film.rb b/src/film.rb index b795841..c97e518 100644 --- a/src/film.rb +++ b/src/film.rb @@ -10,25 +10,64 @@ require 'personne.rb' require 'constantes.rb' +class String + def virerBalisesHTML + return self.gsub(/<(.*?)>/, '') + end +end + class Film - attr_accessor :titre, :fichier, :annee, :realisateurs, :acteurs, :pays, :duree, :critiquePresse, :critiqueSpectateur, :genres, :synopsis, :budget + attr_accessor :id, :titre, :fichiers, :annee, :realisateurs, :acteurs, :pays, :duree, :critiquePresse, :critiqueSpectateur, :genres, :synopsis, :budget + + # repertoire de base, par exemple C:/Divx/ + @@repBase = '' - # Les films indexés par leur titre + # Les films indexés par leur titre @@films = {} - # Les films indexés par leur nom de fichier + # Les films indexés par leur nom de fichier, deux fichiers différents peuvent pointer sur le même film @@filmsFichier = {} + + # Les films qui ont plusieurs réponses lors de la recherche, traités à la fin + @@filmsPlusieursReponses = [] - @@mutex = Mutex::new @@threadsWait = ThreadsWait::new @@nbConn = 0 + + # le prochain id disponible + @@idDisponible = 1 + + # retourne un nouvel id, utilisé lors de la création d'un nouveau film + def Film::getNewId + id = @@idDisponible + @@idDisponible += 1 + return id + end - - # Lit un repertoire de manière recursive + # Lit un repertoire de manière recursive def Film::litRepertoire(r) - Film::litRepertoireR(r) + @@repBase = r + repPrecedant = Dir::getwd + Dir::chdir(r) + + Film::litRepertoireR('.') + # on attends que les threads se terminent @@threadsWait.all_waits + + # traite les films qui avaient plusieurs réponses lors de la recherche + # l'utilisateur doit faire un choix + i = 1 + @@filmsPlusieursReponses.each{|f| + puts + puts "Plop, ya un conflit #{i} / #{@@filmsPlusieursReponses.length} :" + if f.reglerConflitPlusieursReponses + Film::ajouterFilm(f) + end + i += 1 + } + + Dir::chdir(repPrecedant) end # Charge les films contenus dans un fichier XML. @@ -37,30 +76,38 @@ class Film if !File.exists?(xmlFile) return end - + racine = REXML::Document::new(File::new(xmlFile)).root - racine.each_element{|e| - fichier = e.get_elements('fichier')[0].get_text - next if fichier == nil + racine.each_element{|e| + id = e.attribute('id').to_s.to_i + + if id > @@idDisponible + @@idDisponible = id + 1 + end + titre = e.get_elements('titre')[0].get_text + + fichiers = e.get_elements('fichiers')[0].get_elements('fichier') annee = e.get_elements('annee')[0].get_text duree = e.get_elements('duree')[0].get_text critiquePresse = e.get_elements('critiquePresse')[0].get_text critiqueSpectateur = e.get_elements('critiqueSpectateur')[0].get_text synopsis = e.get_elements('synopsis')[0].get_text budget = e.get_elements('budget')[0].get_text - realisateurs = e.get_elements('realisateur') - acteurs = e.get_elements('acteur') - pays = e.get_elements('pays') - genres = e.get_elements('genres') + realisateurs = e.get_elements('realisateurs')[0].get_elements('realisateur') + acteurs = e.get_elements('acteurs')[0].get_elements('acteur') + pays = e.get_elements('lespays')[0].get_elements('pays') + genres = e.get_elements('genres')[0].get_elements('genre') + + film = Film::new(fichiers[0].get_text.value) - - film = Film::new(fichier.value) film.titre = titre.value unless titre.nil? + film.id = id + fichiers.each{|e| + film.addFichier(e.get_text.value) + @@filmsFichier[e.get_text.value] = film + } film.annee = annee.value unless annee.nil? - realisateurs.each{|e| - film.realisateurs << Personne::ajouter(e.get_text.value) - } acteurs.each{|e| film.acteurs << Personne::ajouter(e.get_text.value) } @@ -71,80 +118,119 @@ class Film film.critiquePresse = critiquePresse.value unless critiquePresse.nil? film.critiqueSpectateur = critiqueSpectateur.value unless critiqueSpectateur.nil? genres.each{|e| - film.genres << Genre::ajouter(e.get_text.value) + film.genres << Genre::ajouter(e.get_text.value) if e.get_text != nil } film.synopsis = synopsis.value unless synopsis.nil? film.budget = budget.value unless budget.nil? @@films[film.titre] = film - @@filmsFichier[film.fichier] = film - } + } end - # Renvoie tous les films sous la forme d'un élement XML. + # Renvoie tous les films sous la forme d'un document XML. def Film::getFilmsXml + # le document + docXml = REXML::Document::new + docXml.xml_decl().encoding = "UTF-8" # normalement UTF-8 + docXml.xml_decl().dowrite + + # la racine du document racine = REXML::Element::new('filmographie') + docXml.add(racine) + pi = REXML::Instruction.new("xml-stylesheet", "type=\"text/xsl\" href=\"../xsl/yopyop.xsl\"") + racine.previous_sibling = pi + + # on ajoute chaque film à la racine @@films.each{|nom, f| racine.add(f.getXml) - } - return REXML::Document::new.add(racine) + } + + # revoie le document + docXml end private def Film::filmsFactory(fichier) - /^.*?\.(.{3,4})$/ =~ fichier - if FILMS_EXTENSIONS.include?($1) - Film::new(fichier).loadData - end - end + Film::new(fichier).loadData + end def Film::litRepertoireR(r) Dir::foreach(r){|f| - next if f == '.' or f == '..' - fichier = r + "/" + f + next if f[0,1] == '.' + fichier = (r == '.' ? '' : r + "/") + f if File::directory?(fichier) litRepertoireR(fichier) else - - #si le film n'existe pas déjà dans la liste + + # vérification de l'extension + /^.*?\.(.{3,4})$/ =~ fichier + if !FILMS_EXTENSIONS.include?($1) + next + end + + fichier = CGI::escapeHTML(fichier.unpack("C*").pack("U*")) + + # on skip si le film est déjàa dans la BD if film = @@filmsFichier[fichier] - puts "[i] Already exists in DB : #{film.titre} (#{film.fichier})" + puts "[i] Already exists in DB : #{film.titre} (#{fichier})" next end - film = nil + #p fichier + + film = nil + + if @@nbConn >= NB_CONN_MAX + @@threadsWait.next_wait + end + @@nbConn += 1 @@threadsWait.join_nowait( - Thread::new{ - begin - @@mutex.lock if @@nbConn >= NB_CONN_MAX - #p @@nbConn - film = Film::filmsFactory(fichier) - unless film.nil? - if @@films.has_key?(film.titre) - puts "[!] Duplicate movie : #{film.titre} (#{film.fichier})" - else - puts "[i] movie added : #{film.titre} (#{film.fichier})" - @@films[film.titre] = film - @@filmsFichier[film.fichier] = film - end + Thread::new{ + begin + film = Film::filmsFactory(fichier) + unless film.nil? # le film a été correctement construit + Film::ajouterFilm(film) end - @@nbConn -= 1 - #p @@nbConn - @@mutex.unlock - rescue Exception => e + rescue Exception => e puts e.message puts e.backtrace - end + end + @@nbConn -= 1 } ) end } - end - + end + + def Film::ajouterFilm(film) + if film.plusieursReponses? + @@filmsPlusieursReponses << film + return + end + + # le film existe déjà + if @@films.has_key?(film.titre) + # le fichier n'est pas connu -> nième partie d'un film + if !@@filmsFichier.has_key?(film.fichiers[0]) + puts "[i] movie #{film.titre} has a another file part : #{film.fichiers[0]}" + @@films[film.titre].addFichier(film.fichiers[0]) + @@filmsFichier[film.fichiers[0]] = @@films[film.titre] + else + puts "[!] Duplicate movie : #{film.titre} (#{film.fichiers[0]})" + end + else + puts "[i] movie added : #{film.titre} (#{film.fichiers[0]})" + @@films[film.titre] = film + @@filmsFichier[film.fichiers[0]] = film + end + end + def initialize(fichier) - @fichier = fichier + @fichiers = [fichier] + + @id = 0 @titre = '' @annee = nil @realisateurs = [] @@ -157,35 +243,106 @@ private @synopsis = nil @budget = nil @budgetUnite = 'euro' + @url + + @aPlusieursReponses = false + # mémorise les tuples {nom => id} dans le cas ou il y a plusieurs réponses + @idsAllocine = {} end public - #charge les informations du films à partir d'allocine.fr + + def plusieursReponses? + return @aPlusieursReponses + end + + # demande à l'utilisateur de faire un choix + # ret : true si le conflit à été résolu sinon false + def reglerConflitPlusieursReponses + + @aPlusieursReponses = false # pour faire les choses bien + + puts @fichiers[0] + puts "Fais ton choix jeune padawan (un caractère et pas plus)" + tabNoms = @idsAllocine.keys + choix = 1 + loop do + i = 1 + tabNoms.each{|n| + puts "#{i}. #{n}" + i += 1 + } + puts "A. Passer et l'ajouter" + puts "B. Ignorer" + choix = STDIN.gets + + if /A/i =~ choix + return true + elsif /B/i =~ choix + return false + end + + choix = choix.to_i + if choix > 0 && choix <= tabNoms.length + break; + else + puts + puts "Choix pas bon !!" + end + end + + loadDepuisIdAllocine(@idsAllocine[tabNoms[choix-1]]) + + return true + end + + def addFichier(fichier) + if !@fichiers.include?(fichier) + @fichiers << fichier + end + end + + # Charge les informations du films à partir d'allocine.fr + # ret [Film] def loadData unless LOAD_DATA - @titre = @fichier + @titre = @fichiers[0] return self end + + @id = Film::getNewId - connexionHttp = Net::HTTP::new('www.allocine.fr'); + connexionHttp = Net::HTTP::new('www.allocine.fr') - #extrait le nom à partire du nom du fichier - /^.*?([^\/]*?)\.(.{3,4})$/ =~ @fichier + #extrait le nom à partir du nom du fichier + /^.*?([^\/]*?)\.(.{3,4})$/ =~ @fichiers[0] #remplace undescores et points par des espaces titre = $1.gsub(/[_\.]/, ' ') - #vire les espaces au début et à la fin - titre.strip! #remplace les suites d'espaces par un seul titre.gsub!(/ {2,}/,' ') titre.gsub!(/\[.*?\]/,'') titre.gsub!(/\(.*?\)/,'') + titre.gsub!(/\{.*?\}/,'') + #vire les espaces au début et à la fin + titre.strip! + @titre = titre.dup donneesHtml = nil begin - reponse, donneesHtml = connexionHttp.get("/recherche/?motcle=#{CGI::escape(titre)}") - #si pas trouvé alors on enlève un mot à la fin - if /.*?Pas de résultats.*?/ =~ donneesHtml + begin + reponse, donneesHtml = connexionHttp.get("/recherche/?motcle=#{CGI::escape(titre.unpack("U*").pack("C*"))}") + rescue Exception => e + p e + puts "[!] Connexion lost, retry.." + retry + end + + #convertit le code latin-1 en UTF8 + donneesHtml = donneesHtml.unpack("C*").pack("U*") + + #si pas trouvé alors on enlève un mot à la fin + if /.*?Pas de résultats.*?/ =~ donneesHtml || ! donneesHtml.include?("

Films

") /(.*?)[^ ]+?$/ =~ titre.strip titre = $1 titre.strip! @@ -195,96 +352,149 @@ public end while not titre.nil? and not titre.empty? unless titre.nil? or titre.empty? - // =~ donneesHtml - if $1 - r, ficheHtml = connexionHttp.get("/film/fichefilm_gen_cfilm=#{$1}.html") - - # Titre - /(.*?)<\/title>/ =~ ficheHtml - @titre = $1 unless $1.nil? - - #puts "Movie found : #{@titre} (#{@fichier})" - - # Année - /<h4>Année de production : (\d+)<\/h4>/ =~ ficheHtml - @annee = $1.to_i unless $1.nil? - # Réalisateurs - /Réalisé par <a class="link1" href=".*?" target="">(.*?)<\/a>/ =~ ficheHtml - @realisateurs << Personne::ajouter($1) unless $1.nil? - - # Acteurs - /Avec(.*)/ =~ ficheHtml - $1.scan(/<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html" target="">(.+?)<\/a>/m){|a| - @acteurs << Personne::ajouter(a[0]) unless a[0].nil? - } unless $1.nil? - - # Pays - /^<h4>Film (.*?)\.<\/h4>/ =~ ficheHtml - $1.split(',').each{|pays| - @pays << Pays::ajouter(pays) unless pays.nil? - } unless $1.nil? - - # Duree - /<h4>Durée : (\d+?)h (\d+?)min.<\/h4>/ =~ ficheHtml - @duree = $1.nil? ? $2.to_i : $1.to_i * 60 + $2.to_i - - # Critique presse - /Presse<\/a> <img src=".*?etoile_(\d)\.gif"/ =~ ficheHtml - @critiquePresse = $1.to_i unless $1.nil? - - # Critique spectateur - /Spectateurs<\/a> <img src=".*?etoile_(\d)\.gif"/ =~ ficheHtml - @critiqueSpectateur = $1.to_i unless $1.nil? - - # Genre - /Genre : (.*)/ =~ ficheHtml - $1.scan(/<a href="\/film\/alaffiche_genre_gen_genre=.*?" class="link1">(.+?)<\/a>/m){|g| - @genres << Genre::ajouter(g[0]) unless g[0].nil? - } unless $1.nil? - - # Synopsis - /Synopsis.*?<h4>(.+?)<\/h4>/m =~ ficheHtml - @synopsis = $1 unless $1.nil? - - # Budget - /Budget<\/b> : (.+?) millions d'euros<\/h4>/ =~ ficheHtml - @budget = $1.to_i unless $1.nil? - else + #/<a href="\/film\/fichefilm_gen_cfilm=(\d+)\.html" class="link1">/ =~ donneesHtml + #r = donneesHtml.scan(/<a href="\/film\/fichefilm_gen_cfilm=(\d+)\.html" class="link1">(.*?)<\/a>/) + r = donneesHtml.scan(/<a href="\/film\/fichefilm_gen_cfilm=(\d+)\.html" class="link1">(.*?)<\/a>(?:<\/h4><h5 style="color: #666666"> (.*?)<\/h5>){0,1}/) + + if r.length > 1 + @aPlusieursReponses = true + r.each{|f| + @idsAllocine[f[1].virerBalisesHTML + (f[2] != nil ? " " + f[2].virerBalisesHTML : "")] = f[0] + } + elsif r.length == 1 + loadDepuisIdAllocine(r[0][0], connexionHttp) + else puts "[!] Movie not found : #{@titre} (#{@fichier})" end end self end - def getXml +private + def loadDepuisIdAllocine(id, connexionHttp = nil) + if (connexionHttp == nil) + connexionHttp = Net::HTTP::new('www.allocine.fr') + end + + r, ficheHtml = connexionHttp.get("/film/fichefilm_gen_cfilm=#{id}.html") + + #convertit le code latin-1 en UTF8 + ficheHtml = ficheHtml.unpack("C*").pack("U*") + + #url + @url = "http://www.allocine.fr/film/fichefilm_gen_cfilm=#{id}.html" + + # Titre + /<title>(.*?)<\/title>/ =~ ficheHtml + @titre = $1 unless $1.nil? + + puts "Movie found : #{@titre} (#{@fichiers[0]})" + + # Année + /<h4>Année de production : (\d+)<\/h4>/ =~ ficheHtml + @annee = $1 unless $1.nil? + + # Réalisateurs + /<h4>Réalisé par(.*?)<\/h4>/ =~ ficheHtml + $1.scan(/<a class="link1" href=".*?">(.*?)<\/a>/m){|a| + @realisateurs << Personne::ajouter(a[0]) unless a[0].nil? + } unless $1.nil? + + # Acteurs + /<h4>Avec(.*?)<\/h4>/ =~ ficheHtml + $1.scan(/<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html">(.+?)<\/a>/m){|a| + @acteurs << Personne::ajouter(a[0]) unless a[0].nil? + } unless $1.nil? + + # Pays + /<h4>Film (.*?)\. <\/h4>/ =~ ficheHtml + $1.split(',').each{|pays| + @pays << Pays::ajouter(pays) unless pays.nil? + } unless $1.nil? + + # Duree (capture des heures et des minutes séparement vue que c'est le bordel sur allocine + /<h4>Durée :(?:.*?)(\d+)h/ =~ ficheHtml + heure = $1.nil? ? 0 : $1.to_i + + /<h4>Durée :(?:.*?)(\d+)min/ =~ ficheHtml + min = $1.nil? ? 0 : $1.to_i + + @duree = heure * 60 + min + + # Critiques presse et spectateur + /Presse.*etoile_([012345]).*Spectateurs.*etoile_([012345])"/m =~ ficheHtml + @critiquePresse = $1 unless $1.nil? + @critiqueSpectateur = $2 unless $2.nil? + + # Genre + /<h4>Genre : (.*?)<\/h4>/ =~ ficheHtml + $1.scan(/<a href="\/film\/alaffiche_genre_gen_genre=.*?" class="link1">(.+?)<\/a>/m){|g| + @genres << Genre::ajouter(g[0]) unless g[0].nil? + } unless $1.nil? + + # Synopsis + /Synopsis.*?<h4>(.+?)<\/h4>/m =~ ficheHtml + @synopsis = $1 unless $1.nil? + + # Budget + /Budget<\/b> : (.+?) millions d'euros<\/h4>/ =~ ficheHtml + @budget = $1 unless $1.nil? + end + +public + + # Renvoie un film sous la forme d'un élément XML de type REXML + def getXml + racine = REXML::Element::new('film') - racine.add(REXML::Element::new('fichier').add_text(@fichier)) + racine.add_attribute('id', @id.to_s) + + fichiers = REXML::Element::new('fichiers') + @fichiers.each{|f| + fichiers.add(REXML::Element::new('fichier').add_text(f)) + } + racine.add(fichiers) + racine.add(REXML::Element::new('titre').add_text(@titre)) - racine.add(REXML::Element::new('annee').add_text(@annee.to_s)) + racine.add(REXML::Element::new('annee').add_text(@annee)) + realisateurs = REXML::Element::new('realisateurs') @realisateurs.each{|r| - racine.add(REXML::Element::new('realisateur').add_text(r.nom)) + realisateurs.add(REXML::Element::new('realisateur').add_text(r.nom)) } + racine.add(realisateurs) + acteurs = REXML::Element::new('acteurs') @acteurs.each{|a| - racine.add(REXML::Element::new('acteur').add_text(a.nom)) + acteurs.add(REXML::Element::new('acteur').add_text(a.nom)) } + racine.add(acteurs) + + lespays = REXML::Element::new('lespays') @pays.each{|p| - racine.add(REXML::Element::new('pays').add_text(p.nom)) + lespays.add(REXML::Element::new('pays').add_text(p.nom)) } + racine.add(lespays) + racine.add(REXML::Element::new('duree').add_text(@duree.to_s)) - racine.add(REXML::Element::new('critiquePresse').add_text(@critiquePresse.to_s)) - racine.add(REXML::Element::new('critiqueSpectateur').add_text(@critiqueSpectateur.to_s)) + racine.add(REXML::Element::new('critiquePresse').add_text(@critiquePresse)) + racine.add(REXML::Element::new('critiqueSpectateur').add_text(@critiqueSpectateur)) + + genres = REXML::Element::new('genres') @genres.each{|g| - racine.add(REXML::Element::new('genre').add_text(g.nom)) + genres.add(REXML::Element::new('genre').add_text(g.nom)) } + racine.add(genres) + racine.add(REXML::Element::new('synopsis').add_text(@synopsis)) budgetElement = REXML::Element::new('budget') - budgetElement.add_text(@budget.to_s) + budgetElement.add_text(@budget) budgetElement.add_attribute('unite', @budgetUnite) racine.add(budgetElement) + + racine.add(REXML::Element::new('url').add_text(@url)) racine end