From: pifou Date: Sat, 4 Nov 2006 16:44:46 +0000 (+0000) Subject: MOD Restructuration des sources X-Git-Url: https://git.euphorik.ch/?a=commitdiff_plain;h=f67e80719e42ae1e95511df44d65d493a3ead62f;p=pompage.git MOD Restructuration des sources git-svn-id: svn://euphorik.ch/pompage@2 02bbb61a-6d21-0410-aba0-cb053bdfd66a --- diff --git a/src/constantes.rb b/src/constantes.rb new file mode 100644 index 0000000..00b912b --- /dev/null +++ b/src/constantes.rb @@ -0,0 +1,8 @@ + +#constantes +FILMS_EXTENSIONS = ['avi', 'mkv', 'rmvb', 'ogm', 'divx'] +FICHIER_PATTERN = " [<codec>] [<lang-audio>] [<lang-st>] [<team>]" # la structure d'un fichier +LOAD_DATA = true # charge les informations depuis le web ? + +#le nombre de connexions simultanés sur le site de films +NB_CONN_MAX = 20 \ No newline at end of file diff --git a/src/film.rb b/src/film.rb new file mode 100644 index 0000000..b795841 --- /dev/null +++ b/src/film.rb @@ -0,0 +1,292 @@ +require 'rexml/document' +require 'net/http' +require 'thread' +require 'thwait' +require 'cgi' + +require 'pays.rb' +require 'genre.rb' +require 'personne.rb' + +require 'constantes.rb' + +class Film + attr_accessor :titre, :fichier, :annee, :realisateurs, :acteurs, :pays, :duree, :critiquePresse, :critiqueSpectateur, :genres, :synopsis, :budget + + # Les films indexés par leur titre + @@films = {} + + # Les films indexés par leur nom de fichier + @@filmsFichier = {} + + @@mutex = Mutex::new + @@threadsWait = ThreadsWait::new + @@nbConn = 0 + + + # Lit un repertoire de manière recursive + def Film::litRepertoire(r) + Film::litRepertoireR(r) + # on attends que les threads se terminent + @@threadsWait.all_waits + end + + # Charge les films contenus dans un fichier XML. + def Film::loadFilmsXml(xmlFile) + # si le fichier n'existe pas il n'y a rien à charger + if !File.exists?(xmlFile) + return + end + + racine = REXML::Document::new(File::new(xmlFile)).root + racine.each_element{|e| + fichier = e.get_elements('fichier')[0].get_text + next if fichier == nil + titre = e.get_elements('titre')[0].get_text + annee = e.get_elements('annee')[0].get_text + duree = e.get_elements('duree')[0].get_text + critiquePresse = e.get_elements('critiquePresse')[0].get_text + critiqueSpectateur = e.get_elements('critiqueSpectateur')[0].get_text + synopsis = e.get_elements('synopsis')[0].get_text + budget = e.get_elements('budget')[0].get_text + realisateurs = e.get_elements('realisateur') + acteurs = e.get_elements('acteur') + pays = e.get_elements('pays') + genres = e.get_elements('genres') + + + film = Film::new(fichier.value) + film.titre = titre.value unless titre.nil? + film.annee = annee.value unless annee.nil? + realisateurs.each{|e| + film.realisateurs << Personne::ajouter(e.get_text.value) + } + acteurs.each{|e| + film.acteurs << Personne::ajouter(e.get_text.value) + } + pays.each{|e| + film.pays << Pays::ajouter(e.get_text.value) + } + film.duree = duree.value unless duree.nil? + film.critiquePresse = critiquePresse.value unless critiquePresse.nil? + film.critiqueSpectateur = critiqueSpectateur.value unless critiqueSpectateur.nil? + genres.each{|e| + film.genres << Genre::ajouter(e.get_text.value) + } + film.synopsis = synopsis.value unless synopsis.nil? + film.budget = budget.value unless budget.nil? + @@films[film.titre] = film + @@filmsFichier[film.fichier] = film + } + end + + # Renvoie tous les films sous la forme d'un élement XML. + def Film::getFilmsXml + racine = REXML::Element::new('filmographie') + @@films.each{|nom, f| + racine.add(f.getXml) + } + return REXML::Document::new.add(racine) + end + +private + + def Film::filmsFactory(fichier) + /^.*?\.(.{3,4})$/ =~ fichier + if FILMS_EXTENSIONS.include?($1) + Film::new(fichier).loadData + end + end + + def Film::litRepertoireR(r) + Dir::foreach(r){|f| + next if f == '.' or f == '..' + fichier = r + "/" + f + if File::directory?(fichier) + litRepertoireR(fichier) + else + + #si le film n'existe pas déjà dans la liste + if film = @@filmsFichier[fichier] + puts "[i] Already exists in DB : #{film.titre} (#{film.fichier})" + next + end + + film = nil + @@nbConn += 1 + @@threadsWait.join_nowait( + Thread::new{ + begin + @@mutex.lock if @@nbConn >= NB_CONN_MAX + #p @@nbConn + film = Film::filmsFactory(fichier) + unless film.nil? + if @@films.has_key?(film.titre) + puts "[!] Duplicate movie : #{film.titre} (#{film.fichier})" + else + puts "[i] movie added : #{film.titre} (#{film.fichier})" + @@films[film.titre] = film + @@filmsFichier[film.fichier] = film + end + end + @@nbConn -= 1 + #p @@nbConn + @@mutex.unlock + rescue Exception => e + puts e.message + puts e.backtrace + end + } + ) + end + } + end + + + def initialize(fichier) + @fichier = fichier + @titre = '' + @annee = nil + @realisateurs = [] + @acteurs = [] + @pays = [] + @duree = nil + @critiquePresse = nil + @critiqueSpectateur = nil + @genres = [] + @synopsis = nil + @budget = nil + @budgetUnite = 'euro' + end + +public + #charge les informations du films à partir d'allocine.fr + def loadData + unless LOAD_DATA + @titre = @fichier + return self + end + + connexionHttp = Net::HTTP::new('www.allocine.fr'); + + #extrait le nom à partire du nom du fichier + /^.*?([^\/]*?)\.(.{3,4})$/ =~ @fichier + #remplace undescores et points par des espaces + titre = $1.gsub(/[_\.]/, ' ') + #vire les espaces au début et à la fin + titre.strip! + #remplace les suites d'espaces par un seul + titre.gsub!(/ {2,}/,' ') + titre.gsub!(/\[.*?\]/,'') + titre.gsub!(/\(.*?\)/,'') + @titre = titre.dup + + donneesHtml = nil + begin + reponse, donneesHtml = connexionHttp.get("/recherche/?motcle=#{CGI::escape(titre)}") + #si pas trouvé alors on enlève un mot à la fin + if /.*?Pas de résultats.*?/ =~ donneesHtml + /(.*?)[^ ]+?$/ =~ titre.strip + titre = $1 + titre.strip! + else + break; + end + end while not titre.nil? and not titre.empty? + + unless titre.nil? or titre.empty? + /<a href="\/film\/fichefilm_gen_cfilm=(\d+)\.html" class="link1">/ =~ donneesHtml + if $1 + r, ficheHtml = connexionHttp.get("/film/fichefilm_gen_cfilm=#{$1}.html") + + # Titre + /<title>(.*?)<\/title>/ =~ ficheHtml + @titre = $1 unless $1.nil? + + #puts "Movie found : #{@titre} (#{@fichier})" + + # Année + /<h4>Année de production : (\d+)<\/h4>/ =~ ficheHtml + @annee = $1.to_i unless $1.nil? + + # Réalisateurs + /Réalisé par <a class="link1" href=".*?" target="">(.*?)<\/a>/ =~ ficheHtml + @realisateurs << Personne::ajouter($1) unless $1.nil? + + # Acteurs + /Avec(.*)/ =~ ficheHtml + $1.scan(/<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html" target="">(.+?)<\/a>/m){|a| + @acteurs << Personne::ajouter(a[0]) unless a[0].nil? + } unless $1.nil? + + # Pays + /^<h4>Film (.*?)\.<\/h4>/ =~ ficheHtml + $1.split(',').each{|pays| + @pays << Pays::ajouter(pays) unless pays.nil? + } unless $1.nil? + + # Duree + /<h4>Durée : (\d+?)h (\d+?)min.<\/h4>/ =~ ficheHtml + @duree = $1.nil? ? $2.to_i : $1.to_i * 60 + $2.to_i + + # Critique presse + /Presse<\/a> <img src=".*?etoile_(\d)\.gif"/ =~ ficheHtml + @critiquePresse = $1.to_i unless $1.nil? + + # Critique spectateur + /Spectateurs<\/a> <img src=".*?etoile_(\d)\.gif"/ =~ ficheHtml + @critiqueSpectateur = $1.to_i unless $1.nil? + + # Genre + /Genre : (.*)/ =~ ficheHtml + $1.scan(/<a href="\/film\/alaffiche_genre_gen_genre=.*?" class="link1">(.+?)<\/a>/m){|g| + @genres << Genre::ajouter(g[0]) unless g[0].nil? + } unless $1.nil? + + # Synopsis + /Synopsis.*?<h4>(.+?)<\/h4>/m =~ ficheHtml + @synopsis = $1 unless $1.nil? + + # Budget + /Budget<\/b> : (.+?) millions d'euros<\/h4>/ =~ ficheHtml + @budget = $1.to_i unless $1.nil? + else + puts "[!] Movie not found : #{@titre} (#{@fichier})" + end + end + self + end + + def getXml + racine = REXML::Element::new('film') + racine.add(REXML::Element::new('fichier').add_text(@fichier)) + racine.add(REXML::Element::new('titre').add_text(@titre)) + racine.add(REXML::Element::new('annee').add_text(@annee.to_s)) + + @realisateurs.each{|r| + racine.add(REXML::Element::new('realisateur').add_text(r.nom)) + } + + @acteurs.each{|a| + racine.add(REXML::Element::new('acteur').add_text(a.nom)) + } + @pays.each{|p| + racine.add(REXML::Element::new('pays').add_text(p.nom)) + } + racine.add(REXML::Element::new('duree').add_text(@duree.to_s)) + + racine.add(REXML::Element::new('critiquePresse').add_text(@critiquePresse.to_s)) + racine.add(REXML::Element::new('critiqueSpectateur').add_text(@critiqueSpectateur.to_s)) + @genres.each{|g| + racine.add(REXML::Element::new('genre').add_text(g.nom)) + } + racine.add(REXML::Element::new('synopsis').add_text(@synopsis)) + budgetElement = REXML::Element::new('budget') + budgetElement.add_text(@budget.to_s) + budgetElement.add_attribute('unite', @budgetUnite) + racine.add(budgetElement) + + racine + end +end + \ No newline at end of file diff --git a/src/genre.rb b/src/genre.rb new file mode 100644 index 0000000..9731494 --- /dev/null +++ b/src/genre.rb @@ -0,0 +1,25 @@ + +require 'objet.rb' + +class Genre < Objet + attr_reader :nom + + @@genres = {} + + #ajoute un genre et le retourne + def Genre::ajouter(nom) + if nil == genre = @@genres[nom] + genre = Genre::new(nom) + @@genres[nom] = genre + end + genre + end + + def initialize(nom) + @nom = nom + end + + def getXml + + end +end diff --git a/src/objet.rb b/src/objet.rb new file mode 100644 index 0000000..5da9c35 --- /dev/null +++ b/src/objet.rb @@ -0,0 +1,12 @@ + +class Objet + @@compteur = 0 + def initialize + @id = @@compteur + 1 + @@compteur += 1 + end + + def getXml + #abstrait + end +end diff --git a/src/pays.rb b/src/pays.rb new file mode 100644 index 0000000..934dca2 --- /dev/null +++ b/src/pays.rb @@ -0,0 +1,25 @@ + +require 'objet.rb' + +class Pays < Objet + attr_reader :nom + + @@pays = {} + + #ajoute un pays et le retourne + def Pays::ajouter(nom) + if nil == pays = @@pays[nom] + pays = Pays::new(nom) + @@pays[nom] = pays + end + pays + end + + def initialize(nom) + @nom = nom + end + + def getXml + + end +end diff --git a/src/personne.rb b/src/personne.rb new file mode 100644 index 0000000..5f9d8fa --- /dev/null +++ b/src/personne.rb @@ -0,0 +1,25 @@ + +require 'objet.rb' + +class Personne < Objet + attr_reader :nom + + @@personnes = {} + + #ajoute une personne et la retourne + def Personne::ajouter(nom) + if nil == personne = @@personnes[nom] + personne = Personne::new(nom) + @@personnes[nom] = personne + end + personne + end + + def initialize(nom) + @nom = nom + end + + def getXml + + end +end diff --git a/src/yopyop.rb b/src/yopyop.rb index d978de6..93001ef 100644 --- a/src/yopyop.rb +++ b/src/yopyop.rb @@ -1,373 +1,24 @@ -require 'rexml/document' -require 'net/http' -require 'thread' -require 'thwait' -require 'cgi' - -# G.Burri fait à l'arrache d'après : 'www.la-rache.com' - -#constantes -FILMS_EXTENSIONS = ['avi', 'mkv', 'rmvb', 'ogm', 'divx'] -FICHIER_PATTERN = "<title> [<codec>] [<lang-audio>] [<lang-st>] [<team>]" # la structure d'un fichier -LOAD_DATA = true # charge les informations depuis le web ? - -#le nombre de connexions simultanés sur le site de films -NB_CONN_MAX = 20 - -class Objet - @@compteur = 0 - def initialize - @id = @@compteur + 1 - @@compteur += 1 - end - - def getXml - #abstrait - end -end - -class Personne < Objet - attr_reader :nom - - @@personnes = {} - - #ajoute une personne et la retourne - def Personne::ajouter(nom) - if nil == personne = @@personnes[nom] - personne = Personne::new(nom) - @@personnes[nom] = personne - end - personne - end - - def initialize(nom) - @nom = nom - end - - def getXml - - end -end - -class Genre < Objet - attr_reader :nom - - @@genres = {} - - #ajoute un genre et le retourne - def Genre::ajouter(nom) - if nil == genre = @@genres[nom] - genre = Genre::new(nom) - @@genres[nom] = genre - end - genre - end - - def initialize(nom) - @nom = nom - end - - def getXml - - end -end - -class Pays < Objet - attr_reader :nom - - @@pays = {} - - #ajoute un pays et le retourne - def Pays::ajouter(nom) - if nil == pays = @@pays[nom] - pays = Pays::new(nom) - @@pays[nom] = pays - end - pays - end - - def initialize(nom) - @nom = nom - end - - def getXml - - end -end - -class Film - attr_accessor :titre, :fichier, :annee, :realisateurs, :acteurs, :pays, :duree, :critiquePresse, :critiqueSpectateur, :genres, :synopsis, :budget - - # les films indexés par leur titre - @@films = {} - #les films indexés par leur nom de fichier - @@filmsFichier = {} - - @@mutex = Mutex::new - @@threadsWait = ThreadsWait::new - @@nbConn = 0 - - def Film::litRepertoire(r) - Film::litRepertoireR(r) - #on attends que les threads se terminent - @@threadsWait.all_waits - end - - # Charge les films contenus dans un fichier XML. - def Film::loadFilmsXml(xmlFile) - racine = REXML::Document::new(File::new(xmlFile)).root - racine.each_element{|e| - fichier = e.get_elements('fichier')[0].get_text - next if fichier == nil - titre = e.get_elements('titre')[0].get_text - annee = e.get_elements('annee')[0].get_text - duree = e.get_elements('duree')[0].get_text - critiquePresse = e.get_elements('critiquePresse')[0].get_text - critiqueSpectateur = e.get_elements('critiqueSpectateur')[0].get_text - synopsis = e.get_elements('synopsis')[0].get_text - budget = e.get_elements('budget')[0].get_text - realisateurs = e.get_elements('realisateur') - acteurs = e.get_elements('acteur') - pays = e.get_elements('pays') - genres = e.get_elements('genres') - - - film = Film::new(fichier.value) - film.titre = titre.value unless titre.nil? - film.annee = annee.value unless annee.nil? - realisateurs.each{|e| - film.realisateurs << Personne::ajouter(e.get_text.value) - } - acteurs.each{|e| - film.acteurs << Personne::ajouter(e.get_text.value) - } - pays.each{|e| - film.pays << Pays::ajouter(e.get_text.value) - } - film.duree = duree.value unless duree.nil? - film.critiquePresse = critiquePresse.value unless critiquePresse.nil? - film.critiqueSpectateur = critiqueSpectateur.value unless critiqueSpectateur.nil? - genres.each{|e| - film.genres << Genre::ajouter(e.get_text.value) - } - film.synopsis = synopsis.value unless synopsis.nil? - film.budget = budget.value unless budget.nil? - @@films[film.titre] = film - @@filmsFichier[film.fichier] = film - } - end - - # Renvoie tous les films sous la forme d'un élement XML. - def Film::getFilmsXml - racine = REXML::Element::new('filmographie') - @@films.each{|nom, f| - racine.add(f.getXml) - } - return REXML::Document::new.add(racine) - end - -private - def Film::litRepertoireR(r) - Dir::foreach(r){|f| - next if f == '.' or f == '..' - fichier = r + "/" + f - if File::directory?(fichier) - litRepertoireR(fichier) - else - - #si le film n'existe pas déjà dans la liste - if film = @@filmsFichier[fichier] - puts "[i] Already exists in DB : #{film.titre} (#{film.fichier})" - next - end - - film = nil - @@nbConn += 1 - @@threadsWait.join_nowait( - Thread::new{ - begin - @@mutex.lock if @@nbConn >= NB_CONN_MAX - #p @@nbConn - film = Film::filmsFactory(fichier) - unless film.nil? - if @@films.has_key?(film.titre) - puts "[!] Duplicate movie : #{film.titre} (#{film.fichier})" - else - puts "[i] movie added : #{film.titre} (#{film.fichier})" - @@films[film.titre] = film - @@filmsFichier[film.fichier] = film - end - end - @@nbConn -= 1 - #p @@nbConn - @@mutex.unlock - rescue Exception => e - puts e.message - puts e.backtrace - end - } - ) - end - } - end - - def Film::filmsFactory(fichier) - /^.*?\.(.{3,4})$/ =~ fichier - if FILMS_EXTENSIONS.include?($1) - Film::new(fichier).loadData - end - end - -public - - def initialize(fichier) - @fichier = fichier - @titre = '' - @annee = nil - @realisateurs = [] - @acteurs = [] - @pays = [] - @duree = nil - @critiquePresse = nil - @critiqueSpectateur = nil - @genres = [] - @synopsis = nil - @budget = nil - @budgetUnite = 'euro' - end - - #charge les informations du films à partir d'allocine - def loadData - unless LOAD_DATA - @titre = @fichier - return self - end - - connexionHttp = Net::HTTP::new('www.allocine.fr'); - - #extrait le nom à partire du nom du fichier - /^.*?([^\/]*?)\.(.{3,4})$/ =~ @fichier - #remplace undescores et points par des espaces - titre = $1.gsub(/[_\.]/, ' ') - #vire les espaces au début et à la fin - titre.strip! - #remplace les suites d'espaces par un seul - titre.gsub!(/ {2,}/,' ') - titre.gsub!(/\[.*?\]/,'') - titre.gsub!(/\(.*?\)/,'') - @titre = titre.dup - - donneesHtml = nil - begin - reponse, donneesHtml = connexionHttp.get("/recherche/?motcle=#{CGI::escape(titre)}") - #si pas trouvé alors on enlève un mot à la fin - if /.*?Pas de résultats.*?/ =~ donneesHtml - /(.*?)[^ ]+?$/ =~ titre.strip - titre = $1 - titre.strip! - else - break; - end - end while not titre.nil? and not titre.empty? - - unless titre.nil? or titre.empty? - /<a href="\/film\/fichefilm_gen_cfilm=(\d+)\.html" class="link1">/ =~ donneesHtml - if $1 - r, ficheHtml = connexionHttp.get("/film/fichefilm_gen_cfilm=#{$1}.html") - - # Titre - /<title>(.*?)<\/title>/ =~ ficheHtml - @titre = $1 unless $1.nil? - - #puts "Movie found : #{@titre} (#{@fichier})" - - # Année - /<h4>Année de production : (\d+)<\/h4>/ =~ ficheHtml - @annee = $1.to_i unless $1.nil? - - # Réalisateurs - /Réalisé par <a class="link1" href=".*?" target="">(.*?)<\/a>/ =~ ficheHtml - @realisateurs << Personne::ajouter($1) unless $1.nil? - - # Acteurs - /Avec(.*)/ =~ ficheHtml - $1.scan(/<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html" target="">(.+?)<\/a>/m){|a| - @acteurs << Personne::ajouter(a[0]) unless a[0].nil? - } unless $1.nil? - - # Pays - /^<h4>Film (.*?)\.<\/h4>/ =~ ficheHtml - $1.split(',').each{|pays| - @pays << Pays::ajouter(pays) unless pays.nil? - } unless $1.nil? - - # Duree - /<h4>Durée : (\d+?)h (\d+?)min.<\/h4>/ =~ ficheHtml - @duree = $1.nil? ? $2.to_i : $1.to_i * 60 + $2.to_i - - # Critique presse - /Presse<\/a> <img src=".*?etoile_(\d)\.gif"/ =~ ficheHtml - @critiquePresse = $1.to_i unless $1.nil? - - # Critique spectateur - /Spectateurs<\/a> <img src=".*?etoile_(\d)\.gif"/ =~ ficheHtml - @critiqueSpectateur = $1.to_i unless $1.nil? - - # Genre - /Genre : (.*)/ =~ ficheHtml - $1.scan(/<a href="\/film\/alaffiche_genre_gen_genre=.*?" class="link1">(.+?)<\/a>/m){|g| - @genres << Genre::ajouter(g[0]) unless g[0].nil? - } unless $1.nil? - - # Synopsis - /Synopsis.*?<h4>(.+?)<\/h4>/m =~ ficheHtml - @synopsis = $1 unless $1.nil? - - # Budget - /Budget<\/b> : (.+?) millions d'euros<\/h4>/ =~ ficheHtml - @budget = $1.to_i unless $1.nil? - else - puts "[!] Movie not found : #{@titre} (#{@fichier})" - end - end - self - end - - def getXml - racine = REXML::Element::new('film') - racine.add(REXML::Element::new('fichier').add_text(@fichier)) - racine.add(REXML::Element::new('titre').add_text(@titre)) - racine.add(REXML::Element::new('annee').add_text(@annee.to_s)) - - - @realisateurs.each{|r| - racine.add(REXML::Element::new('realisateur').add_text(r.nom)) - } - - @acteurs.each{|a| - racine.add(REXML::Element::new('acteur').add_text(a.nom)) - } - @pays.each{|p| - racine.add(REXML::Element::new('pays').add_text(p.nom)) - } - racine.add(REXML::Element::new('duree').add_text(@duree.to_s)) - - racine.add(REXML::Element::new('critiquePresse').add_text(@critiquePresse.to_s)) - racine.add(REXML::Element::new('critiqueSpectateur').add_text(@critiqueSpectateur.to_s)) - @genres.each{|g| - racine.add(REXML::Element::new('genre').add_text(g.nom)) - } - racine.add(REXML::Element::new('synopsis').add_text(@synopsis)) - budgetElement = REXML::Element::new('budget') - budgetElement.add_text(@budget.to_s) - budgetElement.add_attribute('unite', @budgetUnite) - racine.add(budgetElement) - - racine - end -end - - +# YopYop est un super programme permettant de : +# - Parcourir des dossiers recursivement à la recherche de fichier video +# - Parser les fichiers afin d'en retirer les infos suivantes : +# o le codec video +# o le codec son +# o les pistes audio +# o les sous-titres disponible +# - Les formats supportés : +# o avi +# o ogm +# o mkv +# o rmvb +# - Rechercher chaque film sur le site 'allocine.com' et en pomper un max d'infos +# - Etablir une petit base de données des films au format xml + + +$: << Dir::getwd + "/" + __FILE__.split('/')[0] + +require 'film.rb' + +# vérifie les arguments données rep = '.' if $*.empty? puts 'USAGE : <xml file> [<directory>]' @@ -391,4 +42,4 @@ Film::loadFilmsXml(xmlFile) Film::litRepertoire(rep) # ecrit le fichier XML -Film::getFilmsXml.write(File::new(xmlFile, 'w')) +Film::getFilmsXml.write(File::new(xmlFile, 'w'), 1)