class Film\r
attr_accessor :titre, :fichier, :annee, :realisateurs, :acteurs, :pays, :duree, :critiquePresse, :critiqueSpectateur, :genres, :synopsis, :budget\r
\r
- # Les films indexés par leur titre\r
+ # Les films indexés par leur titre\r
@@films = {}\r
\r
- # Les films indexés par leur nom de fichier\r
+ # Les films indexés par leur nom de fichier\r
@@filmsFichier = {}\r
\r
@@mutex = Mutex::new\r
@@nbConn = 0\r
\r
\r
- # Lit un repertoire de manière recursive\r
+ # Lit un repertoire de manière recursive\r
def Film::litRepertoire(r)\r
Film::litRepertoireR(r)\r
# on attends que les threads se terminent\r
\r
# Renvoie tous les films sous la forme d'un document XML.\r
def Film::getFilmsXml\r
- racine = REXML::Element::new('filmographie')\r
+ # le document\r
docXml = REXML::Document::new\r
+ docXml.xml_decl().encoding = "UTF-8" # normalement UTF-8\r
+ docXml.xml_decl().dowrite\r
+ \r
+ # la racine du document\r
+ racine = REXML::Element::new('filmographie')\r
docXml.add(racine)\r
- docXml.xml_decl().encoding = "UTF-8" \r
- docXml.xml_decl().dowrite \r
\r
+ # on ajoute chaque film à la racine\r
@@films.each{|nom, f|\r
racine.add(f.getXml)\r
} \r
+ \r
+ # revoie le document\r
docXml\r
end\r
\r
litRepertoireR(fichier) \r
else\r
\r
- #si le film n'existe pas déjà dans la liste\r
+ #si le film n'existe pas déjà dans la liste\r
if film = @@filmsFichier[fichier]\r
puts "[i] Already exists in DB : #{film.titre} (#{film.fichier})"\r
next\r
\r
\r
def initialize(fichier)\r
- @fichier = fichier\r
+ #convertit le code latin-1 en UTF8\r
+ @fichier = fichier.unpack("C*").pack("U*")\r
+ \r
@titre = ''\r
@annee = nil\r
@realisateurs = []\r
@synopsis = nil\r
@budget = nil \r
@budgetUnite = 'euro'\r
+ @url\r
end\r
\r
public \r
\r
- # Charge les informations du films à partir d'allocine.fr\r
- # ret [Film] : soit même\r
+ # Charge les informations du films à partir d'allocine.fr\r
+ # ret [Film]\r
def loadData\r
unless LOAD_DATA\r
@titre = @fichier\r
\r
connexionHttp = Net::HTTP::new('www.allocine.fr');\r
\r
- #extrait le nom à partire du nom du fichier\r
+ #extrait le nom à partir du nom du fichier\r
/^.*?([^\/]*?)\.(.{3,4})$/ =~ @fichier\r
#remplace undescores et points par des espaces\r
titre = $1.gsub(/[_\.]/, ' ')\r
- #vire les espaces au début et à la fin\r
- titre.strip!\r
#remplace les suites d'espaces par un seul\r
titre.gsub!(/ {2,}/,' ')\r
titre.gsub!(/\[.*?\]/,'')\r
titre.gsub!(/\(.*?\)/,'')\r
+ titre.gsub!(/\{.*?\}/,'')\r
+ #vire les espaces au début et à la fin\r
+ titre.strip!\r
+ \r
@titre = titre.dup\r
\r
donneesHtml = nil\r
begin\r
reponse, donneesHtml = connexionHttp.get("/recherche/?motcle=#{CGI::escape(titre)}")\r
- #si pas trouvé alors on enlève un mot à la fin\r
- if /.*?Pas de résultats.*?/ =~ donneesHtml\r
+ \r
+ #convertit le code latin-1 en UTF8\r
+ donneesHtml = donneesHtml.unpack("C*").pack("U*")\r
+ \r
+ #si pas trouvé alors on enlève un mot à la fin\r
+ if /.*?Pas de résultats.*?/ =~ donneesHtml\r
/(.*?)[^ ]+?$/ =~ titre.strip\r
titre = $1\r
titre.strip!\r
unless titre.nil? or titre.empty?\r
/<a href="\/film\/fichefilm_gen_cfilm=(\d+)\.html" class="link1">/ =~ donneesHtml\r
if $1\r
- r, ficheHtml = connexionHttp.get("/film/fichefilm_gen_cfilm=#{$1}.html") \r
+ r, ficheHtml = connexionHttp.get("/film/fichefilm_gen_cfilm=#{$1}.html") \r
+ \r
+ #convertit le code latin-1 en UTF8\r
+ ficheHtml = ficheHtml.unpack("C*").pack("U*")\r
+\r
+ #url\r
+ @url = "http://www.allocine.fr/film/fichefilm_gen_cfilm=#{$1}.html"\r
\r
# Titre\r
/<title>(.*?)<\/title>/ =~ ficheHtml\r
\r
puts "Movie found : #{@titre} (#{@fichier})"\r
\r
- # Année\r
- /<h4>Année de production : (\d+)<\/h4>/ =~ ficheHtml\r
- @annee = $1.to_i unless $1.nil? \r
+ # Année\r
+ /<h4>Année de production : (\d+)<\/h4>/ =~ ficheHtml\r
+ @annee = $1.to_i unless $1.nil?\r
+ \r
+ # Réalisateurs\r
+ /<h4>Réalisé par(.*?)<\/h4>/ =~ ficheHtml\r
+ $1.scan(/<a class="link1" href=".*?">(.*?)<\/a>/m){|a|\r
+ @realisateurs << Personne::ajouter(a[0]) unless a[0].nil?\r
+ } unless $1.nil?\r
\r
- # Réalisateurs\r
- /Réalisé par <a class="link1" href=".*?" target="">(.*?)<\/a>/ =~ ficheHtml\r
- @realisateurs << Personne::ajouter($1) unless $1.nil?\r
- \r
# Acteurs\r
- /Avec(.*)/ =~ ficheHtml\r
- $1.scan(/<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html" target="">(.+?)<\/a>/m){|a|\r
+ /<h4>Avec(.*?)<\/h4>/ =~ ficheHtml\r
+ $1.scan(/<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html">(.+?)<\/a>/m){|a|\r
@acteurs << Personne::ajouter(a[0]) unless a[0].nil? \r
- } unless $1.nil? \r
+ } unless $1.nil? \r
+ \r
\r
# Pays\r
- /^<h4>Film (.*?)\.<\/h4>/ =~ ficheHtml\r
+ /<h4>Film (.*?)\. <\/h4>/ =~ ficheHtml\r
$1.split(',').each{|pays|\r
@pays << Pays::ajouter(pays) unless pays.nil?\r
} unless $1.nil? \r
\r
# Duree\r
- /<h4>Durée : (\d+)h (\d+)min./ =~ ficheHtml\r
+ /<h4>Durée : (\d+)h (\d+)min./ =~ ficheHtml\r
@duree = $1.nil? ? $2.to_i : $1.to_i * 60 + $2.to_i\r
\r
# Critiques presse et spectateur\r
@critiqueSpectateur = $2.to_i unless $2.nil?\r
\r
# Genre\r
- /Genre : (.*)/ =~ ficheHtml\r
+ /<h4>Genre : (.*?)<\/h4>/ =~ ficheHtml\r
$1.scan(/<a href="\/film\/alaffiche_genre_gen_genre=.*?" class="link1">(.+?)<\/a>/m){|g|\r
@genres << Genre::ajouter(g[0]) unless g[0].nil?\r
} unless $1.nil? \r
self\r
end\r
\r
- def getXml \r
+ # Renvoie un film sous la forme d'un élément XML de type REXML\r
+ def getXml\r
racine = REXML::Element::new('film')\r
racine.add(REXML::Element::new('fichier').add_text(@fichier))\r
racine.add(REXML::Element::new('titre').add_text(@titre))\r
racine.add(REXML::Element::new('annee').add_text(@annee.to_s))\r
\r
+ realisateurs = REXML::Element::new('realisateurs') \r
@realisateurs.each{|r|\r
- racine.add(REXML::Element::new('realisateur').add_text(r.nom))\r
+ realisateurs.add(REXML::Element::new('realisateur').add_text(r.nom))\r
}\r
+ racine.add(realisateurs)\r
\r
+ acteurs = REXML::Element::new('acteurs') \r
@acteurs.each{|a|\r
- racine.add(REXML::Element::new('acteur').add_text(a.nom))\r
+ acteurs.add(REXML::Element::new('acteur').add_text(a.nom))\r
}\r
+ racine.add(acteurs) \r
+ \r
+ lespays = REXML::Element::new('lespays')\r
@pays.each{|p|\r
- racine.add(REXML::Element::new('pays').add_text(p.nom))\r
+ lespays.add(REXML::Element::new('pays').add_text(p.nom))\r
} \r
+ racine.add(lespays) \r
+ \r
racine.add(REXML::Element::new('duree').add_text(@duree.to_s))\r
\r
racine.add(REXML::Element::new('critiquePresse').add_text(@critiquePresse.to_s))\r
racine.add(REXML::Element::new('critiqueSpectateur').add_text(@critiqueSpectateur.to_s))\r
+ \r
+ genres = REXML::Element::new('genres')\r
@genres.each{|g|\r
- racine.add(REXML::Element::new('genre').add_text(g.nom))\r
+ genres.add(REXML::Element::new('genre').add_text(g.nom))\r
} \r
+ racine.add(genres) \r
+ \r
racine.add(REXML::Element::new('synopsis').add_text(@synopsis))\r
budgetElement = REXML::Element::new('budget')\r
budgetElement.add_text(@budget.to_s)\r
budgetElement.add_attribute('unite', @budgetUnite)\r
racine.add(budgetElement)\r
+ \r
+ racine.add(REXML::Element::new('url').add_text(@url))\r
\r
racine\r
end\r