ADD mise à jour de la liste des films
[pompage.git] / src / modules / allocine.rb
1 # coding: utf-8
2
3 require 'net/http'
4 require 'uri'
5 require 'cgi'
6 require 'thread'
7 require 'iconv'
8
9 require "basemodule.rb"
10
11 # doc : http://www.ruby-doc.org/stdlib/libdoc/net/http/rdoc/index.html
12 Net::HTTP.version_1_2
13
14 # hack : http://arosien.blogspot.com/2007/06/increasing-rubys-netbufferedio-buffer.html
15 module Net
16 class BufferedIO
17 def rbuf_fill
18 timeout(@read_timeout) { @rbuf << @io.sysread(32768) }
19 end
20 end
21 end
22
23 # Un module d'importation pour le site "www.allocine.fr".
24 class Allocine < Basemodule
25
26 def createConnexion
27 begin
28 @connexion = Net::HTTP::new('www.allocine.fr').start if @connexion == nil || !@connexion.started?
29 rescue
30 Puts "[!] Impossible de se connecter à Allocine. Retry.."
31 retry
32 end
33 end
34
35 def fermerConnexion
36 @connexion.finish if defined? @connexion && @connexion.started? # on admet qu'après un load on a plus besoin de la connexion
37 @connexion = nil
38 end
39
40 # Voir le parent.
41 def rechercherFilm(titre)
42 createConnexion
43
44 begin
45 reponse = nil
46 begin
47 reponse = @connexion.get("/recherche/?rub=1&motcle=#{CGI::escape(Iconv.iconv("ISO-8859-1", "UTF-8", titre)[0])}")
48 #reponse = @connexion.get("/recherche/?rub=1&motcle=#{CGI::escape(titre)}")
49 rescue Exception => e
50 p e
51 puts "[!] Erreur lors de la recherche du titre #{titre}, retry.."
52 fermerConnexion
53 createConnexion
54 retry
55 end
56
57 # convertit le code latin-1 en UTF8
58 html = Iconv.iconv("UTF-8", "ISO-8859-1", reponse.body)[0]
59
60 # si pas trouvé alors on enlève un mot à la fin
61 if /.*?Pas de résultats.*?/ =~ html || ! html.include?("<h3><b>Films <h4>")
62 /(.*?)[^ ]+?$/ =~ titre.strip
63 titre = $1
64 titre.strip!
65 else
66 break;
67 end
68 end while not titre.nil? and not titre.empty?
69
70 reponses = {}
71 unless titre.nil? or titre.empty?
72 r = html.scan(/<h4><a href="\/film\/fichefilm_gen_cfilm=(\d+)\.html".*?>(.*?)<\/a><\/h4>(?:<h5><a .*?>&nbsp;(.*?)<\/a><\/h5>)?(?:<div.*?><h4.*?>(\d*?){4}<\/h4><\/div>)?(?:<div.*?><h5.*?>de (.*?)<\/h5><\/div>)?(?:<div.*?><h5.*?>avec (.*?)<\/h5><\/div>)?/)
73 # f[0] : l'id allocine du film
74 # f[1] : nom
75 # f[2] : nom original
76 # f[3] : année
77 # f[4] : réalisateur
78 # f[5] : acteurs
79 r.each{|f|
80 reponses[f[1].virerBalisesHTML + (f[2] != nil ? " " + f[2].virerBalisesHTML : "") + (f[4] != nil ? " de " + f[4].virerBalisesHTML : "") + (f[5] != nil ? " avec " + f[5].virerBalisesHTML : "") + (f[3] != nil ? " (" + f[3].virerBalisesHTML + ")" : "")] = f[0]
81 }
82 end
83 reponses
84 end
85
86 # Voir le parent.
87 def load(id, film)
88 loadPath("/film/fichefilm_gen_cfilm=#{id}.html", film)
89 end
90
91 # Voir le parent.
92 def loadURL(url, film)
93 loadPath(URI.parse(url).path, film)
94 end
95
96 def loadPath(path, film)
97 createConnexion
98
99 html = nil
100 begin
101 html = @connexion.get(path).body
102 rescue Exception => e
103 p e
104 puts "[!] Erreur lors du chargement de #{film.fichiers[0]}, retry.."
105 fermerConnexion
106 createConnexion
107 retry
108 end
109
110 puts "Pompage de #{film.titre} (#{film.fichiers[0]}) ..."
111
112 # convertit le code latin-1 en UTF8
113 html = Iconv.iconv("UTF-8", "ISO-8859-1", html)[0]
114
115 # pompage de l'image dans un thread séparé
116 if take?("image") && ($force || !film.possedeImage?)
117 /<img src="(.*?)" border="0" alt="" class="affichette" \/>/ =~ html
118 unless $1.nil?
119 @threadImage = Thread::start($1){|imageUrl|
120 nbRetry = 0
121 begin
122 imageUrlParsed = URI.parse(imageUrl)
123 connexionImage = Net::HTTP::new(imageUrlParsed.host).start
124 film.setImage(connexionImage.get(imageUrlParsed.path).body)
125 connexionImage.finish
126 rescue Exception => e
127 puts e.message
128 puts e.backtrace
129 puts "[!] Erreur lors du chargement de l'image '#{imageUrl}', retry.."
130 retry if (nbRetry += 1) < 5
131 end
132 }
133 end
134 end
135
136 if take?("url") && ($force || film.url == nil)
137 #url
138 film.url = "http://www.allocine.fr" + path
139 end
140
141 if take?("titre")
142 # Titre
143 /<title>(.*?)<\/title>/ =~ html
144 film.titre = $1
145 end
146
147 if take?("annee") && ($force || film.annee == nil)
148 # Année
149 /<h4>Année de production : (\d+)<\/h4>/ =~ html
150 film.annee = $1 unless $1.nil?
151 end
152
153 if take?("realisateurs") && ($force || film.realisateurs.empty?)
154 # Réalisateurs
155 film.realisateurs.clear
156 /<h4>Réalisé par(.*?)<\/h4>/ =~ html
157 $1.scan(/\s*<a class="link1" href=".*?">(.*?)<\/a>\s*/m){|a|
158 film.realisateurs << Personne::ajouter(a[0]) unless a[0].nil?
159 } unless $1.nil?
160 end
161
162 if take?("acteurs") && ($force || film.acteurs.empty?)
163 # Acteurs
164 film.acteurs.clear
165 /<h4>Avec(.*?)<\/h4>/ =~ html
166 $1.scan(/\s*<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html">(.+?)<\/a>\s*/m){|a|
167 film.acteurs << Personne::ajouter(a[0]) unless a[0].nil?
168 } unless $1.nil?
169 end
170
171 if take?("pays") && ($force || film.pays.empty?)
172 # Pays
173 film.pays.clear
174 /<h4>Film (.*?)\.&nbsp;<\/h4>/ =~ html
175 $1.split(',').each{|pays|
176 film.pays << Pays::ajouter(pays.strip) unless pays.nil?
177 } unless $1.nil?
178 end
179
180 if take?("duree") && ($force || film.duree == nil)
181 # Duree (capture des heures et des minutes séparement vue que c'est le bordel sur allocine
182 /<h4>Durée :(?:.*?)(\d+)h/ =~ html
183 heure = $1.nil? ? 0 : $1.to_i
184 /<h4>Durée :(?:.*?)(\d+)min/ =~ html
185 min = $1.nil? ? 0 : $1.to_i
186 film.duree = heure * 60 + min
187 end
188
189 if take?("critiquenote") && ($force || film.critiquePresse == nil || film.critiqueSpectateur == nil)
190 # Critiques presse et spectateur
191 /Presse.*etoile_([012345]).*Spectateurs.*etoile_([012345])"/m =~ html
192 film.critiquePresse = $1 unless $1.nil?
193 film.critiqueSpectateur = $2 unless $2.nil?
194 end
195
196 if take?("genres") && ($force || film.genres.empty?)
197 # Genre
198 film.genres.clear
199 /<h4>Genre : (.*?)<\/h4>/ =~ html
200 $1.scan(/<a href="\/film\/alaffiche_genre_gen_genre=.*?" class="link1">(.+?)<\/a>/m){|g|
201 film.genres << Genre::ajouter(g[0]) unless g[0].nil?
202 } unless $1.nil?
203 end
204
205 if take?("synopsis") && ($force || film.synopsis == nil)
206 # Synopsis
207 /Synopsis.*?<h4>(.*?)<\/h4>/m =~ html
208 unless $1.nil?
209 film.synopsis = $1
210 film.synopsis.gsub!(/<br\s*\/>|<br\s*>/, "\n")
211 film.synopsis.virerBalisesHTML!
212 end
213 end
214
215 if take?("budget") && ($force || film.budget == nil)
216 # Budget
217 /Budget<\/b> : (.+?) millions d'euros<\/h4>/ =~ html
218 film.budget = $1 unless $1.nil?
219 end
220
221 fermerConnexion
222 end
223
224 def finish
225 # on attend que tous les threads de pompage d'image aient terminé
226 @threadImage.join if defined? @threadImage
227 end
228 end