ADD Ajout de la possibilité de mettre à jour des champs de la bd
[pompage.git] / src / modules / allocine.rb
1 # coding: utf-8
2
3 require 'net/http'
4 require 'uri'
5 require 'cgi'
6 require 'thread'
7 require 'iconv'
8
9 require "basemodule.rb"
10
11 # doc : http://www.ruby-doc.org/stdlib/libdoc/net/http/rdoc/index.html
12 Net::HTTP.version_1_2
13
14 # hack : http://arosien.blogspot.com/2007/06/increasing-rubys-netbufferedio-buffer.html
15 module Net
16 class BufferedIO
17 def rbuf_fill
18 timeout(@read_timeout) { @rbuf << @io.sysread(32768) }
19 end
20 end
21 end
22
23 # un module d'importation pour le site "www.allocine.fr"
24 class Allocine < Basemodule
25
26 def createConnexion
27 begin
28 @connexion = Net::HTTP::new('www.allocine.fr').start if @connexion == nil || !@connexion.started?
29 rescue
30 Puts "[!] Impossible de se connecter à Allocine. Retry.."
31 retry
32 end
33 end
34
35 def fermerConnexion
36 @connexion.finish if defined? @connexion && @connexion.started? # on admet qu'après un load on a plus besoin de la connexion
37 @connexion = nil
38 end
39
40 # voir le parent.
41 def rechercherFilm(titre)
42 createConnexion
43
44 begin
45 reponse = nil
46 begin
47 reponse = @connexion.get("/recherche/?rub=1&motcle=#{CGI::escape(Iconv.iconv("ISO-8859-1", "UTF-8", titre)[0])}")
48 rescue Exception => e
49 p e
50 puts "[!] Erreur lors de la recherche du titre #{titre}, retry.."
51 fermerConnexion
52 createConnexion
53 retry
54 end
55
56 # convertit le code latin-1 en UTF8
57 html = Iconv.iconv("UTF-8", "ISO-8859-1", reponse.body)[0]
58
59 # si pas trouvé alors on enlève un mot à la fin
60 if /.*?Pas de résultats.*?/ =~ html || ! html.include?("<h3><b>Films <h4>")
61 /(.*?)[^ ]+?$/ =~ titre.strip
62 titre = $1
63 titre.strip!
64 else
65 break;
66 end
67 end while not titre.nil? and not titre.empty?
68
69 reponses = {}
70 unless titre.nil? or titre.empty?
71 r = html.scan(/<a href="\/film\/fichefilm_gen_cfilm=(\d+)\.html" class="link1">(.*?)<\/a>(?:<\/h4><h5 style="color: #666666">&nbsp;(.*?)<\/h5>){0,1}(?:<h4><br \/><\/h4>){0,1}(?:<h4 style="color: #666666"> de (.*?)<\/h4>){0,1}(?:<h4 style="color: #666666">&nbsp;avec (.*?)<\/h4>){0,1}(?:<h4 style="color: #666666">&nbsp;\((.*?)\)<\/h4>){0,1}/)
72
73 r.each{|f|
74 reponses[f[1].virerBalisesHTML + (f[2] != nil ? " " + f[2].virerBalisesHTML : "") + (f[3] != nil ? " de " + f[3].virerBalisesHTML : "") + (f[4] != nil ? " avec " + f[4].virerBalisesHTML : "") + (f[5] != nil ? " (" + f[5].virerBalisesHTML + ")" : "")] = f[0]
75 }
76 end
77 reponses
78 end
79
80 # Voir le parent.
81 def load(id, film)
82 loadPath("/film/fichefilm_gen_cfilm=#{id}.html")
83 end
84
85 def loadURL(url, film)
86 loadPath(URI.parse(url).path, film)
87 end
88
89 # Voir le parent.
90 def loadPath(path, film)
91 createConnexion
92
93 html = nil
94 begin
95 html = @connexion.get(path).body
96 rescue Exception => e
97 p e
98 puts "[!] Erreur lors du chargement de #{film.fichiers[0]}, retry.."
99 fermerConnexion
100 createConnexion
101 retry
102 end
103
104 puts "Pompage de #{film.titre} (#{film.fichiers[0]}) ..."
105
106 #convertit le code latin-1 en UTF8
107 html = Iconv.iconv("UTF-8", "ISO-8859-1", html)[0]
108
109 if take?("image")
110 /<img src="(.*?)" border="0" alt="" class="affichette" \/>/ =~ html
111 unless $1.nil?
112 @threadImage = Thread::start($1){|imageUrl|
113 nbRetry = 0
114 begin
115 imageUrlParsed = URI.parse(imageUrl)
116 connexionImage = Net::HTTP::new(imageUrlParsed.host).start
117 image = connexionImage.get(imageUrlParsed.path).body
118 f = File::new($repBase + "/" + $repAffichette + film.id.to_s + ".jpg", 'w').binmode
119 f.write(image)
120 f.close
121 connexionImage.finish
122 rescue Exception => e
123 puts e.message
124 puts e.backtrace
125 puts "[!] Erreur lors du chargement de l'image '#{imageUrl}', retry.."
126 retry if (nbRetry += 1) < 5
127 end
128 }
129 end
130 end
131
132 #url
133 if take?("url")
134 film.url = "http://www.allocine.fr" + path
135 end
136
137 if take?("titre")
138 # Titre
139 /<title>(.*?)<\/title>/ =~ html
140 film.titre = $1 unless $1.nil?
141 end
142
143 if take?("annee")
144 # Année
145 /<h4>Année de production : (\d+)<\/h4>/ =~ html
146 film.annee = $1 unless $1.nil?
147 end
148
149 if take?("realisateurs")
150 # Réalisateurs
151 film.realisateurs.clear
152 /<h4>Réalisé par(.*?)<\/h4>/ =~ html
153 $1.scan(/\s*<a class="link1" href=".*?">(.*?)<\/a>\s*/m){|a|
154 film.realisateurs << Personne::ajouter(a[0]) unless a[0].nil?
155 } unless $1.nil?
156 end
157
158 if take?("acteurs")
159 # Acteurs
160 film.acteurs.clear
161 /<h4>Avec(.*?)<\/h4>/ =~ html
162 $1.scan(/\s*<a class="link1" href="\/personne\/fichepersonne_gen_cpersonne=\d+\.html">(.+?)<\/a>\s*/m){|a|
163 film.acteurs << Personne::ajouter(a[0]) unless a[0].nil?
164 } unless $1.nil?
165 end
166
167 if take?("pays")
168 # Pays
169 film.pays.clear
170 /<h4>Film (.*?)\.&nbsp;<\/h4>/ =~ html
171 $1.split(',').each{|pays|
172 film.pays << Pays::ajouter(pays) unless pays.nil?
173 } unless $1.nil?
174 end
175
176 if take?("duree")
177 # Duree (capture des heures et des minutes séparement vue que c'est le bordel sur allocine
178 /<h4>Durée :(?:.*?)(\d+)h/ =~ html
179 heure = $1.nil? ? 0 : $1.to_i
180 /<h4>Durée :(?:.*?)(\d+)min/ =~ html
181 min = $1.nil? ? 0 : $1.to_i
182 film.duree = heure * 60 + min
183 end
184
185 if take?("critiquenote")
186 # Critiques presse et spectateur
187 /Presse.*etoile_([012345]).*Spectateurs.*etoile_([012345])"/m =~ html
188 film.critiquePresse = $1 unless $1.nil?
189 film.critiqueSpectateur = $2 unless $2.nil?
190 end
191
192 if take?("genre")
193 # Genre
194 film.genres.clear
195 /<h4>Genre : (.*?)<\/h4>/ =~ html
196 $1.scan(/<a href="\/film\/alaffiche_genre_gen_genre=.*?" class="link1">(.+?)<\/a>/m){|g|
197 film.genres << Genre::ajouter(g[0]) unless g[0].nil?
198 } unless $1.nil?
199 end
200
201 if take?("synopsis")
202 # Synopsis
203 /Synopsis.*?<h4>(.*?)<\/h4>/m =~ html
204 unless $1.nil?
205 film.synopsis = $1
206 film.synopsis.gsub!(/<br\s*\/>|<br\s*>/, "\n")
207 film.synopsis.virerBalisesHTML!
208 end
209 end
210
211 if take?("budget")
212 # Budget
213 /Budget<\/b> : (.+?) millions d'euros<\/h4>/ =~ html
214 film.budget = $1 unless $1.nil?
215 end
216
217 fermerConnexion
218 end
219
220 def finish
221 @threadImage.join if defined? @threadImage
222 end
223 end