Ik loste deze manier op:
String url = ("http://www.repubblica.it/economia/finanza/2011/10/27/news/la_fine_dell_incertezza_solleva_le_azioni_bancarie_in_borsa_alle_italiane_mancano_15_miliardi_di_capitale_met_di_unicredit-23967707/");
Document doc = Jsoup.parse(new URL(url), 2000);
Elements body = doc.select("body");
String s=body.text();
System.out.println(s);
Ik heb nog steeds een ander probleem. Ik wil alleen de hoofdtekst zonder een titel. Wie kan me helpen?
Ik heb een algoritme nodig dat de tekst van websites haalt. Ik wil dat deze tekst schoon is van de tags, klassen, etc. en ik wil dat dit algoritme op elke webpagina kan worden toegepast.
For example for this page
Ik heb de hoofdtekst nodig:
MILANO - Il tanto atteso responso sui fabbisogni di patrimonio delle
maggiori banche europee è arrivato. L'Eba (l'Autorità di controllo
bancaria europea) ha stabilito la necessità, entro giugno 2012, di
ricapitalizzare per ben 106,5 miliardi di euro per i 30 gruppi europei
più importanti. Sui 70 gruppi considerati, invece, il deficit
patrimoniale è di 160 miliard ...............
For this page
Ik heb de hoofdtekst nodig:
TORINO - Effetto Chrysler sui conti Fiat. Il Lingotto archivia il
terzo trimestre con utili in crescita a 17,6 miliardi (8,4 nello
stesso trimestre 2010). Più che triplicato l'utile della gestione
ordinaria che passa da 256 a 851 milioni. Due terzi arrivano da
Detroit che ................
Bedankt