Ik heb een Java applicatie gemaakt die éérst informatie moet ophalen van een website, en hier vervolgens regex methodes op uitvoert. Dit werkt nu allemaal naar behoren, maar ik heb nog één laatste probleem. Alle tekens zoals ’ op de pagina worden omgezet naar ’. Nu heeft dit waarschijnlijk met de Charset te maken, maar als de request header naar ISO-8859-1 zet, maakt dit geen verschil uit. UTF-8 geeft voor mij vrij rare resultaten terug. Zelf ben ik niet erg bekend in de charsets, en ik snap ook eigenlijk niet waarom dit gebeurt in Java.
Weet iemand dus hoe ik kan zorgen dat een ’ een ’ blijft, en dus niet een ’ wordt? Ik kan hier moeilijk een regex patroon op uitvoeren, aangezien er meerdere tekens zijn die zo vervormd worden
Beste GTAForum'ers,
Ik heb een Java applicatie gemaakt die éérst informatie moet ophalen van een website, en hier vervolgens regex methodes op uitvoert. Dit werkt nu allemaal naar behoren, maar ik heb nog één laatste probleem. Alle tekens zoals ’ op de pagina worden omgezet naar ’. Nu heeft dit waarschijnlijk met de Charset te maken, maar als de request header naar ISO-8859-1 zet, maakt dit geen verschil uit. UTF-8 geeft voor mij vrij rare resultaten terug. Zelf ben ik niet erg bekend in de charsets, en ik snap ook eigenlijk niet waarom dit gebeurt in Java.
Weet iemand dus hoe ik kan zorgen dat een ’ een ’ blijft, en dus niet een ’ wordt? Ik kan hier moeilijk een regex patroon op uitvoeren, aangezien er meerdere tekens zijn die zo vervormd worden
Bewerkt: door Maikle