Articles of utf 8

Utilizzo di PDFBox per scrivere stringhe con codifica UTF-8 in un PDF

Ho problemi a scrivere caratteri Unicode su un PDF usando PDFBox. Ecco alcuni esempi di codice che generano caratteri illeggibili invece di emettere “š”. Cosa posso aggiungere per ottenere supporto per le stringhe UTF-8? PDDocument document = new PDDocument(); PDPage page = new PDPage(); document.addPage(page); PDPageContentStream contentStream = new PDPageContentStream(document, page); PDType1Font font = PDType1Font.HELVETICA; […]

Come creare python 3 print () utf8

Come posso fare python 3 (3.1) print(“Some text”) su stdout in UTF-8, o come esportare i byte grezzi? Test.py TestText = “Test – āĀēĒčČ..šŠūŪžŽ” # this is UTF-8 TestText2 = b”Test2 – \xc4\x81\xc4\x80\xc4\x93\xc4\x92\xc4\x8d\xc4\x8c..\xc5\xa1\xc5\xa0\xc5\xab\xc5\xaa\xc5\xbe\xc5\xbd” # just bytes print(sys.getdefaultencoding()) print(sys.stdout.encoding) print(TestText) print(TestText.encode(“utf8”)) print(TestText.encode(“cp1252″,”replace”)) print(TestText2) Uscita (in CP1257 e I caratteri sostituiti in valori byte [x00] ): utf-8 […]

Come correggo la codifica dei caratteri di un file?

Ho un file di testo con codifica ANSI che non dovrebbe essere codificato come ANSI in quanto vi erano caratteri accentati che ANSI non supporta. Preferirei lavorare con UTF-8. I dati possono essere decodificati correttamente o si perdono nella transcodifica? Quali strumenti potrei usare? Ecco un esempio di ciò che ho: ç é Posso dire […]

Indovinare la codifica del testo rappresentato come byte in Java

Data una serie di byte che rappresentano il testo in alcune codifiche sconosciute (in genere UTF-8 o ISO-8859-1, ma non necessariamente), qual è il modo migliore per ottenere un’ipotesi per la codifica più probabile utilizzata (in Java)? Vale la pena notare: Non sono disponibili ulteriori metadati. L’array di byte è letteralmente l’unico input disponibile. L’algoritmo […]

come leggere i dati in formato utf-8 in R?

Il mio sistema: win7 + R-3.0.2. > Sys.getlocale() [1] “LC_COLLATE=Chinese (Simplified)_People’s Republic of China.936;LC_CTYPE=Chinese (Simplified)_People’s Republic of China.936;LC_MONETARY=Chinese (Simplified)_People’s republic of China.936;LC_NUMERIC=C;LC_TIME=Chinese (Simplified)_People’s Republic of China.936” Ci sono due file con lo stesso contenuto salvati nel blocco note di Microsoft: uno viene salvato come formato ansi, l’altro viene salvato come formato utf8. I dati sono […]

Rimozione di “utf8 = ✓” dall’invio di moduli di Rails 3

Ho un semplice modulo di ricerca nella mia app Rails 3: “get” do %> nil %> Quando l’utente preme il pulsante di invio, viene indirizzato all’URL: http://myapp.com/search?utf8=%E2%9C%93&q=foobar (dove %E2%9C%93 viene visualizzato come segno di spunta: ✓ ). Non sto facendo nulla con il parametro utf8 , quindi voglio mantenere pulito l’URL rimuovendolo interamente. Cioè, voglio […]

Javascript: stringa Unicode in esadecimale

Sto provando a convertire una stringa unicode in una rappresentazione esadecimale in javascript. Questo è quello che ho: function convertFromHex(hex) { var hex = hex.toString();//force conversion var str = ”; for (var i = 0; i < hex.length; i += 2) str += String.fromCharCode(parseInt(hex.substr(i, 2), 16)); return str; } function convertToHex(str) { var hex = […]

Ruby 1.9: come posso aggiornare e downcase correttamente le stringhe multibyte?

Quindi matz ha preso la decisione di mantenere il upcase e il downcase limitati a /[AZ]/i in ruby ​​1.9.1. ActiveSupport::Multibyte ha avuto a lungo un ottimo jiggering di case i18n in ruby ​​1.8.x tramite String#mb_chars . Tuttavia, se provato con il ruby 1.9.1, non sembra funzionare. Ecco un semplice script di test che ho scritto, […]

Come rimuovere gli accenti in MySQL?

Ho appena compilato un database di 1 milione di nomi di luoghi. Lo userò in un widget di completamento automatico per cercare città. Molti di questi luoghi hanno accenti … Voglio poter trovare i record quando un utente digita il nome senza accento. Per fare questo, ho una seconda colonna con una copia non accentata […]

request.getQueryString () sembra aver bisogno di qualche codifica

Ho qualche problema con UTF-8. Il mio cliente (realizzato in GWT) effettua una richiesta al mio servlet, con alcuni parametri nell’URL, come segue: http://localhost:8080/servlet?param=value Quando nel servlet recupero l’URL, ho qualche problema con i caratteri UTF-8. Io uso questo codice: protected void service(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { request.setCharacterEncoding(“UTF-8”); String reqUrl = request.getRequestURL().toString(); […]