Articles of unicode

In che modo Java memorizza i caratteri UTF-16 nel suo tipo di char a 16 bit?

Secondo la specifica Java SE 7 , Java utilizza lo standard Unicode UTF-16 per rappresentare i caratteri. Quando immagina una String come una semplice matrice di variabili a 16 bit ciascuna contenente un carattere, la vita è semplice. Sfortunatamente, ci sono punti di codice per i quali 16 bit semplicemente non sono sufficienti (credo fosse […]

Nokogiri, open-uri e caratteri Unicode

Sto usando Nokogiri e open-uri per afferrare il contenuto del tag del titolo su una pagina web, ma sto avendo problemi con i caratteri accentati. Qual è il modo migliore per affrontarli? Ecco cosa sto facendo: require ‘open-uri’ require ‘nokogiri’ doc = Nokogiri::HTML(open(link)) title = doc.at_css(“title”) A questo punto, il titolo assomiglia a questo: Rag […]

File.listFiles () modifica i nomi unicode con JDK 6 (problemi di normalizzazione Unicode)

Sto lottando con uno strano problema di codifica dei nomi dei file quando elenchi il contenuto delle directory in Java 6 su entrambi OS X e Linux: i File.listFiles() e i metodi correlati sembrano restituire nomi di file in una codifica diversa rispetto al resto del sistema. Si noti che non è solo la visualizzazione […]

Convertire UTF-16 in UTF-8 in Windows e Linux, in C

Mi chiedevo se esiste un metodo “cross” Windows e Linux consigliato allo scopo di convertire stringhe da UTF-16LE a UTF-8? o si dovrebbero usare metodi diversi per ogni ambiente? Sono riuscito a fare qualche riferimento a google su “iconv”, ma per il sommoson non riesco a trovare esempi di conversioni di base, come ad esempio […]

Conversione di punycode con carattere di trattino in Unicode

Ho bisogno di convertire il punycode NIATO-OTABD in nñiñatoñ . Ho trovato un convertitore di testo in JavaScript l’altro giorno, ma la conversione di punycode non funziona se c’è un trattino nel mezzo. Qualche suggerimento per risolvere il problema del “trattino”?

Un carattere di fine riga unicode (\ u000d) in Java

Vediamo il seguente frammento di codice in Java. public class Main { public static void main(String[] args) { // new Character(‘ \u000d System.out.println(“Hello”); } } Nel codice precedente, sebbene l’unica linea nel metodo main() sia commentata, mostra l’output Hello sulla console, anche se sembra che questa riga commentata contenga alcuni errori di syntax. Se questa […]

Creazione del carattere Unicode dal suo numero

Voglio visualizzare un carattere Unicode in Java. Se lo faccio, funziona bene: String symbol = “\u2202″; il simbolo è uguale a “∂”. È quello che voglio. Il problema è che conosco il numero Unicode e ho bisogno di creare il simbolo Unicode da quello. Ho provato (per me) la cosa ovvia: int c = 2202; […]

Nomi di variabili Java Unicode

Sono entrato in una discussione interessante in un forum in cui abbiamo discusso la denominazione delle variabili. Convenzioni a parte, ho notato che è legale per una variabile avere il nome di un carattere Unicode, ad esempio il seguente è legale: int \u1234; Tuttavia, se per esempio gli ho dato il nome #, produce un […]

come usare il carattere cinese e giapponese come stringa in java?

Ciao Sto usando il linguaggio java. In questo devo usare un carattere cinese, giapponese come stringa e stampare usando System.out.println (). Come lo posso fare? Grazie

TSQL md5 hash diverso da C # .NET md5

Ho generato un hash MD5 come di seguito: DECLARE @varchar varchar(400) SET @varchar = ‘è’ SELECT CONVERT(VARCHAR(2000), HASHBYTES( ‘MD5’, @varchar ), 2) Quali uscite: 785D512BE4316D578E6650613B45E934 Tuttavia generando un hash MD5 usando: System.Text.Encoding.UTF8.GetBytes(“è”) genera: 0a35e149dbbb2d10d744bf675c7744b1 La codifica nel metodo C # .NET è impostata su UTF8 e ho pensato che varchar fosse anche UTF8, qualche idea […]