Должен Латинской-1 использоваться кодировка UTF-8, Когда дело доходит до конфигурации базы данных?

Question

Дополнительно

Вопрос

Должен Латинской-1 использоваться кодировка UTF-8, Когда дело доходит до конфигурации базы данных?

Мы используем MySQL в компании, где я работаю, и мы строим оба клиентских и внутренних приложений с использованием Ruby на Rails.

Когда я начал работать здесь, я столкнулся с проблемой, что мне раньше не приходилось встречаться; базы данных на рабочем сервере установлен на латыни-1, Что означает, что MySQL камень бросает исключение, когда нет пользовательского ввода, в котором пользователь копирует & вставляет символы UTF-8.

Мой босс называет эти-то "плохих" и поскольку большинство из них непечатные символы, и говорит, что мы должны лишить их. Я'вэ нашел несколько способов сделать это, но в конце концов, мы'вэ оказались в ситуации, когда в UTF-8 символ был нужен. Плюс он'ы немного хлопот, тем более что это, кажется, единственное решение, которое я когда-либо читал про эту проблему, просто выберите базу данных в UTF-8 (для меня).

Единственный аргумент, что я'вэ слышал для наклеивания с Latin-1, что позволяет непечатные символы UTF-8, может испортить текст/полнотекстовый поиск в MySQL. Неужели это правда?

Есть и другие причины следует использовать латинские-1 за кодировки UTF-8? Это's в моем понимании, что это отличный и становится все более популярным.

djechlin

Редактировал вопрос 2-го февраля 2015 в 3:23

Программная Инженерия

ruby-on-rails

database

mysql

ascii

utf-8

Решение / Ответ

LSerni

30-го января 2015 в 9:48

Дополнительно

кто из нас прав?

Давным-давно, твой босс. Но время идет, все меняется. В настоящее время, вы (но перед запуском своего босса, обязательно прочтите Нельсон'ы ответ тоже).

Старые версии MySQL, и старые версии почти все, нанесен намного лучше с старых латинских типа 1/ИСО-8859-1(5), чем в utf8.

Есть причина, почему кодировке utf8 была создана, развивалась, и толкнул в основном везде: если правильно реализован, работает он намного лучше. Есть некоторые проблемы с производительностью и хранения связано с тем, что в латинских типа 1 символ-8 бит, в то время как символ utf8 может быть от 8 до 32 бит. Поэтому при планировании типа varchar вы должны учитывать это. И ваши поисковые процедуры будет немного медленнее. Они будут иметь возможность делать другие вещи (например, поиск с чувствительность акцентом или без. Может'т сделать те, в latin1 без большой работы), но они будут занять немного больше времени.

Но с другой стороны, хранение на складе дешевые, в реалистичные накладные на размеры файлов меньше чем на 2-3%, вычислительные мощности тоже дешевые и дешевеют в хорошем согласии с Мур'ы права; в то же время время и ваши клиенты' ожидания наверняка не'т.

Возможно, вам придется беспокоиться за средства поиска и др. если вы развивать такие инструменты. Но вы, наверное, не'т. Вы использовать инструменты; даже те, которые были не полностью в кодировке utf8. вчера (как раньше MySQLs там'т), сегодня, или скоро будет (например, MySQL с поддержкой utf8mb4).

Поэтому путем тщательного планирования и реализации кодировке utf8 правильный путь (не хлопая его по latin1 как спохватившись) вы можете иметь код, который очень разумно будущее, что, если вы планируете когда-нибудь делать бизнес с любой азиатской стране, это очень хорошая вещь. И если у вас нет таких планов, других людей будет, и эти люди могут быть вашими клиентами, поставщиками или партнерами.

Поэтому, когда они начнут отправлять данные в utf8, вы'придется создать сложную штуковину, чтобы преобразовать в и от latin1, и дело с неразрешимыми дела.

Когда вы фактор в бюджете стоимости нескольких стычек с злой mojibake ниндзя, и считаем, что они не собираются уходить - как вы уже обнаружили, - то вы'МР понять, что происходит utf8 является не только проще, это's будет дешевле*, а также.

LSerni

Редактировал ответ 31-го января 2015 в 10:40

49

0

AnrDaemon

2-го февраля 2015 в 4:20

Дополнительно

Чтобы начать с ответа, это вовсе'т имеет значения, как ваш сервера настроен. Кодировка в MySQL может быть настроен для каждого столбца (т. е. за одним столом могли удержать символов в различных кодировках, простой). Т. е. мой сервер (и ряд устаревших баз данных) настроен для работы в кодировке cp1251 по умолчанию для старых клиентов, которые не в состоянии установить правильные параметры сортировки при подключении (различных аппаратных клиентов), но основной базы данных в производстве используют кодировку UTF-8.

Говоря о "и неиспользуемого пространства на" Вы можете'т реально важные данные отходы, можно? Хранения увеличить пространство, однако, будет отличаться в зависимости от языка вашего данных. От незначительного (менее 1%) рост, если ваш сайт в основном на английском языке до 100%, если это mailny используя символы вне диапазона ASCII. И даже больше, если вы двигаться выше Востока. Позже в UTF-8 (так называемый UTF8mb4) технические характеристики позволяют до 4 байт на символ.

И чтобы "Кто'право и quot С&;... правда, это социальный вопрос больше технический. Там могут быть веские причины для конкретного сервера, но вы должны знать последствия. Но если вы спросите меня, там's нет причин, чтобы не использовать UTF-8. Это's одна разновидность править все тексты в мире.

3

0

Похожие сообщества 14

DBA - русскоговорящее сообщество

3 816 пользователей

Общаемся и обсуждаем темы, посвященные DBA, PostgreSQL, Redis, MongoDB, MySQL, neo4j, riak и т.д. См. также: @devops_ru, @kubernetes_ru, @docker_ru, @nodejs_ru Рекомендуем сразу отключить уведомления, чтобы пребывание здесь было полезным и комфортным.

Открыть telegram

MySQL

3 129 пользователей

English group: @mysql_en Группа о СУБД MySQL. Правила: https://t.me/mysql_db/68226 Часто задаваемые вопросы: https://git.io/fjLbO Админы: @smlkw @MasterZiv @Gr3ga

Открыть telegram

SQL JOBS

2 697 пользователей

Обязательны: компания, город, позиция, вилка, наличие удалёнки, требования, контакты. Бан за рекламу, сексизм, расизм и неадекватный обсёр объявлений

Открыть telegram

Чат по Руби

2 378 пользователей

Чат-болталка для учеников руби-школы и не только. Сайт школы: https://rubyschool.us Правила: https://telegra.ph/Pravila-chata-Rubi-shkoly-06-10 или тут https://graph.org/Pravila-chata-Rubi-shkoly-06-10

Открыть telegram

RubyRush.ru

2 244 пользователей

Дружелюбный чат для начинающих программистов и учеников rubyrush.ru, обсуждаем программирование, ruby и т. п. Правила чата https://telegra.ph/22-09-05-3 Популярные вопросы (с ответами) https://telegra.ph/22-09-17-4 💎🦜 (уроки: https://rubyrush.ru/steps)

Открыть telegram

ru_mysql

1 476 пользователей

По-русски о MySQL/Percona/MariaDB. Новостной канал: https://t.me/ru_mysql_ch /report в ответ на спам сообщение Используйте https://0bin.net вместо простыней кода

Открыть telegram

Добавить вопрос

Категории

Все

Технологий

Культура / Отдых

Жизнь / Искусство

Наука

Профессии

Бизнес

Пользователи

1

Зарегистрирован 2 недели назад

2

Артур «Апер»

Зарегистрирован 1 месяц назад

3

Viktor Malyutin

Зарегистрирован 2 месяца назад

4

Viktor Malyutin

Зарегистрирован 2 месяца назад

5

Syahputra Zhedenk

Зарегистрирован 2 месяца назад

Хотите что-то узнать? Задавайте Ваш вопрос на нашем сайте

ru.kzen.dev

amon · Accepted Answer · 2015-01-30T21:54:18+00:00

Юникод-это конечно сложно, и кодировка UTF-8 имеет несколько неудобных свойств. Однако, в UTF-8 стало де-факто стандартом кодирования в интернете, превзойдя в ASCII, Latin-1, в, UCS-2 и UTF-16. Просто использовать UTF-8 везде](http://utf8everywhere.org/).

Самая важная причина, почему вы должны поддерживать Юникод, что вы должны'т делать лишних предположений о входных данных пользователя. Я понятия не имею, что ваш домен, но такие вещи, как древнееврейские имена, блог о Китае, комментарии, смайлики, или просто хорошо оформленный текст – как “это” – должно быть можно... О, это были типографским способом правильные кавычки (“” а не в "" в), Ан-широкое тире, и многоточие, в котором работают герои, которые являются общими в английском тексте, но не поддерживается в кодировке ASCII или Latin-1. Так что не поддерживая другие скрипты это'Т просто большой F*ck вы к другим культурам, но торчит в Латинской-1 Не'т даже позволяют писать на правильном английском.

Понятие, что только Юникод позволяет “плохие символы” - это неправильно. Да, текст действительно сложный, и выиграл Юникода'т скрыть это от вас. Ваш босс может думать о составе персонажами, где одну базу кода, например, A изменяется на последующих кодов, что, например, представляют диакритические знаки образуют один визуальный символ, например á. Это не'т реально получить в вашем пути, когда пытаюсь сделать поиск, если вас какой-то нормализации. Например, вы могли бы хранить весь текст в виде NFC, который рушится таких композиций в составной форме, если таковая имеется. Когда делаешь поиск, вы также можете вырезать все сочинения символы из текста, но это может существенно изменить свое значение в некоторых языках.

Юникод также добавляет много непечатаемых символов – но даже в ASCII имеет множество из них. Будете ли вы обращаться в нуль в середине строки? Как насчет 0x1C, “файл сепаратор”? Я've никогда не видел половина этих. Латинский-1 добавляет мягкий дефис, что означает слово разбить возможностей, но невидимы. Это также сломать вашу полнотекстового поиска? Другими словами, даже ASCII и Latin-1, в позволит вам полностью нарушить ваш вклад, если вы предполагаете, что это's все просто печатный текст!