1.В китайском языке существует 2 вида запятых: один вид разделяет однородные члены предложения, а другой используетя в остальных случаях. Приэтом следует заметить, что пробелов между словами в китайском языке нет , поэтому человек, не знающий языка, не сможе определить, где заканчивается одно слово и начинается другое;

2. Письменность китайского языка насчитывает более 40 000 иероглифов ;

3. В Китае насчитывается от 5 до 12 диалектных групп , разница между ними сильнее, чем, например, разница между русским, украиским и белорусским языками: жители Шахая, Фучжоу, Сямэня и Гуанчжоу, общаясь на своих диалектах, практически не поймут дуг друга. При этом, несмотря на такое разнообразие диалектов, письменность во ВСЕХ районах Китая ОДНА;

4. Существующий в транскрипции китайского языка звук "r" совсем не похож на русский "р", при транслитерации на русский язык он передается звуком "ж": например, название самой известной газеты КНР renmin ribao известно на русском как "Жэнминь Жибао ";

5. Если точно передать китайскими иероглифами название напитка «кока-кола», то получится фраза «кусай воскового головастика ». Маркетологам компании кока-кола ничего не оставалось, как изменить название на «ко-ку-ко-ле », что в переводе с китайского языка означает «полный рот счастья»;

6. Одно слово в китайском языке может иметь несколько десятков значений в зависимости от интонации, с которой оно произносится. Так слово «чианг» может означать «должен», «командовать», «генерал», «река», «соевый соус», «механик», «ронять», «спускаться» или «окружать»;

7. Территория Китая составляет 9 596 960 кв. км. Это четвертая по площади страна мира. Крупнейшие города Китая - Шанхай и Пекин. В Китае также находится самая большая площадь в мире - площадь Тянанмэнь ;

8. 56-летний житель г. Шанхай подал в суд на издателей самого популярного толкового словаря китайского языка «синьхуа цзыдянь». Истец заявляет, что нашел в словаре 4 000 ошибок;

9. В Китае действует государственная программа поддержки китайского языка «мост китайского языка», в рамках которой в мире уже открыто 322 китайских языковых центра «институт Конфуция» и 369 классов Конфуция. В перспективе(на 2020) таких центров должно стать 1000;

10. В переводе евангелия на китайский язык фраза «вначале было слово» звучит как «вначале было дао», а «я - хлеб жизни» как «я - рис жизни». Перевод православного нового завета на китайский язык был завершен архимандритом Гурием (Карповым) в 1864 году. В настоящий момент сохранился только один экземпляр этой книги;

11. Во время олимпийских игр 2008 все надписи и указатели в Пекине были переведены с китайского языка на английский. В результате появились такие перлы, как «racist park» («парк расизма») вместо «парк национальных меньшинств», табличка «в мирное время не входить» на аварийном выходе из здания и надпись «остерегайся проточной воды», запрещающая купание в одном из городских прудов;

12. Большая часть из 4100 китайских фамилий пишутся одним иероглифом.

Преимущества введения пробелов при письме на китайском языке

1. Улучшится читабельность: Добавление границ слов снижает когнитивную нагрузку при чтении текста на китайском языке. Если текст написан без пробелов, читающему нужно анализировать, где слова начинаются и заканчиваются, в то же время стремясь понять смысл текста, усложняя, таким образом, и без того непростую задачу.

2. Более точная машинная обработка текстов, написанных на китайском языке: перед началом такой обработки китайского текста необходимо сначала сегментировать текст. Это нелегкая задача при обработке языков, использующих иероглифическую письменость. Есть быстрые методы машинной обработки, которые не очень точны (~ 90%) , и есть медленные методы, которые являются более точными (~ 94-97%), но ни один метод не является совершенным.
Если бы в китайском письме были пробелы между словами, то отпала бы необходимость в сегментировании, и машинная обработка китайского текста стала бы намного проще. В результате, значительно упростится и задача по переводу с китайского языка.

3. Облегчение изучения китайского языка для студентов: пробелы между словами упрощают понимание слов и предложений. Когда я только начал изучать китайский язык, я потратил немало времени на поиск в словаре несуществующих слов, потому что отсутствие пробелов между словами мешало понять границы слов в китайском языке. Введение пробелов между словами позволило бы изучающим китайский язык быстрее и эффективнее нарабатывать словарный запас.

Почему в китайском тексте не нужны пробелы между словами?

1. Что такое слово? Понятие «слова» в китайском языке довольно размыто. Где слово начинается и заканчивается? Простой вопрос для носителя русского языка (и любого другого языка, имеющего в основе алфавит) способен поставить в тупик носителя китайского языка. Например, считать ли частью слова частицу 了, указывающую на прошедшее время?
Например, в предложении 小刘来了 где поставить пробел – 小刘_来了 или 小刘来_了?Для самих носителей китайского языка, не привыкших читать тексты с пробелами между словами, введение пробелов только усложнит понимание письменного языка.

2. Традиция: китайская письменность существует более 3000 лет, и за это время пробелы между словами не вводились. Зачем вводить их сейчас?

3. Китайский текст выглядит красивее без пробелов между словами. Введение пробелов облегчило бы понимание изучающим китайский, но никто не станет приспосабливать систему языка для удобства тех, кто его только изучает.

P.S. 1. В древних европейских текстах также не было пробелов между словами.

P.S. 2: В русском языке нужны пробелы, так как без них изменяется смысл высказывания.
Сравните: Несуразные_вещи и Несу_разные_вещи.

P.S. 3.: Русскийтексттакжепрекрасновоспринимаетсяносителемязыкаеслинаписанбезпробеловсначалатрудновосприниматьнопотомнашмозгадаптируется….

16

Я хотел бы сделать MySQL полнотекстового поиска работы с японским и китайским текстом, а также с любым другим языком. Проблема в том, что эти языки и, возможно, другие обычно не имеют пробела между словами. Поиск не полезен, когда вы должны ввести то же предложение, что и в тексте.

Я не могу просто поставить пробел между каждым персонажем, потому что английский тоже должен работать. Я хотел бы решить эту проблему с PHP или MySQL.

Могу ли я настроить MySQL для распознавания символов, которые должны быть их собственными индексами? Есть ли модуль PHP, который может распознавать эти символы, чтобы я мог просто выбросить пробелы вокруг индекса?

Частичное решение:

$string_with_spaces = preg_replace("/[".json_decode(""\u4e00"")."-".json_decode(""\uface"")."]/", " $0 ", $string_without_spaces);

Это делает класс символов из, по крайней мере, некоторые из персонажей мне нужно лечить специально. Я должен, вероятно, упомянуть, допустимо пропустить индексированный текст.

Кто-нибудь знает все диапазоны символов, которые мне нужно будет вставлять в пробе?

Кроме того, должен быть лучший, переносимый способ представления этих символов в PHP? Исходный код в Literal Unicode не идеален; Я не узнаю всех персонажей; они могут не отображаться на всех машинах, которые я должен использовать.

3

Другие современные языки, которые не используют пробелы между словами тайский, Лао, кхмерский (камбоджийский), и бирманский (Мьянма). На вьетнамском языке существует связанная с этим проблема, что пробелы используются между всеми слогами, за исключением иностранных слов. - hippietrail 18 дек. 10 2010-12-18 12:48:10

  • 2 ответа
  • Сортировка:

    Активность

15

Слово нарушение для языков, упомянутых требуют лингвистического подхода , например, тот, который использует словарь наряду с пониманием основного правил, вытекающих .

Я слышал об относительно успешных приложениях полнотекстового поиска, которые просто разделяют каждый отдельный символ как отдельное слово на китайском языке, просто применяя ту же «токенизацию» критериев поиска, предоставляемых конечными пользователями. Затем поисковая система обеспечивает лучший рейтинг для документов, которые снабжают символы-слова в том же порядке, что и критерии поиска. Я не уверен, что это может быть распространено на такие языки, как японский, поскольку наборы символов Хиракана и Катаганы делают текст более похожим на европейские языки с коротким алфавитом.

EDIT :
Ресурсы
Это слово ломать проблемы, а также связанные с ними вопросы, так нетривиальной , что целые книги написаны об этом. См. Например, CJKV Information Processing (CJKV означает китайский, японский, корейский и вьетнамский языки, вы также можете использовать ключевое слово CJK, поскольку во многих текстах вьетнамский язык не обсуждается). См. Также Word Breaking in Japanese is hard для одного пейджера на эту тему.
Понятно, что большинство материалов, охватывающих эту тему, написано на одном из основных языков на родном языке и поэтому ограничено для людей без относительной владения этими языками. По этой причине, а также чтобы помочь вам проверить систему поиска, как только вы начнете внедрять логику прерывания слова, вам следует обратиться за помощью к носителю или двум носителям.

Различные идеи
Ваша идея идентифицирующих признаков, которые систематически подразумевают слово разорвать (скажем, цитаты, круглые скобки, дефис, как символы и такие) хорошо, и это, вероятно, один эвристический используется некоторыми из профессиональные разрывы слов. Тем не менее, вы должны искать авторитетный источник для такого списка, а не собирать его с нуля, основываясь на анекдотических выводах.
Родственная идея заключается в том, чтобы разбить слова на Kana-к-кандзи переходы (но я предполагаю, что не наоборот), и, возможно, в хирагане-к-катакан или наоборот переходов.
Несвязанный со сломанным правильным, индекс может [-или не может- ;-)] извлекать выгоду из систематического преобразования каждого, скажем, характера хираганы, в соответствующий характер катакана. Просто необразованная идея! Я не знаю достаточно о японском языке, чтобы знать, поможет ли это; интуитивно, это было бы слабо связано с систематической конверсией подчеркнутых букв и, таким образом, в соответствующее не акцентированное письмо, как это практикуется на нескольких европейских языках.

Возможно, идея, о которой я упоминал ранее, систематически индексировать индивидуальный характер (и ранжировать результаты поиска на основе их приближения по критерию поиска) может быть слегка изменена, например, сохраняя последовательные символы каны вместе, а затем некоторые другие правила... и создать несовершенную, но достаточно практичную поисковую систему.

Не разочаровывайтесь, если это не так... Как указано, это далеко не тривиально, и это может сэкономить вам время и деньги в долгосрочной перспективе, сделав паузу и прочитав книгу или две. Еще одна причина, чтобы попытаться узнать больше о «теории» и передового опыта, является то, что в данный момент вы, кажется, сосредоточены на слова нарушения , но в ближайшее время, поисковая система также может извлечь выгоду из вытекающих сознательность ; действительно, эти два вопроса, по крайней мере, связаны с лингвистикой, и могут быть полезны при обработке в тандеме.

Удачи вам в этом неприятном, но достойном стремлении.

0

@Joe: Добро пожаловать. У меня, похоже, интерес к лингвистике и НЛП, но очень, очень мало знаний, характерных для языков CJK. Прочитайте мое редактирование, добавив несколько ключевых слов и онлайн-ссылок, которые могут помочь вашему поиску.Удачи:-) - mjv 22 окт. 09

Знаки препинания - неотъемлемая часть любого языка. Обычная запятая может кардинально изменить значение предложения: достаточно вспомнить историю с «Казнить нельзя помиловать». А работа переводчиков и редакторов предполагает, что они свободно ориентируются как минимум в двух пунктуационных системах.

Идея этого поста родилась, когда мы обсуждали перевод статьи. В исходном материале знак процента отделялся пробелом от числа, и это бросилось в глаза - в русском тексте в таком случае пробел не используется (хотя, всё же утверждение спорное - специалисты так и не пришли к единому мнению по этому вопросу). Тогда мы решили, что об этом нужно рассказать. Специалисты отдела многоязычной локализации опросили наших зарубежных коллег и подготовили материал, которым теперь делимся с вами. Надеемся, он окажется полезным.

В начале и в конце
Давайте посмотрим, как обстоят дела с расстановкой знаков препинания в предложении: точек, запятых, двоеточий, точек с запятой, вопросительных и восклицательных знаков.

Про русский язык, надеемся, все помнят - знаки препинания, которые отделяют предложения друг от друга, ставятся только в конце, и точка. Если требуется добавить экспрессии (особенно в личной переписке), используются сочетания знаков - «!!!», «?!» и тому подобное. В английском, немецком, итальянском, французском канадском, арабском и португальском бразильском языках точки, многоточия и их «товарищи» живут по таким же правилам.

Другие правила во французском: перед двоеточием, точкой с запятой, восклицательным и вопросительным знаками ставятся неразрывные пробелы.

Испанский язык - единственный в нашей подборке, в котором знаки препинания обрамляют предложения: в начале фразы дублируются вопросительные и восклицательные знаки в «слегка» перевернутом виде - «¿» и «¡».

Самый необычный с точки зрения европейца подход к знакам препинания у китайцев. Их точка выглядит как 。, запятая - как ,, восклицательный знак - !, а вопросительный -?. В предложении они ведут себя подобно русским собратьям, единственное отличие - китайцы не ставят пробелы, поскольку все пунктуационные символы двухбайтовые. Набранный на клавиатуре иероглиф в два раза шире любой буквы латинского алфавита. Поэтому и знаки препинания обычно занимают такое же пространство, что и иероглиф. С этой особенностью столкнулись те, кто работал в старых IME под управлением DOS, когда неправильно введенный иероглиф убирался двумя нажатиями Backspace. В основном пробелы используются при отделении слов и знаков из других языков, например, английского.

Милые черты
В русском языке используются либо дефис, либо тире. Дефис - короткий, необходим для переноса и соединения составных слов. Тире значительно длиннее; оно служит для разделения смысловых частей: разных предложений, двух частей одного предложения, в диалогах и т.д. Вспомнить все тонкости употребления этих знаков можно, заглянув в учебник русского языка.

На похожих условиях дефисы и тире существуют в английском, немецком, французском и португальском бразильском языках. При этом в американском английском тире отделяется с двух сторон пробелами, а в британском обычно нет:

The lecture – which is the third on this topic this month – will include speakers from different countries. (American English)

The zoo had a great many cats-lions, panthers, tigers, jaguars and cheetahs-which made choosing a favourite very difficult. (British English)


В испанском, итальянском и арабском дефисы и тире выглядят одинаково: «-». Китайцы вообще не используют дефисы - у них есть только тире. Хотя по соседству с буквами из латинского алфавита могут стоять и дефисы, и длинные, и средние тире. Дефис - короткий, необходим для переноса и соединения составных слов. Тире значительно длиннее; оно служит для разделения смысловых частей
Языки Дефис Длинное тире (Alt 0151)
Русский
Английский американский Да, для переноса и соединения составных слов Да, для разделения смысловых частей: разных предложений, двух частей одного предложения, в диалогах и т.д.
Английский
британский
Да, для переноса и соединения составных слов Да, для разделения смысловых частей: разных предложений, двух частей одного предложения, в диалогах и т.д. Не отделяется пробелами с двух сторон.
Немецкий Да, для переноса и соединения составных слов Да, для разделения смысловых частей: разных предложений, двух частей одного предложения, в диалогах и т.д.
Французский Да, для переноса и соединения составных слов Да, для разделения смысловых частей: разных предложений, двух частей одного предложения, в диалогах и т.д.
Французский канадский Да, для переноса и соединения составных слов Да, для разделения смысловых частей: разных предложений, двух частей одного предложения, в диалогах и т.д.
Испанский Да, во всех случаях -
Португальский
бразильский
Да, для переноса и соединения составных слов Да, для разделения смысловых частей: разных предложений, двух частей одного предложения, в диалогах и т.д.
Итальянский Да, во всех случаях -
Арабский Да, во всех случаях -
Китайский Только по соседству с буквами из латинского алфавита Да, во всех случаях
Парный вид письма

Кавычки существуют во всех языках, но выглядят, как и национальные костюмы, по-разному. В русском языке живут как традиционные «ёлочки», пришедшие из французского, так и немецкие „лапки“, которые используются во фразе внутри кавычек и при письме от руки. В испанском, португальском бразильском, итальянском и арабском ставятся “двойные” кавычки.

Англичане используют ‘одинарные’ и “двойные” кавычки: первые - для оформления заголовков, вторые - при цитировании. Точки и запятые находятся внутри кавычек. Во французском тексте обитают «ёлочки», с одним отличием от русского: между началом цитируемого текста и открытой кавычкой ставится неразрывной пробел, как и между концом фразы и закрывающей кавычкой.

В китайском языке уживаются три вида кавычек, которые служат для разных целей. Вот в 《такие》заключают названия книг, фильмов и других авторских произведений. Для всех остальных случаев китайцы используют「такие」. Кавычки из европейской традиции (будь то «ёлочки», „лапки“, ‘одиночные’ или “двойные”) можно встретить только в переводах или в соседстве с фразами из европейских языков. В традиционном китайском языке они не получили популярности.

Кавычки существуют во всех языках, но выглядят, как и национальные костюмы, по-разному.

Языки «…» „…“ “…” ‘…’ 《…》 「…」
Русский Стандарт, точки и запятые снаружи Альтернативные во фразе внутри кавычек и при письме от руки Альтернативные при письме от руки - - -
Английский
американский
- - Стандарт для заголовков - -
Английский
британский
- - Стандарт при цитировании, точки и запятые внутри Стандарт для заголовков - -
Немецкий - Стандарт - - - -
Французский Стандарт, неразрывной пробел перед открывающей и закрывающей кавычками - - - - -
Испанский - - Стандарт - - -
Португальский
бразильский
- - Стандарт - - -
Итальянский - - Стандарт - - -
Арабский - - Стандарт - - -
Китайский Только в переводах или в соседстве с фразами из европейских языков Только в переводах или в соседстве с фразами из европейских языков Только в переводах или в соседстве с фразами из европейских языков Стандарт для названий книг, фильмов и других авторских произведений Стандарт для остальных случаев
Символизм
Проценты и промилле тоже не отличаются особой стандартностью. В немецком, французском и испанском языках нужно отделять эти знаки неразрывными пробелами. А в русском, английском, итальянском, арабском и португальском бразильском писать сразу после числа. Хотя с русским, как мы помним, ситуация неоднозначна.

Градусы и дюймы обычно располагаются после числа без всяких пробелов.

Интересный факт: когда французы пишут большие числа, они разделяют пробелами блоки из трёх цифр - например: 987 654 321,12.

У китайцев есть свои символы для обозначения градусов (度) и процентов (百分比 и 百分之). Однако наравне с ними используются и привычные ° и % без пробелов перед ними.

Устанавливаем диалог
Оформление диалогов также разнится от языка к языку. В русском перед каждой репликой мы ставим длинное тире. Носители португальского бразильского поступают аналогично.

В английском языке используются “двойные” и ‘одинарные’ кавычки, например:

‘Here is a million pounds,’ said Marina, handing Simon a suitcase.

Marina continued: ‘I spoke with Ivan and he said, “Simon is asking for ten million, but that is too much.”’


В немецком языке диалоги также оформляются с помощью традиционных кавычек - „лапок“. Французы ставят «ёлочки», а так же короткие тире в тех случаях, когда меняется автор реплики. Части диалога отбиваются короткими тире и в испанском языке.

В итальянском и арабском для диалогов используются двойные прямые кавычки.

Китайцы обычно помещают в свои диалоги только「кавычки」 или их английский “аналог”.

Большая или маленькая

В английском, французском, испанском, португальском бразильском и итальянском языках всё просто и привычно для носителей русского - прописные буквы используются в начале предложений, для аббревиатур и имён собственных.

Немецкий язык гораздо веселее. С большой буквы пишутся существительные, имена и названия, вежливая форма обращения (Sie) во всех падежных формах (Ihr, Ihre, Ihrer, Ihres, Ihrem, Ihren). Прописную букву получают прилагательные, причастия и инфинитивы, которые используются в предложении как имена существительные в сочетании с определенным (das Gute) или неопределенным (ein Lächeln) артиклем, предлогом (in Blau), местоимением (dein Stottern), числительным (nichts Aufregendes) или прилагательным в склоняемой форме (lautes Sprechen). Всего-навсего:-)

В арабском алфавите не различаются строчные и прописные, зато большинство букв имеет по два, три или четыре различных написания: для начала, середины и конца слова, а иногда и для отдельно стоящей буквы вне слова. Похожая ситуация сложилась в китайском языке - вряд ли удастся выделить строчные или заглавные иероглифы. И если китайским авторам нужно выделить какую-то часть текста, то её подчеркивают или используют полужирное начертание.

Бонус
Забавно, что многие опрошенные нами носители европейских языков отметили, что они используют заглавные буквы по тем же правилам, которые существуют в английском, но не в таком количестве. Одна из опрошенных коллег сформулировала это так:
WE TRY NOT TO CAPITALIZE TOO MUCH.

Интересно, что бы это значило? ;-)

Китайский язык является одним из старейших письменных языков мира. Его история насчитывает, по крайней мере, 3 тыс. лет. Надписи на нем были обнаружены на черепаховых панцирях времен династии Шан (1766-1123 до н. э.).

История китайской письменности

Китайская грамота моложе, чем шумерская или египетская, но нет доказательств того, что изобретение письма в Поднебесной было каким-либо образом стимулировано письменностью Ближнего Востока. Самыми ранними образцами китайских иероглифов являются гадальные тексты на костях и панцирях. Они состоят из вопроса прорицателю и ответа на него. Эта ранняя письменность показывает, что на заре своего развития она основывалась на пиктограммах. Например, слово «корова» изображалось головой животного, а «идти» - рисунком стопы.

С течением времени, однако, китайское письмо претерпело много изменений, и уже ко времени (206 до н. э. - 220 н. э.) оно потеряло большую часть своей изобразительности. Современные иероглифы сформировались в течение III и IV веков н. э. Удивительно, но после этого они почти не изменялись. В дополнение к стандартным формам существует также несколько рукописных. Наиболее распространены цаошу и синшу. Первый вид очень сложно читать людям, не имеющим специальной подготовки. Синшу является своего рода компромиссом между высокой скоростью цаошу и стандартной письменностью. Эта форма широко используется в современном Китае.

Сколько в китайском языке иероглифов?

Чтобы представить каждую морфему словаря, китайцы используют одиночные отличительные символы. Подавляющее большинство знаков являются письменными версиями произносимых звуков, которые имеют смысловое значение. Хотя система письма с течением времени изменялась по причине революций и политических катаклизмов, ее принципы, наряду с символами, остались в основном теми же.

Китайские слова-иероглифы первоначально изображали людей, животных или предметы, но на протяжении веков становились все более стилизованными и перестали походить на то, что они представляли. Хотя их существует около 56 тыс., подавляющее большинство из них типичному читателю неизвестны - ему для грамотности необходимо знать лишь 3000 из них. Пожалуй, эта цифра достовернее всего отвечает на вопрос, сколько в китайском языке иероглифов.

Упрощенные логограммы

Проблема обучения тысячам символов в 1956 году привела к тому, что написание китайских иероглифов было упрощено. В результате около 2000 логограмм стало проще читать и писать. Также их преподают в классах севернокитайского языка за рубежом. Эти символы более простые, то есть имеют меньше графических элементов, чем традиционные.

Упрощенные иероглифы существовали на протяжении сотен лет, но официально были включены в письменность лишь после основания КНР в 1950-х годах, чтобы повысить грамотность населения. Упрощенные логограммы использует народная ежедневная газета «Жэньминь жибао», они применяются в субтитрах новостей и видео. Однако люди, которые грамотно пишут, могут не знать традиционного варианта.

Данная система является стандартной в КНР (за исключением Гонконга) и Сингапуре, а традиционный китайский продолжает оставаться стандартом для Гонконга, Тайваня, Макао, Малайзии, Кореи, Японии и других стран.

Фонетическое письмо

Говорящие на кантонском создали свою систему фонетических знаков. Эти символы используются в дополнение к традиционным китайским иероглифам, например, в комиксах или развлекательных разделах газет и журналов. Часто эти иероглифы невозможно найти в словаре. Неофициальные логограммы применяются для передачи

Пиньинь

В попытке сделать китайский язык более понятным для Запада Китай разработал систему «пиньинь». Для передачи слов в ней используется В 1977 г. власти КНР сделали официальный запрос в Организацию Объединенных Наций для наименования географических мест Китая с использованием системы пиньинь. Пиньинь применяют те, кто больше знаком с латинским алфавитом и учится говорить на китайском языке.