День знаний · 01-Ноя-16 20:30(8 лет назад, ред. 03-Ноя-16 11:18)
A Frequency Dictionary of Russian: core vocabulary for learners Год выпуска: 2013 Автор: Sharoff S., Umanskaya E., Wilson J. Категория: справочник Издатель: Routledge Язык курса: Английский ISBN: 978-0415521420 Серия: Routledge Frequency Dictionaries Формат: PDF Качество: Отсканированные страницы + слой распознанного текста Кол-во страниц: 400 Описание: Частотный словарь для русского языка из серии Routledge Frequency Dictionaries Frequency information has a central role to play in learning a language. Nation (1990) showed that the 4,000–5,000 most frequent words account for up to 95 per cent of a written text and the 1,000 most frequent words account for 85 per cent of speech. Although Nation’s results were only for English, they do provide clear evidence that, when employing frequency as a general guide for vocabulary learning, it is possible to acquire a lexicon which will serve a learner well most of the time. There are two caveats to bear in mind here. First, counting words is not as straightforward as it might seem. Gardner (2007) highlights the problems that multiple word meanings, the presence of multiword items, and grouping words into families or lemmas present in counting and analysing words. Second, frequency data contained in frequency dictionaries should never act as the only information source to guide a learner. Frequency information is nonetheless a very good starting point, and one which may produce rapid benefits. It therefore seems rational to prioritise learning the words that you are likely to hear and read most often. That is the philosophy behind this series of dictionaries. Lists of words and their frequencies have long been available for teachers and learners of language. For example, Thorndike (1921, 1932) and Thorndike and Lorge (1944) produced word frequency books with counts of word occurrences in texts used in the education of American children. Michael West’s General Service List of English Words (1953) was primarily aimed at foreign learners of English. More recently, with the aid of efficient computer software and very large bodies of language data (called corpora), researchers have been able to provide more sophisticated frequency counts from both written text and transcribed speech. One important feature of the resulting frequencies presented in this series is that they are derived from recently collected language data. The earlier lists for English included samples from, for example, Austen’s Pride and Prejudice and Defoe’s Robinson Crusoe, thus they could no longer represent present-day language in any sense. Frequency data derived from a large representative corpus of a language brings students closer to language as it is used in real life as opposed to textbook language (which often distorts the frequencies of features in a language, see Ljung, 1990). The information in these dictionaries is presented in a number of formats to allow users to access the data in different ways. So, for example, if you would prefer not to simply drill down through the word frequency list, but would rather focus on verbs for example, the part-of-speech index will allow you to focus on just the most frequent verbs. Given that verbs typically account for 20 per cent of all words in a language, this may be a good strategy. Also, a focus on function words may be equally rewarding – 60 per cent of speech in English is composed of a mere 50 function words. The series also provides information of use to the language teacher. The idea that frequency information may have a role to play in syllabus design is not new (see, for example, Sinclair and Renouf, 1988). However, to date it has been difficult for those teaching languages other than English to use frequency information in syllabus design because of a lack of data.
Одна из самых полезных книг для изучающих английский, потому что слова даются в порядке убывания частотности. Т.е. с самого начала идут наиболее важные для выражения ваших мыслей понятия. Например, если в самом начале словаря вы встретили русское слово с несколькими английскими эквивалентами и разница в их значении и употреблении для вас не вполне ясна, разобраться с ними для вас сверхважно и значительно усилит ваше знание языка. Сам словарь не дает подробных объяснений (хотя я планирую рано или поздно добавить их), он лишь показывает, над чем надо работать в первую очередь. Я решил заняться корректурой этого словаря. Исправления будут выкладываться в виде комментариев в этой теме, а там посмотрим.
Очень жаль, что эту раздачу нельзя прикрепить в самый верх английского раздела, потому что формально она 'чужая'. Добавил ссылку на эту раздачу в свою подпись. Уж не знаю, как еще привлечь внимание к этой книге.
71742672Одна из самых полезных книг для изучающих английский.
А чем она так полезна-то? Существует множество других частотных списков: LONGMAN9000, Oxford 3000 и т.д.
К тому же в этой книге нет определения слова на родном языке. И еще момент, получается мы учим английский на основе наиболее часто употребляемых РУССКИХ слов? Или я что-то не понял из описания? Как-то шиворот навыворот получается, не?
А чем она так полезна-то? Существует множество других частотных списков: LONGMAN9000, Oxford 3000 и т.д.
Oxford 3000 - не частотный список. Там фигурируют слова типа nurse, thumb, host, stove, planet, которые никоим образом, даже в страшном сне не могут входить в 3000 самых частотных слов.
hungry_pokute писал(а):
К тому же в этой книге нет определения слова на родном языке.
Если вы хотели сказать "перевод на родной язык", то он там есть. А определения часто употребляемых слов на родном языке вам точно не нужны, вы ведь прекрасно знаете, что стакан - это сосуд без ручки, из которого пьют, а дождь - это осадки в виде капель воды и т.д.
hungry_pokute писал(а):
получается мы учим английский на основе наиболее часто употребляемых РУССКИХ слов?
Это не так нелогично, как вам кажется. Словарь дает вам английские эквиваленты тех слов, которые вы как носитель русского языка чаще всего употребляете, плюс примеры предложений с этими словами на двух языках. Разумеется, еще лучше был бы качественный частотный словарь английского, выпущенный специально для русских. Пока такой словарь не появится, данная раздача оптимальна.
harveztrau
что если взять список к примеру Nolls' Top 3,000 American English Words и учить слова с этого списка по этому словарю ? что вы об этом думаете ?
Nolls' Top 3,000 American English Words - это любительский список парочки пенсионеров, которые совершенно не разбираются в предмете. Тупо отсортировали на компьютере куцый материал сорока газет и журналов (глядя на результаты, могу уверенно сказать, что 40 - это число экземляров, а не подшивок). Слово "тупо" означает, что сортировка шла по словоформам (типичная ошибка любителя!), а не по леммам. Ценность отрицательная.
71939468что сортировка шла по словоформам (типичная ошибка любителя!), а не по леммам
для ботаников
лемма - это не
нижняя цветковая чешуя
Цитата:
Лемма – это термин омонимичный математическому, но в лингвистике имеет совсем другое значение. В лингвистике слово лемма обозначает ту словоформу, которую лексикографы (создатели словаря) приняли за исходную, за представителя слова во всем богатстве его словоформ. Так, например, для словоформ судьба, судьбы, судьбой, судьбе, выбирается форма именительного падежа. Для глагола выбирают форму инфинитива. Для прилагательных – форму именительного падежа, единственного числа, мужского рода. И все эти формы, когда они открывают словарную статью, называются леммами. Когда мы имеем дело с частотным словарем, то на первом этапе с помощью компьютера, с помощью формального анализа получаем только словоформы. Например, мы имеем частоту слова судьба, частоту словоформы судьбы, частоту словоформы судьбе, а нужно получить частоту всего слова. Для этого надо суммировать частоты всех словоформ. Процесс приведения разных словоформ к одной представляющей всю парадигму форме (лемме), называется лемматизацией. Устройство или программа, с помощью которой осуществляется лемматизация, называется лемматизатор. В толковых словарях мы всегда имеем дело с леммами и, соответственно, с результатами лемматизации. Там все формы сводятся в одно морфологическое слово.
Оба списка намного хуже Oxford 3000. Это видно невооруженным глазом. В общеязыковом частотном списке на 1500 слов не может быть слов manufacture, skeleton, subversion, telescope, guerrilla, clergy, vaccine, radiation и т.д. Тот список, что в pdf - вообще никуда не годен. Настоящие частотные списки делаются примерно так. Берется огромный корпус текстов, который размечен грамматически. При подсчете частоты разные формы одного и того же слова объединяются в леммы, затем вычисляются сложные поправки на сферу употребления (если слово применяется очень часто в конкретной области, но редко за ее пределами, его показатель частотности снижают специальным коэффициентом). Здесь раздается результат такого подсчета на материале русского языка с английскими эквивалентами и примерами. У меня довольно хорошее чутье на ценный материал и если уж такой придирчивый критик как я решил что-то похвалить, то есть смысл к этой рекомендации прислушаться
71941281Оба списка намного хуже Oxford 3000. Это видно невооруженным глазом. В общеязыковом частотном списке на 1500 слов не может быть слов manufacture, skeleton, subversion, telescope, guerrilla, clergy, vaccine, radiation и т.д. Тот список, что в pdf - вообще никуда не годен. Настоящие частотные списки делаются примерно так. Берется огромный корпус текстов, который размечен грамматически. При подсчете частоты разные формы одного и того же слова объединяются в леммы, затем вычисляются сложные поправки на сферу употребления (если слово применяется очень часто в конкретной области, но редко за ее пределами, его показатель частотности снижают специальным коэффициентом). Здесь раздается результат такого подсчета на материале русского языка с английскими эквивалентами и примерами. У меня довольно хорошее чутье на ценный материал и если уж такой придирчивый критик как я решил что-то похвалить, то есть смысл к этой рекомендации
Тут вы не шибко правы. Список VOA Special English Word List, в который входит 1500 слов, не нужно его рассматривать как частотный словарь самых употребительных слов! Эти 1500 слов входят в основу выпусков подкаста "Голос Америки", который уже выходит чуть ли не 1960 годов, если не ошибаюсь. Подкасты были специально разработаны, чтобы помочь фарангам, изучать английский язык. Говорят медленно и внятно, специально используют ограниченный список слов (примерно 1500). Есть программы про здоровье, экономику, учебу, становление америки, политические новости)
Сайт подкаста http://learningenglish.voanews.com/
У дежурного ботаника все грибы делятся на съедобные и несъедобные. Речь зашла о "множестве других частотных списков" (см. выше) и в процессе обсуждения были предложены кандидаты разной степени ядовитости. Будут ли эти этими грибами чистить сапоги, например, ботаника не волнует. Список VOA для начинающих - чистое безумие, безотносительно к факту строгого следования этому списку самой VOA. Он содержит огромное количество совершенно ненужных на этом этапе слов.
71987335Список VOA для начинающих - чистое безумие, безотносительно к факту строгого следования этому списку самой VOA. Он содержит огромное количество совершенно ненужных на этом этапе слов.
Да верно, VOA - это для уровня интермидиа. А минилекс Гуннемарка, 500 самых важных слов, нормальный же частотный список??
Если VOA List задумывался как intermediate, то полторы тысячи - смехотворно мало. Получается гибрид цыпленка с динозавром. Минилекс Гуннемарка - не частотный список. Environment , century, boring, crime, otherwise, cancel, garage, advertisement и многие другие слова из минилекса не входят в первые 5 сотен наиболее употребимых слов.
71990484Если VOA List задумывался как intermediate, то полторы тысячи - смехотворно мало. Получается гибрид цыпленка с динозавром. Минилекс Гуннемарка - не частотный список. Environment , century, boring, crime, otherwise, cancel, garage, advertisement и многие другие слова из минилекса не входят в первые 5 сотен наиболее употребимых слов.
Ну возможно, тогда пре интермедия, но шибко не важно, этот список составлялся на основе выпусков подкаста "голоса Америки", если кому интересно слушать и смотреть выпуски этой программы, то список слов будет дополнением )) Дак вроде Гуннемарк позиционируется, как супер полиглот, на каких основаниях он составлял свой знаменитый минилекс? Кстати, как там филологи пришли к общему мнению, о количестве частей речи в английском языке. А то смотрю, Качалова, Израилевич - "Практическая грамматика английского языка", пишут про 9 частей, Цебаковский 10 частей, кто-то там еще 12 частей
harveztrau
Позвольте полюбопытствовать, вы с такой категоричностью раздаете оценки разным частотным спискам, при этом ориентируетесь на собственные ощущения, или есть общепринятый стандарт? Какой список лично вам по душе?
lelikmms,
Гуннемарк писал, что на основании своего опыта. К сожалению, он умер и мы не сможем узнать подробности. С частями речи вопрос ясен - их количество зависит от того, по каким признакам вы их классифицируете (функции, семантика и т.д.). sokamora,
да, ориентируюсь на собственные ощущения, потому что уже больше 40 лет имею дело с частотными списками, вас же не удивляет, что музыкант может на слух определить сравнительную высоту звука. Если хотите меня проверить, наберите в Гугле
Код:
frequency free coca corpus
зайдите по ссылке со словами Free list и найдите в конце странички слова See the list.
Я не в восторге от опубликованных частотных списков, потому что у них заметный перекос в сторону письменного языка, но для быстрой проверки этот годится. По крайней мере он составлен на основе реального подсчета частотности лемм в большом корпусе текстов, а не от балды, как предложенные выше галлюциногенные грибочки. Версии того же списка с указанием collocates (слов, которые чаще всего сопутствуют каждой из наиболее частотных лемм) можно посмотреть здесь по двум ссылкам в комментарии Nickliverpool (спасибо ему за это) или найти на libgen книгу Davies Gardner A Frequency Dictionary of Contemporary American English (это те же самые файлы). Их недостаток состоит в неудобстве поиска (мешают collocates), зато учить лучше по ним (и, само собой, по словарю из той раздачи, в обсуждении которой вы сейчас читаете эти строки).
. sokamora,
да, ориентируюсь на собственные ощущения, потому что уже больше 40 лет имею дело с частотными списками, вас же не удивляет, что музыкант может на слух определить сравнительную высоту звука. Если хотите меня проверить, наберите в Гугле
Код:
frequency free coca corpus
зайдите по ссылке со словами Free list и найдите в конце странички слова See the list.
Я не в восторге от опубликованных частотных списков, потому что у них заметный перекос в сторону письменного языка, но для быстрой проверки этот годится. По крайней мере он составлен на основе реального подсчета частотности лемм в большом корпусе текстов, а не от балды, как предложенные выше галлюциногенные грибочки.
Да, очень хороший список. А подскажите, как работать с подобным списком, учить по несколько слов в день? Вроде, кто-то говорил, что работа с конкретными словами в отрыве от контекста, малоэффективна, нужно запоминать фразы целbком, нет?
как работать с подобным списком, учить по несколько слов в день? Вроде, кто-то говорил, что работа с конкретными словами в отрыве от контекста, малоэффективна, нужно запоминать фразы целbком, нет?
У каждого свои любимые приемы запоминания слов. Я с юных лет привык запоминать слова списками. Беседовать со мной на эту тему бесполезно. Все, что я смогу сказать - это вариации на тему "берем первые N слов частотного списка и запоминаем; читаем адаптированные книжки с запасом в N слов; берем следующие N слов частотного списка..." и т.д. Я сознательно не упоминаю величину моего N, это индивидуально и подражать мне не нужно. Что касается контекста - в словаре Sharoff & Co на каждую русскую лемму и ее английский эквивалент дается пример их употребления в предложении с переводом, поэтому я так агитирую за этот словарь. PS Ради любопытства проверил свои оценки по списку Davies- Gardner:
скрытый текст
Цитата:
Environment , century, boring, crime, otherwise, cancel, garage, advertisement
не входят в первые 5 сотен
Environment 858
century 606
boring 4969
crime 831
otherwise 1536
cancel 3951
garage 3237
advertisement (вообще нет в списке 5000)
Цитата:
manufacture, skeleton, subversion, telescope, guerrilla, clergy, vaccine, radiation
не входят в первые 1500 слов
manufacture (вообще нет в списке 5000)
отмечу, что manufacturer под номером 2271
skeleton (вообще нет в списке 5000)
subversion (вообще нет в списке 5000)
telescope 2779
guerrilla (вообще нет в списке 5000)
clergy (вообще нет в списке 5000)
vaccine 4212
radiation 3686
Цитата:
nurse, thumb, host, stove, planet
не входят в первые 3000 слов
nurse 1889
thumb 3785
host 1853
stove 4436
planet 1601
Выходит, я правильно оценил "на глаз" частотность 18 из 21 слова.
Три ошибки:
nurse (несомненная ошибка, подтверждается проверкой по списку BNC)
host (в Oxford 3000 имели в виду существительное, глагол не входит)
planet (спорный случай, по BNC не входит). Таким образом, Oxford 3000 несколько лучше, чем я думал, но все равно не частотный список.
как работать с подобным списком, учить по несколько слов в день? Вроде, кто-то говорил, что работа с конкретными словами в отрыве от контекста, малоэффективна, нужно запоминать фразы целbком, нет?
У каждого свои любимые приемы запоминания слов. Я с юных лет привык запоминать слова списками. Беседовать со мной на эту тему бесполезно. Все, что я смогу сказать - это вариации на тему "берем первые N слов частотного списка и запоминаем; читаем адаптированные книжки с запасом в N слов; берем следующие N слов частотного списка..." и т.д. Я сознательно не упоминаю величину моего N, это индивидуально и подражать мне не нужно. Что касается контекста - в словаре Sharoff & Co на каждую русскую лемму и ее английский эквивалент дается пример их употребления в предложении с переводом, поэтому я так агитирую за этот словарь.
Cпасибо батя. Я тут подумал, нормальная идея. Взять слова с переводом из этого словаря, транскрипцию и аудиозвучание для этих слов с Кембриджского онлайн словаря. И сделать приложение, которое будет выдавать по несколько слов с транскрипцией, аудио и фразой.
Два полезных секрета запоминания слов я все-таки вспомнил. Это даже не секреты, потому что в беседах языковых фриков они часто упоминаются, но оба почти не доходят до начинающих и малоизвестны в их среде. 1. Когда опытные люди советуют выучить N слов по частотному списку и читать соответствующие адаптированные тексты, под словом "выучить" подразумевается "научиться узнавать", а вовсе не "выучить наизусть". Закрепление достигается путем чтения и воспроизведения прочитанного. Начинающие нерационально теряют прорву времени, пытаясь добиться активного усвоения новых слов на том этапе, когда в этом нет ни малейшей необходимости. 2. Когда опытный человек советует воспроизводить прочитанное вслух, начинающий вежливо кивает и внутренне ставит крест на этом совете. Психологически отрицательное отношение понятно - разговор вслух с самим собой воспринимается окружающими как признак душевной болезни. Однако метод пересказа творит чудеса, особенно для тех, кто занимается самостоятельно. Если не хотите пересказывать каждый отрывок адаптированной книжки самому себе - пересказывайте коту, собаке или портрету на стене.
Книжка на удивление слабовата. В особенности если ее использовать по прямому назначению - преподаванию русского как иностранного ;). Порядком ошибок в примерах и их переводах. А главное непонятно зачем они разрабатывали собственный корпус. Частотность некоторых слов под большим вопросом. P.S. Интересно было бы увидеть сопроводительный CD с базой данных.
Без конкретных примеров это замечание не имеет веса.
Незнакомцам в сети невозможно верить на слово.
moorland писал(а):
А главное непонятно зачем они разрабатывали собственный корпус
Они получили грант ЕС в рамках EU Lifelong Learning Programme. Словарь - побочный продукт.
moorland писал(а):
Частотность некоторых слов под большим вопросом.
Аномалии встречаются во всех частотных списках (навскидку, слово environment в списке Дейвиса), но хотелось бы увидеть ваши примеры. PS Кстати, про environment. Я был очень удивлен, обнаружив это слово даже в таком качественном списке, как new-GSL (2500 слов, Brezina & Gablasova). Это слово практически не употребляется в повседневных разговорах, а место в первой тысяче ему обеспечивают озабоченные охраной окружающей среды журналисты. Список new-GSL (Brezina, Gablasova), как мне кажется, лучший частотный список для начинающих с нуля или почти с нуля. Только не путайте его с NGSL (Browne, Culligan, Phillips). К несчастью, оба списка появились почти одновременно и были названы одинаково (New General Service List). Ссылки на правильный список под спойлером:
К списку конкурентов я отношусь предвзято, потому что господа Browne и компания начали публиковать странные сравнения своего списка со списком Brezina-Gablasova в духе "смотрите, а у нас покрытие немного больше". Еще бы ему не быть больше, когда у вас на десяток процентов больше слов...
Xiao, Rayson, McEnery A Frequency Dictionary of Mandarin Chinese Дней десять назад на libgen появился файл весом около 50 мегабайт. Вскоре после выхода книги Richard Xiao выложил сами списки на форуме:
Перевода и примеров там, конечно, нет. Списки можно скачать в формате xls. Регистрация на китайском, займет не больше минуты, высылают линк для подтверждения. Выглядят они вот так:
скрытый текст
Top 5000 words Rank Headword POS Usage Dispersion Frequency per M words
1 的 u 223484 0.95 236106
2 是 v 67954 0.83 81965
3 一 m 62263 0.89 69925
4 在 p 49460 0.94 52774
5 了 u 46283 0.9 51296
6 不 d 40245 0.8 50589
7 我 r 36653 0.71 51365
... Top 2000 characters Rank Character Usage Dispersion Frequency per M characters
1 的 155956 0.97 161589
2 一 58949 0.9 65750
3 是 53086 0.81 65670
4 了 46457 0.82 56780
5 不 42064 0.81 51732
6 在 41249 0.99 41641
7 人 37832 0.94 40084