Регистрация · Вход Забыли имя или пароль?

WORD Frequency List: 12,500 Most Common Words / Частотный список: 12,500 наиболее употребляемых слов [XLS, DOC]

Страницы : Пред. 1, 2, 3, 4, 5, 6 След.


Killer whale Стаж: 14 лет 8 месяцев Сообщений: 44	Killer whale · 15-Мар-12 13:30 (12 лет 7 месяцев назад, ред. 15-Мар-12 13:30) [Цитировать] Предлагаю скинуться и купить COCA 20,000 (выйдет недорого). Кому интересно пишите в ЛС. gaal_dev Как Вы в Anki перегоняете, есть какой-то скрипт для этого ?
[Профиль] [ЛС]
Santana+ Стаж: 14 лет 11 месяцев Сообщений: 224	Santana+ · 16-Мар-12 08:48 (спустя 19 часов) [Цитировать] На сайте СОСА можно бесплатно скачать файл 500k_wordlist_coca_2743.zip, который содержит нелемматизированный список 500,000 слов корпуса. Интересно, что первые 35758 слов этого списка, представляющего из себя слова, которые встречаются хотя бы раз на миллион, составляют 81% первых 7000 слова по спискам Пола на базе BNC (если включить сюда и имена собственные). По всей видимости, данный 12,500 список должен покрывать практически все по-настоящему частотные слова, за исключением, как уже писалось выше, некоторых современных и трендовых слов. Если посмотреть на слова, которые точно сюда не входят, то в них реально много мусора, хотя встречаются и полезные, конечно. Вот, например, небольшой отрывок: скрытый текст SPRAINED SPURRIER SPUTTERED SR STAHL STALINIST STAMBERG STANDINGS STANDOFF STANDOUT STARBUCKS STARKS STARSHIP STARTUP STAT STATEHOOD STATEN STATEROOM STATEWIDE STATS STD STDS STEELERS STEELHEAD STEINBRENNER STEPHANOPOULOS STERRITT STIEGLITZ STINGY STOCKHOLDERS STOIC STONEWALL STONEWARE STOREFRONT STOREFRONTS STORIED STORYBOOK STOSSEL STRAINER STRATA STRAUS STREETCAR STREETLIGHTS STRESSOR STRESSORS STRIKEOUTS STROM
[Профиль] [ЛС]
zubarykin Стаж: 13 лет 10 месяцев Сообщений: 684	zubarykin · 20-Мар-12 03:14 (спустя 3 дня, ред. 20-Мар-12 03:14) [Цитировать] Если в поисковой строке Google набрать Test Your Vocab - найдете тест, позволяющий реально оценить пассивный словарный запас. Это не развлекательный тест, а научный проект (США-Бразилия). Отмечать галочкой нужно только те слова, значение которых вы действительно знаете (хотя бы одно). Отвечать в конце на вопросы не нужно, жмите finish и все. Рекомендую всем пройти, информация очень полезная. Еще там есть подробное описание механизма оценки.
[Профиль] [ЛС]
Santana+ Стаж: 14 лет 11 месяцев Сообщений: 224	Santana+ · 20-Мар-12 15:54 (спустя 12 часов, ред. 20-Мар-12 15:54) [Цитировать] Видел как-то этот тест на efl.ru.) Прошел его ради интереса и получил где-то около 14,000 слов, если мне не изменяет память. Не, полюбоваться столь огромной цифрой, конечно, приятно, но я то ведь знаю, что реальный мой запас в два раза меньше, в лучшем случае.))))))) (Добавлено) P.S. Нашел сейчас этот тест - показывает 12,800. Как раз размер данного списка. Совпадение ли? ))
[Профиль] [ЛС]
zubarykin Стаж: 13 лет 10 месяцев Сообщений: 684	zubarykin · 20-Мар-12 17:51 (спустя 1 час 56 мин.) [Цитировать] Пассивный запас. Если Вы проходили тест на правильном сайте (раскрытая книга на ядовито-желтом фоне) и отмечали галочкой те слова, которые действительно знаете, а не просто думаете, что знаете, то результат довольно точно отражает Ваш пассивный запас. То, что он сравним по величине с данным частотным списком, но в списке много незнакомых слов, показывает лишь, что слова раньше заучивались не оптимально, а хаотично.
[Профиль] [ЛС]
Santana+ Стаж: 14 лет 11 месяцев Сообщений: 224	Santana+ · 20-Мар-12 23:00 (спустя 5 часов, ред. 20-Мар-12 23:00) [Цитировать] Да тот этот тест (сайт так и называется - тестЁвокаб.ком). Только цифры он вряд ли правильные показывает, при всем уважении к этому научному проекту. Если бы я действительно знал 12,800 слов, я бы легко мог читать любую художественную литературу на английском, причем без словаря и практически со 100% пониманием каждого предложения (за минусом сленга, идиом и прочего). И здесь я скорее склоняюсь к исследованиям Пола Нэйшна, материалы которого есть в раздаче. Он утверждает, что для того чтобы свободно читать книги на английском, достаточно знать 8000-9000 корней слов. Так вот. Мне на днях попалась Cabbages and Kings, O. Henry, которую я читал пару лет назад со словарем, и мне стало интересно: а смогу ли я сейчас читать ее без словаря? Открыл первую страницу - и ахнул: оказывается все еще попадаются такие предложения, которые вызывают трудности. Отмотал страниц на тридцать вперед - и не заметил, как прочитал 3-4 листа вообще без словаря Но неизвестные слова при этом все-равно попадались, просто их было совсем мало и они не мешали пониманию того, что происходит. Короче, полистал туда-сюда и понял: все-таки еще возникают трудности, даже не смотря на значительное улучшение в целом. Нашел текст книги в интернете и прогнал его через RANGE. Вот результат: скрытый текст Код: WORD LIST TOKENS/% TYPES/% FAMILIES one 51929/75.89 2371/26.36 935 two 4720/ 6.90 1482/16.48 776 three 2441/ 3.57 998/11.10 605 four 1594/ 2.33 663/ 7.37 461 five 958/ 1.40 491/ 5.46 366 six 851/ 1.24 366/ 4.07 286 seven 444/ 0.65 261/ 2.90 213 eight 321/ 0.47 193/ 2.15 172 nine 266/ 0.39 183/ 2.03 157 ten 260/ 0.38 153/ 1.70 134 11 267/ 0.39 164/ 1.82 139 12 197/ 0.29 121/ 1.35 111 13 204/ 0.30 120/ 1.33 109 14 113/ 0.17 69/ 0.77 60 15 2148/ 3.14 260/ 2.89 260 16 41/ 0.06 7/ 0.08 3 not in the lists 1673/ 2.44 1093/12.15 ????? Total 68427 8995 4787 Сразу бросается в глаза две цифры: первая тысяча слов покрывает 75% всей книги (т.е. 3/4 книги - это просто слова из первой тысячи Пола Нэйшна), и 2,5% слов, которые вообще не вошли в ТОП-14000. Такой большой процент не вошедших слов объясняется тем, что действие происходит в одной из стран Латинской Америки и в книге часто попадаются испанские слова. Кроме того, присутствует много стилистических сокращений в духе walkin', workin' и wonderin', а также американского варианта написания слов, которые программа не смогла распознать. В общем, эти 2,5% практически все съедаются, и получается, что 91%-92% всего текста покрываются первыми 3000-ми по Полу Нэйшну. Т.е. аж целых 9/10 книги. Если бы я только раньше знал, какие слова надо учить! Ну да бог с ним... Если посмотреть результат дальше, то становится видно, что они довольно точно отражают исследования самого Пола. Чтобы свободно читать Cabbages and Kings, O. Henry, необходимо 8000-9000 корней слов. Именно эта цифра дает 98% покрытия всего текста, которая установлена как минимальный потолок понимания поступающей информации в целом. Вот еще один пример, который я сделал. Это "Остров Сокровищ". скрытый текст Код: WORD LIST TOKENS/% TYPES/% FAMILIES one 57547/81.94 1880/32.07 827 two 4525/ 6.44 1040/17.74 593 three 2603/ 3.71 749/12.78 476 four 931/ 1.33 422/ 7.20 306 five 849/ 1.21 305/ 5.20 221 six 627/ 0.89 215/ 3.67 165 seven 395/ 0.56 159/ 2.71 129 eight 160/ 0.23 100/ 1.71 83 nine 242/ 0.34 117/ 2.00 97 ten 179/ 0.25 88/ 1.50 80 11 192/ 0.27 119/ 2.03 100 12 115/ 0.16 55/ 0.94 51 13 108/ 0.15 74/ 1.26 62 14 102/ 0.15 25/ 0.43 22 15 781/ 1.11 72/ 1.23 72 16 73/ 0.10 4/ 0.07 3 not in the lists 799/ 1.14 438/ 7.47 ????? Total 70228 5862 3287 Здесь результаты еще лучше: 3000 - 93,3% 4000 - 94,6% 5000 - 95,8% ... 8000 - 98,5% Вывод: 12,800 слов, которые показывает тот тест - это нереально много!
[Профиль] [ЛС]
alexteacher Стаж: 14 лет 7 месяцев Сообщений: 116	alexteacher · 20-Мар-12 23:05 (спустя 4 мин.) [Цитировать] Прошёл этот тест. Результат - 10200. Обидно до слёз. Надеялся, что у меня побольше запас. Хотя думаю, что для ненэйтива неплохо. П.С Спасибо за тест. Очень интересно и познавательно.
[Профиль] [ЛС]
zubarykin Стаж: 13 лет 10 месяцев Сообщений: 684	zubarykin · 21-Мар-12 00:26 (спустя 1 час 20 мин., ред. 21-Мар-12 00:26) [Цитировать] Santana+ писал(а): Если бы я действительно знал 12,800 слов Эээ, нет. Если бы Вы знали 12800 самых употребительных слов. А может, Вы заучили много редких? Santana+ писал(а): Мне на днях попалась Cabbages and Kings, O. Henry, которую я читал пару лет назад со словарем, и мне стало интересно: а смогу ли я сейчас читать ее без словаря? Открыл первую страницу - и ахнул: оказывается все еще попадаются такие предложения, которые вызывают трудности. Дык! О.Генри не показатель, американцы о нем пишут, что Цитата: O. Henry's style is virtually a composite of outdated mannerisms ranging from stilted authorial diction to now-unreadable dialects in his characters' mouths т.е. для современного американца многие выражения О.Генри - unreadable dialect! Если Вы "пропахали" со словарем О.Генри, то нахватались малоупотребительных слов, это помогает понять странные результаты теста. Взяли бы лучше Агату Кристи А все-таки что-то здесь не так... Не то, чтобы я слишком доверял этому тесту, но Вы первый человек, сообщивший о сильном расхождении реальности с результатами. У меня 2 объяснения: 1. Либо Вы слишком поспешно прошли тест, отмечая все знакомые слова, не утруждая себя размышлением, действительно ли Вы их знаете. 2. Либо Ваш словарный запас действительно около 12 тысяч, но значительная их часть сдвинута к хвосту словаря из-за увлечения учебниками, авторы которых неправильно подбирали лексику (например, увлекаясь SATоподобными списками). Заинтриговали, однако. alexteacher, не огорчайтесь так, средний результат для Украины 6615
[Профиль] [ЛС]
Santana+ Стаж: 14 лет 11 месяцев Сообщений: 224	Santana+ · 21-Мар-12 08:18 (спустя 7 часов, ред. 21-Мар-12 08:18) [Цитировать] alexteacher писал(а): Прошёл этот тест. Результат - 10200. Обидно до слёз. Надеялся, что у меня побольше запас. Хотя думаю, что для ненэйтива неплохо. Не хочется вас расстраивать, но на самом деле ваш запас должен быть гораздо меньше. Этому тесту верить нельзя, имхо. Да сами себя проверьте, если хотите. Возьмите, скажем, шестую тысячу слов этого списка и пройдите ее. А потом посмотрите результат. zubarykin писал(а): Эээ, нет. Если бы Вы знали 12800 самых употребительных слов. А может, Вы заучили много редких? Да в том-то и дело, что как бы я ни старался, все-равно бы я не смог выучить "редкие" слова. Потому что в любом чтиве потолок 8000-9000 корней, понимаете? Т.е. я физически не смог бы выйти за пределы этой цифры при наборе пассива через чтение. Вот, например, взять ту же Агату Кристи: christie_agatha_complete_short_stories_of_miss_marple.txt Код: WORD LIST TOKENS/% TYPES/% FAMILIES one 81368/83.61 2295/31.59 928 two 5073/ 5.21 1392/19.16 727 three 2577/ 2.65 860/11.84 535 four 1256/ 1.29 519/ 7.14 381 five 685/ 0.70 339/ 4.67 272 six 484/ 0.50 245/ 3.37 203 seven 413/ 0.42 213/ 2.93 179 eight 232/ 0.24 145/ 2.00 127 nine 221/ 0.23 139/ 1.91 122 ten 154/ 0.16 101/ 1.39 88 11 192/ 0.20 114/ 1.57 102 12 99/ 0.10 69/ 0.95 64 13 101/ 0.10 67/ 0.92 56 14 48/ 0.05 32/ 0.44 32 15 3489/ 3.59 268/ 3.69 268 16 224/ 0.23 12/ 0.17 4 not in the lists 703/ 0.72 455/ 6.26 ????? Total 97319 7265 4088 Результат: 3000 - 95,29% 5000 - 97,28% ... 8000 - 98,44% И обратите внимание на Total types и Total families. Т.е. в книге всего 7000 слов и 4000 корней (хотя этот термин не совсем точно отражает значение word family). А если взять того же О.Генри, то там 9000 слов и 4700 корней, но при этом много испанских и прочих неучтенных. А результат Острова Сокровищ еще скромнее: всего 5000 слов и 3000 корней. Как с такими показателями я могу выйти за пределы 10000 слов? Даже если я все слова в каждой книге буду исправно зубрить, я все-равно могу не достичь этой цифры. Цитата: 1. Либо Вы слишком поспешно прошли тест, отмечая все знакомые слова, не утруждая себя размышлением, действительно ли Вы их знаете. Сейчас заново прошел этот тест. Не стал отмечать слова, в которых сомневался, хотя точно знаю, что попадись они мне в контексте какой-нибудь книги, я бы легко понял их значение. Например: deflect writhe shrivel stirrup tidings maladroit И знаете какой результат он мне показал? 13,600! P.S. Даже если в этом тесте что-то и есть, имхо, нельзя определить объем словарного запаса по горстке слов! Как ни крути.
[Профиль] [ЛС]
dchinara Стаж: 16 лет Сообщений: 94	dchinara · 21-Мар-12 11:03 (спустя 2 часа 44 мин.) [Цитировать] Santana+ Скажите, а сами списки на основе которых вы делали свой включены в раздачу? Имеются в виду списки Paul Nation и др.
[Профиль] [ЛС]
alexteacher Стаж: 14 лет 7 месяцев Сообщений: 116	alexteacher · 21-Мар-12 14:12 (спустя 3 часа) [Цитировать] to zubarykin Спасибо! Успокоили! Скажу правду, я - учитель. Мне кажется, у учителя запас должен быть выше. Буду работать над собой. to Santana Регулярно просматриваю список. Выборочно. Многое знаю, кое-что нет. Всякое бывает. to all Если найдёте подобные тесты, поделитесь ссылкой. Очень интересно. Есть стимул для работы и самосовершенствования.
[Профиль] [ЛС]
zubarykin Стаж: 13 лет 10 месяцев Сообщений: 684	zubarykin · 21-Мар-12 16:33 (спустя 2 часа 20 мин., ред. 21-Мар-12 16:33) [Цитировать] Ну что ж, let's agree to differ Santana+ писал(а): Да в том-то и дело, что как бы я ни старался, все-равно бы я не смог выучить "редкие" слова. Потому что в любом чтиве потолок 8000-9000 корней, понимаете? Т.е. я физически не смог бы выйти за пределы этой цифры при наборе пассива через чтение. Секундочку. Вы правильно пишете про потолок для каждой отдельной книги. Но последние по частотности тысячи не совпадают полностью в разных книгах! Они разные, иначе мы никогда не смогли бы выйти за пределы 10 тысяч путем чтения. Я не думаю, что "Короли и капуста" - единственный прочитанный Вами английский текст. Давайте рассуждать по-простому. Вы пропахали со словарем О.Генри. Это значит, что Ваш пассивный запас как минимум около 9 тысяч. Но ведь до этого Вы занимались английским по учебникам, читали другие тексты, слушали песни, смотрели фильмы. Почти наверняка у Вас набирается еще пара тысяч слов за пределами вокабуляра О.Генри. Я еще нагляднее представлю это: в книге "Короли и капуста" практически нет научной и технической лексики. Но ведь в вашем пассивном запасе есть слова deformation, biological, neutralization, electrostatic, radioactive, fauna и так далее! Понимаете? Поэтому я практически уверен, что Ваш пассивный запас действительно примерно 12 тысяч как минимум, но он не оптимален, ведь раньше Вы учили слова не по частотному списку, а хаотически! Santana+ писал(а): Даже если в этом тесте что-то и есть, имхо, нельзя определить объем словарного запаса по горстке слов! Как ни крути. Методика у них такая. У них частотный список на 45 тысяч слов. Сначала они предлагают 40 слов, представляющих 40 сегментов этого списка, чтобы получить грубое представление о вашем словарном запасе. Затем, исходя из этого, они предлагают новый список, основанный на следующей остроумной идее. Представьте, что вы прошли все 45 тысяч слов частотного списка и отметили все, что знаете. Рассматривая список, вы можете найти критическую точку, до которой вы отметили как неизвестные N слов и после которой вы отметили как известные N слов. Номер этой точки в частотном списке и будет точным числом слов, которые вы знаете. Понятно почему: +N и -N взаимно погашаются. В тесте используется тот же принцип, но на меньшей выборке. На втором этапе они берут все отмеченные слова и смотрят, на каком слове количество неизвестных слов "до" совпадает с количеством известных слов "после". Затем они смотрят частотный ранг этого слова, это и есть ваш пассивный словарный запас. В действительности там не линейное, а логарифмическое распределение, но надеюсь, что основную идею изложил доступно. Не знаю, насколько хорош их частотный список и насколько хорошо они реализовали тест и не слишком ли малая выборка (чтобы не утомлять людей длинным тестом), но идея весьма хороша.
[Профиль] [ЛС]
Santana+ Стаж: 14 лет 11 месяцев Сообщений: 224	Santana+ · 21-Мар-12 18:20 (спустя 1 час 47 мин.) [Цитировать] dchinara Не, нету. Но зато в шапке есть ссылки на каждый список, поэтому я их и не стал прикладывать. А еще они есть в базе данных (файле db5.mdb), хотя там они уже немного в другом виде - с записями приведенными к уникальности. Есть в раздаче также CELF список, довольно неплохой и интересный. Но все его слова тоже входят в основной список. А списки Пола Нэшна можно найти в каталоге его программы RANGE - они там хранятся в текстовых файлах по 1000 word families в каждом. zubarykin писал(а): Вы пропахали со словарем О.Генри. Это значит, что Ваш пассивный запас как минимум около 9 тысяч. Но ведь это же только в идеале. В реальности все обстоит иначе. Во-первых, слов гораздо меньше (убираем имена собственные, испанские слова, стилистические зажевывания и т.д.), а во-вторых, те слова, которые встречаются по разу-два за всю книгу, довольно быстро вылетают из памяти, особенно если в следующих книгах они перестают попадаться вообще. Через год-два даже и не вспомнишь, встречал ли ты это слово раньше. Т.ч. этот хвостик нечастотных слов, о котором вы говорите, существует лишь в теории, а на практике же - он просто отваливается. Остается лишь некое ядро более-менее частотных слов, универсальных для любого чтива. И это ядро далеко не 10000 слов. По поводу слов из других сфер, безусловно соглашусь! Однако если так рассуждать, то каждый из нас знает минимум по 50000 слов, идущих из латыни и других языков! Кстати, спасибо за описание алгоритма теста - было интересно почитать. Проект, безусловно, не беспочвенный, но все-таки цифру показывает завышенную, ИМХО.
[Профиль] [ЛС]
zubarykin Стаж: 13 лет 10 месяцев Сообщений: 684	zubarykin · 21-Мар-12 19:04 (спустя 44 мин., ред. 21-Мар-12 22:20) [Цитировать] Santana+ писал(а): каждый из нас знает минимум по 50000 слов, идущих из латыни и других языков! Кстати, спасибо за описание алгоритма теста - было интересно почитать. Проект, безусловно, не беспочвенный, но все-таки цифру показывает завышенную, ИМХО. О нет, не 50 тысяч. Обычный человек выносит из школы тысячу-другую терминов латинского и греческого происхождения. В лучшем случае. Много ли найдется выпускников школы, знающих значение слов суккулентный, метатеза или диссипация? Знание общих для двух языков корней учитывать надо, это честная прибавка к вокабуляру. Даже если Вы забывали многие из встреченных слов, ваш словарный запас постоянно рос. И обратите внимание - 9 тысяч слов О.Генри и 9 тысяч слов Агаты Кристи - это разные списки, совпадающие в первых тысячах, но расходящиеся в последних. Интересно бы сравнить расхождения вокабуляра разных книг. Вы правы в том смысле, что чтение само по себе, без систематической работы с частотным списком - не очень эффективный способ пополнения словарного запаса. PS Есть очень интересный инструмент, позволяющий отследить сравнительную динамику частотности слов по корпусу оцифрованных Google книг. Называется Google Ngram Viewer: скрытый текст Слова нужно вводить через запятую: сударь,господин,товарищ Для наглядности выставил smoothing равный 2 (график выпрямляется средним значением по двум годам в каждую сторону)
[Профиль] [ЛС]
Santana+ Стаж: 14 лет 11 месяцев Сообщений: 224	Santana+ · 21-Мар-12 23:05 (спустя 4 часа, ред. 21-Мар-12 23:05) [Цитировать] zubarykin писал(а): Много ли найдется выпускников школы, знающих значение слов суккулентный, метатеза или диссипация? Вы правы. Это был прикол про 50000.) Дмитрий Петров в своем курсе Полиглот его отмочил, типа каждый может выучить 50000 новых слов за одну минуту. Имеются в виду прежде всего слова с окончанием "-ция". Всякие там инновэйшаны, модернизэйшаны, полы нэйшаны Таких слов, как было подсчитано, около 50000. Только вот значения не многих из них мы знаем, вот в чем проблема.) zubarykin писал(а): Даже если Вы забывали многие из встреченных слов, ваш словарный запас постоянно рос. И обратите внимание - 9 тысяч слов О.Генри и 9 тысяч слов Агаты Кристи - это разные списки, совпадающие в первых тысячах, но расходящиеся в последних. Интересно бы сравнить расхождения вокабуляра разных книг. В том-то и дело, что не такие уж и разные. Это только кажется, что резкая смена жанра, времени и места действия может кардинально повлиять на "хвост" (а, возможно, даже и само "тело") списка. Счет идет всего-лишь на сотни слов, причем это, как правило, те самые слова, которые ввиду своей низкой частотности в конечном итоге не могут воспрепятствовать свободному чтению. Вот, ради интереса, объединил три указанные выше книги Агаты Кристи, О.Генри и Остров Сокровищ, что дало почти четверть миллиона слов. Это 700-800 страниц книжного текста, я думаю. скрытый текст Код: WORD LIST TOKENS/% TYPES/% FAMILIES one 190844/80.88 3141/21.58 981 two 14318/ 6.07 2230/15.32 904 three 7621/ 3.23 1651/11.34 807 four 3781/ 1.60 1127/ 7.74 655 five 2492/ 1.06 849/ 5.83 545 six 1962/ 0.83 634/ 4.36 432 seven 1252/ 0.53 500/ 3.44 369 eight 713/ 0.30 371/ 2.55 294 nine 729/ 0.31 365/ 2.51 282 ten 593/ 0.25 303/ 2.08 243 11 651/ 0.28 334/ 2.29 263 12 411/ 0.17 214/ 1.47 193 13 413/ 0.18 228/ 1.57 189 14 263/ 0.11 110/ 0.76 93 15 6420/ 2.72 556/ 3.82 556 16 338/ 0.14 14/ 0.10 4 not in the lists 3173/ 1.34 1928/13.25 ????? Total 235974 14555 6810 Результат тот же: 8-9 тыс. корней дают 98% покрытия всего текста. 3000 - 93,04% 4000 - 94,64% 5000 - 95,70% ... 8000 - 97,36% 9000 - 97,67% Здесь, правда, видно потерю одного процента. Но она обусловлена опять теми же неучтенными именами собственными (например, только одно слово HISPANIOLA в Острове Сокровищ встречается 53 раза), авторскими искажениями слов с целью придания им определенным оттенков произношения (dooty = duty, встречается 20 раз) или проглатыванием гласных и дифтонгов - workin', 'twas и т.д. Плюс много испанских слов. Короче, все это значительно снижает процент неизвестных слов и повышает процент частотных слов. Вот пример навскидку "мусора" из неопознанных слов. скрытый текст Код: FILIBUSTERIN 1 7 0 7 0 GERTRUD 1 7 7 0 0 INSTOW 1 7 7 0 0 LEASTWAYS 1 7 0 0 7 LUMPIER 1 7 7 0 0 MISSIS 2 7 0 5 2 POR 1 7 0 7 0 ZAPATOS 1 7 0 7 0 AGUARDIENTE 1 6 0 6 0 ANCHURIAN 1 6 0 6 0 CURIE 1 6 6 0 0 ETEXT 1 6 0 6 0 EURYDICE 1 6 6 0 0 FRUITER 1 6 0 6 0 HALLORAN 1 6 0 6 0 HAWSER 1 6 0 0 6 IDALIA 1 6 0 6 0 KNOWED 1 6 0 0 6 MIZZEN 1 6 0 0 6 NUMERO 1 6 0 6 0 PULPERIA 1 6 0 6 0 TOLLIVER 1 6 0 6 0 VERREE 1 6 0 6 0 ZARIDA 1 6 6 0 0 ZAVALLA 1 6 0 6 0 ALAZAN 1 5 0 5 0 ALMIRANTE 1 5 0 5 0 BERCY 1 5 5 0 0 CABALLEROS 1 5 0 5 0 CARSTAIRS 1 5 5 0 0 CLEGHORN 1 5 5 0 0 COCKLEBURRS 1 5 0 5 0 CUPID 1 5 0 5 0 DIGITALIN 1 5 5 0 0 DIRS 1 5 0 5 0 DURST 1 5 0 0 5 ESPIRITION 1 5 0 5 0 FRANZONI 1 5 0 5 0 FRAULEIN 1 5 5 0 0 GNATON 1 5 5 0 0 GRAFFENREID 1 5 0 5 0 GROG 1 5 0 0 5 GRUNITZ 1 5 0 5 0 LUBBER 1 5 0 0 5 LUGGER 1 5 0 0 5 MONSEER 1 5 0 5 0 PGLAF 1 5 0 5 0 POLHARWITH 1 5 5 0 0 PRESIDENTE 1 5 0 5 0 PURSER 1 5 0 5 0 RIVERBURY 1 5 5 0 0 SPERRIT 1 5 0 0 5 Даже этот небольшой фрагмент уже дает почти 300 слов. Видно, что общее количество уникальных слов увеличилось до 14555, но это произошло, прежде всего, именно за счет увеличения в верхах списка, а не в низах. Первые 3000 корней дают 7000 слов, а первые 5000 - уже 9000. Добавить к ним все учтенные и неучтенные имена собственные и прочие вышеупомянутые слова, то они дадут все 10500. Останется лишь 4000 слов, из которых лишь чуть больше 1000 приходится на диапазон 10000-14000. Да и не в словах дело, а в КОРНЯХ. На всю эту четверть миллиона приходится лишь 6810 корней - и при этом не надо забывать про мусор! Реальных корней там ~6500-7000
[Профиль] [ЛС]
zubarykin Стаж: 13 лет 10 месяцев Сообщений: 684	zubarykin · 22-Мар-12 00:08 (спустя 1 час 3 мин., ред. 22-Мар-12 00:08) [Цитировать] Спасибо, статистика поражает! Выходит, что уже после первых 5-6 тысяч стихийное усвоение новых слов все менее эффективно. Человек учит-учит, а толку все меньше. Если не заставить себя последовательно прорабатывать именно частотный список, можно потерять впустую много лет, старательно выписывая в тетрадку brumal, henotic, suilline, alack, wen, pavid...
[Профиль] [ЛС]
Santana+ Стаж: 14 лет 11 месяцев Сообщений: 224	Santana+ · 22-Мар-12 07:22 (спустя 7 часов, ред. 22-Мар-12 07:22) [Цитировать] Как же вы красиво и точно выразились, как всегда! Именно так все и есть, имхо. Когда много читаешь, некое ядро из 5-6 тысяч слов формируется само собой, причем чем оно становится больше, тем все сложнее и сложнее его расширять дальнейшим чтением. Наступает пробуксовка и ощущение пустой траты времени. Необходимым и более эффективным решением в данном случае будет искусственное стимулирование роста ядра за счет заучивание новых слов по частотному списку! Это и была одна из основных причин, почему я захотел его сделать. Если бы я сейчас только начинал изучать английский, я бы с огромной радостью принялся за поглощение верхов списка. ПОЭТОМУ ВСЕМ НОВИЧКАМ РЕКОМЕНДУЮ - обязательно пройдите первую тысячу Пола Нэйшна, она может покрыть до 90% текста, особенно если этот текст довольно прост и близок к разговорной речи. А потом еще 2000, что уже сможет обеспечить почти полное понимание разговорного английского. А потом еще 1000, и еще 1000, и т.д. Совершенству нет предела! Конечно слова первой тысячи при этом надо учить во всех их значениях. Не стоит забывать, что именно потому, что они имеют много значений и часто вступают в образование фразовых глаголов, модальных форм и устойчивых оборотов, они и являются частотными!
[Профиль] [ЛС]
radost_solnce Стаж: 17 лет 3 месяца Сообщений: 59	radost_solnce · 23-Мар-12 09:09 (спустя 1 день 1 час) [Цитировать] Спасибо за раздачу. Немного пробежалась по списку. Первое что бросилось в глаза, почему например слово Mummy (мумия) в частотном списке находиться выше слова Girl (девочка) ? Ну а в целом если не обращать внимание на такие единичные случаи, частотность соответствует действительности. И еще один момент который бросается в глаза, перевод не всегда расположен по частотности. Например Table мне всегда казалось в первую очередь это стол, а в списке это описание где-то в конце, после довольно редких слов.. Цитата: ['teibl] -- плита, дощечка, доска/ доска/ скрижаль/ надпись на плите, дощечке; таблица; расписание, табель/ плоская поверхность/ грань/ горное плато, плоскогорье/ стол/ пища, стол; еда, кухня и т.д.
[Профиль] [ЛС]
Sloan Стаж: 17 лет 2 месяца Сообщений: 206	Sloan · 23-Мар-12 14:47 (спустя 5 часов, ред. 23-Мар-12 14:47) [Цитировать] Santana+ Чем отличаются 2 exe-файла Range в раздаче ? Какие форматы понимает, кроме txt ?
[Профиль] [ЛС]
Santana+ Стаж: 14 лет 11 месяцев Сообщений: 224	Santana+ · 23-Мар-12 16:09 (спустя 1 час 21 мин., ред. 23-Мар-12 16:09) [Цитировать] radost_solnce Мummy попала так высоко из-за значения "мама".) Из колонок напротив видно, что слово идет со списка Longman 3000, где он помечено как S1 - т.е. Spoken 1000 - первая тысяча слов, характерных для разговорной речи. Однако в списке действительно есть около 150 слов, которые могут не соответствовать своей позиции. Это некоторые (наиболее популярные) формы заголовков из первых 3000 Пола Нэйшна. Например, заголовок "addict" дает несколько форм - addiction, addictive, addicted и т.д. Интересно то, что некоторые такие формы по частоте своего реального употребления в жизни могут стоять гораздо выше самого заголовка (в данном случае корня и глагола "addict"). В общем, когда я только начал собирать список, я допустил небольшую ошибку включив в него подобные формы - по идее их там быть не должно. Но с другой стороны, они тоже могут быть полезными для закрепления главного слова. Узнать такие слова можно по пустым колонкам: если все колонки о его происхождении пусты, то это как раз от случай (кроме слов ближе к концу списка начиная с 8000, где они уже все пустые). Ну, а с переводом - да, к сожалению, ничего не поделаешь. Но вы не забывайте, что вы можете редактировать его как хотите, только предварительно сделайте копию файла Да и нужен он скорее больше для печати, чем для изучения, поскольку сами слова все же лучше учить пользуясь словарями lingvo (в топике выше об этом есть). Sloan А черт его знает, чем они отличаются. Я и сам не пойму Вообще, Пол подвел немного. Обещает на своем сайте исходники на delphi, а на самом деле их нигде там нет. Может, раньше и были, кто знает.) А работает только с txt в ansi. Т.е. unicode не возьмет. Кстати, по поводу RANGE. На сайте lextutor.ca можно найти еще шесть тысяч word families для этой программы, увеличив тем самым число заголовков до 20000. Правда не совсем понятно, закончены они или нет, почему-то до сих пор стоит пометка "under revision".
[Профиль] [ЛС]
Sloan Стаж: 17 лет 2 месяца Сообщений: 206	Sloan · 23-Мар-12 21:59 (спустя 5 часов, ред. 23-Мар-12 21:59) [Цитировать] Santana+ писал(а): dchinara Не, нету. Но зато в шапке есть ссылки на каждый список, поэтому я их и не стал прикладывать. Вы бы все-таки включили в раздачу исходные списки. Выглядело бы закончено и логично. А на сайте сегодня есть, завтра-нет. Santana+ писал(а): А черт его знает, чем они отличаются. Я и сам не пойму А зачем тогда включили оба ? Откуда Вы их брали ? Цитата: А работает только с txt в ansi. Т.е. unicode не возьмет. Чем она лучше других программ, того же wordstat, например ?
[Профиль] [ЛС]
zubarykin Стаж: 13 лет 10 месяцев Сообщений: 684	zubarykin · 23-Мар-12 23:05 (спустя 1 час 6 мин.) [Цитировать] К вопросу о mummy. Слова daddy, mom, mummy, OK, basically, awful входят в первую тысячу разговорной лексики, но не входят даже в первые 3000 письменной лексики (согласно таблице из статьи Leech в сборнике "A Taste for Corpora" 2011) Поэтому смешивание разнородных корпусов проблематично. С другой стороны, Santana+ составлял свой список не для научной работы, а для освоения языка - как в письменной, так и в разговорной форме.
[Профиль] [ЛС]
Santana+ Стаж: 14 лет 11 месяцев Сообщений: 224	Santana+ · 24-Мар-12 09:22 (спустя 10 часов) [Цитировать] Sloan А зачем вам исходные списки, если не секрет? Не, я просто спрашиваю, потому что если вы вдруг хотите изучать слова по какому-то отдельному списку, то можно воспользоваться фильтром в Excel. Например, если мне нужна первая 1000 Пола Нэйшна, можно наложить фильтр на эту колонку по условию "равно 1k". Или если мне нужна первая 1000 разговорного по Longman, то фильтр по этой колонке будет "содержит S1". И это еще простые фильтры - можно наложить сложнее. Но вообще исходники приложить, конечно, нужно. Обязательно сделаю, когда в следующий раз буду обновлять раздачу. Если уж обновлять, то и обновлять уж сразу все. Например, изменить третью страницу excel, заполнив ее новыми переводами на базе ховердикшинари. Это сделает перевод менее объемным и, возможно, более точным, т.к. этот словарь был специально разработан для этих целей. Например, вот как выглядит карточки недавно упомянутых слов: (mummy - мумия; мама), (table - стол; столик; табличный; расписание; настольный; столовый; скрижаль; составлять таблицы; вносить; сводка). Добавить звук, обновить пару скриптов для групповой метки, а также добавить словарь частотности в формате lingvo. Можно еще подумать, что сделать Sloan писал(а): А зачем тогда включили оба ? Откуда Вы их брали ? Да были они уже там сразу в таком виде, в котором я их брал с сайта Пола. 32h - просто означает версию, видимо. Нашел в интернете старый архив - там Range29b.exe, т.е. версия 1.29b. Я не знаю, зачем Пол оставил в своем архиве более старую версию (1.32), когда есть более новая (1.32h). Ни на сайте, ни в инструкции об этом ни слова. Кстати, вы почитаете инструкцию - там все подробно описывается, что может делать программа и для чего она в основном нужна. Wordstat - значительно ей уступает и скорое более похож на другую программу Пола - frequancy.exe. Например, Range может делать то, о чем просил zubarykin, т.е. сравнивать два текста и выявлять, какие слова пересекаются, а какие не пересекаются; в каком количестве и из какой тысячи слов; ну, и показывает процент покрытия, разумеется.
[Профиль] [ЛС]
alex1971v Стаж: 14 лет 10 месяцев Сообщений: 20	alex1971v · 25-Мар-12 23:06 (спустя 1 день 13 часов) [Цитировать] Всем доброго времени суток! У кого есть Hover Dictionary в Lingvo x5? Можем поделить слова на несколько людей и вручную вбить Hover Dictionary. А потом обменяться. Я попробовал это не очень сложно. Просто одному много делать. А несколько человек очень быстро сделают. Кто согласен, пишите мне в личку.
[Профиль] [ЛС]
Sloan Стаж: 17 лет 2 месяца Сообщений: 206	Sloan · 26-Мар-12 13:55 (спустя 14 часов, ред. 26-Мар-12 13:55) [Цитировать] alex1971v На офсайте не вижу такого словаря скрытый текст http://www.lingvo.ru/20_languages_professional/dictionaries_list/ Santana+ Цитата: Например, Range может делать то, о чем просил zubarykin, т.е. сравнивать два текста и выявлять, какие слова пересекаются, а какие не пересекаются; в каком количестве и из какой тысячи слов; ну, и показывает процент покрытия, разумеется. Это полезная функция. Правильно, логично сравнивать wordstat с frequancy. Вы имеете wordstat, можете их сравнить ? Цитата: Вот, например, взять ту же Агату Кристи: christie_agatha_complete_short_stories_of_miss_marple.txt Как может быть в первой 1000 слов 928 однокоренных ?? (см.табл.) У Нэйшн есть список и однокоренных слов ?
[Профиль] [ЛС]
Santana+ Стаж: 14 лет 11 месяцев Сообщений: 224	Santana+ · 26-Мар-12 15:27 (спустя 1 час 32 мин., ред. 26-Мар-12 15:27) [Цитировать] Sloan писал(а): На офсайте не вижу такого словаря Странно, что нету. Условия получения этого словаря - только с покупкой Lingvo x5 Sloan писал(а): Вы имеете wordstat, можете их сравнить ? Какую wordstat вы имеете в виду? Если эту, то я и говорю - она сильно уступает range, поэтому я ей и не пользуюсь. От frequancy она отличается, пожалуй, лишь тем, что может группировать слова по корням, но, правда, делает это далеко не лучшим образом. Sloan писал(а): Как может быть в первой 1000 слов 928 однокоренных ?? (см.табл.) Я же говорю: вам надо прочитать инструкцию к этой программе, потому что она делает не совсем то, что вы, похоже, думаете. В любом достаточно большом и содержательном тексте первая тысяча корней всегда будет забита под завязку, в этом-то её и предназначение. Это самые частотные корни.
[Профиль] [ЛС]
Sloan Стаж: 17 лет 2 месяца Сообщений: 206	Sloan · 26-Мар-12 22:51 (спустя 7 часов, ред. 26-Мар-12 22:51) [Цитировать] Santana+ писал(а): Странно, что нету. Условия получения этого словаря - только с покупкой Lingvo x5 Перевод по наведению был реализован еще в x3 (если не ошибаюсь), декомпилировать словарь непроблема. Так что не вижу сложностей с его получением в dsl Цитата: Какую wordstat вы имеете в виду? Эту
[Профиль] [ЛС]
Santana+ Стаж: 14 лет 11 месяцев Сообщений: 224	Santana+ · 27-Мар-12 07:21 (спустя 8 часов) [Цитировать] Sloan писал(а): Перевод по наведению был реализован еще в x3 (если не ошибаюсь) Насколько я знаю, он был реализован еще раньше, только при этом к ховердикшинари никакого отношения не имел, к сожалению. Это был просто алгоритм, выхватывающий несколько первых значений из общей карточки по разным частям речи. В то время как ховердикшинари - это абсолютная новинка. Этот словарь был составлен в результате частотного анализа различных текстов, что позволило оставить в его карточках только самые употребительные переводы, - вот, что делает его таким уникальным и желанным Но если честно, я не искал другого аналогичного словаря, способного взять на себя роль ховердикшинари. Поэтому если такие словари кому-то известны, обязательно напишите об этом, и мы сделаем нормальный перевод!
[Профиль] [ЛС]
Sloan Стаж: 17 лет 2 месяца Сообщений: 206	Sloan · 27-Мар-12 11:56 (спустя 4 часа) [Цитировать] Santana+ писал(а): Этот словарь был составлен в результате частотного анализа различных текстов, что позволило оставить в его карточках только самые употребительные переводы, - А кто его автор ? Цитата: вот, что делает его таким уникальным и желанным В сети он есть, отдельно от Лингво.
[Профиль] [ЛС]
alex1971v Стаж: 14 лет 10 месяцев Сообщений: 20	alex1971v · 27-Мар-12 12:09 (спустя 13 мин.) [Цитировать] А кто его автор ? Abbyy Lingvo HoverDictionary (En-Ru) (к версии ABBYY Lingvo x5) Словарь HoverDictionary (En-Ru) предназначен для контекстного перевода по наведению. © ABBYY, 2011. 61 тыс. статей. Словарь создан на основе анализа параллельных текстов и алгоритмов извлечения терминов из параллельных текстов.
[Профиль] [ЛС]

Страница 3 из 6

Страницы : Пред. 1, 2, 3, 4, 5, 6 След.

Главная » Обучение иностранным языкам » Иностранные языки для взрослых » Английский язык (для взрослых)

Loading...

Error