In article analyzes the problems revealed by increasing the level of the definition of the line and
the speed of the performance of fuzzy search engines. A new metric is revealed which reflect more
accurate distance editing and similarity level. In particular, problems are considered when using
Levenshtein or Dahmerau-Levenshtein distances, the greater the distance when changing the place of a
word and its parts, the smaller the distance between short lines that do not descend to each other, the
greater the distance between very long lines that are very similar to each other. Fuzzy algorithms have
been developed and compared with existing algorithms to solve these problems.
В статье дан анализ проблем, выявленных при увеличении уровня определения строки и
скорости производительности нечетких поисковых систем. Установлена новая метрика,
отражающая более точно расстояния редактирования и уровня сходства. Рассмотрены проблемы,
когда при использовании расстояния Левенштейна или Дамерау–Левенштейна больше расстояния
при изменении места слова и его частей, меньше расстояния между короткими строками, которые
не ложатся друг на друга, больше расстояния между очень длинными строками, которые очень
похожи друг на друга. Разработаны нечеткие алгоритмы и сравнены с существующими
алгоритмами для решения этих проблем.
Мақолада норавшан қидирув тизимларининг матнларни таниш даражаси ва ишлаш
тезлигини янада орттиришда аниқланган муаммолар таҳлил қилинган. Таҳрирлаш масофасини
ҳисоблаш ва ўхшашлик даражасини яққолроқ акс эттирувчи янги метрика аниқланган. Хусусан,
Левенштейн ёки Дамерау-Левенштейн масофаларининг қўлланиш нуқтаи назаридан сўз ёки
уларнинг қисмлари ўринларини алмаштирилганда нисбатан катта масофа чиқиши, мутлоқ бирбирига ўхшамаган қисқа матнлар орасидаги масофа кичик бўлиши, бир-бирига жуда ўхшаш
бўлган узун матнлар орасидаги масофанинг жуда катта бўлиш муаммолари қаралган. Ушбу
муаммоларни ҳал қилишда норавшан алгоритмлар ишлаб чиқилган ва мавжуд алгоритмлар билан
солиштирилган.
In article analyzes the problems revealed by increasing the level of the definition of the line and
the speed of the performance of fuzzy search engines. A new metric is revealed which reflect more
accurate distance editing and similarity level. In particular, problems are considered when using
Levenshtein or Dahmerau-Levenshtein distances, the greater the distance when changing the place of a
word and its parts, the smaller the distance between short lines that do not descend to each other, the
greater the distance between very long lines that are very similar to each other. Fuzzy algorithms have
been developed and compared with existing algorithms to solve these problems.
№ | Муаллифнинг исми | Лавозими | Ташкилот номи |
---|---|---|---|
1 | Toshboev S.. | _ | _ |
2 | Mirzamov A.M. | _ | _ |
№ | Ҳавола номи |
---|---|
1 | Расстояние Левенштейна. http://ru.wikipedia.org/wiki/ Расстояние_Левенштейна. |
2 | Левенштейн В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов// Доклады Академии наук СССР. Вып. 163.1965. №4. С.845–848. |
3 | Расстояние Дамерау–Левенштейна. http://en.wikipedia.org/wiki/Damerau– Levenshtein_distance. |
4 | http://habrahabr.ru/blogs/algorithm. |