Showing posts with label новини тернопільщини. Show all posts
Showing posts with label новини тернопільщини. Show all posts
Sunday, April 18, 2010
Friday, February 5, 2010
Sunday, January 10, 2010
конвертація тексту в трансліт
Довго розглядав різноманітні готові рішення для конвертації кириличних фраз у трансліт. В основному для генерації natural search urls на тернопільських новинах.
Нарешті кілька місяців тому знайшов просто геніальне рішення - http://pecl.php.net/package/translit. Купа опцій і можливостей. Відмінний результат. Напевно це пояснюється тим, що автор сам Derick Rethans.
Дивно чому воно ще не в основній гілці php. Єдиний недолік - відсутність документації. За документацією прийшлося лізти в соурси.
Екстеншен добавляє дві функції: transliterate і transliterate_filters_get. Остання повертає список доступних енкодерів - елементарних трансформуючих дій.
Зразок використання конвертуючої функції:
transliterate($str, array('cyrillic_transliterate', 'remove_punctuation'), 'utf-8', 'utf-8');
Нарешті кілька місяців тому знайшов просто геніальне рішення - http://pecl.php.net/package/translit. Купа опцій і можливостей. Відмінний результат. Напевно це пояснюється тим, що автор сам Derick Rethans.
Дивно чому воно ще не в основній гілці php. Єдиний недолік - відсутність документації. За документацією прийшлося лізти в соурси.
Екстеншен добавляє дві функції: transliterate і transliterate_filters_get. Остання повертає список доступних енкодерів - елементарних трансформуючих дій.
Зразок використання конвертуючої функції:
transliterate($str, array('cyrillic_transliterate', 'remove_punctuation'), 'utf-8', 'utf-8');
Saturday, January 9, 2010
Два відкриття тижня
Directed Acyclic Word Graph
В купі з hadoop map/reduce виглядає багатообіцяюче. Схоже скоро таки появиться якась аналітика/дата майнінг на ньюсах. Таки чистого full text search інструментарію малувато.
Подивився в неті кілька анотацій лінгвістичних дисертацій. Щось таки люди роблять в галузі аналізу текстів. Принаймні філологи :-)
- http://www.pathcom.com/~vadco/dawg.html
- http://cedar-solutions.com/software/wordutils/interface/public/WordUtils.dawg-module.html
- http://en.wikipedia.org/wiki/Directed_acyclic_word_graph
В купі з hadoop map/reduce виглядає багатообіцяюче. Схоже скоро таки появиться якась аналітика/дата майнінг на ньюсах. Таки чистого full text search інструментарію малувато.
Подивився в неті кілька анотацій лінгвістичних дисертацій. Щось таки люди роблять в галузі аналізу текстів. Принаймні філологи :-)
Tuesday, December 29, 2009
новини.te.ua як бізнес-проект
Після відвідання останнього стартап клубу задумався над шляхами монетизації. В цілому баченння цілей і шляхів може навіть і краще чим у власників деяких презентованих на зустрічі стартапів. Правда покишо получається швидше технічне завдання чим бізнес-план. Але структурований документ проекту не завадить в будь-якому разі.
Основна ідея - аналіз україномовних текстів, пошук сутностей (люди, міста, організації). для початку
Основна ідея - аналіз україномовних текстів, пошук сутностей (люди, міста, організації). для початку
Friday, December 18, 2009
keep your data as clean as possible
Висновок тижня. Невеличкий оверхед по нормалізації і очищенню даних з різних джерел призводить до зростання кількості закономірностей в цих даних
Wednesday, December 16, 2009
Thursday, December 3, 2009
news.te.ua - railway edition
На Тернопільських новинах чергова порція змін.
Більшість нововведень були обдумані і реалізовані в поїзді між Львовом і Тернополем. Тому цей період в житті сайті можна сміливо назвати залізничним :-)
- Кожна новина тепер має "людиночитаєму" адресу.
- До кожної новини подається список подібних новин (роботи по поліпшенню визначення подібності ведуться).
- До кожної новини додається карта з нанесенням населеного пункту пов'язаного з новиною.
- Створено хмарку тегів яка відображає процент серед усіх новин таких, що відносяться до певного району області.
- Поліпшено деякі елементи дизайну, збереження картинок, зменшено "вагу" сайту.
- Повнотекстовий пошук.
- Повні версії новин.
- Новини з більшої кількості джерел.
- Поліпшені і розширені анонси подій.
Більшість нововведень були обдумані і реалізовані в поїзді між Львовом і Тернополем. Тому цей період в житті сайті можна сміливо назвати залізничним :-)
Subscribe to:
Posts (Atom)