Pages

Showing posts with label новини тернопільщини. Show all posts
Showing posts with label новини тернопільщини. Show all posts

Sunday, April 18, 2010

На news.te.ua започатковано систему рекомендування новин. Зараз рекомендування здійснюється на основі попередньої активності користувача, на основі подібності заголовків новин та на основі подібності інтересу інших користувачів до новин.

Friday, February 5, 2010

Дві важливих статті

Наступне, що буде реалізовано на www.news.te.ua, напевно, будуть:

Sunday, January 10, 2010

конвертація тексту в трансліт

Довго розглядав різноманітні готові рішення для конвертації кириличних фраз у трансліт. В основному для генерації natural search urls на тернопільських новинах.

Нарешті кілька місяців тому знайшов просто геніальне рішення - http://pecl.php.net/package/translit. Купа опцій і можливостей. Відмінний результат. Напевно це пояснюється тим, що автор сам Derick Rethans.

Дивно чому воно ще не в основній гілці php. Єдиний недолік - відсутність документації. За документацією прийшлося лізти в соурси.

Екстеншен добавляє дві функції: transliterate і transliterate_filters_get. Остання повертає список доступних енкодерів - елементарних трансформуючих дій.


Зразок використання конвертуючої функції:
transliterate($str, array('cyrillic_transliterate', 'remove_punctuation'), 'utf-8', 'utf-8');

Saturday, January 9, 2010

Два відкриття тижня

Directed Acyclic Word Graph
PLY (Python Lex-Yacc) - Пітоняча обгортка над lex/yacc

В купі з hadoop map/reduce виглядає багатообіцяюче. Схоже скоро таки появиться якась аналітика/дата майнінг на ньюсах. Таки чистого full text search інструментарію малувато.

Подивився в неті кілька анотацій лінгвістичних дисертацій. Щось таки люди роблять в галузі аналізу текстів. Принаймні філологи :-)

Tuesday, December 29, 2009

новини.te.ua як бізнес-проект

Після відвідання останнього стартап клубу задумався над шляхами монетизації. В цілому баченння цілей і шляхів може навіть і краще чим у власників деяких презентованих на зустрічі стартапів. Правда покишо получається швидше технічне завдання чим бізнес-план. Але структурований документ проекту не завадить в будь-якому разі.

Основна ідея - аналіз україномовних текстів, пошук сутностей (люди, міста, організації). для початку

Friday, December 18, 2009

keep your data as clean as possible

Висновок тижня. Невеличкий оверхед по нормалізації і очищенню даних з різних джерел призводить до зростання кількості закономірностей в цих даних

Wednesday, December 16, 2009

виникла ідея. зробити на http://www.news.te.ua мірялку - спід проти грипу, бьют проти ну, свобода проти сміття, бджоли проти меду. показувати порівняння зміни популярності термінів помісячно.

воістину якшо ти маєш велику масу інформації і методику аналізу, то проаналізувати її можна як завгодно

Thursday, December 3, 2009

news.te.ua - railway edition

На Тернопільських новинах чергова порція змін.

  • Кожна новина тепер має "людиночитаєму" адресу.
  • До кожної новини подається список подібних новин (роботи по поліпшенню визначення подібності ведуться).
  • До кожної новини додається карта з нанесенням населеного пункту пов'язаного з новиною.
  • Створено хмарку тегів яка відображає процент серед усіх новин таких, що відносяться до певного району області.
  • Поліпшено деякі елементи дизайну, збереження картинок, зменшено "вагу" сайту.
Незабаром:
  • Повнотекстовий пошук.
  • Повні версії новин.
  • Новини з більшої кількості джерел.
  • Поліпшені і розширені анонси подій.

Більшість нововведень були обдумані і реалізовані в поїзді між Львовом і Тернополем. Тому цей період в житті сайті можна сміливо назвати залізничним :-)