АВТОМАТИЗАЦИЯ СРАВНЕНИЯ ХИМИЧЕСКИХ ФОРМУЛ
Работая с нашим сайтом, вы даете свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта отправляется в «Яндекс» и «Google»
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

АВТОМАТИЗАЦИЯ СРАВНЕНИЯ ХИМИЧЕСКИХ ФОРМУЛ

Вайнгольц Н.А.   Верещак Г.А.   Коробкин Д.М.   Фоменков С.А.  

УДК 004.89
DOI: 10.26102/2310-6018/2018.23.4.014

  • Аннотация
  • Список литературы
  • Об авторах

Эксперту патентного ведомства для установления уникальности патентируемой технологии необходимо провести сравнение патентной заявки с документами патентного массива и удостовериться в отсутствии полных аналогов изобретения. При анализе патентов химических классов требуется сравнивать химические формулы, которые могут быть приведены в различных форматах: MOL, InChi, SMILES, структурная формула, молекулярный отпечаток. В данной работе описывается разработка программного модуля, автоматизирующего процедуры конвертации различных способов формализации химической формулы, сравнения формул химических соединений в патентной заявке и документах патентного массива, выявления патентов-аналогов на основе результатов сравнения химических соединений, содержащихся в патентах. Сравнение химических формул производится на основе вычисления схожести молекулярных отпечатков с использованием коэффициента Танимото. Коэффициент схожести патентов вычисляется на основе максимальных значений коэффициента Танимото для набора сравниваемых химических соединений из патентов. Программный модуль реализован на языке Java с использованием технологии Spring Framework, СУБД H2 и библиотеки Chemistry Development Kit (CDK). Реализованный программный модуль показал высокую эффективность (высокая полнота и точность поиска патентов-аналогов на основе химических формул, низкие значения потери информации и информационный шум) при проверке на тестовом патентном массиве.

1. Д.М. Коробкин, Н.А. Гордеев, С.А. Фоменков, М.А. Дыков. Метод выявления патентных трендов на основе описаний технических функций. Известия ВолгГТУ. Сер. Актуальные проблемы управления, вычислительной техники и информатики в технических системах. - Волгоград, 2018. - № 5 (215). - C. 56-60.

2. Д.М. Коробкин, С.А. Фоменков, И.А. Кобликов, Г.А. Карачунова. Методика семантического патентного поиска. Известия ВолгГТУ. Сер. Актуальные проблемы управления, вычислительной техники и информатики в технических системах. - Волгоград, 2017. - № 1 (196). - C. 65-73.

3. Chemical formula | Britannica.com [Электронный ресурс]. – Режим доступа : https://www.britannica.com/science/chemical-formula (дата обращ. 15.05.2018).

4. MDL Information Systems, Inc. CTFile Formats / MDL Information Systems, Inc. – San Leandro : MDL Information Systems, 2003. – 106 с.

5. Heller, R. The IUPAC International Chemical Identifier (InChI) / R. Heller, Alan D. McNaught // CHEMISTRY International. – 2009. – № 1. – С. 7-9.

6. Daylight Theory: SMILES [Электронный ресурс]. – Режим доступа : http://www.daylight.com/dayhtml/doc/theory/theory.smiles.html (дата обращ. 15.05.2018).

7. Dalke, A. Molecular fingerprints, background [Электронный ресурс] // A. Dalke. – Режим доступа : http://www.dalkescientific.com/writings/diary/ archive/2008/06/26/fingerprint_background.html (дата обращ. 15.05.2018).

8. Bulk Data Storage System [Электронный ресурс]. – 2018. – Режим доступа : https://bulkdata.uspto.gov/ (дата обращ. 25.10.2018).

9. ChemSpider reaches 50 million compounds [Электронный ресурс]. – Режим доступа: http://www.rsc.org/journals-books-databases/librariansinformation/librarians-notes/all-articles/2016/jun/chemspider-reaches-50- million-compounds/ (дата обращ. 18.05.2018).

10. PubChem Docs – About [Электронный ресурс]. – Режим доступа: https://pubchemdocs.ncbi.nlm.nih.gov/about (дата обращ. 18.05.2018).

11. ChemSynthesis – Chemical Database [Электронный ресурс]. – Режим доступа: http://www.chemsynthesis.com/ (дата обращ. 18.05.2018).

12. NCI/CADD Chemical Resolver – Chemical Identifier Resolver documentation [Электронный ресурс]. – Режим доступа: https://cactus.nci.nih.gov/chemical/structure_documentation (дата обращ. 18.05.2018).

13. Д.М. Коробкин, Е.А. Тюлькина, С.А. Фоменков, С.Г. Колесников. Система извлечения технических функций из патентного массива. ИТНОУ: Информационные технологии в науке, образовании и управлении. - 2017. - № 2 (2). - C. 24-30.

14. И.А. Кобликов, Д.М. Коробкин, С.А. Фоменков, В.А. Яровенко. Методика извлечения описаний реализуемых в патенте технических функций. Известия ВолгГТУ. Сер. Актуальные проблемы управления, вычислительной техники и информатики в технических системах. - Волгоград, 2017. - № 8 (203). - C. 55-59.

15. Tanimoto (cdk 2.1-SNAPSHOT API) [Электронный ресурс]. – Режим доступа: http://cdk.github.io/cdk/2.1/docs/api/org/openscience/cdk/similarity/ Tanimoto.html (дата обращ. 21.05.2018).

16. Spring Framework Overview [Электронный ресурс]. – Режим доступа: https://www.tutorialspoint.com/spring/spring_overview.htm (дата обращ. 18.05.2018).

17. . Spring Boot and H2 in memory database – Why, What and How? – Spring Boot Tutorial [Электронный ресурс]. – Режим доступа: http://www.springboottutorial.com/spring-boot-and-h2-in-memorydatabase (дата обращ. 19.05.2018).

18. Chemistry Development Kit [Электронный ресурс]. – Режим доступа: https://cdk.github.io/ (дата обращ. 19.05.2018).

19. Гопта Е.А., Фоменков С.А., Карачунова Г.А. Автоматизация процесса линейного синтеза физического принципа действия. Известия Волгоградского государственного технического университета. 2010. № 11 (71). С. 129-133.

Вайнгольц Наталия Александровна

Email: natalia.vayngolts@gmail.com

Волгоградский государственный технический университет

Волгоград, Российская Федерация

Верещак Григорий Алексеевич

Email: grigoryg37@gmail.com

Волгоградский государственный технический университет

Волгоград, Российская Федерация

Коробкин Дмитрий Михайлович
кандидат технических наук
Email: dkorobkin80@mail.ru

Волгоградский государственный технический университет

Волгоград, Российская Федерация

Фоменков Сергей Алексеевич
доктор технических наук профессор
Email: saf550@yandex.ru

Волгоградский государственный технический университет

Волгоград, Российская Федерация

Ключевые слова: химическая формула, smiles, inchi, mdl molfile

Для цитирования: Вайнгольц Н.А. Верещак Г.А. Коробкин Д.М. Фоменков С.А. АВТОМАТИЗАЦИЯ СРАВНЕНИЯ ХИМИЧЕСКИХ ФОРМУЛ. Моделирование, оптимизация и информационные технологии. 2018;6(4). Доступно по: https://moit.vivt.ru/wp-content/uploads/2018/10/VayngoltsSoatori_4_18_1.pdf DOI: 10.26102/2310-6018/2018.23.4.014

658

Полный текст статьи в PDF